当前位置: 首页 > article >正文

NLP07-朴素贝叶斯问句分类之数据集加载(1/3)

一、概述

数据集加载(Dataset Loading)是机器学习、自然语言处理(NLP)等领域中的一个重要步骤,指的是将外部数据(如文件、数据库、网络接口等)加载到程序中,以便进行后续处理、分析或模型训练。数据集加载通常是数据预处理的第一步,之后可能还会进行数据清洗、转换等处理。

(一)目的

数据集加载的主要目的是获取数据,将存储在外部来源(如文本文件、CSV文件、数据库、API等)中的信息导入到程序中,转换为适合处理的格式。

(二)步骤

(1)选择数据源

  • 数据可以来自文件系统(如 .csv、.txt 文件)或远程数据库/API。
  • 选择合适的数据源和格式(例如,CSV 格式适合结构化数据,JSON 格式适合层级数据)。

(2)加载数据

  使用适当的库和函数将数据从文件或数据库中加载到内存中。常见的库包括:

  • pandas:适用于 CSV、Excel、JSON 等格式的数据。(详见 库学习02-Pandas库)
  • open():适用于文本文件。 (本文使用)
  • sqlite3:适用于从 SQLite 数据库加载数据。

(3)数据转换和格式化

  • 数据加载后,可能需要将数据转换成合适的格式。例如,转换字符串为数值、日期格式化等。
  • 可能需要将数据从列表转换为 DataFrame(例如使用 pandas),或者从字典转换为列表等。

二、数据集加载

目的:从一个文件夹中读取所有文本文件,提取每个文件的标签(从文件名中获取),然后将文件内容进行分词处理,并保存并返回为训练数据和标签。

(一)从文件夹读取文件列表

数据存储在不同的文本文件中,每个文件名中包含类别标签(如“question_1.txt"表示类别 1)。

这里定义一个读取文件列表的函数,作用是 遍历指定路径(source_path)下的所有文件,并返回两个列表:一个是文件名列表 file_name,另一个是文件路径列表 file_path_list。(os.walk函数的用法详见库学习03-os库(持续更新))

def get_file_list(source_path):# 从文件夹读取到文件列表file_path_list = []file_name = []walk = os.walk(source_path)# print(walk)for root, dirs, files in walk:for name in files:filepath = os.path.join(root, name)file_name.append(name)file_path_list.append(filepath)# print(name)# print(filepath)# print("---")return file_name, file_path_list

(二) 遍历文件列表,获取数据

2.1 从文件名中用正则获取到标签

dir_name, file_name = os.path.split(file_item)
label_str = re.sub(r'\D', "", file_name)
  1. os.path.split 函数的用法详见库学习03-os库(持续更新) 
  2. label_str = re.sub(r'\D', "", file_name)

     提取标签:这一行通过正则表达式从文件名中提取出标签。具体来说:

  • r'\D' 是一个正则表达式,表示“非数字字符”。
  • re.sub(r'\D', "", file_name) 会将 file_name 中所有非数字字符替换为空字符串,从而提取出文件名中的数字部分。
  • 例如,如果 file_name = "file12.txt",则label_str = "12"

2.2 遍历每一行标签获取数据

        if label_str.isnumeric(): # 判断是否是数字label = int(label_str)with (open(file_item, "r", encoding="utf-8")) as file:lines = file.readlines()for line in lines:# print(line)# 分词word_list = list(jieba.cut(line))train_x.append(" ".join(word_list))train_y.append(label)

代码重点解析:

文件操作块:

with open(file_item, "r", encoding="utf-8") as file:# 在这里可以操作文件,读取文件内容等
  •  with 是 Python 中的上下文管理器(Context Manager)。它通常用于管理需要显式清理的资源,比如文件、数据库连接、网络请求等。一大好处是它会自动管理资源,无需你显式地调用 file.close() 来关闭文件,减少了因忘记关闭文件而导致的资源泄露问题。
  •  as file:as file 是 with 语句中的一个关键部分,它为文件对象起了个别名 file。你可以在 with 语句块内部使用 file 来操作文件。

jieba分词:

word_list = list(jieba.cut(line))
train_x.append(" ".join(word_list))
train_y.append(label)
  • jieba分词详见 jieba分词
  • train_x存储每行的分词结果(列表形式)
  • train_y存储该行对应的问句类别(如“question_1.txt"表示类别 1)

最终 train_x 和 train_y 大概长这样:

一个分词后的问句对应一个类别。

数据加载模块完整代码:

import os
import re
import jieba
from common import constantdef load_train_data():train_x = []train_y = []question_dir = os.path.join(constant.DATA_DIR, "question")# 从文件夹读取文件列表file_name_list, file_path_list = get_file_list(question_dir)# 遍历文件列表for file_item in file_path_list:# 从文件名中用正则获取到标签# 拆分路径获取文件名dir_name, file_name = os.path.split(file_item)label_str = re.sub(r'\D', "", file_name)# 读取每一行作为训练数据if label_str.isnumeric():label = int(label_str)with (open(file_item, "r", encoding="utf-8")) as file:lines = file.readlines()for line in lines:# print(line)# 分词word_list = list(jieba.cut(line))train_x.append(" ".join(word_list))train_y.append(label)return train_x, train_ydef get_file_list(source_path):# 从文件夹读取到文件列表file_path_list = []file_name = []walk = os.walk(source_path)# print(walk)for root, dirs, files in walk:for name in files:filepath = os.path.join(root, name)file_name.append(name)file_path_list.append(filepath)# print(name)# print(filepath)# print("---")return file_name, file_path_listif __name__ == "__main__":""# question_dir = os.path.join(constant.DATA_DIR, "question")# get_file_list(question_dir)load_train_data()

相关文章:

NLP07-朴素贝叶斯问句分类之数据集加载(1/3)

一、概述 数据集加载(Dataset Loading)是机器学习、自然语言处理(NLP)等领域中的一个重要步骤,指的是将外部数据(如文件、数据库、网络接口等)加载到程序中,以便进行后续处理、分析…...

Rk3568驱动开发_点亮led灯(手动挡)_5

1.MMU简介 完成虚拟空间到物理空间的映射 内存保护设立存储器的访问权限,设置虚拟存储空间的缓冲特性 stm32点灯可以直接操作寄存器,但是linux点灯不能直接访问寄存器,linux会使能mmu linux中操作的都是虚拟地址,要想访问物理地…...

LangChain构建行业知识库实践:从架构设计到生产部署全指南

文章目录 引言:行业知识库的进化挑战一、系统架构设计1.1 核心组件拓扑1.2 模块化设计原则二、关键技术实现2.1 文档预处理流水线2.2 混合检索增强三、领域适配优化3.1 医学知识图谱融合3.2 检索结果重排序算法四、生产环境部署4.1 性能优化方案4.2 安全防护体系五、评估与调优…...

Vscode编辑器:解读文件结构、插件的导入导出、常用快捷键配置技巧及其常见问题的解决方案

一、文件与文件夹结构 1.文件结构 文件名作用.babelrc配置 Babel 编译选项,指定代码转译规则。.editorconfig定义项目代码格式规范,如缩进风格和空格数量等。.eslintignore列出 ESLint 忽略的文件或文件夹。.eslintrc.js配置 ESLint 的规则和插件。.gi…...

androidstudio 运行项目加载很慢,优化方法

一、Android Studio 运行项目加载缓慢可能由多种原因引起,以下是一些优化建议: 1. 升级硬件配置 内存:建议至少 8GB,16GB 或以上更佳。 SSD:使用 SSD 替代 HDD 以加快读写速度。 CPU:多核处理器有助于提…...

Vue性能翻倍秘籍

导读:某电商大促因工程化缺失导致页面崩溃!本文通过双11级别流量压测,揭秘Vue项目性能优化的6大核心策略,涵盖构建提速、首屏优化、SSR实战等全链路方案。 工程化缺失引发的灾难现场 血泪案例: 某电商大促活动因工程化…...

线性回归 (Linear Regression)案例分析1

广告费用与产品销量 工欲善其事必先利其器数据分析1. 检查缺失值、异常值3. 散点图查看特征、响应相关性3. 热力图查看特征、响应相关性 特征工程1、导入必要工具包2、读取数据3、数据标准化4、保存特征工程的结果到文件,供机器学习模型使用 模型选择读取数据数据准…...

uni-app集成sqlite

Sqlite SQLite 是一种轻量级的关系型数据库管理系统(RDBMS),广泛应用于各种应用程序中,特别是那些需要嵌入式数据库解决方案的场景。它不需要单独的服务器进程或系统配置,所有数据都存储在一个单一的普通磁盘文件中&am…...

策略模式环境类的实现方式对比

文章目录 1、策略模式2、聚合策略类实现方式一3、聚合策略类实现方式二4、对比5、补充:ApplicationContextAware接口 1、策略模式 近期工作中,需要处理4.x和5.x两个版本的数据,所以自然想到的是策略模式,写一个抽象类&#xff0c…...

Node.js 登录鉴权

目录 Session express-session 配置 express-session 函数 ts 要配置声明文件 express-session.d.ts express-session 使用 express-session 带角色 Token 什么是 JWT token jsonwebtoken 使用 jsonwebtoken 带角色 Session express 使用 express-session 管理会话&…...

【c++】【线程池】固定式线程池(FixedThreadPool)

【c】【线程池】固定式线程池&#xff08;FixedThreadPool&#xff09; 1属性 1.1 Task可调用对象 使用 function 包装器和using类型重命名 设置一个Task的可调用对象(可理解为函数指针) 这个Task也就是我们的任务 using Task std::function<void(void)>;定义了一个…...

高可用、高性能、负载均衡集群的区别

维度高可用集群高性能集群负载均衡集群核心目标服务持续可用&#xff0c;减少停机加速计算任务&#xff0c;提升处理能力请求分发算法、健康检查关键技术冗余、心跳检测、鼓掌转移并行计算、高速网络、分布式存储请求分发算法、健康检查典型应用数据库主从切换、关键业务系统科…...

Docker 与 Serverless(无服务器架构)

Serverless&#xff08;无服务器架构&#xff09; 是一种新的云计算架构&#xff0c;它通过让开发者专注于业务逻辑而无需管理服务器基础设施&#xff0c;来简化应用的开发和部署。Serverless 模型通常由云服务提供商管理基础设施的所有方面&#xff0c;而开发者只需提供代码和…...

mac 下 java 调用 gurobi 不能加载 jar

在 mac 电脑中的 java 始终不能加载 gurobi 的 jar 包&#xff0c;java 的开发软件 eclipse&#xff0c;idea 总是显示找不到 gurobi 的 jar 包&#xff0c;但是 jar 包明明就在那里。 摸索了三个小时&#xff0c;最后发现原因竟然是&#xff1a; jar 包太新&#xff0c;替换…...

halcon三维点云数据处理(二十七)remove_bin_for_3d_object_localization

目录 一、remove_bin_for_3d_object_localization代码第一部分二、remove_bin_for_3d_object_localization代码第二部分三、效果图一、remove_bin_for_3d_object_localization代码第一部分 1、读图构建3D模型。 2、一次二值化选取区域。 3、一次和背景差值选取区域。 4、在二维…...

Python 编程题 第二节:组合数字、乘法口诀表、水仙花数、反向输出四位数、判断三角形

组合数字 1-4不重复组成三位数&#xff0c;利用集合的去重 lst[] for i in range(1,5):for j in range(1,5):for m in range(1,5):s{i,j,m}if len(s)3:lst.append(i*100j*10m) print(lst) 乘法口诀表 修改换行符 for i in range(1,10):for j in range(1,i1):print(f"…...

【HTML— 快速入门】HTML 基础

准备工作 vscode下载 百度网盘 Subline Text 下载 Sublime Text下载 百度网盘 vscode 下载 Sublime Text 是一款轻量好用的文本编辑器&#xff0c;我们在写前端代码时&#xff0c;使用 Sublime Text 打开比使用记事本打开&#xff0c;得到的代码体验更好&#xff0c;比 vscode…...

【MATLAB中的图像数据结构】

MATLAB中的图像数据结构 目录 MATLAB中的图像数据结构目标 &#xff1a;知识点 &#xff1a;1. 图像的存储方式 &#xff1a;2. 图像的颜色空间 &#xff1a;3. 图像的像素操作 &#xff1a; 示例代码 &#xff1a;1. 读取和显示图像 &#xff1a;2. 查看图像信息 &#xff1a;…...

在线抽奖系统——项目介绍

目录 项目介绍 页面预览 需求分析 管理员登录注册 人员模块 奖品模块 活动模块 抽奖模块 系统设计 系统架构 项目环境 数据库设计 安全设计 完整代码&#xff1a;项目完整代码/在线抽奖系统/lottery-system Echo/project - 码云 - 开源中国 项目介绍 利用 MySQ…...

day7作业

编写一个如下场景&#xff1a; 有一个英雄Hero类&#xff0c;私有成员&#xff0c;攻击&#xff08;Atx&#xff09;&#xff0c;防御&#xff08;Defense&#xff09;&#xff0c;速度&#xff08;Speed)&#xff0c;生命值&#xff08;Blood)&#xff0c;以及所有的set get 方…...

JavaScript 系列之:Ajax、Promise、Axios

前言 同步&#xff1a;会阻塞。同步代码按照编写的顺序逐行依次执行&#xff0c;只有当前的任务完成后&#xff0c;才会执行下一个任务。 异步&#xff1a;异步代码不会阻塞后续代码的执行。当遇到异步操作时&#xff0c;JavaScript 会将该操作放入任务队列中&#xff0c;继续…...

AI人工智能机器学习之神经网络

1、概要 本篇学习AI人工智能机器学习之神经网络&#xff0c;以MLPClassifier和MLPRegressor为例&#xff0c;从代码层面讲述最常用的神经网络模型MLP。 2、神经网络 - 简介 在 Scikit-learn 中&#xff0c;神经网络是通过 sklearn.neural_network 模块提供的。最常用的神经网…...

鸿蒙开发深入浅出01(基本环境搭建、页面模板与TabBar)

鸿蒙开发深入浅出01&#xff08;基本环境搭建、页面模板与TabBar&#xff09; 1、效果展示2、下载 DevEco Studio3、创建项目4、新建页面模板5、更改应用信息6、新建以下页面7、Index.ets8、真机运行9、图片资源文件 1、效果展示 2、下载 DevEco Studio 访问官网根据自己的版本…...

FreeRTOS动态任务和静态任务创建

一.动态任务创建 1.搭建任务框架 去task.c中将任务参数复制到main中 然后将const去掉&#xff0c;它会限制参数类型&#xff0c;任务大小、任务优先级、任务句柄需要去宏定义&#xff0c;任务句柄是指针类型要取地址 vTaskStartScheduler(); //开启任务调度&#xff0c;.c…...

QT:Graphics View的坐标系介绍

在 Qt 的 Graphics View 框架中&#xff0c;存在三种不同的坐标系&#xff0c;分别是 物品坐标系&#xff08;Item Coordinates&#xff09;、场景坐标系&#xff08;Scene Coordinates&#xff09; 和 视图坐标系&#xff08;View Coordinates&#xff09;。这三种坐标系在图形…...

C# httpclient 和 Flurl.Http 的测试

关于C#调用接口或Post,Flurl封装了httpclient, CSDN有哥们提供了一个公网的测试网站&#xff0c;可以测试Post调用&#xff0c;我写了2个函数&#xff0c;测试httpclient和Flurl使用Post: async 和 await 是成对使用的&#xff0c;为了接受web异步返回的数据&#xff0c;winfor…...

精选案例展 | 智己汽车—全栈可观测驱动智能化运营与成本优化

本案例为“观测先锋 2024 可观测平台创新应用案例大赛”精选案例&#xff0c;同时荣获IT168“2024技术卓越奖评选-年度创新解决方案”奖。 项目背景 近年来&#xff0c;中国汽车行业进入转型升级阶段&#xff0c;智能网联技术成为行业发展的核心。车联网、自动驾驶等技术的加速…...

阿里云可观测全面拥抱 OpenTelemetry 社区

作者&#xff1a;古琦 在云计算、微服务、容器化等技术重塑 IT 架构的今天&#xff0c;系统复杂度呈指数级增长。在此背景下&#xff0c;开源可观测性技术已从辅助工具演变为现代 IT 系统的"数字神经系统"&#xff0c;为企业提供故障预警、性能优化和成本治理的全方…...

剑指 Offer II 032. 有效的变位词

comments: true edit_url: https://github.com/doocs/leetcode/edit/main/lcof2/%E5%89%91%E6%8C%87%20Offer%20II%20032.%20%E6%9C%89%E6%95%88%E7%9A%84%E5%8F%98%E4%BD%8D%E8%AF%8D/README.md 剑指 Offer II 032. 有效的变位词 题目描述 给定两个字符串 s 和 t &#xff0c…...

AcWing 蓝桥杯集训·每日一题2025·密接牛追踪2

密接牛追踪2 农夫约翰有 N 头奶牛排成一排&#xff0c;从左到右依次编号为 1∼N。 不幸的是&#xff0c;有一种传染病正在蔓延。 最开始时&#xff0c;只有一部分奶牛受到感染。 每经过一个晚上&#xff0c;受感染的牛就会将病毒传染给它左右两侧的牛&#xff08;如果有的话…...