当前位置：首页 > news >正文

【HuggingFace Transformer库学习笔记】基础组件学习：Datasets

news 2025/7/9 9:41:15

基础组件——Datasets

在这里插入图片描述

datasets基本使用

在这里插入图片描述

导入包

from datasets import *

加载数据

datasets = load_dataset("madao33/new-title-chinese")
datasetsDatasetDict({train: Dataset({features: ['title', 'content'],num_rows: 5850})validation: Dataset({features: ['title', 'content'],num_rows: 1679})
})

加载数据集合集中的某一项子集

boolq_dataset = load_dataset("super_glue", "boolq")
boolq_datasetDatasetDict({train: Dataset({features: ['question', 'passage', 'idx', 'label'],num_rows: 9427})validation: Dataset({features: ['question', 'passage', 'idx', 'label'],num_rows: 3270})test: Dataset({features: ['question', 'passage', 'idx', 'label'],num_rows: 3245})
})

按照数据集划分进行加载

dataset = load_dataset("madao33/new-title-chinese", split="train")
datasetDataset({features: ['title', 'content'],num_rows: 5850
})

dataset = load_dataset("madao33/new-title-chinese", split="train[10:100]")
datasetDataset({features: ['title', 'content'],num_rows: 90
})

dataset = load_dataset("madao33/new-title-chinese", split="train[:50%]")
datasetDataset({features: ['title', 'content'],num_rows: 2925
})

dataset = load_dataset("madao33/new-title-chinese", split=["train[:50%]", "train[50%:]"])
dataset[Dataset({features: ['title', 'content'],num_rows: 2925}),Dataset({features: ['title', 'content'],num_rows: 2925})]

查看数据集

datasets = load_dataset("madao33/new-title-chinese")
datasetsDatasetDict({train: Dataset({features: ['title', 'content'],num_rows: 5850})validation: Dataset({features: ['title', 'content'],num_rows: 1679})
})

查看某一个数据

datasets["train"][0]{'title': '望海楼是危险的赌博','content': '近期妥善处理）'}

查看某一些数据

datasets["train"][:2]{'title': ['望海楼是危险的赌博'],'content': ['撒打发是','在推进“双一流”高校建设进程中']}

查看列名

datasets["train"].column_names['title', 'content']

查看列属性

{'title': Value(dtype='string', id=None),'content': Value(dtype='string', id=None)}

数据集划分
可使用train_test_split这个函数

dataset = datasets["train"]
dataset.train_test_split(test_size=0.1)		# 按测试集比例为10%划分DatasetDict({train: Dataset({features: ['title', 'content'],num_rows: 5265})test: Dataset({features: ['title', 'content'],num_rows: 585})
})

对于分类任务，指定标签字段，然后让这个数据集均衡划分标签字段

dataset = boolq_dataset["train"]
dataset.train_test_split(test_size=0.1, stratify_by_column="label")     # 分类数据集可以按照比例划分DatasetDict({train: Dataset({features: ['question', 'passage', 'idx', 'label'],num_rows: 8484})test: Dataset({features: ['question', 'passage', 'idx', 'label'],num_rows: 943})
})

数据选取与过滤

# 选取
datasets["train"].select([0, 1])Dataset({features: ['title', 'content'],num_rows: 2
})

# 过滤
## 传入一个lambda函数，让其只取含有中国的数据
filter_dataset = datasets["train"].filter(lambda example: "中国" in example["title"])

filter_dataset["title"][:5]['世界探寻中国成功秘诀','信心来自哪里','世界减贫跑出加速度','和音瞩目历史交汇点','风采感染世界']

数据映射

def add_prefix(example):example["title"] = 'Prefix: ' + example["title"]return example

prefix_dataset = datasets.map(add_prefix)	# 每个title数据前面添加了前缀
prefix_dataset["train"][:10]["title"]['Prefix: 危险的','Prefix: 大力推进高校治理能力建设','Prefix: 坚持事业为上选贤任能','Prefix: “大朋友”的话儿记心头','Prefix: 用好可持续发展这把“金钥匙”','Prefix: 跨越雄关，我们走在大路上','Prefix: 脱贫奇迹彰显政治优势','Prefix: 拱卫亿万人共同的绿色梦想','Prefix: 育人育才','Prefix: 净化网络语言']

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
def preprocess_function(example, tokenizer=tokenizer):model_inputs = tokenizer(example["content"], max_length=512, truncation=True)labels = tokenizer(example["title"], max_length=32, truncation=True)# label就是title编码的结果model_inputs["labels"] = labels["input_ids"]return model_inputs

processed_datasets = datasets.map(preprocess_function)	# 添加了分类标签
processed_datasetsDatasetDict({train: Dataset({features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],num_rows: 5850})validation: Dataset({features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],num_rows: 1679})
})

processed_datasets = datasets.map(preprocess_function, batched=True)	# 使用批处理
processed_datasetsDatasetDict({train: Dataset({features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],num_rows: 5850})validation: Dataset({features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],num_rows: 1679})
})

去除某一字段

processed_datasets = datasets.map(preprocess_function, batched=True, remove_columns=datasets["train"].column_names)
processed_datasetsDatasetDict({train: Dataset({features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],num_rows: 5850})validation: Dataset({features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],num_rows: 1679})
})

保存与加载

# 保存
processed_datasets.save_to_disk("./processed_data")
# 加载
processed_datasets = load_from_disk("./processed_data")

加载本地数据集

# 加载本地csv文件
dataset = load_dataset("csv", data_files="./ChnSentiCorp_htl_all.csv", split="train")
datasetDataset({features: ['label', 'review'],num_rows: 7766
})

dataset = Dataset.from_csv("./ChnSentiCorp_htl_all.csv")
datasetDataset({features: ['label', 'review'],num_rows: 7766
})

加载文件夹内全部文件作为数据集

# 使用data_dir加载全部文件夹内文件
dataset = load_dataset("csv", data_dir="./all_data/", split='train')
datasetDataset({features: ['label', 'review'],num_rows: 23298
})

# 使用data_files加载文件夹内指定文件
dataset = load_dataset("csv", data_files=["./all_data/ChnSentiCorp_htl_all.csv", "./all_data/ChnSentiCorp_htl_all copy.csv"], split='train')
datasetDataset({features: ['label', 'review'],num_rows: 15532
})

通过其他方式读取数据，再将其转换成datasets

import pandas as pddata = pd.read_csv("./ChnSentiCorp_htl_all.csv")
data.head()

在这里插入图片描述

dataset = Dataset.from_pandas(data)
datasetDataset({features: ['label', 'review'],num_rows: 7766
})

# List格式的数据需要内嵌{}，明确数据字段
data = [{"text": "abc"}, {"text": "def"}]
# data = ["abc", "def"]
Dataset.from_list(data)Dataset({features: ['text'],num_rows: 2
})

通过自定义加载脚本加载数据集

 load_dataset("json", data_files="./cmrc2018_trial.json", field="data")DatasetDict({train: Dataset({features: ['title', 'paragraphs', 'id'],num_rows: 256})
})

dataset = load_dataset("./load_script.py", split="train")
dataset

dataset[0]{'id': 'TRIAL_800_QUERY_0','context': '基于《跑跑卡丁车》与《泡泡堂》上所开发的游戏，由韩国Nexon开发与发行。中国大陆由盛大游戏运营，这是Nexon时隔6年再次授予盛大网络其游戏运营权。台湾由游戏橘子运营。玩家以水枪、小枪、锤子或是水炸弹泡封敌人(玩家或NPC)，即为一泡封，将水泡击破为一踢爆。若水泡未在时间内踢爆，则会从水泡中释放或被队友救援(即为一救援)。每次泡封会减少生命数，生命数耗完即算为踢爆。重生者在一定时间内为无敌状态，以踢爆数计分较多者获胜，规则因模式而有差异。以2V2、4V4随机配对的方式，玩家可依胜场数爬牌位(依序为原石、铜牌、银牌、金牌、白金、钻石、大师) ，可选择经典、热血、狙击等模式进行游戏。若游戏中离，则4分钟内不得进行配对(每次中离+4分钟)。开放时间为暑假或寒假期间内不定期开放，8人经典模式随机配对，采计分方式，活动时间内分数越多，终了时可依该名次获得奖励。','question': '生命数耗完即算为什么？','answers': {'text': ['踢爆'], 'answer_start': [127]}}

【HuggingFace Transformer库学习笔记】基础组件学习：Datasets

基础组件——Datasets datasets基本使用导入包 from datasets import *加载数据 datasets load_dataset("madao33/new-title-chinese") datasetsDatasetDict({train: Dataset({features: [title, content],num_rows: 5850})validation: Dataset({features: [titl…...

编程日记 2024/1/14 8:28:56

[机缘参悟-126] ：实修 - 从系统论角度理解自洽的人生：和谐、稳定，不拧巴，不焦虑，不纠结

目录一、从系统论理解自洽 1.1 什么是系统 1.2 什么是自洽 1.3 什么是不自洽 1.4 为什么要自洽 1.5 不自洽的系统面临的挑战二、人生需要自洽 2.1 人生自洽的意义 2.2 一个不自洽的人生会怎么样？ 2.3 不自洽的特征 2.4 不自洽的人没有稳定的人格三、…...

编程日记 2024/1/14 8:27:55

慢 SQL 的优化思路

分析慢 SQL 如何定位慢 SQL 呢？ 可以通过 slow log 来查看慢SQL，默认的情况下，MySQL 数据库是不开启慢查询日志（slow query log）。所以我们需要手动把它打开。查看下慢查询日志配置，我们可以使用 show …...

编程日记 2024/1/14 8:25:53

强化学习（一）简介

强化学习这一概念在历史上来源于行为心理学，来描述生物为了趋利避害而改变自己行为的学习过程。人类学习的过程其实就是为达到某种目的不断地与环境进行互动试错，比如婴儿学习走路。强化学习算法探索了一种从交互中学习的计算方法。 1、强化学习强化学…...

编程日记 2024/1/14 8:22:50

外贸常用网站

外贸常用网站网站阿里巴巴国际站阿里巴巴国内站Aliexpress 速卖通shopifyAmazon 亚马逊k3 开山女鞋网bao66 牛包包网爱搜鞋k3 开山网(女鞋)新款网(男女鞋)搜款网(男女衣服)17zwd(女装)17zwd(女装) 物流yunexpress 云途物流其他amz123 跨境卖家导航amz520 跨境卖家导航网站 …...

编程日记 2024/1/14 8:21:49

Android中集成FFmpeg及NDK基础知识

前言在日常App开发中,难免有些功能是需要借助NDK来完成的,比如现在常见的音视频处理等,今天就以ffmpeg入手,来学习下Android NDK开发的套路. JNI和NDK 很多人并不清除JNI和NDK的概念,经常搞混这两样东西,先来看看它们各自的定义吧. JNI和NDK 很多人并不清除JNI和NDK的概念…...

编程日记 2024/1/14 8:18:46

1.13寒假集训

晚上兼职下班回来才有时间写题，早上根本起不来 A: 解题思路：我第一开始以为只要满足两个red以上的字母数量就行，但是过不了，后面才发现是red字符串，直接三个三个判断就行。下面是c代码： #include<io…...

编程日记 2024/1/14 8:17:45

删除排序链表中的重复元素

说在前面 🎈不知道大家对于算法的学习是一个怎样的心态呢？为了面试还是因为兴趣？不管是出于什么原因，算法学习需要持续保持。题目描述给定一个已排序的链表的头 head ， 删除所有重复的元素，使每个元素只…...

编程日记 2024/1/14 8:16:45

echarts的dispatchAction

触发图表行为，通过dispatchAction触发。例如图例开关legendToggleSelect, 数据区域缩放dataZoom，显示提示框showTip等等。官网：echarts (在 ECharts 中主要通过 on 方法添加事件处理函数。) events： ECharts 中的事件分为两种…...

编程日记 2024/1/14 8:15:44

Java IO学习和总结（超详细）

一、理解 I/O 是输入和输出的简写，指的是数据在计算机内部和外部设备之间的流动。简单来说，当你从键盘输入数据、从鼠标选择操作，或者在屏幕上看到图像，这些都是 I/O 操作。它就像是计算机与外部世界沟通的桥梁，没有 I…...

编程日记 2024/1/14 8:11:40

mysql忘记root密码后怎么重置

mysql忘记root密码后重置方法【windows版本】重置密码步骤停掉mysql服务跳过密码进入数据库在user表中重置密码使用新密码登录mysql到此，密码就成功修改了，完结，撒花~ 重置密码步骤当我们忘记mysql的密码时，连接mysql会报这样的…...

编程日记 2024/1/14 8:07:35

计算机图形学作业：三维线段的图形变换

1. 将三维空间某线段 P1P2进行如下的操作，请按要求回答问题： （1） 沿 X 轴、Y 轴和 Z 轴分别平移 dx、dy 和 dz 的长度，给出相应的变换矩阵。变换矩阵为： T100001000010dxdydz1 （2&#xff09…...

编程日记 2024/1/14 8:06:34

Linux mren命令教程：批量重命名文件(附实际操作案例和注意事项)

Linux mren命令介绍 mren（全称multiple rename），它是用来对多个文件进行重命名的工具。这个命令在一次操作中可以批量改变多个文件的名称，特别是在需要对大量文件进行重命名时，mren将节省大量的时间和努力。 Linux m…...

编程日记 2024/1/14 8:05:33

LLVM系列（1）：在微软Visual Studio下编译LLVM

参考链接： Getting Started with the LLVM System using Microsoft Visual Studio — LLVM 18.0.0git documentation 1.安装visualstudio，版本需要大于vs2019 本机环境已安装visual studio2022，省略 2安装Makefile，版本需要大…...

编程日记 2024/1/14 8:04:32

分布式系统的三字真经CAP

文章目录前言C（Consistency 数据一致性）A（Availability 服务可用性）P（Partition Tolerance 分区容错性）CAP理论最后前言你好，我是醉墨居士，我一起探索一下分布式系统的三字真经C…...

编程日记 2024/1/14 8:02:31

大模型背景下计算机视觉年终思考小结（一）

1. 引言在过去的十年里，出现了许多涉及计算机视觉的项目，举例如下： 使用射线图像和其他医学图像领域的医学诊断应用使用卫星图像分析建筑物和土地利用率相关应用各种环境下的目标检测和跟踪，如交通流统计、自然环境垃圾检测估计…...

编程日记 2024/1/14 8:00:27

Modbus协议学习第一篇之基础概念

什么是“协议” 大白话解释：协议是用来正确传递消息数据而设立的一种规则。传递消息的双方（两台计算机）在通信时遵循同一种协议，即可理解彼此传递的消息数据。 Modbus协议模型 Modbus协议模型较为简单，使用一种称为应用…...

编程日记 2024/1/14 7:59:24

gem5学习（12）：理解gem5 统计信息和输出——Understanding gem5 statistics and output

目录一、config.ini 二、config.json 三、stats.txt 官方教程：gem5: Understanding gem5 statistics and output 在运行 gem5 之后，除了仿真脚本打印的仿真信息外，还会在根目录中名为 m5out 的目录中生成三个文件： config.i…...

编程日记 2024/1/14 7:58:23

索引的概述和使用

1、概述索引占用存储空间，并不是越多越好，太多的索引会影响系统性能索引分类聚集索引： 逻辑顺序和物理顺序是一致的（表中行数的位置决定了该行在内存中存储的位置），因此效率优先于非聚集索引&#xff…...

编程日记 2024/1/14 7:52:18

力扣210. 课程表 II

深度优先遍历思路： 搜索逻辑参见力扣207.课程表需要课程安排的顺序，课程搜索完成时，将其存储起来即可；存储课程的顺序需要注意： 输入依赖中 [A, B]图中表示 B -> A ，表示先 B 后 A&#x…...

编程日记 2024/1/14 7:51:17

深入剖析AI大模型：大模型时代的 Prompt 工程全解析

今天聊的内容，我认为是AI开发里面非常重要的内容。它在AI开发里无处不在，当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗"，或者让翻译模型 "将这段合同翻译成商务日语" 时，输入的这句话就是 Prompt。…...

编程新知 2025/7/9 7:17:20

利用ngx_stream_return_module构建简易 TCP/UDP 响应网关

一、模块概述 ngx_stream_return_module 提供了一个极简的指令： return <value>;在收到客户端连接后，立即将 <value> 写回并关闭连接。<value> 支持内嵌文本和内置变量（如 $time_iso8601、$remote_addr 等）&a…...

编程新知 2025/7/9 4:11:40

Xshell远程连接Kali（默认 | 私钥）Note版

前言:xshell远程连接，私钥连接和常规默认连接任务一开启ssh服务 service ssh status //查看ssh服务状态 service ssh start //开启ssh服务 update-rc.d ssh enable //开启自启动ssh服务任务二修改配置文件 vi /etc/ssh/ssh_config //第一…...

编程新知 2025/7/8 0:34:21

苍穹外卖--缓存菜品

1.问题说明用户端小程序展示的菜品数据都是通过查询数据库获得，如果用户端访问量比较大，数据库访问压力随之增大 2.实现思路通过Redis来缓存菜品数据，减少数据库查询操作。缓存逻辑分析： ①每个分类下的菜品保持一份缓存数据…...

编程新知 2025/7/8 6:05:27

有限自动机到正规文法转换器v1.0

1 项目简介这是一个功能强大的有限自动机（Finite Automaton, FA）到正规文法（Regular Grammar）转换器，它配备了一个直观且完整的图形用户界面，使用户能够轻松地进行操作和观察。该程序基于编译原理中的经典…...

编程新知 2025/7/8 19:06:27

push [特殊字符] present

push 🆚 present 前言present和dismiss特点代码演示 push和pop特点代码演示前言在 iOS 开发中，push 和 present 是两种不同的视图控制器切换方式，它们有着显著的区别。 present和dismiss 特点在当前控制器上方新建视图层级需要手动调用…...

编程新知 2025/7/9 8:13:47

快刀集(1): 一刀斩断视频片头广告

一刀流：用一个简单脚本，秒杀视频片头广告，还你清爽观影体验。 1. 引子作为一个爱生活、爱学习、爱收藏高清资源的老码农，平时写代码之余看看电影、补补片，是再正常不过的事。电影嘛，要沉浸，…...

编程新知 2025/7/7 16:35:25

Spring AI Chat Memory 实战指南：Local 与 JDBC 存储集成

一个面向 Java 开发者的 Sring-Ai 示例工程项目，该项目是一个 Spring AI 快速入门的样例工程项目，旨在通过一些小的案例展示 Spring AI 框架的核心功能和使用方法。项目采用模块化设计，每个模块都专注于特定的功能领域，便于学习和…...

编程新知 2025/6/20 11:58:47

Ubuntu Cursor升级成v1.0

0. 当前版本低使用当前 Cursor v0.50时 GitHub Copilot Chat 打不开，快捷键也不好用，当看到 Cursor 升级后，还是蛮高兴的 1. 下载 Cursor 下载地址：https://www.cursor.com/cn/downloads 点击下载 Linux (x64) ，…...

编程新知 2025/7/7 12:50:11

「全栈技术解析」推客小程序系统开发：从架构设计到裂变增长的完整解决方案

在移动互联网营销竞争白热化的当下，推客小程序系统凭借其裂变传播、精准营销等特性，成为企业抢占市场的利器。本文将深度解析推客小程序系统开发的核心技术与实现路径，助力开发者打造具有市场竞争力的营销工具。一、系统核心功能架构&…...

编程新知 2025/7/8 2:56:16

基础组件——Datasets

datasets基本使用

相关文章：