当前位置: 首页 > news >正文

大语言模型训练数据集

大语言模型的数据集有很多,以下是一些常用的:

- 中文维基百科:这是一个包含大量中文文本的数据集,可用于训练中文语言模型。
- 英文维基百科:这是一个包含大量英文文本的数据集,可用于训练英文语言模型。
- Common Crawl:这是一个包含大量英文文本的数据集,可用于训练英文语言模型。
- WebQuestionSP数据集、ComplexWebQuestions数据集、GraphQuestions数据集、GrailQA数据集、KQApro数据集、QALD-9数据集、MKQA数据集等:这些都是近年来大火的大语言模型数据集。

此外,一个1.6TB的数据集跨越了59种语言(46种自然语言,13种编程语言),用于训练拥有1760亿个参数的BigScience大型公开科学多语言开放访问(BLOOM)语言模型。

在开发大语言模型时,选择适合的数据集是非常重要的。为了节省数据准备时间并带来启发,可以参考OpenDataLab已上架的、不同分类对应的的可用于大语言模型的预训练、指令微调等数据资源。同时,也可以参考huggingface,modelscope等平台,这些平台上有一些常用的数据集。

1. **Common Crawl**
   - 网址: [http://commoncrawl.org](http://commoncrawl.org)
   - 介绍: Common Crawl是一个非盈利组织,提供公共访问的Web数据集。它定期爬取整个网站,并通过其归档让大量的网页文本数据可用于各种研究和开发目的。

2. **Wikipedia**
   - 网址: [https://dumps.wikimedia.org](https://dumps.wikimedia.org)
   - 介绍: 维基百科数据转储包含了所有维基百科条目的文本,用于提供信息,学术研究或者作为NLP任务的数据源。它支持多种语言,并且可以免费下载和使用。

3. **OpenWebText**
   - 网址: 未官方发布,通常在研究论文或项目中分享。
   - 介绍: OpenWebText数据集受到OpenAI GPT训练数据集的启发,由网上的公共文章组成。用于训练语言模型,尤其是用来预训练类似于GPT风格的变换器模型。

4. **COCA (Corpus of Contemporary American English)**
   - 网址: [https://www.english-corpora.org/coca/](https://www.english-corpora.org/coca/)
   - 介绍: COCA是一个大型的美国英语语料库,主要用于语言学研究和教育目的。可以用于开放语言模型训练的典型数据集。

COCA是美国当代英语语料库(Corpus of Contemporary American English)的简称。它是世界上使用最广泛的英语语料库之一,不仅被语言学家用于研究,也广泛用于教育和翻译等领域。

 

COCA语料库的特点可以概括为三个字:大、全、新。它收录了高达5.6亿个词汇,每年还会以两千万的数量持续扩充,以保证其时效性。因此,无论是对于英语母语者还是英语学习者,都可以通过COCA获取到非常全面和最新的语言资料。此外,该语料库还囊括了各种类型的文本,如新闻、小说、电视剧、电影和广播等,覆盖了美国英语的各个方面。

 

5. **TED Talks**
   - 网址: [https://www.ted.com/participate/translate/get-started](https://www.ted.com/participate/translate/get-started)
   - 介绍: TED演讲的数据集不仅包括视频内容的字幕文本,还包含了许多语言的翻译版本。这是一个有用的多语言数据集,可用于构建语音识别系统、机器翻译、以及语料库分析等任务。

6. **BookCorpus**
   - 网址: BookCorpus数据集原始官方网站已经关闭,目前很难找到合法的下载源。BookCorpus是一个由多伦多大学的Yukun Zhu等人在2015年提出的大型文本语料库。该数据集主要收录了由尚未出版且是免费的书籍所组成的文本,数量多达196,640本。这些书籍的内容覆盖广泛,因此 BookCorpus可以视为一个丰富的语言资源,经常被用于语句编码/解码的无监督学习等场景。


   - 介绍: 该数据集包含数千本未获版权保护的图书文本,以前常用来训练大型语言模型,如BERT。

7. **SQuAD (Stanford Question Answering Dataset)**
   - 网址: [https://rajpurkar.github.io/SQuAD-explorer/](https://rajpurkar.github.io/SQuAD-explorer/)
   - 介绍: SQuAD是斯坦福大学创建的阅读理解数据集。它提供了一系列问题和相应的段落,其中包含问题的答案。常用于训练和评估机器阅读理解系统。

8. **GLUE (General Language Understanding Evaluation)**
   - 网址: [https://gluebenchmark.com/](https://gluebenchmark.com/)
   - 介绍: GLUE是一系列评估自然语言理解系统的基准测试。它包含了不同的任务,比如句子相似性、自然语言推理等,用于衡量语言模型的综合性能。

 

9. **SuperGLUE**
   - 网址: [https://super.gluebenchmark.com/](https://super.gluebenchmark.com/)
   - 介绍: SuperGLUE是GLUE基准的后续项目,提供了更具挑战性的任务集合,以评估语言模型的推理能力。SuperGLUE是一个在通用语言理解评估(GLUE)基准平台之上进行的升级,该平台是由谷歌DeepMind、华盛顿大学和纽约大学在2018年联合成立的。SuperGLUE的目标是进一步提升自然语言理解模型的性能,通过提供更复杂、更有挑战性的任务来衡量模型的能力。

 

10. **SNLI (Stanford Natural Language Inference)**
    - 网址: [https://nlp.stanford.edu/projects/snli/](https://nlp.stanford.edu/projects/snli/)
    - 介绍: SNLI是一个大规模集合,包括句子对及它们之间的关系标签(蕴含、矛盾和中立)。用于训练和测试自然语言推理(NLI)模型。SNLI,全称Stanford Natural Language Inference,是一个自然SNLI,全称Stanford Natural Language Inference,是一个自然语言推理(NLI)的数据集。它是由斯坦福大学的Bowman, Manning和Raffel等人在2015年提出的。这个数据集包含了约570k的句子对,每个句子对都被标注为“中立”,“蕴含”或“矛盾”三个标签之一。这些样本被广泛用于训练和测试自然语言推理模型。

 

1. The Pile:这是一个825 GiB多样化的开源语言建模数据集,由22个较小的高质量数据集组合在一起组成。The Pile是一个开源语言建模数据集,由22个不同的高质量数据集构成,总数据量达825GB。这些数据集包含多种类型的文本,例如论坛、知识库和电子书等。此外,Pile不仅被用于训练大型语言模型,也可以用作评估语言模型跨领域知识和泛化能力的广泛覆盖基准。

下载地址:https://openxlab.org.cn/datasets?keywords=pile&lang=zh-CN&pageNo=1&pageSize=12。


2. C4:这是一个750GB的英文语料库,使用启发式方法,仅提取自然语言数据,同时删除所有乱码文本,C4还进行了大量重复数据删除以提高其质量,MPT-7B 和 T5 等语言模型是使用 C4 进行预训练的。下载地址:https://huggingface.co/datasets/c4。


3. WanJuan的发布:所有数据均采用统一的JSON格式组织,并提供了数据集下载工具及相关文档。这个开源的大规模多语言多模态数据集已被用于InternLM模型的训练,相比同规模模型,InternLM在多维度评测中展现出明显优势。WanJuan的发布填补了公开源数据的空白,有助于自然语言处理、计算机视觉等领域的技术进步,特别是需要多模态理解生成的任务。 InternLM模型在各项评测中也十分优秀,看样子这份数据集功不可没!详情参考:https://www.datalearner.com/ai-models/llm-evaluation。

 

大语言模型的核心是数据集,一定要收集大量数据集,并非某种模型或者算法。再说一遍,先收集数据,而不是算法和硬件。

 

注意,以上内容可能随着时间而失效或者受到限制。

 

 

 

相关文章:

大语言模型训练数据集

大语言模型的数据集有很多,以下是一些常用的: - 中文维基百科:这是一个包含大量中文文本的数据集,可用于训练中文语言模型。 - 英文维基百科:这是一个包含大量英文文本的数据集,可用于训练英文语言模型。 …...

python的课后练习总结4(while循环)

for循环用于针对序列中的每个元素的一个代码块。 while循环是不断的运行&#xff0c;直到指定的条件不满足为止。 while 条件&#xff1a; 条件成立重复执行的代码1 条件成立重复执行的代码2 …….. i 1while i < 5:print(i)i i 11、使用wh…...

Flink Connector 开发

Flink Streaming Connector Flink是新一代流批统一的计算引擎&#xff0c;它需要从不同的第三方存储引擎中把数据读过来&#xff0c;进行处理&#xff0c;然后再写出到另外的存储引擎中。Connector的作用就相当于一个连接器&#xff0c;连接Flink计算引擎跟外界存储系统。Flin…...

Golang leetcode707 设计链表 (链表大成)

文章目录 设计链表 Leetcode707不使用头节点使用头节点 推荐** 设计链表 Leetcode707 题目要求我们通过实现几个方法来完成对链表的各个操作 由于在go语言中都为值传递&#xff0c;&#xff08;注意这里与值类型、引用类型的而区别&#xff09;&#xff0c;所以即使我们直接在…...

Django和Vue项目运行过程中遇到的问题及解决办法

这是我从CSDN上边买来的一个系统的资源&#xff0c;准备在此基础上改成自己的系统&#xff0c;但是在运行项目这一步上都把自己难为了好几天&#xff0c;经过不断的摸索&#xff0c;终于完成了第一步&#xff01;&#xff01;&#xff01; 如果大家也遇到同样的问题&#xff0…...

Single-Image Crowd Counting via Multi-Column Convolutional Neural Network

Single-Image Crowd Counting via Multi-Column Convolutional Neural Network 论文背景人群密度方法过去的发展历史早期方法基于轨迹聚类的方法基于特征回归的方法基于图像的方法 Multi-column CNN用于人群计数基于密度图的人群计数通过几何自适应核生成密度图密度图估计的多列…...

el-cascader隐藏某一级的勾选框及vue报错Error in callback for watcher “options“的解决办法

今天用到饿了么的级联选择器时出现了这个报错Error in callback for watcher “options“: “TypeError: Cannot read propertie ‘level‘ of null,因为需求是在不同类型 el-cascader多选的时候默认是可以勾选所有级的选项的,如下图: 包含级联cascader的options、select的…...

2024美赛数学建模思路A题B题C题D题E题F题思路汇总 选题分析

文章目录 1 赛题思路2 美赛比赛日期和时间3 赛题类型4 美赛常见数模问题5 建模资料 1 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 2 美赛比赛日期和时间 比赛开始时间&#xff1a;北京时间2024年2月2日&#xff08;周五&#xff…...

C++ 常用设计模式

一、工厂模式 from&#xff1a;C开发常用的设计模式及其实现详解 - 知乎 摘抄&#xff1a; 简单工厂、工厂、抽象工厂&#xff1a; 简单工厂需要工厂内部判断&#xff0c;而工厂模式不需要修改工厂类&#xff1a; 抽象工厂&#xff1a; 接上图&#xff1a; 未完待续.........

高性价比的高速吹风机/高速风筒解决方案,基于普冉单片机开发

高速吹风机是近些年非常火的一款产品&#xff0c;快速崛起并颠覆了传统吹风机&#xff0c;高速吹风机也成为了传统吹风机替代的一个大趋势。高速吹风机是利用高转速产生的大风量来快速吹干头发&#xff0c;由于其精巧的外观设计、超低的噪声、出色的干发效果&#xff0c;高速吹…...

toRefs的用法

文章目录 toRefs是什么toRefs的作用以及为什么要用它&#xff1f; toRefs是什么 toRefs 是 Vue 3 Composition API 中的一个函数&#xff0c;它用于将响应式对象转换为普通对象&#xff0c;其中对象的每个属性都是 ref 对象。这是因为在 Vue 3 中&#xff0c;reactive 创建的对…...

MySQL基础篇(三)约束

一、概述 概念&#xff1a;约束是作用于表中字段上的规则&#xff0c;用于限制存储在表中的数据。 目的&#xff1a;保证数据库中数据的正确、有效性和完整性。 分类&#xff1a; 注意&#xff1a;约束是作用于表中字段上的&#xff0c;可以在创建表/修改表的时候添加约束。 二…...

Java进阶 1-2 枚举

目录 常量特定方法 职责链模式的枚举实现 状态机模式的枚举实现 多路分发 1、使用枚举类型实现分发 2、使用常量特定方法实现分发 3、使用EnumMap实现分发 4、使用二维数组实现分发 本笔记参考自&#xff1a; 《On Java 中文版》 常量特定方法 在Java中&#xff0c;我们…...

一个人最大的内驱力是什么?

1、不因为孤独或外界压力而降低「生活标准“」的能力。 ”因为寂寞去约炮“、“因为家里催婚匆忙结婚“、”因为没谈过恋爱随便找个人交往。 “你的每一次选择都是在为自己想要的世界而投的票&#xff0c;往后余生是幸福还是悲剧&#xff0c;就是在这一次次 的将就与坚持死磕中…...

解决方法:公众号的API上传素材报错40005

公众号的API上传素材报错40005 Error uploading file : {"errcode":40005,"errmsg":"invalid file type hint: [YOkxGA0122w487] rid: 223442-323247e7bd5-5d75322d88"}上传错误原因分析&#xff1a; 之前成功的示例&#xff0c;文件名为"…...

音量控制软件sound control mac功能亮点

sound control mac可以帮助用户控制某个独立应用程序的音量&#xff0c;通过每应用音量&#xff0c;均衡器&#xff0c;平衡和音频路由独立控制每个应用的音频&#xff0c;还有整个系统的音量。 sound control mac功能亮点 每个应用程序的音量控制 独立控制应用的数量。 键盘音…...

Spring Boot 生产就绪中文文档-下

本文为官方文档直译版本。原文链接 由于篇幅较长&#xff0c;遂分两篇。上半部分中文文档 Spring Boot 生产就绪中文文档-下 度量标准入门受支持的监控系统AppOpticsAtlasDatadogDynatracev2 API自动配置手动配置 v1 API (旧版)与版本无关的设置 ElasticGangliaGraphiteHumioIn…...

DS|树结构及应用

题目一&#xff1a;DS树 -- 树的先根遍历&#xff08;双亲转先序&#xff09; 题目描述&#xff1a; 给出一棵树的双亲表示法结果&#xff0c;用一个二维数组表示&#xff0c;位置下标从0开始&#xff0c;如果双亲位置为-1则表示该结点为根结点 编写程序&#xff0c;输出该树…...

Java 读取超大excel文件

注意&#xff1a;此参考解决方案只是针对xlsx格式的excel文件&#xff01; Maven <dependency><groupId>com.monitorjbl</groupId><artifactId>xlsx-streamer</artifactId><version>2.2.0</version> </dependency>读取方式1…...

K8S中的job和CronJob

Job 介绍 Kubernetes jobs主要是针对短时和批量的工作负载。它是为了结束而运行的&#xff0c;而不是像deployment、replicasets、replication controllers和DaemonSets等其他对象那样持续运行。 示例 apiVersion: batch/v1 kind: Job metadata:name: pispec:template:spec:r…...

Linux 文件类型,目录与路径,文件与目录管理

文件类型 后面的字符表示文件类型标志 普通文件&#xff1a;-&#xff08;纯文本文件&#xff0c;二进制文件&#xff0c;数据格式文件&#xff09; 如文本文件、图片、程序文件等。 目录文件&#xff1a;d&#xff08;directory&#xff09; 用来存放其他文件或子目录。 设备…...

基于服务器使用 apt 安装、配置 Nginx

&#x1f9fe; 一、查看可安装的 Nginx 版本 首先&#xff0c;你可以运行以下命令查看可用版本&#xff1a; apt-cache madison nginx-core输出示例&#xff1a; nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...

linux 下常用变更-8

1、删除普通用户 查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行&#xff0c;YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID&#xff1a; YW3…...

JDK 17 新特性

#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持&#xff0c;不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的&#xff…...

浅谈不同二分算法的查找情况

二分算法原理比较简单&#xff0c;但是实际的算法模板却有很多&#xff0c;这一切都源于二分查找问题中的复杂情况和二分算法的边界处理&#xff0c;以下是博主对一些二分算法查找的情况分析。 需要说明的是&#xff0c;以下二分算法都是基于有序序列为升序有序的情况&#xf…...

Android 之 kotlin 语言学习笔记三(Kotlin-Java 互操作)

参考官方文档&#xff1a;https://developer.android.google.cn/kotlin/interop?hlzh-cn 一、Java&#xff08;供 Kotlin 使用&#xff09; 1、不得使用硬关键字 不要使用 Kotlin 的任何硬关键字作为方法的名称 或字段。允许使用 Kotlin 的软关键字、修饰符关键字和特殊标识…...

API网关Kong的鉴权与限流:高并发场景下的核心实践

&#x1f525;「炎码工坊」技术弹药已装填&#xff01; 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 引言 在微服务架构中&#xff0c;API网关承担着流量调度、安全防护和协议转换的核心职责。作为云原生时代的代表性网关&#xff0c;Kong凭借其插件化架构…...

Python 高级应用10:在python 大型项目中 FastAPI 和 Django 的相互配合

无论是python&#xff0c;或者java 的大型项目中&#xff0c;都会涉及到 自身平台微服务之间的相互调用&#xff0c;以及和第三发平台的 接口对接&#xff0c;那在python 中是怎么实现的呢&#xff1f; 在 Python Web 开发中&#xff0c;FastAPI 和 Django 是两个重要但定位不…...

Linux操作系统共享Windows操作系统的文件

目录 一、共享文件 二、挂载 一、共享文件 点击虚拟机选项-设置 点击选项&#xff0c;设置文件夹共享为总是启用&#xff0c;点击添加&#xff0c;可添加需要共享的文件夹 查询是否共享成功 ls /mnt/hgfs 如果显示Download&#xff08;这是我共享的文件夹&#xff09;&…...

Yii2项目自动向GitLab上报Bug

Yii2 项目自动上报Bug 原理 yii2在程序报错时, 会执行指定action, 通过重写ErrorAction, 实现Bug自动提交至GitLab的issue 步骤 配置SiteController中的actions方法 public function actions(){return [error > [class > app\helpers\web\ErrorAction,],];}重写Error…...