大语言模型训练数据集
大语言模型的数据集有很多,以下是一些常用的:
- 中文维基百科:这是一个包含大量中文文本的数据集,可用于训练中文语言模型。
- 英文维基百科:这是一个包含大量英文文本的数据集,可用于训练英文语言模型。
- Common Crawl:这是一个包含大量英文文本的数据集,可用于训练英文语言模型。
- WebQuestionSP数据集、ComplexWebQuestions数据集、GraphQuestions数据集、GrailQA数据集、KQApro数据集、QALD-9数据集、MKQA数据集等:这些都是近年来大火的大语言模型数据集。
此外,一个1.6TB的数据集跨越了59种语言(46种自然语言,13种编程语言),用于训练拥有1760亿个参数的BigScience大型公开科学多语言开放访问(BLOOM)语言模型。
在开发大语言模型时,选择适合的数据集是非常重要的。为了节省数据准备时间并带来启发,可以参考OpenDataLab已上架的、不同分类对应的的可用于大语言模型的预训练、指令微调等数据资源。同时,也可以参考huggingface,modelscope等平台,这些平台上有一些常用的数据集。
1. **Common Crawl**
- 网址: [http://commoncrawl.org](http://commoncrawl.org)
- 介绍: Common Crawl是一个非盈利组织,提供公共访问的Web数据集。它定期爬取整个网站,并通过其归档让大量的网页文本数据可用于各种研究和开发目的。
2. **Wikipedia**
- 网址: [https://dumps.wikimedia.org](https://dumps.wikimedia.org)
- 介绍: 维基百科数据转储包含了所有维基百科条目的文本,用于提供信息,学术研究或者作为NLP任务的数据源。它支持多种语言,并且可以免费下载和使用。
3. **OpenWebText**
- 网址: 未官方发布,通常在研究论文或项目中分享。
- 介绍: OpenWebText数据集受到OpenAI GPT训练数据集的启发,由网上的公共文章组成。用于训练语言模型,尤其是用来预训练类似于GPT风格的变换器模型。
4. **COCA (Corpus of Contemporary American English)**
- 网址: [https://www.english-corpora.org/coca/](https://www.english-corpora.org/coca/)
- 介绍: COCA是一个大型的美国英语语料库,主要用于语言学研究和教育目的。可以用于开放语言模型训练的典型数据集。
COCA是美国当代英语语料库(Corpus of Contemporary American English)的简称。它是世界上使用最广泛的英语语料库之一,不仅被语言学家用于研究,也广泛用于教育和翻译等领域。
COCA语料库的特点可以概括为三个字:大、全、新。它收录了高达5.6亿个词汇,每年还会以两千万的数量持续扩充,以保证其时效性。因此,无论是对于英语母语者还是英语学习者,都可以通过COCA获取到非常全面和最新的语言资料。此外,该语料库还囊括了各种类型的文本,如新闻、小说、电视剧、电影和广播等,覆盖了美国英语的各个方面。
5. **TED Talks**
- 网址: [https://www.ted.com/participate/translate/get-started](https://www.ted.com/participate/translate/get-started)
- 介绍: TED演讲的数据集不仅包括视频内容的字幕文本,还包含了许多语言的翻译版本。这是一个有用的多语言数据集,可用于构建语音识别系统、机器翻译、以及语料库分析等任务。
6. **BookCorpus**
- 网址: BookCorpus数据集原始官方网站已经关闭,目前很难找到合法的下载源。BookCorpus是一个由多伦多大学的Yukun Zhu等人在2015年提出的大型文本语料库。该数据集主要收录了由尚未出版且是免费的书籍所组成的文本,数量多达196,640本。这些书籍的内容覆盖广泛,因此 BookCorpus可以视为一个丰富的语言资源,经常被用于语句编码/解码的无监督学习等场景。
- 介绍: 该数据集包含数千本未获版权保护的图书文本,以前常用来训练大型语言模型,如BERT。
7. **SQuAD (Stanford Question Answering Dataset)**
- 网址: [https://rajpurkar.github.io/SQuAD-explorer/](https://rajpurkar.github.io/SQuAD-explorer/)
- 介绍: SQuAD是斯坦福大学创建的阅读理解数据集。它提供了一系列问题和相应的段落,其中包含问题的答案。常用于训练和评估机器阅读理解系统。
8. **GLUE (General Language Understanding Evaluation)**
- 网址: [https://gluebenchmark.com/](https://gluebenchmark.com/)
- 介绍: GLUE是一系列评估自然语言理解系统的基准测试。它包含了不同的任务,比如句子相似性、自然语言推理等,用于衡量语言模型的综合性能。
9. **SuperGLUE**
- 网址: [https://super.gluebenchmark.com/](https://super.gluebenchmark.com/)
- 介绍: SuperGLUE是GLUE基准的后续项目,提供了更具挑战性的任务集合,以评估语言模型的推理能力。SuperGLUE是一个在通用语言理解评估(GLUE)基准平台之上进行的升级,该平台是由谷歌DeepMind、华盛顿大学和纽约大学在2018年联合成立的。SuperGLUE的目标是进一步提升自然语言理解模型的性能,通过提供更复杂、更有挑战性的任务来衡量模型的能力。
10. **SNLI (Stanford Natural Language Inference)**
- 网址: [https://nlp.stanford.edu/projects/snli/](https://nlp.stanford.edu/projects/snli/)
- 介绍: SNLI是一个大规模集合,包括句子对及它们之间的关系标签(蕴含、矛盾和中立)。用于训练和测试自然语言推理(NLI)模型。SNLI,全称Stanford Natural Language Inference,是一个自然SNLI,全称Stanford Natural Language Inference,是一个自然语言推理(NLI)的数据集。它是由斯坦福大学的Bowman, Manning和Raffel等人在2015年提出的。这个数据集包含了约570k的句子对,每个句子对都被标注为“中立”,“蕴含”或“矛盾”三个标签之一。这些样本被广泛用于训练和测试自然语言推理模型。
1. The Pile:这是一个825 GiB多样化的开源语言建模数据集,由22个较小的高质量数据集组合在一起组成。The Pile是一个开源语言建模数据集,由22个不同的高质量数据集构成,总数据量达825GB。这些数据集包含多种类型的文本,例如论坛、知识库和电子书等。此外,Pile不仅被用于训练大型语言模型,也可以用作评估语言模型跨领域知识和泛化能力的广泛覆盖基准。
下载地址:https://openxlab.org.cn/datasets?keywords=pile&lang=zh-CN&pageNo=1&pageSize=12。
2. C4:这是一个750GB的英文语料库,使用启发式方法,仅提取自然语言数据,同时删除所有乱码文本,C4还进行了大量重复数据删除以提高其质量,MPT-7B 和 T5 等语言模型是使用 C4 进行预训练的。下载地址:https://huggingface.co/datasets/c4。
3. WanJuan的发布:所有数据均采用统一的JSON格式组织,并提供了数据集下载工具及相关文档。这个开源的大规模多语言多模态数据集已被用于InternLM模型的训练,相比同规模模型,InternLM在多维度评测中展现出明显优势。WanJuan的发布填补了公开源数据的空白,有助于自然语言处理、计算机视觉等领域的技术进步,特别是需要多模态理解生成的任务。 InternLM模型在各项评测中也十分优秀,看样子这份数据集功不可没!详情参考:https://www.datalearner.com/ai-models/llm-evaluation。
大语言模型的核心是数据集,一定要收集大量数据集,并非某种模型或者算法。再说一遍,先收集数据,而不是算法和硬件。
注意,以上内容可能随着时间而失效或者受到限制。
相关文章:
大语言模型训练数据集
大语言模型的数据集有很多,以下是一些常用的: - 中文维基百科:这是一个包含大量中文文本的数据集,可用于训练中文语言模型。 - 英文维基百科:这是一个包含大量英文文本的数据集,可用于训练英文语言模型。 …...

python的课后练习总结4(while循环)
for循环用于针对序列中的每个元素的一个代码块。 while循环是不断的运行,直到指定的条件不满足为止。 while 条件: 条件成立重复执行的代码1 条件成立重复执行的代码2 …….. i 1while i < 5:print(i)i i 11、使用wh…...

Flink Connector 开发
Flink Streaming Connector Flink是新一代流批统一的计算引擎,它需要从不同的第三方存储引擎中把数据读过来,进行处理,然后再写出到另外的存储引擎中。Connector的作用就相当于一个连接器,连接Flink计算引擎跟外界存储系统。Flin…...

Golang leetcode707 设计链表 (链表大成)
文章目录 设计链表 Leetcode707不使用头节点使用头节点 推荐** 设计链表 Leetcode707 题目要求我们通过实现几个方法来完成对链表的各个操作 由于在go语言中都为值传递,(注意这里与值类型、引用类型的而区别),所以即使我们直接在…...

Django和Vue项目运行过程中遇到的问题及解决办法
这是我从CSDN上边买来的一个系统的资源,准备在此基础上改成自己的系统,但是在运行项目这一步上都把自己难为了好几天,经过不断的摸索,终于完成了第一步!!! 如果大家也遇到同样的问题࿰…...

Single-Image Crowd Counting via Multi-Column Convolutional Neural Network
Single-Image Crowd Counting via Multi-Column Convolutional Neural Network 论文背景人群密度方法过去的发展历史早期方法基于轨迹聚类的方法基于特征回归的方法基于图像的方法 Multi-column CNN用于人群计数基于密度图的人群计数通过几何自适应核生成密度图密度图估计的多列…...

el-cascader隐藏某一级的勾选框及vue报错Error in callback for watcher “options“的解决办法
今天用到饿了么的级联选择器时出现了这个报错Error in callback for watcher “options“: “TypeError: Cannot read propertie ‘level‘ of null,因为需求是在不同类型 el-cascader多选的时候默认是可以勾选所有级的选项的,如下图: 包含级联cascader的options、select的…...

2024美赛数学建模思路A题B题C题D题E题F题思路汇总 选题分析
文章目录 1 赛题思路2 美赛比赛日期和时间3 赛题类型4 美赛常见数模问题5 建模资料 1 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 2 美赛比赛日期和时间 比赛开始时间:北京时间2024年2月2日(周五ÿ…...

C++ 常用设计模式
一、工厂模式 from:C开发常用的设计模式及其实现详解 - 知乎 摘抄: 简单工厂、工厂、抽象工厂: 简单工厂需要工厂内部判断,而工厂模式不需要修改工厂类: 抽象工厂: 接上图: 未完待续.........

高性价比的高速吹风机/高速风筒解决方案,基于普冉单片机开发
高速吹风机是近些年非常火的一款产品,快速崛起并颠覆了传统吹风机,高速吹风机也成为了传统吹风机替代的一个大趋势。高速吹风机是利用高转速产生的大风量来快速吹干头发,由于其精巧的外观设计、超低的噪声、出色的干发效果,高速吹…...
toRefs的用法
文章目录 toRefs是什么toRefs的作用以及为什么要用它? toRefs是什么 toRefs 是 Vue 3 Composition API 中的一个函数,它用于将响应式对象转换为普通对象,其中对象的每个属性都是 ref 对象。这是因为在 Vue 3 中,reactive 创建的对…...

MySQL基础篇(三)约束
一、概述 概念:约束是作用于表中字段上的规则,用于限制存储在表中的数据。 目的:保证数据库中数据的正确、有效性和完整性。 分类: 注意:约束是作用于表中字段上的,可以在创建表/修改表的时候添加约束。 二…...

Java进阶 1-2 枚举
目录 常量特定方法 职责链模式的枚举实现 状态机模式的枚举实现 多路分发 1、使用枚举类型实现分发 2、使用常量特定方法实现分发 3、使用EnumMap实现分发 4、使用二维数组实现分发 本笔记参考自: 《On Java 中文版》 常量特定方法 在Java中,我们…...
一个人最大的内驱力是什么?
1、不因为孤独或外界压力而降低「生活标准“」的能力。 ”因为寂寞去约炮“、“因为家里催婚匆忙结婚“、”因为没谈过恋爱随便找个人交往。 “你的每一次选择都是在为自己想要的世界而投的票,往后余生是幸福还是悲剧,就是在这一次次 的将就与坚持死磕中…...
解决方法:公众号的API上传素材报错40005
公众号的API上传素材报错40005 Error uploading file : {"errcode":40005,"errmsg":"invalid file type hint: [YOkxGA0122w487] rid: 223442-323247e7bd5-5d75322d88"}上传错误原因分析: 之前成功的示例,文件名为"…...

音量控制软件sound control mac功能亮点
sound control mac可以帮助用户控制某个独立应用程序的音量,通过每应用音量,均衡器,平衡和音频路由独立控制每个应用的音频,还有整个系统的音量。 sound control mac功能亮点 每个应用程序的音量控制 独立控制应用的数量。 键盘音…...
Spring Boot 生产就绪中文文档-下
本文为官方文档直译版本。原文链接 由于篇幅较长,遂分两篇。上半部分中文文档 Spring Boot 生产就绪中文文档-下 度量标准入门受支持的监控系统AppOpticsAtlasDatadogDynatracev2 API自动配置手动配置 v1 API (旧版)与版本无关的设置 ElasticGangliaGraphiteHumioIn…...
DS|树结构及应用
题目一:DS树 -- 树的先根遍历(双亲转先序) 题目描述: 给出一棵树的双亲表示法结果,用一个二维数组表示,位置下标从0开始,如果双亲位置为-1则表示该结点为根结点 编写程序,输出该树…...

Java 读取超大excel文件
注意:此参考解决方案只是针对xlsx格式的excel文件! Maven <dependency><groupId>com.monitorjbl</groupId><artifactId>xlsx-streamer</artifactId><version>2.2.0</version> </dependency>读取方式1…...
K8S中的job和CronJob
Job 介绍 Kubernetes jobs主要是针对短时和批量的工作负载。它是为了结束而运行的,而不是像deployment、replicasets、replication controllers和DaemonSets等其他对象那样持续运行。 示例 apiVersion: batch/v1 kind: Job metadata:name: pispec:template:spec:r…...

Linux应用开发之网络套接字编程(实例篇)
服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...
java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别
UnsatisfiedLinkError 在对接硬件设备中,我们会遇到使用 java 调用 dll文件 的情况,此时大概率出现UnsatisfiedLinkError链接错误,原因可能有如下几种 类名错误包名错误方法名参数错误使用 JNI 协议调用,结果 dll 未实现 JNI 协…...
sqlserver 根据指定字符 解析拼接字符串
DECLARE LotNo NVARCHAR(50)A,B,C DECLARE xml XML ( SELECT <x> REPLACE(LotNo, ,, </x><x>) </x> ) DECLARE ErrorCode NVARCHAR(50) -- 提取 XML 中的值 SELECT value x.value(., VARCHAR(MAX))…...
LLM基础1_语言模型如何处理文本
基于GitHub项目:https://github.com/datawhalechina/llms-from-scratch-cn 工具介绍 tiktoken:OpenAI开发的专业"分词器" torch:Facebook开发的强力计算引擎,相当于超级计算器 理解词嵌入:给词语画"…...
【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分
一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计,提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合:各模块职责清晰,便于独立开发…...
【HarmonyOS 5 开发速记】如何获取用户信息(头像/昵称/手机号)
1.获取 authorizationCode: 2.利用 authorizationCode 获取 accessToken:文档中心 3.获取手机:文档中心 4.获取昵称头像:文档中心 首先创建 request 若要获取手机号,scope必填 phone,permissions 必填 …...

Linux --进程控制
本文从以下五个方面来初步认识进程控制: 目录 进程创建 进程终止 进程等待 进程替换 模拟实现一个微型shell 进程创建 在Linux系统中我们可以在一个进程使用系统调用fork()来创建子进程,创建出来的进程就是子进程,原来的进程为父进程。…...

深度学习习题2
1.如果增加神经网络的宽度,精确度会增加到一个特定阈值后,便开始降低。造成这一现象的可能原因是什么? A、即使增加卷积核的数量,只有少部分的核会被用作预测 B、当卷积核数量增加时,神经网络的预测能力会降低 C、当卷…...
【Android】Android 开发 ADB 常用指令
查看当前连接的设备 adb devices 连接设备 adb connect 设备IP 断开已连接的设备 adb disconnect 设备IP 安装应用 adb install 安装包的路径 卸载应用 adb uninstall 应用包名 查看已安装的应用包名 adb shell pm list packages 查看已安装的第三方应用包名 adb shell pm list…...

Visual Studio Code 扩展
Visual Studio Code 扩展 change-case 大小写转换EmmyLua for VSCode 调试插件Bookmarks 书签 change-case 大小写转换 https://marketplace.visualstudio.com/items?itemNamewmaurer.change-case 选中单词后,命令 changeCase.commands 可预览转换效果 EmmyLua…...