当前位置: 首页 > article >正文

昇思大模型预训练数据来源

昇思 MindSpore 大模型如鹏程・盘古、Qwen、Skywork 等的预训练数据以中文为核心、多源异构融合、高质量过滤为特点依托开源数据、互联网爬虫、电子书与领域数据构建经分布式清洗、去重、过滤后形成百亿至千亿级 Token 的训练语料是国产大模型知识能力与语言理解的核心基础。一、预训练数据核心来源昇思大模型数据来源遵循 “开源打底、网页主力、书籍补充、领域增强” 原则覆盖通用与专业场景开源开放数据集采用 Common Crawl、Wikipedia 中文、BookCorpus、CC100、CLUECorpus 等提供基础文本与知识底座占比约 30%。互联网网页数据通过合规爬虫抓取中文主流门户、博客、论坛、百科原始数据达80TB经清洗后保留高质量网页文本占比约 50%。电子书与出版物收录公开授权小说、教材、学术文献、古籍补充长文本与专业知识占比约 15%。领域与合作数据联合科研机构 / 企业获取政务、金融、能源、代码等领域数据增强行业适配性代码类模型如 CodeGeeX额外引入 GitHub 开源代码库23 种语言。自研补充数据如昆仑万维 Skywork 开源600GB/150B Token中文语料 Skypile作为模型专属训练数据。以鹏程・盘古为例原始数据约 80TB经 4 级清洗去重后得到1.1TB 高质量语料250B Token确保数据无偏、低噪、合规。二、数据处理核心流程昇思采用HadoopSpark 分布式集群处理 PB 级数据流程标准化、工程化格式归一化统一转换为 JSONL提取有效文本过滤乱码 / 特殊字符。多级去重通过 n-gram、SimHash、局部敏感哈希LSH剔除网页间 / 网页内重复内容。质量过滤用 fastText 分类模型过滤广告、垃圾、敏感内容通过语言模型 PPL 值筛选高流畅度文本。分词与编码基于 SentencePiece/BPE 分词生成 input_ids、attention_mask适配模型输入长度如 2048/4096。格式转换转为 MindRecord昇思原生格式或 Megatron 格式支持分布式训练高效读取。三、核心代码示例数据加载与预处理环境准备与依赖安装pip install mindspore mindformers datasets git clone https://gitee.com/mindspore/mindformers.git数据加载与预处理Pythonfrom mindformers import LlamaTokenizer from datasets import load_dataset import mindspore.dataset as ds # 1. 加载分词器与数据集 tokenizer LlamaTokenizer.from_pretrained(tokenizer.model) dataset load_dataset(json, data_filesraw_corpus.jsonl, splittrain) # 2. 预处理函数分词、截断、填充 def preprocess_func(examples): texts [text.strip() for text in examples[text]] return tokenizer( texts, truncationTrue, max_length2048, paddingmax_length, return_tensorsnp ) # 3. 批量处理多线程加速 tokenized_ds dataset.map( preprocess_func, batchedTrue, num_parallel_workers8, remove_columns[text] ) # 4. 转为MindSpore数据集适配分布式训练 ms_ds ds.NumpySlicesDataset( tokenized_ds, column_names[input_ids, attention_mask], shuffleTrue ) ms_ds ms_ds.batch(4) # 设置批次大小转换为 MindRecord 格式高效存储from mindspore.mindrecord import FileWriter writer FileWriter(pretrain_data.mindrecord, shard_num8) # 8分片 schema {input_ids: {type: int32, shape: [-1]}} writer.add_schema(schema, pretrain_data) for item in ms_ds.create_dict_iterator(): sample {input_ids: item[input_ids].asnumpy()} writer.write_raw_data([sample]) writer.commit()四、数据质量与合规保障昇思严格遵循数据合规、隐私保护、版权授权原则清洗阶段剔除个人信息与侵权内容所有开源数据遵守对应许可证自研数据通过合规审核确保模型训练与发布合法合规。高质量数据使模型在中文理解、知识问答、逻辑推理等任务上性能显著提升。

相关文章:

昇思大模型预训练数据来源

昇思 MindSpore 大模型(如鹏程・盘古、Qwen、Skywork 等)的预训练数据以中文为核心、多源异构融合、高质量过滤为特点,依托开源数据、互联网爬虫、电子书与领域数据构建,经分布式清洗、去重、过滤后形成百亿至千亿级 Token 的训练…...

任天堂Switch游戏备份终极指南:nxdumptool完全解析

任天堂Switch游戏备份终极指南:nxdumptool完全解析 【免费下载链接】nxdumptool Generates XCI/NSP/HFS0/ExeFS/RomFS/Certificate/Ticket dumps from Nintendo Switch gamecards and installed SD/eMMC titles. 项目地址: https://gitcode.com/gh_mirrors/nx/nxd…...

Vue3后台管理系统终极指南:V3 Admin Vite 5.0快速上手教程

Vue3后台管理系统终极指南:V3 Admin Vite 5.0快速上手教程 【免费下载链接】v3-admin-vite ☀️ A crafted Vue3 admin template | Vue Admin | Vue Template | Vue3 Admin | Vue3 Template | Vue 后台 | Vue 模板 | Vue3 后台 | Vue3 模板 项目地址: https://git…...

NoFences:重新定义Windows桌面管理的开源革命

NoFences:重新定义Windows桌面管理的开源革命 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences 你是否也曾为杂乱无章的Windows桌面而烦恼?图标散落各处…...

Perplexity图标资源搜索私藏库曝光:内部团队未开放的8类高保真SVG图标源及授权合规对照表

更多请点击: https://intelliparadigm.com 第一章:Perplexity图标资源搜索 Perplexity AI 官方未提供公开的图标资源包(如 SVG、Favicon 或 App Icon 套件),但开发者可通过合法合规方式获取其品牌视觉资产用于技术文档…...

Taotoken的用量看板如何帮助团队清晰管理AI模型调用成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Taotoken的用量看板如何帮助团队清晰管理AI模型调用成本 作为团队的技术负责人,我的一项重要职责是确保技术投入的每一…...

为什么你的Perplexity图标总返回404?深度逆向其图标CDN路由算法(附Python自动化探测脚本)

更多请点击: https://intelliparadigm.com 第一章:Perplexity图标资源搜索 Perplexity AI 官方未提供公开的图标资源包(如 SVG、Favicon 或 App Icon 套件),但开发者可通过合法合规方式获取其品牌视觉资产用于技术文档…...

观察Taotoken用量看板如何清晰展示各项目与模型的Token消耗明细

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 观察Taotoken用量看板如何清晰展示各项目与模型的Token消耗明细 对于依赖大模型API进行开发的团队而言,成本透明与资源…...

Overleaf实战:手把手教你用LaTeX制作符合A4排版要求的跨页长表格(含完整代码)

Overleaf实战:LaTeX跨页长表格的终极解决方案 当你正在撰写一篇包含大量数据的学术论文或技术手册时,那些横跨多页的表格往往会成为格式噩梦。表格在页面底部被生硬截断,表头在后续页面消失,页码引用混乱——这些问题不仅影响阅读…...

轻松解包网易游戏资源:unnpk工具完整使用指南

轻松解包网易游戏资源:unnpk工具完整使用指南 【免费下载链接】unnpk 解包网易游戏NeoX引擎NPK文件,如阴阳师、魔法禁书目录。 项目地址: https://gitcode.com/gh_mirrors/un/unnpk 想要探索网易游戏如《阴阳师》、《魔法禁书目录》中的精美角色立…...

LinuxCNC新手到专家:5个步骤打造你的完美数控系统

LinuxCNC新手到专家:5个步骤打造你的完美数控系统 【免费下载链接】linuxcnc LinuxCNC controls CNC machines. It can drive milling machines, lathes, 3d printers, laser cutters, plasma cutters, robot arms, hexapods, and more. 项目地址: https://gitcod…...

Univer开源项目部署完整指南:从零到生产环境

Univer开源项目部署完整指南:从零到生产环境 【免费下载链接】univer Build AI-native spreadsheets. Univer is a full-stack framework for creating and editing spreadsheets on both web and server. With Univer Platform, Univer Spreadsheets is driven dir…...

STC32G单片机开发实战:GPIO模式配置与寄存器详解

1. STC32G单片机GPIO基础认知 第一次拿到STC32G开发板时,我习惯性地想用STM32那套HAL库来操作GPIO,结果发现根本行不通。这就像拿着汽车钥匙去开保险箱,虽然都是"开锁",但机制完全不同。STC32G作为增强型8051架构单片机…...

Perplexity教育信息检索效率提升70%:从零到精通的4步优化法(附实测数据)

更多请点击: https://kaifayun.com 第一章:Perplexity教育信息检索效率提升70%:从零到精通的4步优化法(附实测数据) Perplexity 作为面向研究与教育场景的AI原生搜索引擎,其语义理解深度与引用溯源能力显著…...

FanControl风扇控制软件:Windows电脑散热优化终极指南

FanControl风扇控制软件:Windows电脑散热优化终极指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa…...

别只盯着SQL注入了!聊聊SRC挖掘中那些被忽视的‘低垂果实’:XSS与弱口令实战复盘

别只盯着SQL注入了!聊聊SRC挖掘中那些被忽视的‘低垂果实’:XSS与弱口令实战复盘 在安全圈摸爬滚打几年后,我发现一个有趣的现象:80%的新手挖洞者会像发现新大陆一样扑向SQL注入,却对触手可得的XSS和弱口令视而不见。这…...

STM32定时器中断配置详解:从时钟树到回调函数,一次搞懂ARR和PSC怎么算

STM32定时器中断配置详解:从时钟树到回调函数,一次搞懂ARR和PSC怎么算 在嵌入式开发中,定时器是最基础也最强大的外设之一。很多开发者虽然能够通过复制代码让定时器工作,但对于如何精确控制定时周期、理解时钟信号的传递路径以及…...

告别手动调试!用西门子STEP7组态软件,5分钟搞定步进电机多段速与正反转控制逻辑

西门子STEP7高效编程:5步构建步进电机智能控制系统 在工业自动化现场,调试步进电机控制逻辑往往是耗时费力的工作——传统方法需要反复修改硬件接线和梯形图程序,每次速度切换或方向调整都可能引发意外停机。而西门子STEP7组态软件提供的结构…...

2026学术发文避坑攻略:拒绝排版内耗,垂直学术编辑器实测推荐

进入2026年,国内核心期刊的稿件接收标准持续提高。不少科研工作者都会遇到这样的困境:自身的实验数据严谨可信、研究方向具备创新价值,但稿件在编辑初审环节就被退回。深究背后原因,并非研究的学术价值不足,更多是因为…...

网易云QQ音乐歌词获取终极指南:163MusicLyrics让你轻松拥有完美歌词

网易云QQ音乐歌词获取终极指南:163MusicLyrics让你轻松拥有完美歌词 【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 还在为音乐播放器缺少歌词而烦恼&#xf…...

图像采集卡与相机内置采集:架构差异、性能对比与选型指南

1. 项目概述:从“外挂”到“内置”的采集路径之争在视觉系统集成或工业检测项目里,选型阶段总会遇到一个基础但关键的问题:图像采集卡和相机内置的采集功能,到底该用哪个?这可不是一个简单的“哪个更好”的问题&#x…...

3分钟上手Awoo Installer:Switch游戏安装终极指南

3分钟上手Awoo Installer:Switch游戏安装终极指南 【免费下载链接】Awoo-Installer A No-Bullshit NSP, NSZ, XCI, and XCZ Installer for Nintendo Switch 项目地址: https://gitcode.com/gh_mirrors/aw/Awoo-Installer 还在为Switch游戏安装烦恼吗&#xf…...

突破60帧限制!《原神》帧率解锁工具完全指南

突破60帧限制!《原神》帧率解锁工具完全指南 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 还在为《原神》的60帧限制感到困扰吗?想让你的高刷新率显示器发挥真正…...

从‘硬连接’到‘软融合’:拆解U-Net++中那些被重新设计的跳跃连接(Skip Connections)

从‘硬连接’到‘软融合’:拆解U-Net中那些被重新设计的跳跃连接 在医学图像分割领域,U-Net架构因其对称的编码器-解码器结构和跳跃连接设计,成为众多研究的基础框架。然而,当我们面对脑肿瘤、肺结节等尺寸差异显著的病灶时&#…...

保姆级教程:手把手教你用Amlogic刷机工具给中兴B863AV3.2T盒子刷当贝桌面(附短接神器使用心得)

中兴B863AV3.2T盒子刷机全流程实战指南:从拆机到当贝桌面的完美蜕变 第一次接触电视盒子刷机时,那种既兴奋又忐忑的心情我至今记忆犹新。手里拿着价值不过百元的中兴B863AV3.2T盒子,却像捧着一个未知的宝藏——既期待通过刷机解锁它的全部潜能…...

3分钟掌握NCM音乐解密:ncmdump工具让你的音乐随处播放

3分钟掌握NCM音乐解密:ncmdump工具让你的音乐随处播放 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾经下载了网易云音乐的NCM格式歌曲,却发现无法在其他设备上播放?这种专有加密格式虽然…...

手持式身份核验测温一体机:从防疫工具到智能终端的深度解析与应用

1. 项目概述:一个被低估的“防疫哨兵”你可能在商场、写字楼、医院或者社区的入口见过它——一个看起来像固定电话机,或者一个带屏幕的扫码盒子,旁边还伸出一个测温探头。这就是我们今天要聊的主角:手持式身份核验测温一体机。很多…...

终极指南:用DDrawCompat在现代Windows上完美复活经典游戏

终极指南:用DDrawCompat在现代Windows上完美复活经典游戏 【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com/gh_mirrors/dd/DDr…...

从地图导航到网络路由:深入理解Floyd-Warshall算法的动态规划内核与空间优化技巧

从地图导航到网络路由:深入理解Floyd-Warshall算法的动态规划内核与空间优化技巧 当我们使用地图导航寻找两点间最快路线时,或在数据中心配置网络路由协议时,背后可能都在运行一个经典的图论算法——Floyd-Warshall。这个诞生于1962年的算法以…...

从BetaFlight的Makefile设计,聊聊如何为你的飞控板(如STM32F7X2)定制固件

从BetaFlight的Makefile设计解析飞控固件定制之道 在无人机和航模领域,BetaFlight作为一款开源飞控软件,因其出色的性能和灵活的定制能力而广受欢迎。本文将深入探讨BetaFlight的构建系统设计,特别是其Makefile的实现哲学,并以STM…...