当前位置：首页 > article >正文

LLM·minimind-预训练

article 2026/3/25 0:03:59

文章目录预训练初始化模型和分词器初始化配置文件 AutoConfig从配置文件初始化 AutoModel加载 AutoTokenizer预训练数据集加载数据集DataDictDataset数据预处理数据预先处理函数1.数据集编码为tokens2.数据集分块获得特定长度的input_ids和labels训练器TrainingArgumentsTrainer所有的代码都基于transformers库。预训练初始化模型和分词器初始化配置文件 AutoConfig类似transformers中的AutoModel一样都需要先下载配置文件model.info然后读取该文件夹获得配置信息from transformersimportAutoConfig,AutoModelForCausalLM model_path../model/Qwen2.5-1.5BconfigAutoConfig.from_pretrained(model_path)config配置信息包含模型的架构Qwen2Config{architectures:[Qwen2ForCausalLM],attention_dropout:0.0,从配置文件初始化 AutoModelAutoModelForCausalLM.from_config这一步构造初始化需要很长的时间可能涉及与远程仓库中的定义进行对齐甚至下载远程仓库的代码没有科学上网会卡死modelAutoModelForCausalLM.from_config(config,trust_remote_codeFalse)model.to(cuda)model的具体架构modelQwen2ForCausalLM((model):Qwen2Model((embed_tokens):Embedding(151936,1536)(layers):ModuleList((0-27):28xQwen2DecoderLayer((self_attn):Qwen2SdpaAttention((q_proj):Linear(in_features1536,out_features1536,biasTrue)(k_proj):Linear(in_features1536,out_features256,biasTrue)(v_proj):Linear(in_features1536,out_features256,biasTrue)(o_proj):Linear(in_features1536,out_features1536,biasFalse)(rotary_emb):Qwen2RotaryEmbedding()加载 AutoTokenizerfrom transformersimportAutoTokenizertokenizerAutoTokenizer.from_pretrained(model_path)tokenizer预训练数据集数据集格式必须是token化的序列最大长度必须一致。构造出labels该labels与input_ids一致模型会处理移位。加载数据集参考文献path表示数据集的名称monkey-gen如果只有当前参数则会自动下载到缓存数据集的格式例如jsoncsv等data_dir数据集所在的本地目录data_file数据集本身例如xxx.jsonl.datasetload_dataset(csv,data_files./ChnSentiCorp_htl_all.csv,splittrain)datasetload_dataset(json,data_files./cmrc2018_trial.json,fielddata)DataDict类型为Dict[str,Dataset]把他当成一个字典来理解用于获得train或者test字段的Dataset。不支持直接索引DatasetDict({train:Dataset({features:[input_ids,attention_mask],num_rows:100001})})Dataset数组和字典的混合体。可以理解为List[Dict]或者Dict[List]的形式支持下标索引和键值对索引。Dataset({features:[input_ids,attention_mask,labels],num_rows:1370})数据预处理我们期望的预训练格式如下首先是将原始文本str转换为input_ids:List[int]数据预先处理函数输入参数batchedTrue时为examples类型为Dict[str,List[Any]]examples{text:[今天天气不错。,我在学预训练语言模型。,DeepSpeed 加速训练。]}返回参数batchedTrue时返回类型为Dict[str,List[Any]]注意tokenizer处理batch时会返回字典Dict[str,List[Any]]。{input_ids:[[...,...],[...,...],[...,...]],attention_mask:[[...,...],[...,...],[...,...]],# 其他字段如 token_type_ids 等}1.数据集编码为tokensdeftokenize_function(examples:Dict[str,List[Any]]# 列名对应一个列表/值):returntokenizer([textfortext in examples[text]])examples的数据类型examples的类型为Dict[str,List]例如‘text’:[1,2,3]tokenized_dsds.map(tokenize_function,batchedTrue,# 打包为列名值/列表text:[文本1,文本2,...]num_proc10,remove_columnscolumn_names,load_from_cache_fileTrue)输出结果将删除当前列并且返回input_idsattention_mask组成的字典。DatasetDict({train:Dataset({features:[input_ids,attention_mask],num_rows:5001})})2.数据集分块获得特定长度的input_ids和labelsdefgroup_texts(examples:Dict[str,List[str]]):# 拼接所有可迭代对象 concat_examples:Dict[str:List]{k:list(chain(*examples[k]))# iter-listfork in examples.keys()# List[tensor]}# 计算总长度 seqmask total_lengthlen(concat_examples[list(examples.keys())[0]])num_blocktotal_length// block_sizeresult{#list-list[tensor]k:[concat_examples[k][i*block_size:(i1)*block_size]fori inrange(num_block)]fork in concat_examples.keys()}result[labels]result[input_ids].copy()returnresultlm_dstokenized_ds.map(group_texts,batchedTrue,num_proc10,load_from_cache_fileTrue,batch_size1000,)chain合并迭代器拼接两个迭代器返回一个更长的迭代器可以通过list转换为数组。from itertoolsimportchainblock_size2048# 首位拼接可迭代对象-返回长迭代器list(chain([1,2],[3,4]))#[1,2,3,4]list(chain(*[[1,2],[3,4]]))#[1,2,3,4]训练器训练器包括优化器模型本身分词器等等数据集加粗样式。TrainingArguments规定了一些重要的超参数包括训练参数epoch数梯度累积更新数评估参数等等from transformersimportTrainingArgumentstraining_argsTrainingArguments(output_diroutput/,per_device_train_batch_size1,gradient_accumulation_steps4,logging_steps4,num_train_epochs1,save_steps500,learning_rate1e-4,save_on_each_nodeTrue,gradient_checkpointingTrue,)Trainer数据集使用default_data_collator进行封装为batchIterableWrapper(train_dataset)支持将训练集包裹为可迭代对象可以直接传入Dataset类型。from transformersimportTrainer,default_data_collator from torchdata.datapipes.iterimportIterableWrapper# 训练器 trainerTrainer(modelmodel,argstraining_args,#Dataset传入也可以,本身就是mmap,不会节省太多内存train_datasetIterableWrapper(train_dataset),# 将Dataset类型包裹为迭代器 eval_datasetNone,#tokenizertokenizer,# 默认为 MLM 的 collator使用 CLM 的 collater#CLM因果语言建模,输入和输出标签一致,不会随机掩码data_collatordefault_data_collator,# MLM掩码语言建模,完型填空,不会随机掩码;)

LLM·minimind-预训练

相关文章：

LLM·minimind-预训练

GitHub中文界面工具：突破语言壁垒的开源解决方案

量子走私系统架构与检测规避原理的技术解构

崩盘预警：软件测试工程师的加密市场做空指南

Circios机器人控制库：面向教学的Arduino语义化运动编程

Prompt Cache与Agent上下文税深度解析（非常详细），AI架构设计从入门到精通，收藏这一篇就够了！

轻量级旋转编码器驱动：基于状态机的中断消抖实现

OpenCore-Configurator：黑苹果引导配置的高效解决方案

1999-2024年上市公司高管团队稳定性

【熟练】客户端命令详解

猫抓视频解析工具：让网页媒体资源获取效率提升3倍的智能方案

TI 高精度实验室《运算放大器系列--稳定性实战：从SPICE仿真到实验室测量》

3步打造流畅Windows体验：Win11Debloat系统优化工具全指南

eNSP保姆级安装指南：从零到一，避坑实战

终极指南：如何用DiffSynth Studio实现视频到3D骨架的智能转换

AcousticSense AI真实案例：民谣与乡村音乐在ViT-B/16特征空间中的聚类效果

微服务架构演进历程

TM1637驱动库：非阻塞动画与统一显示接口设计

Napkin AI 使用指南

代码遗产规划师：在技术断代潮收割焦虑税

Tinke终极指南：NDS游戏文件编辑与资源提取的完整解决方案

浏览器扩展Cookie管理工具：从痛点解决到价值创造的技术实践

运维系列虚拟化系列OpenStack系列【仅供参考】：用 namspace 隔离 DHCP 服务 - 每天5分钟玩转 OpenStack（90）

运维系列虚拟化系列OpenStack系列【仅供参考】：配置 DHCP 服务 - 每天5分钟玩转 OpenStack（89）

Cadence实战：从原理图到PCB的高效转换技巧

7个进阶技巧：ComfyUI-AnimateDiff-Evolved从入门到精通AI动画创作

RunningAverage库：嵌入式滑动平均高精度实现

终极指南：qmcdump轻松解锁QQ音乐加密音频的3个核心技巧

失败的考古，乐视电视S40 Root

基于粒子群优化随机森林(PSO-RF)的时间序列预测 PSO-RF时间序列优化参数为决策树数...