当前位置：首页 > news >正文

huggingface NLP-微调一个预训练模型

news 2026/4/2 17:37:59

微调一个预训练模型
在这里插入图片描述

1 预处理数据

1.1 处理数据
1.1.1 fine-tune
使用tokenizer后的token 进行训练

batch = tokenizer(sequences, padding=True, truncation=True, return_tensors="pt")# This is new
batch["labels"] = torch.tensor([1, 1])optimizer = AdamW(model.parameters())
loss = model(**batch).loss
loss.backward()
optimizer.step()

1.2 从模型中心（Hub）加载数据集
1.2.1 数据集
DatasetDict对象，其中包含训练集、验证集和测试集
。每一个集合都包含几个列(sentence1, sentence2, label, and idx)以及一个代表行数的变量，即每个集合中的行的个数
下载数据集并缓存到 ~/.cache/huggingface/datasets. 回想一下第2章，您可以通过设置HF_HOME环境变量来自定义缓存的文件夹。
1.3 预处理数据集
1.3.1 预处理数据集，我们需要将文本转换为模型能够理解的数字
1.3.2 类型标记ID(token_type_ids)的作用就是告诉模型输入的哪一部分是第一句，哪一部分是第二句
1.3.3 不一定具有类型标记ID(token_type_ids
1.3.4 将数据保存为数据集，我们将使用Dataset.map()
调用map时使用了batch =True，这样函数就可以同时应用到数据集的多个元素上，而不是分别应用到每个元素上。这将使我们的预处理快许多
1.3.5 省略padding参数
在标记的时候将所有样本填充到最大长度的效率不高
一个更好的做法：在构建批处理时填充样本更好，因为这样我们只需要填充到该批处理中的最大长度，而不是整个数据集的最大长度。当输入长度变化很大时，这可以节省大量时间和处理能力!
1.3.6 将所有示例填充到最长元素的长度——我们称之为动态填充
为了解决句子长度统一的问题，我们必须定义一个collate函数，该函数会将每个batch句子填充到正确的长度
transformer库通过DataCollatorWithPadding为我们提供了这样一个函数
It’s when you pad your inputs when the batch is created, to the maximum length of the sentences inside that batch.
1.3.7 数据集是以Apache Arrow文件存储在磁盘上
1.4 benefits
1.4.1 The results of the function are cached, so it won’t take any time if we re-execute the code.
1.4.2 It can apply multiprocessing to go faster than applying the function on each element of the dataset.
1.4.3 It does not load the whole dataset into memory, saving the results as soon as one element is processed.

2 使用 Trainer API 微调模型（非并行批量模式）
2.1 TrainingArguments 类
2.1.1 它将包含 Trainer用于训练和评估的所有超参数
2.1.2 可以只调整部分默认参数进行微调

training_args = TrainingArguments("test-trainer", evaluation_strategy="epoch")

2.2 Training
2.2.1 简单training

trainer = Trainer(model,training_args,train_dataset=tokenized_datasets["train"],eval_dataset=tokenized_datasets["validation"],data_collator=data_collator,tokenizer=tokenizer,
)
trainer.train()

2.3 评估
2.3.1 使用 Trainer.predict() 命令来使用我们的模型进行预测
predict() 的输出结果是具有三个字段的命名元组： predictions , label_ids ，和 metrics
metrics 字段将只包含传递的数据集的loss，以及一些运行时间（预测所需的总时间和平均时间）
要将我们的预测的可以与真正的标签进行比较，我们需要在第二个轴上取最大值的索引

preds = np.argmax(predictions.predictions, axis=-1)
def compute_metrics(eval_preds):metric = evaluate.load("glue", "mrpc")logits, labels = eval_predspredictions = np.argmax(logits, axis=-1)return metric.compute(predictions=predictions, references=labels)

如何使用compute_metrics()函数定义一个新的 Trainer
2.4 AutoModelForSequenceClassification
2.4.1 when we used AutoModelForSequenceClassification with bert-base-uncased, we got warnings when instantiating the model. The pretrained head is not used for the sequence classification task, so it’s discarded and a new head is instantiated（实例化） with random weights.

3 完整的训练，使用Accelerator和scheduler

3.1 训练前的数据准备
3.1.1 删除与模型不期望的值相对应的列（如sentence1和sentence2列）。
3.1.2 将列名label重命名为labels（因为模型期望参数是labels）。
3.1.3 设置数据集的格式，使其返回 PyTorch 张量而不是列表。
3.1.4 代码

tokenized_datasets = tokenized_datasets.remove_columns(["sentence1", "sentence2", "idx"])
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")
tokenized_datasets.set_format("torch")
tokenized_datasets["train"].column_names

3.2 data loader
3.2.1 from torch.utils.data import DataLoader

train_dataloader = DataLoader(tokenized_datasets["train"], shuffle=True, batch_size=8, collate_fn=data_collator
)
eval_dataloader = DataLoader(tokenized_datasets["validation"], batch_size=8, collate_fn=data_collator
)

3.3 优化器和学习率调度器
3.3.1 optimizer = AdamW(model.parameters(), lr=5e-5)

lr_scheduler = get_scheduler("linear",optimizer=optimizer,num_warmup_steps=0,num_training_steps=num_training_steps,
)

3.4 训练循环
3.4.1

num_epochs = 3
num_training_steps = num_epochs * len(train_dataloader)

3.5 使用accelerator
3.5.1

train_dl, eval_dl, model, optimizer = accelerator.prepare(train_dataloader, eval_dataloader, model, optimizer
)num_epochs = 3
num_training_steps = num_epochs * len(train_dl)

3.5.2 分布式
accelerate config
accelerate launch train.py
3.5.3 With 🤗Accelerate, your training loops will work for multiple GPUs and TPUs.

4 注意train只会对参数有调整

4.1 超参数（Hyperparameter），是机器学习算法中的调优参数，用于控制模型的学习过程和结构。与模型参数（Model Parameter）不同，模型参数是在训练过程中通过数据学习得到的，而超参数是在训练之前由开发者或实践者直接设定的，并且在训练过程中保持不变。
4.2 需要自己设定，不是机器自己找出来的，称为超参数（hyperparameter）。
4.2.1 需要人工设置：超参数的值不是通过训练过程自动学习得到的，而是需要训练者根据经验或实验来设定。
4.2.2 影响模型性能：超参数的选择会直接影响模型的训练过程和最终性能。
4.2.3 需要优化：为了获得更好的模型性能，通常需要对超参数进行优化，选择最优的超参数组合。
4.3 validated 数据集作用
4.3.1 验证集，用于挑选超参数的数据子集。
4.3.2

huggingface NLP-微调一个预训练模型

1 预处理数据

3 完整的训练，使用Accelerator和scheduler

4 注意train只会对参数有调整

相关文章：

huggingface NLP-微调一个预训练模型

【BUG记录】Apifox 参数传入 + 号变成空格的 BUG

Spring AI API 介绍

【MySQL】Linux使用C语言连接安装

2024年第十五届蓝桥杯青少组C++国赛—割点

【软件开发】做出技术决策

Airborne使用教程

WPF实现曲线数据展示【案例：震动数据分析】

EasyExcel 动态设置表格的背景颜色和排列

【 C++11 】类的新功能

防止SQL注入：PHP安全最佳实践

自动化生产或质量检测准备工作杂记

张志辰医生

CodeMirror 如何动态更新definemode

舵机SG90详解

程序设计考题汇总（四：SQL练习）

明达IOT平台助力工业废水运维智能化

深入理解 Ansible Playbook：组件与实战

JavaEE初阶——多线程（线程安全-锁）

Stable Diffusion 提示词语法

基于单片机的无线病床呼叫系统（有完整资料）

速腾RS-M1激光雷达到手后，Windows电脑上5分钟搞定点云可视化（保姆级避坑指南）

5分钟掌握gdrivedl：突破Google Drive下载限制的高效工具

长脉冲激光打孔技术及其与水平集算法的融合应用

提升Python编码效率：ptpython语法高亮与自动补全的终极指南

CMB2前端集成教程：将元框和表单带到网站前台

Wan2.2-I2V-A14B效果展示：动态运镜+光影变化的高质量视频样例

洪城寻缘角

解决图像修复与纹理合成难题的Resynthesizer：开源智能填充工具全指南

如何在3小时内构建你的第一个炉石传说AI机器人？Hearthrock终极指南