当前位置：首页 > article >正文

AI第一天自我理解笔记--微调大模型

article 2026/3/10 5:24:59

1. 确定目标：明确任务和数据

2. 选择预训练模型

3. 数据预处理

(1) 数据清洗与格式化

(2) 划分数据集

(3) 数据加载与批处理

4. 构建微调模型架构

(1) 加载预训练模型

(2) 修改模型尾部（适配任务）

(3) 冻结部分层（可选）

5. 设置超参数

(1) 优化器与学习率

(2) 损失函数

(3) 其他超参数

6. 微调模型

(1) 定义训练循环

(2) 监控训练过程

7. 调整超参数（可选）

8. 评估与部署

(1) 模型评估

(2) 部署模型

9. 常见问题与解决方案

(1) 过拟合

(2) 欠拟合

(3) 计算资源不足

10. 总结：微调的流程图

附录：代码示例（文本分类）

关键点回顾

1. 确定目标：明确任务和数据

任务类型：
确定你要解决的问题类型，例如：
- 文本分类（如情感分析）
- 图像分类（如识别猫狗）
- 序列生成（如文本生成或机器翻译）
数据集：
收集或准备与任务相关的数据集，并进行初步分析：
- 数据规模（样本数量、类别分布）
- 数据质量（是否有噪声、缺失值、标签错误）
- 数据预处理需求（如文本清洗、图像归一化）

2. 选择预训练模型

预训练模型：
根据任务选择合适的预训练模型：
- 文本任务：BERT、RoBERTa、GPT、T5
- 图像任务：ResNet、EfficientNet、ViT
- 多模态任务：CLIP、Mixture of Experts（MoE）
模型来源：
常用的模型库包括：
- Hugging Face（如transformers库）
- PyTorch/TensorFlow官方模型库
- Timm库（针对计算机视觉）

3. 数据预处理

(1) 数据清洗与格式化

文本数据：
- 去除特殊字符、停用词
- 统一大小写（如全小写）
- 处理缺失值或异常标签
图像数据：
- 调整尺寸（如统一为224x224）
- 归一化（如将像素值缩放到[0,1]或[-1,1]）
- 数据增强（如旋转、翻转、裁剪）

(2) 划分数据集

训练集：用于模型训练（通常占80%）。
验证集：用于调参和监控过拟合（通常占10%）。
测试集：最终评估模型性能（通常占10%）。

(3) 数据加载与批处理

使用DataLoader（PyTorch）或tf.data（TensorFlow）将数据分批次加载：

python

深色版本

from torch.utils.data import DataLoader, Datasetclass MyDataset(Dataset):def __init__(self, data, labels):self.data = dataself.labels = labelsdef __len__(self):return len(self.data)def __getitem__(self, idx):return self.data[idx], self.labels[idx]train_dataset = MyDataset(train_data, train_labels)
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)

4. 构建微调模型架构

(1) 加载预训练模型

文本模型示例（Hugging Face）：

python

深色版本

from transformers import BertModel, BertConfigmodel = BertModel.from_pretrained("bert-base-uncased")

图像模型示例（PyTorch）：

python

深色版本

import torchvision.models as modelsmodel = models.resnet18(pretrained=True)

(2) 修改模型尾部（适配任务）

分类任务：替换最后一层全连接层（全连接层的输出维度需匹配任务类别数）：

python

深色版本

# 对于ResNet：
num_features = model.fc.in_features
model.fc = nn.Linear(num_features, num_classes)  # num_classes是目标类别数# 对于BERT：
model.classifier = nn.Linear(model.config.hidden_size, num_classes)

(3) 冻结部分层（可选）

冻结预训练层：保留底层的通用特征提取能力，只训练新增层：

python

深色版本

for param in model.parameters():param.requires_grad = False  # 冻结所有层# 解冻最后一层（如分类层）
for param in model.fc.parameters():  # 对BERT可能是model.classifier.parameters()param.requires_grad = True

5. 设置训练参数

(1) 优化器与学习率

选择优化器：
- 常用优化器：Adam、AdamW、SGD
- 示例：
  python
  深色版本
```
optimizer = torch.optim.Adam(model.parameters(), lr=2e-5)
```
学习率（Learning Rate）：
- 预训练模型微调时，学习率通常比从头训练低（如1e-5到1e-3）。
- 可使用学习率调度器（如torch.optim.lr_scheduler.CosineAnnealingLR）。

(2) 损失函数

根据任务选择损失函数：
- 分类任务：交叉熵损失（nn.CrossEntropyLoss）
- 回归任务：均方误差（nn.MSELoss）
- 生成任务：交叉熵或自定义损失（如BERT的MLM损失）

(3) 其他超参数

批量大小（Batch Size）：根据硬件限制选择（如32、64、128）。
训练轮次（Epochs）：通常5-20轮，根据验证集表现调整。
早停（Early Stopping）：当验证损失不再下降时停止训练，防止过拟合。

6. 训练模型

(1) 定义训练循环

python

深色版本

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)for epoch in range(num_epochs):model.train()total_loss = 0for batch in train_loader:inputs, labels = batchinputs, labels = inputs.to(device), labels.to(device)optimizer.zero_grad()outputs = model(inputs)loss = criterion(outputs, labels)loss.backward()optimizer.step()total_loss += loss.item()# 验证阶段model.eval()val_loss = 0with torch.no_grad():for batch in val_loader:inputs, labels = batchinputs, labels = inputs.to(device), labels.to(device)outputs = model(inputs)val_loss += criterion(outputs, labels).item()print(f"Epoch {epoch+1}, Train Loss: {total_loss/len(train_loader)}, Val Loss: {val_loss/len(val_loader)}")

(2) 监控训练过程

使用工具如TensorBoard或Weights & Biases记录损失、准确率等指标。
定期保存模型检查点（Checkpoint）：
python
深色版本
```
torch.save(model.state_dict(), f"model_epoch{epoch}.pth")
```

7. 调整超参数（可选）

网格搜索（Grid Search）或随机搜索（Random Search）：
调整学习率、批量大小、层冻结策略等。
自动化工具：
使用Optuna或Ray Tune进行超参数优化。

8. 评估与部署

(1) 模型评估

在测试集上评估最终性能：

python

深色版本

model.eval()
test_loss = 0
correct = 0
with torch.no_grad():for data, target in test_loader:data, target = data.to(device), target.to(device)output = model(data)test_loss += criterion(output, target).item()pred = output.argmax(dim=1, keepdim=True)correct += pred.eq(target.view_as(pred)).sum().item()print(f"Test Accuracy: {100. * correct / len(test_loader.dataset)}%")

(2) 部署模型

导出模型为ONNX格式或使用框架工具（如TorchScript）：
python
深色版本
```
torch.onnx.export(model, torch.randn(1, 3, 224, 224), "model.onnx")
```

9. 常见问题与解决方案

(1) 过拟合

解决方法：
- 增加数据增强（如随机裁剪、翻转）。
- 添加正则化（如Dropout、L2正则化）。
- 减少模型复杂度或训练轮次。

(2) 欠拟合

解决方法：
- 增加训练轮次或学习率。
- 解冻更多层（释放模型潜力）。
- 尝试更复杂的模型架构。

(3) 计算资源不足

解决方法：
- 使用小批量（如batch_size=16）。
- 使用模型量化或知识蒸馏（Knowledge Distillation）。
- 选择轻量级模型（如MobileNet、DistilBERT）。

10. 总结：微调的流程图

深色版本

1. 确定任务和数据 →  
2. 选择预训练模型 →  
3. 数据预处理 →  
4. 修改模型尾部 →  
5. 设置超参数 →  
6. 训练并监控 →  
7. 调参优化 →  
8. 评估与部署

附录：代码示例（文本分类）

以下是一个完整的微调BERT进行文本分类的代码框架：

python

深色版本

import torch
from transformers import BertTokenizer, BertForSequenceClassification
from torch.utils.data import Dataset, DataLoader# 加载预训练模型和分词器
model_name = "bert-base-uncased"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name, num_labels=num_classes)# 数据预处理
class TextDataset(Dataset):def __init__(self, texts, labels):self.encodings = tokenizer(texts, truncation=True, padding=True, max_length=512)self.labels = labelsdef __len__(self):return len(self.labels)def __getitem__(self, idx):item = {k: torch.tensor(v[idx]) for k, v in self.encodings.items()}item["labels"] = torch.tensor(self.labels[idx])return item# 加载数据
train_dataset = TextDataset(train_texts, train_labels)
train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)# 训练配置
device = torch.device("cuda")
model.to(device)
optimizer = torch.optim.AdamW(model.parameters(), lr=2e-5)
criterion = nn.CrossEntropyLoss()# 训练循环（参考步骤6）

关键点回顾

微调的核心：利用预训练模型的通用特征，仅针对特定任务调整部分参数。
数据质量：垃圾进，垃圾出（Garbage In, Garbage Out）。
超参数调优：学习率、批量大小、层冻结策略是关键。

AI第一天自我理解笔记--微调大模型

目录 1. 确定目标：明确任务和数据 2. 选择预训练模型 3. 数据预处理 (1) 数据清洗与格式化 (2) 划分数据集 (3) 数据加载与批处理 4. 构建微调模型架构 (1) 加载预训练模型 (2) 修改模型尾部（适配任务） (3) 冻结部分层（可…...

编程日记 2026/2/16 4:29:13

ClientAbortException问题分析

最近遇到一个问题，在设备采数据数据上报后频繁发生ClientAbortException异常，一种处理方案是ClientAbortException 问题分析-CSDN博客一、ClientAbortException 的触发与影响 1. 定义与场景 ClientAbortException 是后端服务器（如 Tomc…...

编程日记 2026/2/15 6:14:51

系统思考全球化落地

感谢加密货币公司Bybit的再次邀请，为全球团队分享系统思考课程！虽然大家来自不同国家，线上学习的形式依然让大家充满热情与互动，思维的碰撞不断激发新的灵感。尽管时间存在挑战，但我看到大家的讨论异常积极&#xff…...

编程日记 2026/2/25 21:47:56

【开原宝藏】30天学会CSS - DAY1 第一课

下面提供一个由浅入深、按步骤拆解的示例教程，让你能从零开始，逐步理解并实现带有旋转及悬停动画的社交图标效果。为了更简单明了，以下示例仅创建四个图标（Facebook、Twitter、Google、LinkedIn），并在每一步…...

编程日记 2026/3/8 3:24:42

钉钉项目报销与金蝶系统高效集成技术解析

钉钉报销【项目报销类】集成到金蝶付款单【画纤骨】的技术实现在企业日常运营中，数据的高效流转和准确对接是提升业务效率的关键。本文将分享一个具体的系统对接集成案例：如何将钉钉平台上的项目报销数据无缝集成到金蝶云星空的付款单系统中。本次方案…...

编程日记 2026/3/8 17:51:28

Python——代码格式

代码格式良好的代码格式可以提升代码的可读性。和其他语言不同，Python 代码的格式是 Python 语法的组成之一，不符合 Python 代码无法正常运行。注释注释是代码中穿插的辅佐性质的文字，用于标识代码的含义和功能，可以提高程序…...

编程日记 2026/2/13 17:30:22

Datawhale coze-ai-assistant：Task 1 了解 AI 工作流 + Coze的介绍

学习网址：Datawhale-学用 AI,从此开始工作流（Workflow）是指完成一项任务或目标时，按照特定顺序进行的一系列活动或步骤。它强调在计算机应用环境下的自动化，通过将复杂的任务拆分成多个简单的步骤，每一步都…...

编程日记 2026/3/9 4:39:42

深度学习 Deep Learning 第3章概率论与信息论

第三章概率与信息论概述本章介绍了概率论和信息论的基本概念及其在人工智能和机器学习中的应用。概率论为处理不确定性提供了数学框架，使我们能够量化不确定性和推导新的不确定陈述。信息论则进一步帮助我们量化概率分布中的不确定性。在人工智能中，…...

编程日记 2026/2/24 8:31:45

GStreamer —— 2.15、Windows下Qt加载GStreamer库后运行 - “播放教程 1：Playbin 使用“（附：完整源码）

运行效果介绍我们已经使用了这个元素，它能够构建一个完整的播放管道，而无需做太多工作。本教程介绍如何进一步自定义，以防其默认值不适合我们的特定需求。将学习： • 如何确定文件包含多少个流，以及如何切换其中。…...

编程日记 2026/3/7 20:23:15

MYsql—1

1.mysql的安装在windows下安装mysql，直接官网搜索即可：http://www.mysql.com/，自己找想要的版本进行download，官网长这样安装路径需要是英文路径，设置默认即可，若安装执行内容时报错，则AltCt…...

编程日记 2026/2/23 7:44:48

位运算（基础算法）

按位与AND（ & ） 只有当两个位都为1时，结果才为1,否则为0。结果不会变大按位或 OR（ | ） 只有当两个位中有一个为1时，结果才为1,否则为0。结果不会变小按位异或 XOR （ ^ ） 只…...

编程日记 2026/3/9 18:42:47

硬件地址反序？用位操作为LED灯序“纠偏”。反转二进制数即可解决

特别有意思，LED的灯序与其硬件地址刚好相反，没办法直接通过加1实现二进制进位的亮灯操作，查了一些资料说用数组和switch实现，觉得太麻烦了，思索良久，就想到了反转二进制数解决这个问题。 reverse_bits( )是…...

编程日记 2026/3/3 0:16:35

如何让ai问答机器人通人性？

领域专用的问答机器人，数据是灵魂。通用模型的问题在于，它们虽然知识广博，但对特定领域的深度理解不足。解决这个问题的第一步，就是构建一个高质量的领域知识库。数据要精准且全面想让机器人真正“懂”一个领域，数…...

编程日记 2026/2/16 7:54:59

AI绘画笔记--基础知识

一.什么是AI绘画 AI绘画或者说AI生图，本质上来说还是图像生成技术，是一种基于深度学习的人工智能技术，通过提前大量学习学习图像特征，生成符合提示词的新图像。整个流程可以简化理解为：人们首先让深度学习模型读取大量…...

编程日记 2026/2/15 8:27:51

图解AUTOSAR_CP_BSWMulticoreLibrary

AUTOSAR BSW 多核库详解 AUTOSAR基础软件多核操作库详细解析目录架构概述 1.1. 组件架构 1.2. API结构 1.3. 错误处理流程详细设计 2.1. 基础数据类型 2.2. 接口说明 2.3. 错误处理机制使用指南 3.1. 配置说明 3.2. 典型应用场景 3.3. 注意事项 1. 架构概述 1.1. 组件架构 …...

编程日记 2026/2/24 11:55:44

热key探测技术架构设计与实践

参考： 得物热点探测技术架构设计与实践 Redis数据倾斜与JD开源hotkey源码分析揭秘京东热点检测 HotKey 学习笔记 hotkey: 京东App后台中间件，毫秒级探测热点数据，毫秒级推送至服务器集群内存，大幅降低热key对数据层查询压力 …...

编程日记 2026/2/23 23:53:05

【微服务】java中http调用组件深入实战详解

目录一、前言二、http调用概述 2.1 什么是http调用 2.1.1 http调用步骤 2.2 HTTP调用特点 2.3 HTTP调用应用场景三、微服务场景下http调用概述 3.1 微服务开发中http调用场景 3.2 微服务组件中http的应用四、常用的http调用组件 4.1 java中常用的http组件介绍 4…...

编程日记 2026/3/5 16:19:14

Python数据结构 ——字典

1.以下关于Python字典变量的定义中,正确的是（）。 A. d={[1,2]:1, [3,4]:3} B. d={1:as, 2:sf} C. d = {(1,2):1, (3,4):3} D. d={‘python’:1, 2:[tea, cat]} 答案：C。在Python中,字典是存储可变数量键值对的数据结构,通过字典类型实现映射,键必须是唯一的,必须是不可变数据…...

编程日记 2026/2/16 15:46:51

32、构造函数

1、用构造函数反复创建多个相同结果的对象问题如果想反复创建多个相同结构，但是内容不同的对象时，用{}创建会代码重复，及其不便于维护！ 解决今后只要想反复创建同一类型的多个相同结构不同内容的对象时，都用构造函…...

编程日记 2026/2/14 17:10:03

编程环境搭建专栏目录汇总

1.WindowsvscodeclineMCP配置 2. Cline使用openrouter报错：Error Unexpected API Response: The language model did not provide any assista...

编程日记 2026/2/15 12:41:49

app.config.globalProperties

目录一:基础使用 1、简介 2、使用 3、打印结果: 二:封装 1、创建一个.ts文件(utils/msg.ts) 2、在main.ts中全局注册 3、在页面中使用 4、打印结果一:基础使用 1、简介 app.config.globalProperties 是 Vue 3 应用实例（app）的一个配置属性&…...

编程日记 2026/3/2 1:32:28

C# GeneticSharp包

可以直接从nuget安装GeneticSharp包 GeneticSharp 遗传算法类库 GeneticSharp 是什么 GeneticSharp 是一个C#的遗传算法类库, 遗传算法Java著名的JMetal, Python也有JMetalPy和PyMoo, C#相对差一截, 稍微有名的是GeneticSharp库. GeneticSharp 的弱点: 不支持多目标优化没…...

编程日记 2026/2/15 9:02:18

Leetcode做题记录----3

1474、删除链表M个节点之后的N个节点思路： 1、两个循环解决问题第一个循环移动M个位置，第二个循环确定移动N个位置后的，然后将M位置的节点的next指向，N位置后的节点即可 2、注意边界条件和判空处理代码实现： pub…...

编程日记 2026/2/14 22:29:16

React（二）：JSX语法解析+综合案例

事件绑定 this绑定方式问题：在事件执行后，需获取当前类的对象中相关属性，此时需要this——当打印时，发现this为undefined,这又是为啥？ 假设有一个btnClick函数，但它并不是我们主动调用的，而是…...

编程日记 2026/2/15 13:00:59

Gitee重新远程连接仓库（Linux）

Gitee重新远程连接仓库（Linux） 因为虚拟机重新安装了一回，所以需要重新和远程仓库连接，在网上找了很久没有找到相关操作，自己实操成功，记录下本博客，帮助有需要的人确保新虚拟机安装Git 在新虚…...

编程日记 2026/3/1 11:02:52

Vitis HLS中的Array Partition与Array Reshape详解

Vitis HLS中的Array Partition与Array Reshape详解引言在高层次综合(HLS)设计中，数组是最常用的数据结构之一，但默认情况下，HLS会将数组映射到单个BRAM块，这会限制并行访问能力，成为性能瓶颈。为了克服这一限制&am…...

编程日记 2026/3/4 15:43:50

Centos离线安装openssl

文章目录 Centos离线安装openssl1. openssl是什么？2. openssl下载地址3. openssl-devel安装4. 安装结果验证5. 版本查看 Centos离线安装openssl 1. openssl是什么？ OpenSSL 是一个开源的、跨平台的加密工具库和命令行工具集，广泛用于实现…...

编程日记 2026/2/15 6:34:44

安装 github官方链接 https://github.com/protocolbuffers/protobuf/ 以protobuf21为例 https://github.com/protocolbuffers/protobuf/releases/download/v21.11/protobuf-all-21.11.zip windows 解压好文件夹后,使用cmake,vs,qt creator等工具打开该项目,进行编译,编译需…...

编程日记 2026/2/14 21:32:06

《基于超高频RFID的图书馆管理系统的设计与实现》开题报告

一、研究背景与意义 1.研究背景随着信息化时代的到来，运用计算机科学技术实现图书馆的管理工作已成为优势。更加科学地管理图书馆会大大提高工作效率。我国的图书管理体系发展经历了三个阶段：传统图书管理模式、现代图书管理模式以及基于无线射频识别&…...

编程日记 2026/2/14 16:40:00

小程序渲染之谜：如何解决“加载中...”不消失的 Bug（glass-easel）

🎉 小程序渲染之谜：如何解决“加载中…”不消失的 Bug 🎉 引言在小程序开发中，渲染问题总能让人抓狂。😫 这次，我遇到了一个奇怪的 bug：产品详情页的内容已经正常显示，但页面却一…...

编程日记 2026/2/24 20:54:24

1. 确定目标：明确任务和数据

2. 选择预训练模型

3. 数据预处理

(1) 数据清洗与格式化

(2) 划分数据集

(3) 数据加载与批处理

4. 构建微调模型架构

(1) 加载预训练模型

(2) 修改模型尾部（适配任务）

(3) 冻结部分层（可选）

5. 设置训练参数

(1) 优化器与学习率

(2) 损失函数

(3) 其他超参数

6. 训练模型

(1) 定义训练循环

(2) 监控训练过程

7. 调整超参数（可选）

8. 评估与部署

(1) 模型评估

(2) 部署模型

9. 常见问题与解决方案

(1) 过拟合

(2) 欠拟合

(3) 计算资源不足

10. 总结：微调的流程图

附录：代码示例（文本分类）

关键点回顾

相关文章：