当前位置: 首页 > article >正文

AI 通关攻略 · 第 7 关 | Fine-tuning:如何把知识“训练“进 AI 大脑

AI 通关攻略 · 第 7 关 | Fine-tuning如何把知识训练进 AI 大脑故事从一个问题说起RAG 是给 LLM “看外部资料。那么有没有办法把知识直接训练进模型里让模型天生就懂”这就是 Fine-tuning微调 要解决的问题。什么是 Fine-tuningFine-tuning微调 是在已经预训练好的大模型基础上用特定领域的数据进行额外训练让模型在该领域的表现更专业。类比就像一个从医学院毕业的全科医生预训练模型再去进修眼科三个月微调成为眼科专家。全科医学知识还在但眼科变得特别强。和预训练的区别阶段预训练Pre-training微调Fine-tuning数据量海量互联网数据万亿 token少量特定领域数据数千~数万 token成本极高需要成百上千块 GPU 训练数月相对较低单卡或几块 GPU 训练数小时~数天目的让模型学会语言理解和世界知识让模型在特定任务上表现更好谁在做大公司如 OpenAI、Google企业或开发者为什么要 Fine-tuning2.1 预训练模型的局限知识过时训练数据有截止日期新知识模型不知道风格不对通用 LLM 的输出风格可能不符合企业需求行为不稳定同一问题可能每次回答风格差异大幻觉率高特定领域的问题容易胡说八道2.2 微调能解决什么目标微调能帮上忙吗让模型学会某个领域的专业术语和表达方式✅ 非常适合让模型输出格式始终保持一致✅ 非常适合让模型扮演特定角色如客服机器人✅ 非常适合给模型注入全新知识如最新的公司政策❌ 不适合用 RAG 更好减少幻觉⚠️ 有一定帮助但不如 RAG 彻底微调的分类3.1 SFT监督微调Supervised Fine-tuning最传统的方式用有标签的问答对直接训练模型。数据格式输入用户问题输出标准回答优点简单直接效果可预期缺点需要大量高质量标注数据3.2 RLHF人类反馈强化学习Reinforcement Learning from Human Feedback分三步SFT先用监督数据微调一个基础模型奖励模型让人类对模型输出打分训练一个奖励模型来模仿人类偏好PPO 强化学习用奖励模型指导模型优化输出这是 GPT-4、Claude 等顶尖模型训练的核心技术。ChatGPT 的对齐工作就是靠 RLHF 完成的。3.3 LoRALow-Rank Adaptation低秩适配最流行的微调方法尤其是对个人开发者和中小企业。核心思想不训练全部参数只训练一小部分低秩矩阵。对比项全参数微调LoRA训练参数量全部参数如 70B约 0.1%~1% 的参数GPU 显存需求极高需要多卡很低单卡可跑训练速度慢快效果可能更好效果接近全参数微调成本高低LoRA 的类比就像你想让一个人学会新技能全参数微调 重新训练这个人LoRA 给他戴上一副特殊的眼镜只调整少量参数就能解决问题。3.4 QLoRA量化 LoRA在 LoRA 的基础上加上了量化技术训练时把模型参数从 16 位浮点数FP16压缩到 4 位整数INT4进一步降低显存需求让在消费级 GPU如 RTX 3090/4090上微调超大模型成为可能这就是你在学习 OpenClaw 时接触到的技术。 QLoRA 使得在普通电脑上微调 7B、13B 甚至 70B 参数的模型成为现实。3.5 对比一览方法成本效果适用场景SFT中稳定有标注数据的特定任务RLHF极高最强对齐效果最好大厂对齐训练LoRA低接近全参数微调快速微调、中小企业QLoRA极低接近 LoRA个人开发者、消费级 GPU微调的数据准备微调效果好不好数据质量是决定性因素。4.1 数据格式以对话格式为例{“messages”: [{“role”: “system”, “content”: “你是一个专业的法律顾问”},{“role”: “user”, “content”: “合同违约金最高是多少”},{“role”: “assistant”, “content”: “根据《民法典》第五百八十五条…”}]}4.2 数据质量要求要求说明格式一致所有数据保持相同的格式role、content 字段要统一质量高避免错误答案、模糊回答、无关内容风格统一回答的语气、格式、长度要一致适量通常 1000~10000 条高质量数据比 100000 条低质量数据效果好4.3 数据量参考模型规模建议数据量训练时间单卡7B 参数1000~5000 条2~8 小时13B 参数3000~10000 条6~24 小时70B 参数5000~20000 条1~7 天微调 vs RAG这是最常见的对比对比项微调Fine-tuningRAG检索增强生成本质改变模型参数不改变模型增加外部知识知识更新需要重新训练更新知识库无需重训成本较高GPU 训练低向量数据库 检索幻觉减少有一定帮助效果更好基于真实文档适合注入行为模式、风格、特定领域表达实时数据、私有知识、大规模文档冷启动速度慢需要训练快即刻可用最佳实践两者结合RAG → 提供实时知识和事实依据Fine-tuning → 优化回答风格和行为模式举个例子医疗 AI 助手RAG 让它能准确引用最新的医学指南和论文Fine-tuning 让它用专业医生的语气和逻辑思考方式回答微调的常见工具工具特点OpenClaw国产 QLoRA 微调工具支持消费级 GPU适合中文场景LLaMA Factory开源支持多种微调方法中文友好Axolotl开源微调框架支持主流模型Unsloth加速微调显存占用更低Fireworks.ai云端微调服务无需 GPU微调的局限性7.1 不能注入全新知识微调可以让模型更像某个领域的专家但不能可靠地灌输大量新事实。例子你想让模型记住我们公司 CEO 是张三。微调可能让模型更容易说对但不如 RAG 可靠。事实性知识的注入更适合用 RAG。7.2 灾难性遗忘微调可能导致模型忘记预训练时学到的通用能力。解决使用 LoRA/QLoRA只训练少量参数全参数冻结大幅缓解遗忘问题。7.3 训练不稳定模型可能变得不稳定、产生幻觉、或者丧失对话能力“灾难性遗忘”。解决做好质量评估Evals逐步增加训练步数发现问题及时回滚。总结Fine-tuning 在预训练模型基础上 特定领域数据 继续训练 → 专业化主流方法 QLoRA低显存 高效果 低成本最佳拍档 RAG知识 Fine-tuning风格什么时候选微调需要统一输出风格和行为模式特定领域的专业表达方式需要模型更像某个角色不需要频繁更新知识什么时候选 RAG需要实时或大规模知识需要引用权威文档知识需要经常更新需要严格的事实准确性

相关文章:

AI 通关攻略 · 第 7 关 | Fine-tuning:如何把知识“训练“进 AI 大脑

AI 通关攻略 第 7 关 | Fine-tuning:如何把知识"训练"进 AI 大脑 故事从一个问题说起 RAG 是给 LLM “看"外部资料。那么有没有办法把知识直接训练进模型里,让模型"天生就懂”? 这就是 Fine-tuning(微调&…...

嵌入式轻量级软定时器:基于16位Timer1的非阻塞延时库

1. 项目概述 LCD_Wait 是一个面向资源受限嵌入式系统的轻量级延时函数库,其核心设计目标是 规避对32位通用定时器(如Timer 0)的依赖,转而复用16位定时器(Timer 1)实现高精度、可重入、非阻塞式等待功能 …...

【CDA干货】别再死磕 Excel 函数了!5分钟学会数据透视表,轻松搞定多维度数据分析

写公式太烧脑?函数太多记不牢?在日常办公中,我们经常需要对大量数据进行多维度汇总分析——比如统计员工的日均产量、最高产量、最低产量,或是按部门、日期汇总业绩。手动计算不仅耗时费力,还容易出错。其实80%的日常分…...

解锁4大核心能力:让Joy-Con Toolkit成为你的Switch全能管理助手

解锁4大核心能力:让Joy-Con Toolkit成为你的Switch全能管理助手 【免费下载链接】jc_toolkit Joy-Con Toolkit 项目地址: https://gitcode.com/gh_mirrors/jc/jc_toolkit 价值定位:重新定义Switch玩家的工具体验 在Nintendo Switch的玩家世界里&…...

不会剪辑没关系,可灵 AI 让你的创意直接“动”起来

在这个内容爆炸的时代,我们都有一种“创意焦虑”。脑海中那些画面和故事,都因为拍摄成本、剪辑,或是时间精力不足,停留在草稿箱里。但今天,我想和大家聊一个已经在改变游戏规则的工具——可灵AI。作为快手团队倾力打造…...

Ajax如何发送列表数据

在Web开发中,经常需要将列表形式的数据(如数组、对象集合等)通过Ajax发送到服务器。本文将详细介绍不同场景下如何使用Ajax发送列表数据,包括原生JavaScript、jQuery和现代Fetch API的实现方式,并探讨常见问题及解决方…...

LFM2.5-1.2B-Thinking-GGUF参数详解:中文长文本生成时repetition_penalty建议

LFM2.5-1.2B-Thinking-GGUF参数详解:中文长文本生成时repetition_penalty建议 1. 模型概述 LFM2.5-1.2B-Thinking-GGUF是Liquid AI推出的轻量级文本生成模型,特别适合在资源有限的环境中快速部署和使用。该模型采用GGUF格式存储,通过内置的…...

3分钟解决机械键盘连击问题:Keyboard Chatter Blocker终极指南

3分钟解决机械键盘连击问题:Keyboard Chatter Blocker终极指南 【免费下载链接】KeyboardChatterBlocker A handy quick tool for blocking mechanical keyboard chatter. 项目地址: https://gitcode.com/gh_mirrors/ke/KeyboardChatterBlocker 你的机械键盘…...

人机协作新范式:2026 最新降AIGC软件测评与推荐

2026年真正好用的AI论文降重与改写工具,核心看降重效果、去AI味、格式保留、学术适配四大指标。综合实测,千笔AI、ThouPen、豆包、DeepSeek、Grammarly 是当前最值得推荐的梯队,覆盖从免费到付费、从中文到英文、从文科到理工的全场景需求。 …...

Sign in with Apple审核避雷手册:从代码到App Store上架全流程注意事项

Sign in with Apple审核避雷手册:从代码到App Store上架全流程注意事项 在iOS生态中,苹果登录(Sign in with Apple)已成为提升用户体验和隐私保护的重要功能。然而,许多开发者在实现过程中常因细节疏忽导致审核被拒。本…...

Hunyuan-MT-7B保姆级教程:从镜像下载到Web界面调用全流程

Hunyuan-MT-7B保姆级教程:从镜像下载到Web界面调用全流程 1. 准备工作与环境检查 1.1 硬件与系统要求 在开始部署Hunyuan-MT-7B翻译大模型前,请确保您的环境满足以下基本要求: GPU配置:至少24GB显存的NVIDIA显卡(如…...

大麦抢票终极方案:Python自动化技术深度解析与实战指南

大麦抢票终极方案:Python自动化技术深度解析与实战指南 【免费下载链接】ticket-purchase 大麦自动抢票,支持人员、城市、日期场次、价格选择 项目地址: https://gitcode.com/GitHub_Trending/ti/ticket-purchase 在热门演出门票秒光的今天&#…...

Google谷歌平台接收二次验证码方法!有什么好用的身份验证器?

谷歌平台大力推行二次验证。传统上,大家可能会使用Google Authenticator这类应用来生成二次验证码。Google Authenticator虽然是一款经典的二次验证码生成应用,但在使用过程中存在一些不便之处。例如,它需要在手机上单独安装应用,…...

HunyuanVideo-Foley社区贡献指南:ComfyUI节点开发实战

HunyuanVideo-Foley社区贡献指南:ComfyUI节点开发实战 【免费下载链接】HunyuanVideo-Foley HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation. 项目地址: https://gitcode.com/gh_mirrors/hu/…...

Win11Debloat:革命性系统优化工具的深度解析与实战指南

Win11Debloat:革命性系统优化工具的深度解析与实战指南 【免费下载链接】Win11Debloat 一个简单的PowerShell脚本,用于从Windows中移除预装的无用软件,禁用遥测,从Windows搜索中移除Bing,以及执行各种其他更改以简化和…...

RWKV7-1.5B-G1A快速部署在Windows:利用WSL2搭建Linux模型运行环境

RWKV7-1.5B-G1A快速部署在Windows:利用WSL2搭建Linux模型运行环境 1. 为什么选择WSL2部署RWKV模型 如果你是一名Windows用户,想要体验最新的RWKV7-1.5B-G1A模型,可能会遇到一个尴尬的问题:大多数AI模型都是为Linux环境设计的。传…...

all-MiniLM-L6-v2效果实测:小模型也能做高质量的语义搜索

all-MiniLM-L6-v2效果实测:小模型也能做高质量的语义搜索 1. 引言:小身材大能量的语义模型 在自然语言处理领域,语义搜索一直是个热门话题。传统方法往往需要依赖庞大的模型资源,让很多开发者望而却步。今天我们要实测的all-Min…...

泊松重建 vs Alpha Shapes:手把手教你用Python为不同场景选择最优点云建模算法

泊松重建 vs Alpha Shapes:Python实战指南与场景化算法选型 当面对一个机械零件或雕塑的点云数据时,开发者常陷入算法选择的困境——泊松重建生成的平滑表面令人赞叹,而Alpha Shapes勾勒的锐利边界同样不可替代。这两种主流算法在Open3D中的实…...

SEO_新手入门必看的SEO优化基础教程(131 )

SEO优化基础:什么是SEO? SEO,全称搜索引擎优化(Search Engine Optimization),是一项旨在提高网站在搜索引擎结果页面(SERP)中排名的技术。SEO优化的目标是增加网站的可见性&#xff…...

智能体做客服如何接入微信:基于AI辅助开发的高效实现方案

背景痛点:为什么接入微信客服这么“磨人”? 将AI智能体打造成微信客服,听起来是个很酷的点子,但真动手做起来,开发者往往会遇到几个让人头疼的“拦路虎”。 首先就是微信开放平台的接口复杂性。微信为了安全和生态&…...

WPS JS宏新玩法:用Fetch API轻松爬取B站数据并自动生成Excel报表

WPS JS宏新玩法:用Fetch API轻松爬取B站数据并自动生成Excel报表 在数字化办公时代,数据采集与分析能力已成为职场人士的核心竞争力。传统的数据收集往往需要手动复制粘贴,既耗时又容易出错。而WPS Office最新版本引入的JavaScript Fetch API…...

3步打造你的移动监控站:Android USB OTG相机从零到应用全指南

3步打造你的移动监控站:Android USB OTG相机从零到应用全指南 【免费下载链接】Android-USB-OTG-Camera 项目地址: https://gitcode.com/gh_mirrors/an/Android-USB-OTG-Camera Android USB OTG相机项目是一个基于UVCCamera技术的开源解决方案,让…...

5分钟快速上手WVP-GB28181-Pro:新手必学的国标视频监控平台部署指南

5分钟快速上手WVP-GB28181-Pro:新手必学的国标视频监控平台部署指南 【免费下载链接】wvp-GB28181-pro 项目地址: https://gitcode.com/GitHub_Trending/wv/wvp-GB28181-pro 你是否曾被多品牌摄像头无法统一管理的困扰所困扰?是否因为传统监控系…...

G-Helper神器:解决华硕ROG笔记本色彩配置丢失完全指南

G-Helper神器:解决华硕ROG笔记本色彩配置丢失完全指南 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地址…...

深度学习环境搭建指南:PyTorch 2.9镜像+国内源优化方案

深度学习环境搭建指南:PyTorch 2.9镜像国内源优化方案 1. PyTorch 2.9镜像概述 PyTorch作为当前最流行的深度学习框架之一,其2.9版本带来了多项性能优化和新特性。对于国内开发者而言,直接从官方源安装往往会遇到下载速度慢、依赖包安装失败…...

智能客服Agent建设实战:从架构设计到性能优化的全流程指南

最近在做一个智能客服系统的升级项目,客户那边反馈高峰期响应特别慢,用户排队时间很长。经过一番折腾,我们最终通过一套新的Agent架构,把整体响应速度提升了40%以上。今天就来聊聊我们是怎么做的,把从架构设计到性能优…...

ChatTTS 实战:如何高效管理 requirements.txt 依赖与版本冲突

在 Python 项目里摸爬滚打久了,最怕听到的一句话可能就是:“在我电脑上是好的呀!” 尤其是像 ChatTTS 这样集成了音频处理、深度学习模型等复杂依赖的项目,依赖管理要是没做好,从开发到部署,每一步都可能踩…...

mysql自动备份与还原

Mysql自动备份1.选中数据库,点自动运行2.新建批处理作业3.选择备份数据库4.先点保存5.起一个任务名称6.选择如下7.点触发器,设置备份间隔时间8.点击保存即可Mysql还原1.选择数据库,点击备份2.选择要还原的数据节点,点击还原即可...

PLC毕业设计效率提升实战:从重复编码到模块化开发的演进

最近在指导几位学弟学妹做PLC毕业设计时,发现一个普遍现象:大家往往把大量时间花在了重复写代码和“抓虫”调试上,项目进度缓慢,人也疲惫不堪。这让我回想起自己当初做毕设时踩过的坑,以及后来在工作中摸索出的一套效率…...

openClaw工作原理笔记

🌟 首先了解:什么是 OpenClaw? OpenClaw 是一个跨平台、多通道聊天代理系统,可让你用同一套 AI 机器人或智能助手,在多个地方(如 WhatsApp、Telegram、Discord)运行。它不仅接收消息&#xff0c…...