当前位置：首页 > article >正文

SFT与RL：AI训练的黄金搭档，何时介入才能事半功倍？

article 2026/5/19 3:44:40

本文探讨了SFT监督微调和RL强化学习在AI训练中的协同作用。SFT负责建立模型的基础能力确保其遵循格式和指令RL在此基础上优化输出质量使其更符合人类使用习惯。文章详细分析了何时进行RL训练最为合适以及过早或过晚进行RL训练可能带来的问题。此外还介绍了主流的训练路径和不同场景下的简单经验为AI模型的优化提供了实用指导。SFT 负责建立基础能力格式、指令遵循RL 在此基础上优化输出质量。两者不能互相替代。过早做 RL 会导致训练崩溃过晚做又会浪费算力。一、做RL的目的是啥和SFT有啥区别强化学习的本质是在已有策略的基础上通过奖励信号进行局部优化。这意味着RL 不是用来教会模型能做什么而是用来优化怎么做得更好。对比维度对比维度SFT监督微调RL强化学习/RLHF/DPO核心目标让模型听懂指令、按要求输出符合人类使用习惯优化生成质量强化安全合规学习机制token level学习目标内容复刻指令对应的回答模式以sequence level粒度依据外界反馈调整生成策略数据要求需准备“instructionanswer”的高质量配对样本需整理同一问题下“choosen/reject”回答的排序数据实际效果稳住输出底线避免模型胡乱作答、脱离指令突破基础baseline让回答更精准、更符合预期SFT没训好直接RL会有什么后果如果 SFT 后的模型连基本任务都完成不了RL 的探索空间会过大奖励信号过于稀疏训练会陷入低奖励陷阱模型几乎拿不到正向奖励梯度信号微弱策略崩塌模型为了避免惩罚退化到输出安全但无意义的内容KL 散度爆炸策略更新幅度过大偏离参考模型太远二、什么时候可以停止 SFT1. 格式和能力已对齐了能按要求输出指定格式JSON、代码块等不会答非所问比如指令理解准确率 85%如果这些还没达到RL 只会放大问题。2. 性能达到上限验证集Loss稳定不再有波动Pass Rate、准确率等关键指标多轮不再提升继续加数据出现过拟合训练集 Loss 降验证集 Loss 不降甚至反升同时SFT 的上限由数据集质量决定继续堆数据边际收益会越来越低。3. passk 明显高于 pass1两者差距大说明模型知道正确答案的形态但输出不稳定。RL 可以把偶尔正确变成稳定正确。也不是pass1 低就不能做 RL可以观察passk / pass1 的比值判断RL可以做的程度有多少三、当前的一些主流训练路径Deepseek R1训练过程从 DeepSeek-R1-Zero 的纯 RL 探索到 DeepSeek-R1 的“冷启动数据 - 第一阶段 RL - 拒绝采样与 SFT - 第二阶段 RL”的pipeline冷启动 SFT用几千到几万条高质量样本建立基础。比如数据构成参考这个配比指令遵循 30%、知识问答 30%、推理任务 20%、安全对齐 20%RL 阶段Reasoning RL代码、数学以结果校验为奖励信号GRPO 或 PPOPreference RL主观任务、对齐用 Reward Model 或人类排序数据循环迭代收集 RL 筛选出的高质量样本回头补一轮 SFT再继续 RL。DeepSeek-R1 和 Qwen2.5-Math 都走了这条路。四、来自不同场景的一些简单经验1. 代码生成任务SFT 目标模型能生成语法正确、逻辑基本合理的代码一般判断指标HumanEval / MBPP 上 pass1 30%语法错误率 10%能正确处理简单的边界条件RL 切入点用单元测试作为奖励信号通过测试 1否则 0引入过程奖励如 HCAPO对关键步骤如循环条件、递归终止给予额外奖励2. 多模态推理任务SFT 目标模型能看懂图片生成与图像相关的回答判断指标简单视觉问答如图中有几个苹果准确率 60%能生成包含视觉细节的描述不是泛泛而谈推理链中会引用图像内容如根据图中的三角形RL 切入点结合 GRPO 优化答案准确性参考案例 Qwen3-VL 的强化微调SFT 后在 MathVista 上约 45% 准确率GRPO 后提升到 58%。3. 长程 Agent 任务SFT 目标模型知道如何调用工具能完成简单任务判断指标单步工具调用成功率 70%5-10步任务完成率 30%能生成合法的工具调用参数JSON 格式正确RL 切入点引入过程奖励模型PRM对每一步动作打分案例 OpenClaw-RL 在工具调用任务上SFT 后完成率 17%引入 PRM 的 RL 后提升到 30%。AI行业迎来前所未有的爆发式增长从DeepSeek百万年薪招聘AI研究员到百度、阿里、腾讯等大厂疯狂布局AI Agent再到国家政策大力扶持数字经济和AI人才培养所有信号都在告诉我们AI的黄金十年真的来了在行业火爆之下AI人才争夺战也日趋白热化其就业前景一片蓝海我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取人才缺口巨大人力资源社会保障部有关报告显示据测算当前****我国人工智能人才缺口超过500万****供求比例达1∶10。脉脉最新数据也显示AI新发岗位量较去年初暴增29倍超1000家AI企业释放7.2万岗位……单拿今年的秋招来说各互联网大厂释放出来的招聘信息中我们就能感受到AI浪潮比如百度90%的技术岗都与AI相关就业薪资超高在旺盛的市场需求下AI岗位不仅招聘量大薪资待遇更是“一骑绝尘”。企业为抢AI核心人才薪资给的非常慷慨过去一年懂AI的人才普遍涨薪40%脉脉高聘发布的《2025年度人才迁徙报告》显示在2025年1月-10月的高薪岗位Top20排行中AI相关岗位占了绝大多数并且平均薪资月薪都超过6w在去年的秋招中小红书给算法相关岗位的薪资为50k起字节开出228万元的超高年薪据《2025年秋季校园招聘白皮书》AI算法类平均年薪达36.9万遥遥领先其他行业总结来说当前人工智能岗位需求多薪资高前景好。在职场里选对赛道就能赢在起跑线。抓住AI风口轻松实现高薪就业但现实却是仍有很多同学不知道如何抓住AI机遇会遇到很多就业难题比如❌ 技术过时只会CRUD的开发者在AI浪潮中沦为“职场裸奔者”❌ 薪资停滞初级岗位内卷到白菜价传统开发3年经验薪资涨幅不足15%❌ 转型无门想学AI却找不到系统路径83%自学党中途放弃。他们的就业难题解决问题的关键在于不仅要选对赛道更要跟对老师我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取

SFT与RL：AI训练的黄金搭档，何时介入才能事半功倍？

相关文章：

SFT与RL：AI训练的黄金搭档，何时介入才能事半功倍？

对比自行维护多个 API 密钥，使用 Taotoken 在管理上轻松许多

量子纠错与Floquet码：动态编码与ZX演算实践

Floquet量子码的动态纠错与时空同步技术解析

Cursor Pro终极破解教程：三步免费解锁AI编程助手完整指南

软考高级之系统架构师之系统安全性和保密性设计（二）

峡谷焕新：用R3nzSkin解锁英雄联盟个性化游戏体验

利用Taotoken模型广场为AIGC应用选择性价比最高的模型

AnyLogic新手避坑指南：搞懂‘空间逻辑’和‘层’，你的第一个行人仿真模型就成功了一半

事件相机技术原理与应用全解析

从Prompt到生产力：收藏这5个Agent工程要素，让大模型成为你的得力助手！

LOCAL_SENSITIVE_PATTERNS：不经过大模型的本地正则补强:开源免费的WPS AI 软件察元AI文档助手

开发者效率工具集claw：从Unix哲学到现代开发工作流集成

与拼写检查 JSON 路径的差异：为何保密检查走 Markdown 摘要链:开源免费的WPS AI 软件察元AI文档助手

35岁程序员亲历：AI时代如何避免踩坑？收藏这份避坑指南，小白也能看懂大模型！

Graph-CoT：图神经网络结合思维链，实现复杂图结构推理

避坑指南：Tina Linux下MIPI DSI与LVDS屏调试的那些‘坑’（以V853/D1s为例）

别再为OpenMV串口传图卡顿发愁了！手把手教你选对硬件（STM32 SWD vs TTL）并优化代码

避坑指南：为什么你的Realsense D435i视频流用VLC/EasyPlayer打不开？RTSP回传思翼MK15E的正确姿势

光子量子计算编译优化技术与自适应框架设计

【BUUCTF】【WEB】ReadlezPHP

从码农到技术总监：10年程序员的职业进化史

多智能体时代，Workflow 为什么开始失效？

选择智能体框架：LangChain、AutoGen、CrewAI、Dify对比

别让你的AI模型‘偏心’：用Python实战解决机器学习公平性问题（附代码）

防火门禁用行为管控及消防实用管理细则

NotebookLM能源知识图谱构建全链路（从PDF文献到可推理决策引擎）

NotebookLM审稿回复效率提升300%：用结构化Prompt工程重构Response框架（含可直接导入的Notion模板）

别再手动算q值了！用Excel地理探测器软件包，5分钟搞定空间分异分析

本地部署dify的Excel提取器出现以下问题：Error extracting from Excel workbook: Request URL is missing an ‘http://’ or