当前位置: 首页 > article >正文

SFT与RL:AI训练的黄金搭档,何时介入才能事半功倍?

本文探讨了SFT监督微调和RL强化学习在AI训练中的协同作用。SFT负责建立模型的基础能力确保其遵循格式和指令RL在此基础上优化输出质量使其更符合人类使用习惯。文章详细分析了何时进行RL训练最为合适以及过早或过晚进行RL训练可能带来的问题。此外还介绍了主流的训练路径和不同场景下的简单经验为AI模型的优化提供了实用指导。SFT 负责建立基础能力格式、指令遵循RL 在此基础上优化输出质量。两者不能互相替代。过早做 RL 会导致训练崩溃过晚做又会浪费算力。一、做RL的目的是啥和SFT有啥区别强化学习的本质是在已有策略的基础上通过奖励信号进行局部优化。这意味着RL 不是用来教会模型能做什么而是用来优化怎么做得更好。对比维度对比维度SFT监督微调RL强化学习/RLHF/DPO核心目标让模型听懂指令、按要求输出符合人类使用习惯优化生成质量强化安全合规学习机制token level学习目标内容复刻指令对应的回答模式以sequence level粒度依据外界反馈调整生成策略数据要求需准备“instructionanswer”的高质量配对样本需整理同一问题下“choosen/reject”回答的排序数据实际效果稳住输出底线避免模型胡乱作答、脱离指令突破基础baseline让回答更精准、更符合预期SFT没训好直接RL会有什么后果如果 SFT 后的模型连基本任务都完成不了RL 的探索空间会过大奖励信号过于稀疏训练会陷入低奖励陷阱模型几乎拿不到正向奖励梯度信号微弱策略崩塌模型为了避免惩罚退化到输出安全但无意义的内容KL 散度爆炸策略更新幅度过大偏离参考模型太远二、什么时候可以停止 SFT1. 格式和能力已对齐了能按要求输出指定格式JSON、代码块等不会答非所问比如指令理解准确率 85%如果这些还没达到RL 只会放大问题。2. 性能达到上限验证集Loss稳定不再有波动Pass Rate、准确率等关键指标多轮不再提升继续加数据出现过拟合训练集 Loss 降验证集 Loss 不降甚至反升同时SFT 的上限由数据集质量决定继续堆数据边际收益会越来越低。3. passk 明显高于 pass1两者差距大说明模型知道正确答案的形态但输出不稳定。RL 可以把偶尔正确变成稳定正确。也不是pass1 低就不能做 RL可以观察passk / pass1 的比值判断RL可以做的程度有多少三、当前的一些主流训练路径Deepseek R1训练过程从 DeepSeek-R1-Zero 的纯 RL 探索到 DeepSeek-R1 的“冷启动数据 - 第一阶段 RL - 拒绝采样与 SFT - 第二阶段 RL”的pipeline冷启动 SFT用几千到几万条高质量样本建立基础。比如数据构成参考这个配比指令遵循 30%、知识问答 30%、推理任务 20%、安全对齐 20%RL 阶段Reasoning RL代码、数学以结果校验为奖励信号GRPO 或 PPOPreference RL主观任务、对齐用 Reward Model 或人类排序数据循环迭代收集 RL 筛选出的高质量样本回头补一轮 SFT再继续 RL。DeepSeek-R1 和 Qwen2.5-Math 都走了这条路。四、来自不同场景的一些简单经验1. 代码生成任务SFT 目标 模型能生成语法正确、逻辑基本合理的代码一般判断指标HumanEval / MBPP 上 pass1 30%语法错误率 10%能正确处理简单的边界条件RL 切入点用单元测试作为奖励信号通过测试 1否则 0引入过程奖励如 HCAPO对关键步骤如循环条件、递归终止给予额外奖励2. 多模态推理任务SFT 目标 模型能看懂图片生成与图像相关的回答判断指标简单视觉问答如图中有几个苹果准确率 60%能生成包含视觉细节的描述不是泛泛而谈推理链中会引用图像内容如根据图中的三角形RL 切入点结合 GRPO 优化答案准确性参考案例 Qwen3-VL 的强化微调SFT 后在 MathVista 上约 45% 准确率GRPO 后提升到 58%。3. 长程 Agent 任务SFT 目标 模型知道如何调用工具能完成简单任务判断指标单步工具调用成功率 70%5-10步任务完成率 30%能生成合法的工具调用参数JSON 格式正确RL 切入点引入过程奖励模型PRM对每一步动作打分案例 OpenClaw-RL 在工具调用任务上SFT 后完成率 17%引入 PRM 的 RL 后提升到 30%。AI行业迎来前所未有的爆发式增长从DeepSeek百万年薪招聘AI研究员到百度、阿里、腾讯等大厂疯狂布局AI Agent再到国家政策大力扶持数字经济和AI人才培养所有信号都在告诉我们AI的黄金十年真的来了在行业火爆之下AI人才争夺战也日趋白热化其就业前景一片蓝海我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取人才缺口巨大人力资源社会保障部有关报告显示据测算当前****我国人工智能人才缺口超过500万****供求比例达1∶10。脉脉最新数据也显示AI新发岗位量较去年初暴增29倍超1000家AI企业释放7.2万岗位……单拿今年的秋招来说各互联网大厂释放出来的招聘信息中我们就能感受到AI浪潮比如百度90%的技术岗都与AI相关就业薪资超高在旺盛的市场需求下AI岗位不仅招聘量大薪资待遇更是“一骑绝尘”。企业为抢AI核心人才薪资给的非常慷慨过去一年懂AI的人才普遍涨薪40%脉脉高聘发布的《2025年度人才迁徙报告》显示在2025年1月-10月的高薪岗位Top20排行中AI相关岗位占了绝大多数并且平均薪资月薪都超过6w在去年的秋招中小红书给算法相关岗位的薪资为50k起字节开出228万元的超高年薪据《2025年秋季校园招聘白皮书》AI算法类平均年薪达36.9万遥遥领先其他行业总结来说当前人工智能岗位需求多薪资高前景好。在职场里选对赛道就能赢在起跑线。抓住AI风口轻松实现高薪就业但现实却是仍有很多同学不知道如何抓住AI机遇会遇到很多就业难题比如❌ 技术过时只会CRUD的开发者在AI浪潮中沦为“职场裸奔者”❌ 薪资停滞初级岗位内卷到白菜价传统开发3年经验薪资涨幅不足15%❌ 转型无门想学AI却找不到系统路径83%自学党中途放弃。他们的就业难题解决问题的关键在于不仅要选对赛道更要跟对老师我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取

相关文章:

SFT与RL:AI训练的黄金搭档,何时介入才能事半功倍?

本文探讨了SFT(监督微调)和RL(强化学习)在AI训练中的协同作用。SFT负责建立模型的基础能力,确保其遵循格式和指令;RL在此基础上优化输出质量,使其更符合人类使用习惯。文章详细分析了何时进行RL…...

对比自行维护多个 API 密钥,使用 Taotoken 在管理上轻松许多

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比自行维护多个 API 密钥,使用 Taotoken 在管理上轻松许多 作为一名个人开发者,我曾长期在多个大模型服务…...

量子纠错与Floquet码:动态编码与ZX演算实践

1. 量子纠错与Floquet码基础量子纠错码是构建容错量子计算机的核心技术。与传统纠错码不同,量子态具有不可克隆特性,使得量子纠错必须采用特殊方法。稳定子码(Stabilizer Codes)是目前最成熟的量子纠错方案,通过测量多…...

Floquet量子码的动态纠错与时空同步技术解析

1. Floquet量子码的时空同步原理在量子纠错领域,Floquet码代表了一种通过周期性测量实现动态稳定的新型编码方案。与传统静态量子纠错码不同,Floquet码的核心创新在于将时间维度纳入编码结构,形成时空一体的纠错机制。这种动态特性使其在容错…...

Cursor Pro终极破解教程:三步免费解锁AI编程助手完整指南

Cursor Pro终极破解教程:三步免费解锁AI编程助手完整指南 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached your …...

软考高级之系统架构师之系统安全性和保密性设计(二)

认证 PKI/CA 参考PKI/CA体系介绍。 Kerberos Kerberos是一种网络认证协议,其设计目标是通过密钥系统为客户机/服务器应用程序提供强大的认证服务。该认证过程的实现不依赖于主机操作系统的认证,无需基于主机地址的信任,不要求网络上所有主…...

峡谷焕新:用R3nzSkin解锁英雄联盟个性化游戏体验

峡谷焕新:用R3nzSkin解锁英雄联盟个性化游戏体验 【免费下载链接】R3nzSkin-For-China-Server Skin changer for League of Legends (LOL) 项目地址: https://gitcode.com/gh_mirrors/r3/R3nzSkin-For-China-Server 在英雄联盟的召唤师峡谷中,每一…...

利用Taotoken模型广场为AIGC应用选择性价比最高的模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 利用Taotoken模型广场为AIGC应用选择性价比最高的模型 为AIGC应用选择合适的大语言模型,是平衡生成效果与开发成本的关…...

AnyLogic新手避坑指南:搞懂‘空间逻辑’和‘层’,你的第一个行人仿真模型就成功了一半

AnyLogic行人仿真空间逻辑完全解析:从概念混淆到精准建模 第一次打开AnyLogic的行人仿真模块时,那个充满蓝色网格的3D空间和密密麻麻的参数面板,很容易让人产生一种错觉——这不过是个"高级版流程图工具"。直到亲眼目睹自己精心设计…...

事件相机技术原理与应用全解析

1. 事件相机技术概述事件相机(Event Camera)是一种革命性的视觉传感器,它彻底改变了传统相机的图像采集方式。与普通相机不同,事件相机不会以固定帧率捕获完整的图像帧,而是异步检测每个像素的亮度变化。当某个像素位置…...

从Prompt到生产力:收藏这5个Agent工程要素,让大模型成为你的得力助手!

本文深入探讨了Agent在大模型应用中的工程要素,指出许多团队仅将Agent视为高级Prompt,导致工具调用脱节、状态丢失等问题。文章详细解析了函数/工具调用、工作流编排、RAG、记忆与状态管理、权限与安全边界这五个关键方面,强调了从Demo到产品…...

LOCAL_SENSITIVE_PATTERNS:不经过大模型的本地正则补强:开源免费的WPS AI 软件 察元AI文档助手

LOCAL_SENSITIVE_PATTERNS:不经过大模型的本地正则补强 摘要 本文围绕标题所述主题,结合本仓库当前源码行进行说明。仅供技术理解与内部培训,不构成定密、法务或密码测评结论。文中代码块均摘自本地仓库对应路径与行号。 正文 0. 结论先行 结论先行:保密检查由内置助手…...

开发者效率工具集claw:从Unix哲学到现代开发工作流集成

1. 项目概述:一个为开发者打造的“瑞士军刀”式工具集最近在GitHub上闲逛,发现了一个名为opsyhq/claw的项目,它的名字和图标(一个爪子)一下子就抓住了我的眼球。点进去一看,简介很简单:“A coll…...

与拼写检查 JSON 路径的差异:为何保密检查走 Markdown 摘要链:开源免费的WPS AI 软件 察元AI文档助手

与拼写检查 JSON 路径的差异:为何保密检查走 Markdown 摘要链 摘要 本文围绕标题所述主题,结合本仓库当前源码行进行说明。仅供技术理解与内部培训,不构成定密、法务或密码测评结论。文中代码块均摘自本地仓库对应路径与行号。 正文 0. 结论先行 结论先行:保密检查由内…...

35岁程序员亲历:AI时代如何避免踩坑?收藏这份避坑指南,小白也能看懂大模型!

作者作为一名有十多年经验的程序员,分享了自己在AI快速发展背景下,利用GPT Pro和Deep Research进行产品调研的经历。文章指出,仅依靠AI工具并不足以成功,更重要的是要找到真实的市场痛点和需求。作者通过实际案例分析了纯工具类、…...

Graph-CoT:图神经网络结合思维链,实现复杂图结构推理

1. 项目概述:当图神经网络遇上思维链推理最近在复现和优化一些图相关的推理任务时,我反复遇到了一个瓶颈:传统的图神经网络模型在处理需要多步逻辑推理的问题时,比如社交网络中的影响力传播预测、知识图谱上的复杂问答&#xff0c…...

避坑指南:Tina Linux下MIPI DSI与LVDS屏调试的那些‘坑’(以V853/D1s为例)

Tina Linux下MIPI DSI与LVDS屏调试实战避坑指南(V853/D1s开发板为例) 1. 高速差分接口调试的"死亡陷阱" 当V853开发板首次连接那块7英寸MIPI屏时,我遭遇了职业生涯最诡异的显示故障——屏幕上半部正常显示,下半部却呈现…...

别再为OpenMV串口传图卡顿发愁了!手把手教你选对硬件(STM32 SWD vs TTL)并优化代码

OpenMV串口传图性能优化实战:从硬件选型到代码调优 当你在实验室调试OpenMV串口传图项目时,是否经历过这样的场景:图像传输像老式拨号上网一样缓慢,帧率低得让人怀疑人生,调试界面卡成PPT?这背后往往隐藏着…...

避坑指南:为什么你的Realsense D435i视频流用VLC/EasyPlayer打不开?RTSP回传思翼MK15E的正确姿势

深度解析:Realsense D435i视频流RTSP传输的兼容性陷阱与实战解决方案 当你在无人机项目中尝试通过RTSP协议传输Realsense D435i的实时视频流时,是否遇到过VLC或EasyPlayer无法正常播放的困扰?这种看似简单的视频流传输背后,隐藏着…...

光子量子计算编译优化技术与自适应框架设计

1. 光子量子计算编译技术概述光子量子计算作为量子计算的重要实现路径之一,其独特的室温运行特性和优异的光子传输性能使其在分布式量子计算领域具有天然优势。在测量基量子计算(MBQC)范式中,量子计算过程被转化为对特定纠缠态&am…...

【BUUCTF】【WEB】ReadlezPHP

考点:打开题目,发现页面有点阴森:右键没有任何反应,那就右上角三个点:更多工具->开发者工具OK没有任何线索,那就用bp看看。拉倒最下面,发现右下角一个文件./time.php?source这可能是一个线索…...

从码农到技术总监:10年程序员的职业进化史

一、初入职场:在代码与bug中蹒跚学步2016年的夏天,我背着双肩包,攥着毕业证,走进了一家中型软件公司的大门,成为了一名Java开发程序员,也就是别人口中的“码农”。那时候,我的生活被代码和bug填…...

多智能体时代,Workflow 为什么开始失效?

子玥酱 (掘金 / 知乎 / CSDN / 简书 同名) 大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚…...

选择智能体框架:LangChain、AutoGen、CrewAI、Dify对比

去年秋天,我们团队准备上一个新项目,一个可以为客户自动生成月度运营分析报告的智能体。需求不复杂,就是每周从数据库里拉点数据,跑一下趋势分析,最后产出一个带图表和结论的PDF。 我那时候刚花了三个月时间把LangCha…...

别让你的AI模型‘偏心’:用Python实战解决机器学习公平性问题(附代码)

别让你的AI模型‘偏心’:用Python实战解决机器学习公平性问题(附代码) 在信贷审批系统中,女性申请者的通过率比男性低23%;在招聘算法中,35岁以上候选人的简历筛选通过率骤降40%——这些真实案例揭示了一个残…...

防火门禁用行为管控及消防实用管理细则

第一章 总则第一条 制定目的为严格规范防火门日常使用、巡查、维护、管控工作,杜绝违规封堵、常开、损坏、挪用等禁用行为,落实消防安全主体责任,保障疏散通道、安全出口畅通,防范火灾蔓延扩散,依据《建筑设计防火规范…...

NotebookLM能源知识图谱构建全链路(从PDF文献到可推理决策引擎)

更多请点击: https://kaifayun.com 第一章:NotebookLM能源知识图谱构建全链路(从PDF文献到可推理决策引擎) NotebookLM 作为 Google 推出的面向研究者的 AI 原生笔记工具,其核心能力在于对用户上传文档进行语义理解与…...

NotebookLM审稿回复效率提升300%:用结构化Prompt工程重构Response框架(含可直接导入的Notion模板)

更多请点击: https://intelliparadigm.com 第一章:NotebookLM审稿意见回复的范式变革 从线性批注到语义驱动的协同迭代 NotebookLM 不再将审稿意见视为静态文本批注,而是将其作为结构化知识图谱的输入节点。当用户上传论文 PDF 与审稿人意见…...

别再手动算q值了!用Excel地理探测器软件包,5分钟搞定空间分异分析

别再手动算q值了!用Excel地理探测器软件包,5分钟搞定空间分异分析 地理空间数据分析中,识别变量间的分异特征和驱动因子一直是研究难点。传统方法依赖复杂公式推导和编程实现,让许多研究者望而却步。而地理探测器(Geod…...

本地部署dify的Excel提取器出现以下问题:Error extracting from Excel workbook: Request URL is missing an ‘http://’ or

本地部署dify的Excel提取器出现以下问题:An error occurred in the samanhappy/excel_process/excel_process, please contact the author of samanhappy/excel_process/excel_process for help, error type: Exception, error details: Error extracting from Exce…...