当前位置：首页 > article >正文

大模型微调新思路：强化学习（RFT）如何让AI更懂你？速看！

article 2026/3/17 17:55:06

本文介绍了强化学习微调RFT在大模型中的应用阐述了其训练过程演进及与SFT的对比。RFT通过奖励机制优化模型使其更符合人类偏好。文章详细解析了RFT的适用场景、奖励模型以及PPO、DPO、GRPO等优化算法并以GSM8K数据集为例展示了GRPO的实操步骤。通过RFT大模型在推理、结构化输出等方面表现更优助力AI智能化提升。大模型的强化学习微调一. RT强化学习1.1 训练过程的演进• 第一阶段self-supervised Learning这里我们可以理解为基座大模型输入人工智输出慧• 第二阶段supervised Learning这里就是SFT输入你是谁输出我• 第三阶段Reinforcement Learning, 强化学习输入世界上最高的山是输出喜马拉雅山而不是输出我不知道1.2 什么是RFTRFTreinforcement fine-tuning是强化学习微调。就是在已经预训练好的大模型基础上用 “奖励机制” 再训练一遍让模型越来越会做你想要它做的事。• Fine-tuning微调在已经训练好的模型上用少量数据再训练让模型更贴合你的任务• Reinforcement强化学习给模型回答的结果进行打分进行奖励/惩罚这里使用李宏毅老师的讲解RF的ppt我们就能很直观的了解RF是什么了1.3 为什么LLM需要RFT对于LLM来说什么样的输出才能算 “好文本”呢它不仅仅关乎语法或事实还关乎人类的品味、思路的连贯性、推理的正确性、消除输出中不必要的偏见等等。因此我们需要强化学习来帮忙LLM来适应符合人类的偏好• **人类来评判LLM而非公式**人类成为我们的“奖励函数”。• **学习人类的喜好**我们训练 LLM 生成人类更可能喜欢的文本。1.4 RFT和SFT的对比RFTSFT训练量级少于10010w以上训练时间更快漫长模型学习基于正反case进行迭代对于输入和输出的关联进行记忆类比教会了AI如何去思考行为用信息数据填充AI的脑子里面1.5 什么场景适用于RFT• 没有标签数据可以通过自己定义的验证代码来判别输出结果的正确性• 只有少量的标签数据没有足够的量级支持SFT• 需要COT来提升模型表现RFT能让COT的过程控制变短从而提升模型推理速度• 需要多个步骤的逻辑推理当需要模型需要一步一步进行决策的时候而不是简单的直接映射关系RFT更适合• 更快速的进行模型的迭代以更快的速度更短时间进行模型的实时迭代1.6 Function Call中RF的应用如果大家在项目中经常使用function call或者需要将大模型输出的结果进行二次解析的话经常就会遇到一个很蛋疼的问题那就是明明提示词写的就是让LLM输出指定的json结构的返回结果但是往往 LLM 最终输出的都是非结构化的数据。因此我们可以利用RF对模型进行训练专门强化输出结构化的推理结果。二. RT的演进2.1 奖励模型为什么需要奖励模型我们不能让人类在LLM的训练过程中对每个次训练迭代的输出结果进行评判那样会太慢了因此我们需要训练一个奖励模型——一个学习模仿人类偏好的AI评判模型• **奖励模型 AI 口味测试员**我们使用人类偏好数据对其进行训练。它会学习给人类倾向于喜欢的文本赋予更高的分数。• **强化学习算法使用奖励模型**诸如 PPO、DPO 和 GRPO 之类的算法使用这种奖励模型来指导语言学习模型 (LLM) 的学习。LLM 尝试生成能够获得 AI 评委高分的文本。2.2 PPOPPO论文https://arxiv.org/abs/1707.06347InstructGPT论文https://arxiv.org/abs/2203.02155这个是OpenAI在17年提出的近端策略优化 (PPO)到22年OpenAI提出了InstructGPT之后将 PPO 提升到了一个全新的高度。这篇论文展示了如何利用 PPO 根据人类偏好来微调大规模语言模型例如 GPT-3。InstructGPT 不再仅仅是预测下一个词而是学会了生成人类真正喜欢的文本——既有帮助又无害的文本。以下是PPO训练的步骤• 生成文本LLM通过不同提示词来生成推理的文本• 奖励模型对生成的文本进行评分。• 利用广义优势估计 (GAE)来计算优势它会考虑多个词的奖励平衡方差MC和偏差TD之间的权衡。这就像不仅在最后给予奖励而且在过程中也会对表现良好的“小步骤”给予奖励能计算每个词选择的提升幅度。• KL散度的惩罚新旧结果的差异很大会施加惩罚从而增强稳定性。• 更新价值函数训练价值函数使其准确地预测不同文本生成的“好坏”。2.3 DPODPO论文地址https://arxiv.org/abs/2305.18290这是斯坦福大学在24年7月发布的直接偏好优化 Direct Preference Optimization(DPO)• 直接DPO 就像直接告诉 LLM“ A 比 B 好。多像 A少像 B”它省去了策略更新步骤中的中间环节强化学习中用于策略优化的奖励模型。• 不需要迭代循环利用类似分类的损失——直接使用logits损失函数该函数直接比较两个模型的概率直接基于人类偏好数据优化 LLM2.4 GRPOGRPO论文https://arxiv.org/pdf/2402.03300这个是DeepSeek在24年8月发布的强化学习的方式Group Relative Policy OptimizationGRPO。GRPO基于PPO旨在简化RLHF训练流程使其速度更快尤其适用于复杂的推理任务。• 去掉了PPO的Value Model更加轻量高效• 核心Group Relative Policy Optimization不再通过分组分数来估算基线从而显著减少训练资源消耗。使用一组由 LLM 生成的针对同一提示的回答来评估每个回答相对于组内其他回答的“优劣” 。三. 基于GSM8K数据集的GRPO的实操3.1 数据准备这里用推荐的GSM8K数学问答的数据集from datasets import load_datasetdefextract_hash_answer(text): Extract numerical answer from GSM8K format (#### marker) if####notin text: returnNone return text.split(####)[1].strip()defprocess_dataset_example(example): Convert GSM8K example to conversation format for GRPO training question example[question] answer extract_hash_answer(example[answer]) prompt [ {role: system, content: system_prompt}, {role: user, content: question}, ] return { prompt: prompt, # Input conversation answer: answer, # Ground truth for reward functions }defload(): dataset load_dataset(openai/gsm8k, main, splittrain) # Apply conversation formatting to all examples dataset dataset.map(process_dataset_example) return dataset3.2 定义奖励机制实施四种互补的奖励函数来评估数学推理的不同方面格式完全匹配结构完全一致近似匹配格式元素部分得分答案正确性数学准确性分级评分数字提取解析和输出数值结果的能力这里举其中第一个例子def match_format_exactly(completions, **kwargs): 完美遵守格式可获得高额奖励3.0 确保模型学习完整的结构化输出模式 scores [] for completion in completions: response completion[0][content] # Check if response matches complete format pattern score 3.0 if match_format.search(response) is not None else 0.0 scores.append(score) return scores3.3 训练训练过程其实和sft很类似都是基于lora进行训练但是唯一差别就是定义了reward function# Configure GRPO training parameters for mathematical reasoningtraining_args GRPOConfig( learning_rate5e-6, per_device_train_batch_size2, gradient_accumulation_steps8, max_prompt_length1024, max_completion_length1024, max_steps10, logging_steps1, output_dir./trl_grpo_outputs, max_grad_norm0.1,)trainer GRPOTrainer( modelmodel, reward_funcs[ match_format_exactly, ], argstraining_args, train_datasetdataset, )2026年AI行业最大的机会毫无疑问就在应用层字节跳动已有7个团队全速布局Agent大模型岗位暴增69%年薪破百万腾讯、京东、百度开放招聘技术岗80%与AI相关……如今超过60%的企业都在推进AI产品落地而真正能交付项目的大模型应用开发工程师****却极度稀缺落地AI应用绝对不是写几个prompt调几个API就能搞定的企业真正需要的是能搞定这三项核心能力的人✅RAG融入外部信息修正模型输出给模型装靠谱大脑✅Agent智能体让AI自主干活通过工具调用Tools环境交互多步推理完成复杂任务。比如做智能客服等等……✅微调针对特定任务优化让模型适配业务目前脉脉上有超过1000家企业发布大模型相关岗位人工智能岗平均月薪7.8w实习生日薪高达4000远超其他行业收入水平技术的稀缺性才是你「值钱」的关键具备AI能力的程序员比传统开发高出不止一截有的人早就转行AI方向拿到百万年薪AI浪潮正在重构程序员的核心竞争力现在入场仍是最佳时机我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】⭐️从大模型微调到AI Agent智能体搭建剖析AI技术的应用场景用实战经验落地AI技术。从GPT到最火的开源模型让你从容面对AI技术革新大模型微调掌握主流大模型如DeepSeek、Qwen等的微调技术针对特定场景优化模型性能。学习如何利用领域数据如制造、医药、金融等进行模型定制提升任务准确性和效率。RAG应用开发深入理解检索增强生成Retrieval-Augmented Generation, RAG技术构建高效的知识检索与生成系统。应用于垂类场景如法律文档分析、医疗诊断辅助、金融报告生成等实现精准信息提取与内容生成。AI Agent智能体搭建学习如何设计和开发AI Agent实现多任务协同、自主决策和复杂问题解决。构建垂类场景下的智能助手如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等。如果你也有以下诉求快速链接产品/业务团队参与前沿项目构建技术壁垒从竞争者中脱颖而出避开35岁裁员危险期顺利拿下高薪岗迭代技术水平延长未来20年的新职业发展……那这节课你一定要来听因为留给普通程序员的时间真的不多了立即扫码即可免费预约「AI技术原理实战应用职业发展」「大模型应用开发实战公开课」还有靠谱的内推机会直聘权益完课后赠送大模型应用案例集、AI商业落地白皮书

大模型微调新思路：强化学习（RFT）如何让AI更懂你？速看！

相关文章：

大模型微调新思路：强化学习（RFT）如何让AI更懂你？速看！

qwen3-vl 大模型lora微调官方版

下载Anaconda与环境配置

毕业神器怎么选？国内篇看“毕业之家”

自学黑客的11个步骤，新手自学网络安全零基础入门到精通全干货解析，学黑客技术收藏这一篇就够了

【Java 开发日记】你分得清 Prompt、Agent、Function Call、Skill、MCP 吗？

气功点穴精粹

2026智能体技术入门指南：轻松掌握大模型驱动下的工业变革，速收藏！

Oxyde ORM：以 Rust 为核的类型安全异步 ORM 新势力

亚马逊AI编码事故引发服务中断，安全隐患亟待解决

2026年靠谱的iPaaS厂商有哪些？iPaaS系统集成产品综合分析和选型指南

MySQL 索引下推（Index Condition Pushdown, ICP）机制详解

问卷设计“智变”之旅：书匠策AI如何重塑学术调研新生态？

真实的重量：为何AI视频无法取代传统企业宣传片拍摄

OpenCV 案例六【道路裂缝检测】

问卷设计“新老对决”：书匠策AI如何重塑科研数据收集新生态？

AnswerThis：打造科学知识操作系统的新征程

别再手动调 Prompt 了！这款国产神器让 AI 输出质量提升 300%！免费开源！

大语言模型团队：分布式系统视角下的新突破

搜索之DFS

javafx中能有异步调用业务方法吗

2026年护理考试TOP5押题率高机构最新排名揭晓

fs-cli连接到不同的freeSwitch

书匠策AI：问卷设计领域的“匠心”与“智心”之争

PTA 6-12 二叉搜索树的操作集

前架构师转行AI风水师：给机房看罗盘——软件测试从业者的专业启示

摆脱浏览器书签混乱!Fenrus+cpolar解锁公网访问新玩法

计算机毕业设计java基于人脸识别的医疗保险系统的设计与实现基于面部识别技术的智慧医保服务平台的设计与开发融合生物特征识别的医疗健康保险管理系统的构建与实现

用Selenium操控寺庙：香火钱自动分账系统

数据类型之——变量