当前位置: 首页 > article >正文

大模型微调新思路:强化学习(RFT)如何让AI更懂你?速看!

本文介绍了强化学习微调RFT在大模型中的应用阐述了其训练过程演进及与SFT的对比。RFT通过奖励机制优化模型使其更符合人类偏好。文章详细解析了RFT的适用场景、奖励模型以及PPO、DPO、GRPO等优化算法并以GSM8K数据集为例展示了GRPO的实操步骤。通过RFT大模型在推理、结构化输出等方面表现更优助力AI智能化提升。大模型的强化学习微调一. RT强化学习1.1 训练过程的演进• 第一阶段self-supervised Learning这里我们可以理解为基座大模型输入人工智输出慧• 第二阶段supervised Learning这里就是SFT输入你是谁输出我• 第三阶段Reinforcement Learning, 强化学习输入世界上最高的山是输出喜马拉雅山而不是输出 我不知道1.2 什么是RFTRFTreinforcement fine-tuning是强化学习微调。就是在已经预训练好的大模型基础上用 “奖励机制” 再训练一遍让模型越来越会做你想要它做的事。• Fine-tuning微调在已经训练好的模型上用少量数据再训练让模型更贴合你的任务• Reinforcement强化学习给模型回答的结果进行打分进行奖励/惩罚这里使用李宏毅老师的讲解RF的ppt我们就能很直观的了解RF是什么了1.3 为什么LLM需要RFT对于LLM来说什么样的输出才能算 “好文本”呢它不仅仅关乎语法或事实还关乎人类的品味、思路的连贯性、推理的正确性、消除输出中不必要的偏见等等。因此我们需要强化学习来帮忙LLM来适应符合人类的偏好• **人类来评判LLM而非公式**人类成为我们的“奖励函数”。• **学习人类的喜好**我们训练 LLM 生成人类更可能喜欢的文本。1.4 RFT和SFT的对比RFTSFT训练量级少于10010w以上训练时间更快漫长模型学习基于正反case进行迭代对于输入和输出的关联进行记忆类比教会了AI如何去思考行为用信息数据填充AI的脑子里面1.5 什么场景适用于RFT• 没有标签数据可以通过自己定义的验证代码来判别输出结果的正确性• 只有少量的标签数据没有足够的量级支持SFT• 需要COT来提升模型表现RFT能让COT的过程控制变短从而提升模型推理速度• 需要多个步骤的逻辑推理当需要模型需要一步一步进行决策的时候而不是简单的直接映射关系RFT更适合• 更快速的进行模型的迭代以更快的速度更短时间进行模型的实时迭代1.6 Function Call中RF的应用如果大家在项目中经常使用function call或者需要将大模型输出的结果进行二次解析的话经常就会遇到一个很蛋疼的问题那就是 明明提示词写的就是让LLM输出 指定的json结构的返回结果但是往往 LLM 最终输出的都是非结构化的数据。因此我们可以利用RF对模型进行训练专门强化输出结构化的推理结果。二. RT的演进2.1 奖励模型为什么需要奖励模型我们不能让人类在LLM的训练过程中对每个次训练迭代的输出结果进行评判那样会太慢了因此我们需要训练一个奖励模型——一个学习模仿人类偏好的AI评判模型• **奖励模型 AI 口味测试员**我们使用人类偏好数据对其进行训练。它会学习给人类倾向于喜欢的文本赋予更高的分数。• **强化学习算法使用奖励模型**诸如 PPO、DPO 和 GRPO 之类的算法使用这种奖励模型来指导语言学习模型 (LLM) 的学习。LLM 尝试生成能够获得 AI 评委高分的文本。2.2 PPOPPO论文https://arxiv.org/abs/1707.06347InstructGPT论文https://arxiv.org/abs/2203.02155这个是OpenAI在17年提出的近端策略优化 (PPO)到22年OpenAI提出了InstructGPT之后将 PPO 提升到了一个全新的高度。这篇论文展示了如何利用 PPO 根据人类偏好来微调大规模语言模型例如 GPT-3。InstructGPT 不再仅仅是预测下一个词而是学会了生成人类真正喜欢的文本——既有帮助又无害的文本。以下是PPO训练的步骤• 生成文本LLM通过不同提示词来生成推理的文本• 奖励模型对生成的文本进行评分。• 利用广义优势估计 (GAE)来计算优势它会考虑多个词的奖励平衡方差MC和偏差TD之间的权衡。这就像不仅在最后给予奖励而且在过程中也会对表现良好的“小步骤”给予奖励能计算每个词选择的提升幅度。• KL散度的惩罚新旧结果的差异很大会施加惩罚从而增强稳定性。• 更新价值函数训练价值函数使其准确地预测不同文本生成的“好坏”。2.3 DPODPO论文地址https://arxiv.org/abs/2305.18290这是斯坦福大学在24年7月发布的直接偏好优化 Direct Preference Optimization(DPO)• 直接DPO 就像直接告诉 LLM“ A 比 B 好。多像 A少像 B”它省去了策略更新步骤中的中间环节强化学习中用于策略优化的奖励模型。• 不需要迭代循环利用类似分类的损失——直接使用logits损失函数该函数直接比较两个模型的概率 直接基于人类偏好数据优化 LLM2.4 GRPOGRPO论文https://arxiv.org/pdf/2402.03300这个是DeepSeek在24年8月发布的强化学习的方式Group Relative Policy OptimizationGRPO。GRPO基于PPO旨在简化RLHF训练流程使其速度更快尤其适用于复杂的推理任务。• 去掉了PPO的Value Model更加轻量高效• 核心Group Relative Policy Optimization不再通过分组分数来估算基线从而显著减少训练资源消耗。使用一组由 LLM 生成的针对同一提示的回答来评估每个回答相对于组内其他回答的“优劣” 。三. 基于GSM8K数据集的GRPO的实操3.1 数据准备这里用推荐的GSM8K数学问答的数据集from datasets import load_datasetdefextract_hash_answer(text): Extract numerical answer from GSM8K format (#### marker) if####notin text: returnNone return text.split(####)[1].strip()defprocess_dataset_example(example): Convert GSM8K example to conversation format for GRPO training question example[question] answer extract_hash_answer(example[answer]) prompt [ {role: system, content: system_prompt}, {role: user, content: question}, ] return { prompt: prompt, # Input conversation answer: answer, # Ground truth for reward functions }defload(): dataset load_dataset(openai/gsm8k, main, splittrain) # Apply conversation formatting to all examples dataset dataset.map(process_dataset_example) return dataset3.2 定义奖励机制实施四种互补的奖励函数来评估数学推理的不同方面格式完全匹配结构完全一致近似匹配格式元素部分得分答案正确性数学准确性分级评分数字提取解析和输出数值结果的能力这里举其中第一个例子def match_format_exactly(completions, **kwargs): 完美遵守格式可获得高额奖励3.0 确保模型学习完整的结构化输出模式 scores [] for completion in completions: response completion[0][content] # Check if response matches complete format pattern score 3.0 if match_format.search(response) is not None else 0.0 scores.append(score) return scores3.3 训练训练过程其实和sft很类似都是基于lora进行训练但是唯一差别就是定义了reward function# Configure GRPO training parameters for mathematical reasoningtraining_args GRPOConfig( learning_rate5e-6, per_device_train_batch_size2, gradient_accumulation_steps8, max_prompt_length1024, max_completion_length1024, max_steps10, logging_steps1, output_dir./trl_grpo_outputs, max_grad_norm0.1,)trainer GRPOTrainer( modelmodel, reward_funcs[ match_format_exactly, ], argstraining_args, train_datasetdataset, )2026年AI行业最大的机会毫无疑问就在应用层字节跳动已有7个团队全速布局Agent大模型岗位暴增69%年薪破百万腾讯、京东、百度开放招聘技术岗80%与AI相关……如今超过60%的企业都在推进AI产品落地而真正能交付项目的大模型应用开发工程师****却极度稀缺落地AI应用绝对不是写几个prompt调几个API就能搞定的企业真正需要的是能搞定这三项核心能力的人✅RAG融入外部信息修正模型输出给模型装靠谱大脑✅Agent智能体让AI自主干活通过工具调用Tools环境交互多步推理完成复杂任务。比如做智能客服等等……✅微调针对特定任务优化让模型适配业务目前脉脉上有超过1000家企业发布大模型相关岗位人工智能岗平均月薪7.8w实习生日薪高达4000远超其他行业收入水平技术的稀缺性才是你「值钱」的关键具备AI能力的程序员比传统开发高出不止一截有的人早就转行AI方向拿到百万年薪AI浪潮正在重构程序员的核心竞争力现在入场仍是最佳时机我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】⭐️从大模型微调到AI Agent智能体搭建剖析AI技术的应用场景用实战经验落地AI技术。从GPT到最火的开源模型让你从容面对AI技术革新大模型微调掌握主流大模型如DeepSeek、Qwen等的微调技术针对特定场景优化模型性能。学习如何利用领域数据如制造、医药、金融等进行模型定制提升任务准确性和效率。RAG应用开发深入理解检索增强生成Retrieval-Augmented Generation, RAG技术构建高效的知识检索与生成系统。应用于垂类场景如法律文档分析、医疗诊断辅助、金融报告生成等实现精准信息提取与内容生成。AI Agent智能体搭建学习如何设计和开发AI Agent实现多任务协同、自主决策和复杂问题解决。构建垂类场景下的智能助手如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等。如果你也有以下诉求快速链接产品/业务团队参与前沿项目构建技术壁垒从竞争者中脱颖而出避开35岁裁员危险期顺利拿下高薪岗迭代技术水平延长未来20年的新职业发展……那这节课你一定要来听因为留给普通程序员的时间真的不多了立即扫码即可免费预约「AI技术原理 实战应用 职业发展」「大模型应用开发实战公开课」还有靠谱的内推机会直聘权益完课后赠送大模型应用案例集、AI商业落地白皮书

相关文章:

大模型微调新思路:强化学习(RFT)如何让AI更懂你?速看!

本文介绍了强化学习微调(RFT)在大模型中的应用,阐述了其训练过程演进及与SFT的对比。RFT通过奖励机制优化模型,使其更符合人类偏好。文章详细解析了RFT的适用场景、奖励模型以及PPO、DPO、GRPO等优化算法,并以GSM8K数据…...

qwen3-vl 大模型lora微调官方版

这次的教程我们将使用官方的指定demo数据来进行qwen3-vl的微调,并且将lora得到的内容进行合并,使用新的模型来进行推理验证。 由于官方库有些内容没有实现,所以这里fork了一个新的仓库来实现一下管理, git clone https://github.c…...

下载Anaconda与环境配置

1、官网:Download Anaconda Distribution | Anaconda 2、登录后下载版本 3、默认安装即可 4、配置环境 打开系统属性-环境变量-添加path 添加anaconda路径 添加anaconda下的scripts路径 添加anaconda下的labs路径 5、验证 进入命令窗口 winr 输入cmd 在…...

毕业神器怎么选?国内篇看“毕业之家”

我为你梳理了毕业之家、PaperRed的核心信息,并推荐了两款专注于英文论文写作的高效工具。 📊 两款中文主力工具速览 这两款工具都非常适合中文学术写作的全流程,各有侧重: 工具名称官网信息与核心优势主要特点适合人群毕业之家…...

自学黑客的11个步骤,新手自学网络安全零基础入门到精通全干货解析,学黑客技术收藏这一篇就够了

黑客攻防是一个极具魅力的技术领域,但成为一名黑客毫无疑问也并不容易。你必须拥有对新技术的好奇心和积极的学习态度,具备很深的计算机系统、编程语言和操作系统知识,并乐意不断地去学习和进步。 如果你想成为一名优秀的黑客,下面…...

【Java 开发日记】你分得清 Prompt、Agent、Function Call、Skill、MCP 吗?

前言随着 AI 的迅速崛起,有很多词汇你可能会经常听到,但是让你来详细地说一下它们各自的区别与联系,有很多人还是回答不上来的,这期咱们就来详细地讲解一下它们各自的区别与联系,让你对它们有更多的了解。可以把它们想…...

气功点穴精粹

整理老书发再的,不敢私藏特分享给大家 链接1: https://pan.baidu.com/s/124M0S76gTc6FGAZSr4jBmg?pwd3mu3 链接2:https://pan.quark.cn/s/8f2c95a3d5bb...

2026智能体技术入门指南:轻松掌握大模型驱动下的工业变革,速收藏!

2025年被称为“智能体元年”,智能体技术凭借其自主性、反应性和社交能力,在工业领域展现出巨大潜力。本文介绍了基于大模型的智能体是什么,以及其在工业场景中的应用,特别是在数据治理和智慧运维方面的革新。智能体通过规划、记忆…...

Oxyde ORM:以 Rust 为核的类型安全异步 ORM 新势力

【导语:Oxyde ORM 作为一款以 Pydantic 为中心的类型安全异步 ORM,核心采用高性能 Rust 编写。它受 Django ORM 启发,注重明确性,为开发者带来现代、友好的工作流程。】Oxyde ORM:Rust 内核的高性能 ORMOxyde ORM 核心…...

亚马逊AI编码事故引发服务中断,安全隐患亟待解决

AI编码事故致亚马逊服务中断近6小时本周二,亚马逊电商业务召集大批工程师开会,深入探讨一系列服务中断问题,其中涉及与使用AI编码工具相关的事故。近几个月,亚马逊出现了“一系列事故”,影响范围广,且存在“…...

2026年靠谱的iPaaS厂商有哪些?iPaaS系统集成产品综合分析和选型指南

IDC 报告明确显示:2025年中国iPaaS市场规模,将持续保持25%以上的高速增长。你是否曾遭遇过这样的困扰:企业的云端系统不断增加,数据却变得愈发“分散”,业务之间的协作效率极其低下,信息孤岛问题也愈发严重…...

MySQL 索引下推(Index Condition Pushdown, ICP)机制详解

MySQL 索引下推(Index Condition Pushdown, ICP)机制详解 一、什么是索引下推? 索引下推(Index Condition Pushdown,简称 ICP)是 MySQL 5.6 版本引入的一种查询优化技术,默认开启。它的核心思想…...

问卷设计“智变”之旅:书匠策AI如何重塑学术调研新生态?

在学术研究的浩瀚征途中,问卷设计作为数据收集的前沿阵地,其重要性不言而喻。然而,传统问卷设计方法往往耗时费力,且易受主观因素影响,导致数据质量参差不齐。随着人工智能技术的蓬勃发展,书匠策AI科研工具…...

真实的重量:为何AI视频无法取代传统企业宣传片拍摄

2026年,生成式AI视频技术已呈燎原之势,从“文本生成视频”到“一键成片”,效率与成本的颠覆性优势令人咋舌。然而,在高端企业宣传片、品牌形象片及深度叙事领域,传统实拍依然占据不可动摇的核心地位。本文从情感颗粒度…...

OpenCV 案例六【道路裂缝检测】

目录:一、环境准备1、Anaconda 环境配置2、图像处理方法介绍二、代码案例三、运行效果一、环境准备 1、Anaconda 环境配置 环境配置参考前面章节: OpenCV 案例一【人脸检测】 2、图像处理方法介绍 主要用到了自适应阈值二值化(Adaptive …...

问卷设计“新老对决”:书匠策AI如何重塑科研数据收集新生态?

在科研的浩瀚征途中,问卷设计作为数据收集的“先锋官”,其重要性不言而喻。传统问卷设计,如同一位经验丰富的老匠人,凭借着多年的手艺和直觉,雕琢出一个个数据收集的“容器”。然而,随着人工智能时代的到来…...

AnswerThis:打造科学知识操作系统的新征程

AnswerThis:开启科学研究工作新变革AnswerThis 正在为企业打造科学知识操作系统,其智能代理可自主搜索、整合并撰写基于证据的研究报告。该平台拥有超 20 万名来自大学和《财富》500 强公司的研究人员,且正深入生命科学领域,致力于…...

别再手动调 Prompt 了!这款国产神器让 AI 输出质量提升 300%!免费开源!

你是不是也这样? 写 10 版提示词,AI 还是答非所问想让小模型做角色扮演,结果它“人格分裂”提取知识图谱,输出格式天天变本地部署 Ollama,但 Web 工具连不上…… 而今天,我要介绍的这个 GitHub 23k Star …...

大语言模型团队:分布式系统视角下的新突破

【导语:随着大语言模型(LLMs)能力增强,大语言模型团队备受关注。但目前缺乏解决关键问题的框架,康奈尔大学研究人员建议以分布式系统为基础创建和评估大语言模型团队,为该领域带来新见解。】大语言模型团队…...

搜索之DFS

一.搜索 1.概念(暴力):按照题目要求构造可能的答案,对所有可能的答案进行枚举,通过穷尽所有的可能来找最优解,或者统计合法解的个数 2.种类:搜索分为DFS和BFS 3.优化:搜索有很多优化方式&…...

javafx中能有异步调用业务方法吗

JavaFX 中完全可以进行异步调用业务方法,这是处理耗时操作(如网络请求、数据库查询、文件IO)的标准做法,以避免阻塞 JavaFX 应用程序线程(UI线程),保持界面响应。以下是几种常用的异步调用方式&…...

2026年护理考试TOP5押题率高机构最新排名揭晓

大家好,我是你们的老朋友,今天要和大家分享的是2026年护理考试押题率高的培训机构最新排名。对于即将参加护士资格、初级护师、主管护师考试的小伙伴们来说,选择一个靠谱的培训机构至关重要。那么,哪些机构在押题方面表现突出呢&a…...

fs-cli连接到不同的freeSwitch

fscli不仅可以连接到本机的FreeSWITCCH,也可以连接到其他机器的FreeSWITCH上(或本机另外的FreeSWITCH实例上),通过在用户主目录下编辑配置文件.fs_cli_conf(注意前面的点"."),可以定义要连接的多个机器标签:注意,如果要连接到其他机器,要确保目标机器的FreeSWITCH的E…...

书匠策AI:问卷设计领域的“匠心”与“智心”之争

在学术研究的广袤天地中,问卷设计作为数据收集的先锋,其重要性不言而喻。传统问卷设计,如同一位老匠人,凭借多年的经验和精湛的手艺,一砖一瓦地搭建起研究的基石。然而,随着科技的飞速发展,书匠…...

PTA 6-12 二叉搜索树的操作集

本题要求实现给定二叉搜索树的5种常用操作。函数接口定义:BinTree Insert( BinTree BST, ElementType X ); BinTree Delete( BinTree BST, ElementType X ); Position Find( BinTree BST, ElementType X ); Position FindMin( BinTree BST ); Position FindMax( Bin…...

前架构师转行AI风水师:给机房看罗盘——软件测试从业者的专业启示

在数字化转型的浪潮中,一名前IT架构师转型为“AI风水师”,专为机房(如数据中心)布局提供风水指导,这看似荒诞的跨界实则蕴含深刻的测试专业智慧。作为软件测试从业者,我们习惯于用严谨的逻辑工具预测风险、…...

摆脱浏览器书签混乱!Fenrus+cpolar解锁公网访问新玩法

Fenrus 是一款主打个性化的开源导航页工具,支持添加自定义网站链接、切换暗色 / 亮色主题、设置快捷搜索引擎,还能整合天气、壁纸轮播等小部件,依托 Docker 可快速部署在极空间、群晖 NAS 或普通服务器上,无需复杂操作就能搭建专属…...

计算机毕业设计java基于人脸识别的医疗保险系统的设计与实现 基于面部识别技术的智慧医保服务平台的设计与开发 融合生物特征识别的医疗健康保险管理系统的构建与实现

计算机毕业设计java基于人脸识别的医疗保险系统的设计与实现0a8359(配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。随着我国医疗保障体系的不断完善和人口老龄化进程的加快&#…...

用Selenium操控寺庙:香火钱自动分账系统

一、系统架构与测试挑战寺庙香火分账系统采用“支付-清算-分账”三层架构:前端支付层:多殿堂独立收款码(微信/支付宝/云闪付)及现金通道,需兼容老年香客的无感支付流程规则引擎层:预设阶梯分账比例&#xf…...

数据类型之——变量

形式:数据类型 变量 数据 例如:int age 18;byte ss22;short dd 33;long ff 44;float gg 55.5f;double hh 66.6;char jj z;boolean kk false;boolean llture ;...