[EAI-033] SFT 记忆,RL 泛化,LLM和VLM的消融研究
Paper Card
论文标题:SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
论文作者:Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
论文链接:https://arxiv.org/abs/2501.17161v1
项目主页:https://tianzhechu.com/SFTvsRL/
论文出处:/
论文被引:/
Abstract
SFT 和 RL 是广泛用于基础模型后训练的技术。然而,它们在增强模型泛化能力的作用仍不清楚。本文研究了 SFT 和 RL 对泛化和记忆的比较效果,重点关注基于文本和视觉的环境。本文通过算术推理纸牌游戏 GeneralPoints 和一个现实世界的导航环境 V-IRL,以评估使用 SFT 和 RL 训练的模型如何在文本和视觉领域泛化到未见变体。结果表明,RL,尤其是在基于结果的奖励下进行训练时,在基于规则的文本和视觉环境中都能泛化。相反,SFT 倾向于记忆训练数据,并且在这两种情况下都难以泛化到分布之外的数据。RL 提高了模型的底层视觉识别能力,有助于其在视觉领域增强泛化能力。 尽管 RL 的泛化能力更强,但 SFT 仍有助于有效的 RL 训练:SFT 稳定了模型的输出格式,使后续的 RL 能够实现其性能提升。这些发现证明了 RL 在复杂、多模态任务中获取可泛化知识的优势。

Summary
研究背景
分析基础模型泛化能力的一个关键挑战是将数据记忆与可泛化原则的习得区分开来。因此,研究了一个关键问题:SFT 或 RL 主要是否记忆训练数据,或者它们是否学习了可以适应新任务变体的可泛化原则。
方法介绍
为了解决这个问题,关注两个泛化:基于文本规则的泛化和视觉泛化。对于文本规则,研究模型应用学习到的规则(给定文本指令)到这些规则的变体中的能力。对于 VLMs,视觉泛化衡量在给定任务内,对视觉输入变化(例如颜色和空间布局)的性能一致性。第一个任务是 GeneralPoints,这是一个纸牌游戏任务,类似于 RL4VLM 中的Points24 任务,旨在评估模型的算术推理能力。在 GeneralPoints 中,模型接收 4 张牌(以文本描述或图像),并需要使每张牌的数值恰好一次来计算目标数字(默认为 24)。其次,采用现实世界的导航任务 V-IRL,重点关注模型的空间推理能力。
采用与 rl4vlm(https://rl4vlm.github.io/) 类似的多步骤 RL 框架,在对骨干模型 Llama-3 进行 SFT 后,使用顺序修正公式[1]实例化 RL 。在GeneralPoints和V-IRL中,RL 学习到可泛化的规则(用文本表达),其中分布内性能提升也转移到未见过的规则。相反,SFT 似乎记住了训练规则,无法泛化(图 1)。 进一步研究了视觉领域的泛化,RL 也可以泛化到视觉OOD任务,而 SFT 仍然难以应对。为了了解 RL 如何影响模型的视觉能力,对GeneralPoints进行了额外的分析,结果表明,使用基于结果的奖励函数训练 RL 提高了视觉识别能力。 虽然 RL 有比 SFT 更好的泛化能力,但 SFT 仍然有助于稳定模型的输出格式,使 RL 能够获得其性能提升。通过增加最大步数来扩展推理时间的计算量,可以带来更好的泛化能力。
[1] Scaling LLM testtime compute optimally can be more effective than scaling model parameters.
相关工作
Post-training
后训练对于增强模型的性能非常重要,通常使用SFT实现,通过在特定任务的指令格式数据上微调预训练模型,使其适应下游任务。本文旨在研究SFT和RL在LLM和VLM上的泛化能力和记忆能力。
Memorization and generalization in LLM/VLM
在LLM中,记忆可能表现为模型记住了训练数据,而泛化则反映了模型输出分布与预训练数据分布之间的差异。先前研究表明,LLM在简单、知识密集型任务上表现出更多过拟合,在更复杂、推理密集型任务上表现出更大的泛化能力。本文旨在研究不同的后训练范式在基于文本规则和视觉变化的设置下,LLM和VLM对记忆与泛化的作用。
Scaling up inference-time compute
有工作已经证明,在推理过程中微调验证器可以提高模型精度,有效地利用测试时间计算。 值得注意的是,最近的研究结果揭示了推理时间计算的“scaling laws”,随着计算资源的增加而带来的显著性能提升。本研究基于这些发现,从两个方面进行改进。首先,将推理时间验证整合到多轮 RL 公式中,使模型能够识别并纠正其错误。 其次,研究了推理时间验证对 RL 泛化的影响,证明了扩展推理时间验证(就最大验证步骤数而言)是 RL 泛化的关键。
Improving visual capability in VLMs
当前的VLM的视觉感知仍然存在局限性。先前的工作包括结合多个视觉编码器,创建高质量的SFT数据,微调ViT。本文旨在证明 RL 也可以提高视觉感知能力。
前置知识
考虑 finite horizon decision making,RL 符号约定:
A \mathcal{A} A:动作空间(action space)
r : S × A → R r: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R} r:S×A→R:奖励函数(reward function)
T T T:每个 episode 的最大 steps 数量
π : S → A \pi : \mathcal{S} \rightarrow \mathcal{A} π:S→A:策略模型,学习最大化 overal return
m a x π ∈ Π E π [ ∑ t = 0 T r t ] max_{\pi \in \Pi}\mathbb{E}_{\pi} \lbrack \sum^T_{t=0} r_t \rbrack maxπ∈ΠEπ[∑t=0Trt]:总回报(overall return)
r t = r ( s t , a t ) r_t = r(s_t, a_t) rt=r(st,at)
π ( a ∣ s ) ∈ [ 0 , 1 ] \pi(a | s) \in [0,1] π(a∣s)∈[0,1]:probability of π \pi π choosing a a a at s s s
采用多轮 RL 设置进行基础模型训练:
V \mathcal{V} V:离散且有限的 vocabulary (token) space
V m \mathcal{V}^m Vm:input text space
V n \mathcal{V}^n Vn:output text space
m m m:input sequence n i n \mathbf{n}^{in} nin
n n n:output sequence n o u t \mathbf{n}^{out} nout
对于 VLM:
O \mathcal{O} O:RGB image space
S \mathcal{S} S:state space
S : V m × O \mathcal{S}:\mathcal{V}^m \times \mathcal{O} S:Vm×O:for VLM
S : V m \mathcal{S}:\mathcal{V}^m S:Vm:for LLM
A : V n \mathcal{A}:\mathcal{V}^n A:Vn:action space
V E R : V n → R × V k VER: \mathcal{V}^n \rightarrow \mathbb{R} \times \mathcal{V}^k VER:Vn→R×Vk:verifier, evaluates the outcome of v o u t \mathbf{v}^{out} vout and generates an outcome-based reward function r r r along with textual information v v e r \mathbf{v}^{ver} vver
π θ : S → V n \pi_{\theta}: \mathcal{S} \rightarrow \mathcal{V}^n πθ:S→Vn:policy network, adopt PPO as the backbone RL algorithm for updating π θ \pi_{\theta} πθ
评估任务
为了评估不同后训练方法的泛化能力,选择了两个任务,每个任务都提供规则和视觉变化。第一个任务,GeneralPoints,是设计的一个新环境,用于评估算术推理能力。 第二个任务,V-IRL,旨在考察模型在开放世界视觉导航领域中的推理能力。
General Points Environment

GeneralPoints环境建立在Points24环境上,旨在评估算术推理的泛化能力。环境的每个状态 s 包含 4 张卡片,以文本形式描述(GP-L)或以图像形式(GP-VL)呈现,如图 2 左侧关于GeneralPoints的视觉示例。目标是生成一个等于目标数字(默认为24)的方程式,使用卡片中的所有4个数字且每个数字只使用一次。
规则变化:为了研究模型是学习算术运算还是仅仅记住后训练数据,在GeneralPoints中引入了规则变化。这些变化包括将符号“J”、“Q”和“K”分别解释为“11”、“12”和“13”。 这些变化确保了对模型在不同环境中泛化算术推理能力的严格评估。每条规则都在输入提示中以文本形式指定,图 3 中的 {tasks rules} 部分。 为了研究基于规则的泛化,使用一条规则对模型进行后训练,然后使用不同的规则进行评估。
视觉变化:GeneralPoints环境也可以自然地定制,以评估跨视觉变化的泛化能力。 由于主要的视觉挑战是识别每张卡片的数量,而与卡片的颜色无关,将不同颜色的卡片视为任务的视觉变化。在视觉泛化设置中,使用一种颜色的卡片训练模型,然后使用另一种颜色测试OOD性能。
V-IRL Environment
利用V-IRL环境在一个使用逼真的视觉输入的开放世界导航领域中研究空间推理能力。考虑了环境的两个版本, 一个(V-IRL-L)由纯语言描述组成,另一个(V-IRL-VL)包含视觉语言输入。V-IRL中的主要视觉挑战涉及从视觉观察中识别不同的地标采取行动之前。目标是通过遵循包含空间信息的指令集来导航到目标位置。
规则变化:为了评估模型是否拥有空间知识或仅仅记住训练后数据,考虑了两种不同的动作空间配置。第一个变体使用绝对方向动作空间,其中包括{‘north’, ‘northeast’, ‘east’, ‘southeast’, ‘south’, ‘southwest’, ‘west’, ‘northwest’}。 第二个变体采用相对方向动作空间,包含{‘left’, ‘right’, ‘slightly left’, ‘slightly right’}。 这种相对配置分别将当前方向调整90度或45度到左或右。V-IRL中导航任务的概述见图 4,V-IRL中的详细状态-动作转换见图13。


视觉变化:V-IRL 中主要的视觉挑战是从视觉观测中识别地标(图 4中的绿色部分)。 由于V-IRL环境包含来自不同城市的视觉观测,可以通过训练模型在一个位置进行导航,然后评估其在不同位置的性能来评估V-IRL中的视觉泛化能力。
消融实验
采用 Llama-3.2-Vision-11B 作为骨干模型。 遵循 RLHF 和 RL4VLM 的标准流程,在运行 RL 之前使用 SFT 初始化模型。研究以下问题:
- SFT或RL如何影响模型对不同规则的泛化?
- 当模型包含视觉组件时,RL/SFT如何影响其对不同视觉变化的泛化?
- RL/SFT如何影响VLM中的视觉识别能力?
- SFT在RL训练中起什么作用?
- 验证迭代的数量如何影响泛化?
Generalization across Rules
对于每个任务,分别针对单个规则调整 RL 和 SFT 的训练计算量。将训练规则上的结果视为分布内 (ID) 性能,而未见过规则上的结果则衡量分布外 (OOD) 泛化能力。在 GeneralPoints 中,ID 的情况将所有“J”、“Q”、“K”都视为 10,OOD 则将它们解释为 11、12 和 13。 对于 V-IRL,ID 采用 绝对方向 坐标系,OOD 则使用 相对方向 动作空间。
结论:RL (RL) 实现泛化,SFT (SFT) 实现记忆。

Generalization in Visual Out-of-Distribution Tasks
研究视觉变化对OOD泛化能力的影响。对于GeneralPoints,我们使用黑桃 (♠, ♣) 训练VLM,并在红桃 (♥, ♠) 上测试其分布外性能。对于V-IRL,在纽约市收集的路线数据上训练模型,并在包含来自世界各地不同城市路线的原始V-IRL VLN小型基准测试上进行评估。
结论:RL (RL) 在视觉分布外任务中具有泛化能力。

RL Improves Visual Capabilities
RL如何影响VLMs的视觉能力? 在GP-VL环境中进行了消融研究,以调查RL和SFT的分布外性能,以及模型在识别输入图像中的4张卡片方面的视觉识别准确性。 研究了通过RL/SFT扩展后期训练计算如何影响基于规则的分布外泛化能力(图 8 左侧),以及视觉识别准确性和视觉分布外性能(图 8 右侧)。
结论:扩展RL提高了VLM训练中的视觉识别准确性。

The Role of SFT for RL Training
关注另一个关键问题:SFT 对于 RL 训练是否必要? 为了回答这个问题,进行了额外的实验,直接将端到端RL应用于使用GeneralPoints对的基础模型Llama3.2进行后训练。
结论:当主干模型不遵循指令时,RL训练需要指令微调。

Role of Verification Iterations
为验证验证多步骤训练和评估流程的必要性并更好地理解其效果,使用GP-L 进行了不同验证迭代次数 {1,3,5,10} 的RL实验。
结论:提升验证规模提高了泛化能力。

实验结论
通过在GeneralPoints和V-IRL任务上进行的大量实验,我们证明了RL在学习可泛化知识方面表现出优越的性能,而SFT往往只是记住训练数据,这在规则和视觉变化中都得到了体现。这种现象在多模态算术和空间推理能力中始终存在。还研究了RL对视觉识别的影响、SFT的作用以及验证步骤的作用。
研究过程中,有两个挑战没有解决:
SFT在GP-VL上失败:图5中,对于GP-VL,我们观察到监督微调未能达到与RL相当的分布内性能。扩大SFT规模会降低视觉识别能力,假设SFT局部过拟合于推理 token 而忽略了识别 token,这可能是由于推理 token 的频率更高。
RL在极端情况下的局限性:对于在Llama-3.2上进行有效的RL训练,SFT是必要的。表明当应用于极度欠拟合或过拟合的初始检查点时,RL的有效性有限。
相关文章:
[EAI-033] SFT 记忆,RL 泛化,LLM和VLM的消融研究
Paper Card 论文标题:SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training 论文作者:Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma 论…...
算法与数据结构(字符串相乘)
题目 思路 这道题我们可以使用竖式乘法,从右往左遍历每个乘数,将其相乘,并且把乘完的数记录在nums数组中,然后再进行进位运算,将同一列的数进行相加,进位。 解题过程 首先求出两个数组的长度,…...
DeepSeek从入门到精通:全面掌握AI大模型的核心能力
文章目录 一、DeepSeek是什么?性能对齐OpenAI-o1正式版 二、Deepseek可以做什么?能力图谱文本生成自然语言理解与分析编程与代码相关常规绘图 三、如何使用DeepSeek?四、DeepSeek从入门到精通推理模型推理大模型非推理大模型 快思慢想&#x…...
【Pytorch函数】PyTorch随机数生成全解析 | torch.rand()家族函数使用指南
🌟 PyTorch随机数生成全解析 | torch.rand()家族函数使用指南 🌟 📌 一、核心函数参数详解 PyTorch提供多种随机数生成函数(注意:无直接torch.random()函数),以下是常用函数及参数:…...
vue print 打印
vue 点击打印页面部分内容,或者打印弹窗内的内容 打印页面部分内容 <template><div><div id"print"><div class"info"><div class"bx_title">费用报销单<span class"code">NO.<s…...
【异常解决】在idea中提示 hutool 提示 HttpResponse used withoud try-with-resources statement
博主介绍:✌全网粉丝22W,CSDN博客专家、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围:SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物…...
【Uniapp-Vue3】UniCloud云数据库获取指定字段的数据
使用where方法可以获取指定的字段: let db uniCloud.database(); db.collection("数据表").where({字段名1:数据, 字段名2:数据}).get({getOne:true}) 如果我们不在get中添加{getOne:true},在只获取到一个数据res.result.data将会是一个数组&…...
信息科技伦理与道德3-2:智能决策
2.2 智能推荐 推荐算法介绍 推荐系统:猜你喜欢 https://blog.csdn.net/search_129_hr/article/details/120468187 推荐系统–矩阵分解 https://blog.csdn.net/search_129_hr/article/details/121598087 案例一:YouTube推荐算法向儿童推荐不适宜视频 …...
openssl使用
openssl使用 提取密钥对 数字证书pfx包含公钥和私钥,而cer证书只包含公钥。提取需输入证书保护密码 openssl pkcs12 -in xxx.pfx -nocerts -nodes -out pare.key提取私钥 openssl rsa -in pare.key -out pri.key提取公钥 openssl rsa -in pare.key -pubout -ou…...
Visual Studio 2022 中使用 Google Test
要在 Visual Studio 2022 中使用 Google Test (gtest),可以按照以下步骤进行: 安装 Google Test:确保你已经安装了 Google Test。如果没有安装,可以通过 Visual Studio Installer 安装。在安装程序中,找到并选择 Googl…...
SpringBoot3 + Jedis5 + Redis集群 如何通过scan方法分页获取所有keys
背景: 由于需要升级老项目代码,从SpringBoot1.5.x 升级到 SpringBoot3.3.x,框架中引用的Jedis自动升级到了 5.x;正好代码中有需要获取Redis集群的所有keys的需求存在;代码就不适用了,修改如下: POM 由于…...
WGCLOUD监控系统部署教程
官网地址:下载WGCLOUD安装包 - WGCLOUD官网 第一步、环境配置 #安装jdk 1、安装 EPEL 仓库: sudo yum install -y epel-release 2、安装 OpenJDK 11: sudo yum install java-11-openjdk-devel 3、如果成功,你可以通过运行 java …...
协议-WebRTC-HLS
是什么? WebRTC(Web Real-Time Communication) 实现 Web 浏览器和移动应用程序之间通过互联网直接进行实时通信。允许点对点音频、视频和数据共享,而无需任何插件或其他软件。WebRTC 广泛用于构建视频会议、语音通话、直播、在线游…...
jQuery UI 下载指南
jQuery UI 下载指南 引言 jQuery UI 是一个基于 jQuery 的用户界面和交互库,它提供了一套丰富的交互组件和视觉效果,可以帮助开发者快速构建美观、交互性强的网页应用。本文将为您详细介绍如何下载 jQuery UI,并指导您进行安装和使用。 jQ…...
MySQL系列之数据类型(String)
导览 前言一、字符串类型知多少 1. 类型说明2. 字符和字节的转换 二、字符串类型的异同 1. CHAR & VARCHAR2. BINARY & VARBINARY3. BLOB & TEXT4. ENUM & SET 结语精彩回放 前言 MySQL数据类型第三弹闪亮登场,欢迎关注O。 本篇博主开始谈谈MySQ…...
Kotlin 2.1.0 入门教程(十)if、when
if 表达式 if 是一个表达式,它会返回一个值。 不存在三元运算符(condition ? then : else),因为 if 在这种场景下完全可以胜任。 var max aif (a < b) max bif (a > b) {max a } else {max b }max if (a > b) a…...
编程式路由
<script> export default {name: video-Info1,created () {setTimeout(() > {this.$router.push({ name: home })}, 3000)} } </script> 编程式路由:实现 不需要用户点击router-link,由代码实现路由跳转。 应用场景:用户登录…...
openAI官方prompt技巧(一)
1. 使用最新的模型 2. 将指令放在提示词的开头,并使用 ### 或 """ 来分隔指令和上下文,例如 错误示范❌ 将下面的文本总结为一个要点列表,列出最重要的内容。 Summarize the text below as a bullet point list of the most…...
利用 Python 爬虫获取按关键字搜索淘宝商品的完整指南
在电商数据分析和市场研究中,获取商品的详细信息是至关重要的一步。淘宝作为中国最大的电商平台之一,提供了丰富的商品数据。通过 Python 爬虫技术,我们可以高效地获取按关键字搜索的淘宝商品信息。本文将详细介绍如何利用 Python 爬虫技术获…...
LeetCode 0080.删除有序数组中的重复项 II:双指针 - C++/Java5 行版
【LetMeFly】80.删除有序数组中的重复项 II:双指针 - C/Java5 行版 力扣题目链接:https://leetcode.cn/problems/remove-duplicates-from-sorted-array-ii/ 给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使得出现次数超…...
【C++高并发服务器WebServer】-15:poll、epoll详解及实现
本文目录 一、poll二、epoll2.1 相对poll和select的优点2.2 epoll的api2.3 epoll的demo实现2.5 epoll的工作模式 一、poll poll是对select的一个改进,我们先来看看select的缺点。 我们来看看poll的实现。 struct pollfd {int fd; /* 委托内核检测的文件描述符 */s…...
MapReduce是什么?
MapReduce 是一种编程模型,最初由 Google 提出,旨在处理大规模数据集。它是分布式计算的一个重要概念,通常用于处理海量数据并进行并行计算。MapReduce的基本思想是将计算任务分解为两个阶段:Map 阶段和 Reduce 阶段。 Map 阶段&a…...
git提交到GitHub问题汇总
1.main->master git默认主分支是maser,如果是按照这个分支名push,GitHub会出现两个branch,与预期不符 解决方案:更改原始主分支名为main git config --global init.defaultBranch main2.git:OpenSSL SSL_read: SS…...
CNN-GRU卷积神经网络门控循环单元多变量多步预测,光伏功率预测(Matlab完整源码和数据)
代码地址:CNN-GRU卷积神经网络门控循环单元多变量多步预测,光伏功率预测(Matlab完整源码和数据) CNN-GRU卷积神经网络门控循环单元多变量多步预测,光伏功率预测 一、引言 1.1、研究背景和意义 随着全球能源危机和环境问题的日…...
编译原理面试问答
编译原理面试拷打 1.编译原理的基本概念 编译原理是研究如何将高级程序语言转换为计算机可执行代码的理论与技术,其核心目标是实现高效、正确的代码翻译。 **编译器:**将源代码转化为目标代码(机器码、字节码等)。一次翻译整个程…...
LIMO:上海交大的工作 “少即是多” LLM 推理
25年2月来自上海交大、SII 和 GAIR 的论文“LIMO: Less is More for Reasoning”。 一个挑战是在大语言模型(LLM)中的复杂推理。虽然传统观点认为复杂的推理任务需要大量的训练数据(通常超过 100,000 个示例),但本文展…...
Java 魔法:精准掌控 PDF 合同模板,指定页码与关键字替换签章日期
朋友们!在实际业务场景中,经常会碰到处理 PDF 合同模板的需求,要在几十页的合同里对指定页面替换公章、签名和日期,还涉及多人签名以及多个公司盖公章。下面就给大家分享两种用 Java 处理这类问题的方法,一种是通过指定…...
Ollama 部署本地大语言模型
一、下载安装ollama 1.百度 ollama Ollama 2.点击下载 可以复制下载链接,使用下载器下载。 3.双击安装 默认安装目录:C:\Users\用户名\AppData\Local\Programs\Ollama 二、更改模型下载目录 0.默认下载目录 (跳过) 之前没下载过模型,不…...
Jackson扁平化处理对象
POJO对象 Data public class People {private PeopleInfo peopleInfo;private List<String> peopleIds;private Map<String, String> peopleMap;Datapublic static class PeopleInfo {private String name;private String address;} }JSON序列化处理 直接将对象进…...
在 Ubuntu 上安装 MySQL 的详细指南
在Ubuntu环境中安装 mysql-server 以及 MySQL 开发包(包括头文件和动态库文件),并处理最新版本MySQL初始自动生成的用户名和密码,可以通过官方的APT包管理器轻松完成。以下是详细的步骤指南,包括从官方仓库和MySQL官方…...
