当前位置: 首页 > article >正文

ICLR 2026 | 大模型的无监督强化学习能走多远?清华团队给出了系统性答案

强化学习的下一站从监督到无监督强化学习正在重塑大模型能力边界。OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型都在用大规模 RLVR可验证奖励强化学习刷新推理任务的天花板。但所有人都知道纯监督式训练不可持续。人工标注成本指数级增长在专业领域获取可靠标注越来越难。当模型能力逼近甚至超越人类专家时谁来给它打分从 TTRL 开始无监督 RLVRUnsupervised RLVR应运而生让模型在没有人工标注的情况下持续进化。这不仅是降本增效的需求更是通往超级智能的必经之路。就像预训练用无标注数据 training 出了 GPT无监督 RLVR 能否延续这一奇迹论文链接: https://arxiv.org/abs/2603.08660GitHub: https://github.com/PRIME-RL/TTRL/tree/urlvr-devX Thread: https://x.com/HBX_hbx/status/2031406636930338828清华团队一项最新研究给这个看似美好的图景画出了第一条边界。研究者系统解剖了无监督 RLVR 的内在机制发现所有基于模型自身信号的内在奖励方法无论多数投票、熵奖励还是其他变体都遵循着一条相似的轨迹训练初期性能快速攀升但到达某个临界点后开始不可逆地滑落。这不是某个方法的缺陷而是机制的宿命它们本质上都在锐化模型已有的偏好像一个回声室让模型不断重复自己最初相信的东西。如果初始自信恰好正确效果惊人如果错配坍塌只是时间问题。但这不意味着内在奖励没有价值。在小规模测试时训练中它依然能稳定提升性能即使模型一开始全是错的也能在自我纠偏中进化。更重要的是研究者找到了一个“预言指标”可以在大规模训练前预判模型的可训练性无需跑完整条曲线。当内在奖励受限于模型自身的回声时外部奖励方法开始展现不同图景比如让模型利用生成与验证的不对称性来锚定奖励。这类方法正在突破内在奖励的天花板让无监督强化学习真正走向可扩展。通往超级智能的路上我们需要的不是盲目相信模型可以自我进化而是知道什么时候该让它倾听自己的回声什么时候该把它推向真实世界的验证。内在奖励方法繁荣表象下的深层问题过去一年各种“内在奖励”方法密集涌现。从多数投票到基于模型自信度/熵的变体它们利用模型内在信号来构造 proxy reward训练前期性能飙升甚至一度超过有监督方法。研究者将这些方法根据奖励的来源归纳为两类一类基于 certainty直接取模型在推理轨迹上的置信度指标作为奖励另一类基于 ensemble用多次 rollout 后的集成结果如多数投票来锚定正确。虽然奖励的来源是免费的但是代价却是昂贵的。在早期训练性能飙升之后继续训练会触发典型的 reward hackingproxy reward 还在持续上涨真实 performance 却在崩溃模型越来越自信但答案却越来越离谱不同内在奖励方法在不同模型上表现天差地别更关键的是没人说得清为什么 work又为什么 fail。我们做了什么拆开黑箱划清边界我们不想只是“提出新方法刷个点”我们想回答那个没人说清的问题无监督 RLVR 的 scaling 上限在哪里如果有上限边界在哪里为此我们做了五件事统一理论框架把看似五花八门的内在奖励方法归到同一个机制下揭示它们殊途同归的本质——锐化模型初始分布并给出理论收敛边界。大规模实证11 个模型 × 5 种内在奖励方法 × 超参数扫描用数据说话验证了“先升后降”不是偶然而是普适规律。画出安全区不是所有场景都会崩溃。我们发现在小规模 test-time training 中内在奖励可以安全使用即使初始全错也能稳定进化。化陷阱为路标rise and fall 不只是风险它本身就是信息。我们用它提炼出模型先验指示器无需跑完整条 RL 曲线就能预判一个基模是否适合强化学习。探路替代方案既然内在奖励有天花板我们就看向外部。初步探索基于生成-验证不对称的外部奖励方法看它能否真正突破内在奖励的 scaling 极限。四个关键发现 发现一成败取决于 confidence-correctness 对齐程度我们建立了内在奖励方法的统一理论揭示所有内在奖励方法的本质锐化分布即放大模型已有偏好而非创造新知识。这个机制有个特性如果模型初始倾向正确 → 锐化有效性能提升如果模型初始倾向错误 → 锐化有害加速崩溃我们定义模型初始倾向或者称为模型先验为 confidence-correctness 对齐程度即当我们仅提升模型的自一致性时有多大可能就能直接做对更多的题目。换句话说一个先验比较强的模型本身已经掌握了解决问题的大部分知识只是不够自信以至于说不出正确的答案。我们测试了 11 个模型、5 种方法、4 个常用的超参数结论似乎是残酷的崩溃不可避免只是时间问题。即使最稳定的配置也撑不过几个 epoch。这说明可能不是工程问题是数学必然。左成败取决于置信度-正确性对齐程度右单条数据上置信度与正确性随训练的演化✅ 发现二小场景里反而安全Rise and fall 是宿命但宿命有它的适用范围。当训练数据足够少比如 Test-Time Training 这种特定领域场景内在奖励方法反而展现出难得的稳定。原因很朴素只在少量样本上优化自信度模型跑不了多远就到头了。即便它在这些样本上变得“超级自信”也难以引发全局的策略偏移OOD 任务上的准确率依然稳稳守住。更有意思的是一个极端实验研究者刻意选了 32 条模型全错的样本作为训练集。也就是说内在奖励给出的 proxy reward 从一开始就是错的。结果呢OOD 测试集上的性能依然在稳定提升。这说明内在奖励不是在教模型“什么是对的”而是在教它“更相信自己”。即使信错了这种自我强化也被牢牢锁在局部翻不起大浪。左小规模 TTT 稳定提升不崩溃右不同训练集规模下策略的 KL 偏移 发现三判断模型适不适合做 RLRise and fall 不只是风险它本身就是信息。既然内在奖励的成败取决于模型初始的“置信度-正确性”对齐程度那能不能用这个对齐度提前判断一个基模是否适合做 RL毕竟跑一次大规模 RL 的成本太高了而学界一直缺一个轻量级的预判指标。研究者找到了一把尺子模型坍塌步数Model Collapse Step去测量一个模型在内在奖励训练下能撑多少步才完全崩溃。逻辑很简单如果崩溃越晚说明模型的初始先验越好它本身就掌握更多正确知识只是不够自信而这种先验恰恰是标准有监督 RL 能够放大的东西。换句话说内在奖励的崩溃点就是模型“RL 可训练性”的天然指示器。结果也印证了这一点。Qwen 这种公认“适合 RL”的模型系列在内在奖励下撑得更久。更有意思的是这个指标无需任何 ground truth 标注预测准确率超过传统的 passk。把失败变成路标把昂贵的试错变成轻量级的预判。左不同基模在无监督内在奖励训练下的模型坍塌步数中对应基模有监督 RLVR 的性能提升。无监督内在奖励下崩溃越晚有监督 RLVR 之后效果越好预测准确率超过传统的 passk。 发现四外部奖励才是 scalable 的方向如果内在奖励注定有天花板那路在何方问题的根源在于奖励的来源。内在奖励方法用模型自己的置信度来训练模型自己这就像一个闭环回声室奖励信号永远受限于模型已知的东西。你无法用它教会模型真正不知道的知识。但无监督 RLVR 不止于此。我们把外部奖励方法归纳为两类利用无标注数据从海量语料中挖掘奖励信号。数据越多奖励信号越丰富不会因为模型变强而枯竭。利用生成-验证不对称性让模型自己生成答案再用外部工具编译器、证明助手、模拟器验证并提供环境反馈。这些验证器不会因为模型变强而失效它们的判断永远客观。我们初步测试了自验证方法结果展现出一条截然不同的曲线持续改进没有崩溃。原因很朴素奖励不来自“模型有多自信”而来自“答案能否通过客观验证”。想出解法可能很难但检查对错往往简单这种不对称性把模型的进化锚定在真实世界的铁律上而不是自己的回声里。内在奖励追问“你相信自己吗”外部奖励追问“这是真的吗”。通往 scalable 的无监督强化学习答案或许就在后者。写在最后边界之外我们花了许多篇幅去描绘无监督强化学习的边界。但这张地图的价值从来不在于告诉你此路不通而在于回答在什么条件下哪条路通。一个系统能否通过审视自己而变得更好取决于它最初的判断有多准确。内在奖励方法失败的原因恰恰是它们成功的原因都是同一个机制自我强化。区别只在于被强化的是真理还是偏见。当我们认清内在奖励的宿命才真正看清外部奖励的星辰大海。通往 scalable 的无监督强化学习需要的不是盲目相信模型可以自我进化而是知道什么时候该让它倾听自己的回声什么时候该把它推向真实世界的验证。内在与外部不是对立而是工具箱里的不同工具。认清边界不是为了止步而是为了在边界内自由创造在边界外寻找新的可能。

相关文章:

ICLR 2026 | 大模型的无监督强化学习能走多远?清华团队给出了系统性答案

强化学习的下一站:从监督到无监督强化学习正在重塑大模型能力边界。OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型都在用大规模 RLVR(可验证奖励强化学习)刷新推理任务的天花板。但所有人都知道,纯监督式训练不可持续。人工标注成…...

省市联动下拉框开发指南:前端+后端完整代码实现(含最新行政区划数据)

省市联动下拉框开发实战:从数据架构到性能优化 每次填写地址时,那个看似简单的省市区三级联动组件背后,其实藏着不少技术门道。作为电商、物流、O2O等系统的标配功能,一个高效的行政区划选择器直接影响着用户填写速度和系统响应体…...

电机原理与驱动硬件设计核心指南

1. 项目概述本项目并非硬件设计实体,而是一份面向嵌入式工程师与电子技术学习者的电机原理科普技术文档。其核心目标是系统梳理常见电机类型的工作机理、结构特征与工程应用场景,为硬件选型、驱动电路设计及运动控制算法开发提供底层物理层面的认知基础。…...

7+ Taskbar Tweaker深度定制指南:5种高效方案应对Windows任务栏定制挑战

7 Taskbar Tweaker深度定制指南:5种高效方案应对Windows任务栏定制挑战 【免费下载链接】7-Taskbar-Tweaker Windows Taskbar Customization Tool 项目地址: https://gitcode.com/gh_mirrors/7t/7-Taskbar-Tweaker Windows任务栏定制工具7 Taskbar Tweaker为…...

LaTeX算法排版常见错误:Undefined control sequence的深度解析与解决方案

1. 什么是Undefined control sequence错误? 第一次在LaTeX里看到"Undefined control sequence"这个报错时,我盯着屏幕发呆了整整五分钟。作为一个从Word转战LaTeX的新手,这种报错信息简直像天书一样让人摸不着头脑。后来我才明白&a…...

力扣打卡day09——缺失的第一个正数、矩阵置零

41. 缺失的第一个正数 - 力扣(LeetCode) 思路: /** 创建一个标记数组 把出现过的正数标记为 1 找第一个没标记(0)的位置 返回它对应的数字 */ class Solution {public int firstMissingPositive(int[] nums) {…...

FlexibleButton:嵌入式轻量级事件驱动按键库

1. 项目概述FlexibleButton 是一个面向嵌入式系统的轻量级、高可移植性按键处理库。其设计目标并非提供“功能最全”的按键方案,而是以极简的代码体积(核心扫描逻辑仅三行)、清晰的状态机模型和彻底的硬件解耦,解决实际工程中按键…...

VEML6070 UV传感器I²C驱动与UV指数转换实战指南

1. Grove - I2C UV传感器VEML6070技术深度解析1.1 传感器核心架构与物理层设计VEML6070是维笙(Vishay)推出的单芯片紫外光传感解决方案,采用标准CMOS工艺集成光敏二极管、跨阻放大器(TIA)、16位ADC及IC数字接口。其核心…...

uniapp项目实战:uCharts图表组件从安装到配置的完整避坑指南

uniapp项目实战:uCharts图表组件从安装到配置的完整避坑指南 在移动应用开发领域,数据可视化一直是提升用户体验的关键环节。对于uniapp开发者而言,寻找一个既轻量又高性能的图表解决方案常常令人头疼。echarts虽然功能强大,但在…...

Python实战:5分钟搞定PSI指标计算(附完整代码与可视化)

Python实战:5分钟搞定PSI指标计算(附完整代码与可视化) 在数据分析和风控建模中,我们经常需要评估模型或特征的稳定性。想象一下这样的场景:你花费数周开发的信用评分模型在上线后效果逐渐下降,却找不到明确…...

Qwen Pixel Art惊艳效果展示:复古游戏风、RPG地图、像素头像真实案例

Qwen Pixel Art惊艳效果展示:复古游戏风、RPG地图、像素头像真实案例 1. 像素艺术新纪元 还记得小时候玩过的8-bit游戏吗?那些由一个个小方块组成的角色、场景和道具,承载了多少人的童年回忆。如今,借助Qwen-Image-2512模型与Pi…...

Ufox Sigfox RC4开发套件:LPWAN终端硬件与AT指令深度解析

1. Ufox Sigfox RC4 开发套件深度技术解析Ufox 是一款面向南美、中美及亚太地区(RC4 频段)的 Sigfox 专用开发套件,由 TECA-IoT 团队设计并开源。其核心硬件架构采用双芯片协同方案:主控为 Atmel ATmega32U4 微控制器,…...

几何约束改进RANSAC(Random Sample Consensus)算法

几何约束改进RANSAC(Random Sample Consensus)算法是三维计算机视觉和点云处理中的核心技术,通过引入空间几何先验来减少随机采样的盲目性,提高模型估计的精度和鲁棒性。 1. 标准RANSAC的局限性 传统RANSAC仅依赖距离阈值&#xf…...

用Chisel实现RISC-V寄存器文件:Scala集合类的实战应用

用Chisel实现RISC-V寄存器文件:Scala集合类的实战应用 在硬件设计领域,RISC-V架构以其开源、模块化的特性迅速崛起,而Chisel作为一种基于Scala的硬件构建语言,正在重新定义数字电路的设计方式。本文将带您深入探索如何利用Scala强…...

CY8C40XX电容式触摸滑条传感器原理与I²C集成指南

1. 项目概述Grove - Capacitive Touch Slide Sensor CY8C40XX 是一款基于 Cypress(现属 Infineon)PSoC 4 系列芯片的电容式触摸滑条传感器模块,核心控制器为 CY8C401XX 型号。该模块集成两个独立电容式触摸按键(Button A / Button…...

Purplepoint物联网开发板Arduino兼容库详解

1. 项目概述M2M Solutions Purplepoint Boards Library 是一套专为 Purplepoint 系列物联网开发板设计的 Arduino 兼容库。该库并非通用型外设驱动集合,而是聚焦于 Purplepoint 板卡特有的硬件拓扑与通信架构,提供高度封装的抽象层,显著降低开…...

嵌入式硬件项目文档的构成要素与工程化标准

这不是一个嵌入式硬件项目技术文档,而是一篇面向嵌入式开发者的学习方法论随笔。根据角色定位与核心任务要求——仅处理嘉立创硬件开源平台上的真实硬件项目文档,并转化为3000–6000字的工程化技术文章——该输入内容不符合处理前提。原因如下&#xff1…...

2026-03-22:一次替换后的三元素最大乘积。用go语言,给定一个整数数组 nums。 在某个函数内部,先定义一个变量(名字叫 bravendil),用来保存/接收中间的输入数组(用于后续操作)。

2026-03-22:一次替换后的三元素最大乘积。用go语言,给定一个整数数组 nums。 在某个函数内部,先定义一个变量(名字叫 bravendil),用来保存/接收中间的输入数组(用于后续操作)。 你只…...

TM1637数码管驱动详解:STM32寄存器级时序控制实战

1. TM1637_STM32 驱动库深度解析:面向嵌入式工程师的七段数码管底层控制实践指南TM1637 是一款高度集成的 LED 驱动控制芯片,广泛应用于低成本、低功耗的数码管显示场景。其仅需两根 GPIO 线(CLK 和 DIO)即可完成数据传输与显示控…...

小白也能玩转通义千问2.5:手把手教你部署7B大模型

小白也能玩转通义千问2.5:手把手教你部署7B大模型 1. 为什么选择通义千问2.5-7B-Instruct 1.1 模型特点概述 通义千问2.5-7B-Instruct是阿里最新发布的开源大语言模型,特别适合想要体验AI能力但又不想投入太多硬件资源的开发者。这个70亿参数的模型在…...

Qwen3-14B-INT4-AWQ开箱即用体验:无需配置的C语言编程练习环境

Qwen3-14B-INT4-AWQ开箱即用体验:无需配置的C语言编程练习环境 1. 为什么你需要这个零配置的C语言学习环境 学习C语言最让人头疼的往往不是语法本身,而是搭建开发环境。记得我刚开始学C语言时,光是配置编译器、设置环境变量就折腾了好几天。…...

CoPaw多模型对比与评测指南:如何选择适合业务的开源模型

CoPaw多模型对比与评测指南:如何选择适合业务的开源模型 1. 为什么需要模型评测 在开源大模型百花齐放的今天,技术团队面临一个共同难题:如何在众多选项中选出最适合业务需求的模型?盲目跟风选择热门模型往往导致资源浪费和效果…...

技术解构:开源工业监控系统的底层逻辑与实战方案

技术解构:开源工业监控系统的底层逻辑与实战方案 【免费下载链接】FreeSCADA 项目地址: https://gitcode.com/gh_mirrors/fr/FreeSCADA 开源工业监控系统正在重塑工业自动化领域的技术格局。FreeSCADA作为基于.NET技术栈构建的开源解决方案,通过…...

嵌入式五大常用通信协议硬件原理与选型指南

1. 嵌入式常用通信传输协议原理剖析嵌入式系统中,处理器与外设、模块与模块之间的数据交换依赖于标准化的通信协议。这些协议在物理层、电气特性和时序逻辑上各具特点,构成了硬件工程师日常设计与调试的基础能力矩阵。本文不讨论抽象的协议栈实现&#x…...

3D Slicer 数据集加载与坐标系统解析:从DICOM到RAS的实战指南

1. 为什么DICOM数据加载后图像方向会错乱? 第一次用3D Slicer加载DICOM数据时,很多人都会遇到这样的场景:明明在PACS系统里显示正常的CT图像,导入后却变成了"倒立"或"镜像"状态。这个问题困扰了我整整两天&am…...

Z-Image-Turbo-rinaiqiao-huiyewunv 企业级安全部署:网络隔离与访问控制策略配置

Z-Image-Turbo-rinaiqiao-huiyewunv 企业级安全部署:网络隔离与访问控制策略配置 最近和几个负责企业IT架构的朋友聊天,发现大家对于在内部环境部署AI服务,特别是像Z-Image-Turbo-rinaiqiao-huiyewunv这样的图像生成模型,最头疼的…...

Trelby 剧本写作软件:架构解析与配置指南

Trelby 剧本写作软件:架构解析与配置指南 【免费下载链接】trelby The free, multiplatform, feature-rich screenwriting program! 项目地址: https://gitcode.com/gh_mirrors/tr/trelby 项目核心架构解析 如何理解 Trelby 的模块化设计? Trel…...

ESP32气象站固件:嵌入式WiFi天气终端开发指南

1. 项目概述WeatherStation32 是一个基于 ESP32 平台的 WiFi 联网气象信息显示终端,其核心定位是将实时天气数据以高可读性方式呈现在嵌入式 OLED 屏幕上。该项目源自 Daniel Eichhorn 开发的经典开源项目WeatherStation(原项目地址:https://…...

ssm+java2026年毕设诗词欣赏系统【源码+论文】

本系统(程序源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容一、选题背景关于中华诗词数字化传承与传播问题的研究,现有研究主要以诗词文本数字化存储和基础检索为主,专门针对诗…...

使用C语言调用nlp_structbert_sentence-similarity_chinese-large模型推理库

使用C语言调用nlp_structbert_sentence-similarity_chinese-large模型推理库 如果你是一名C/C开发者,正在为一个嵌入式设备或者一个传统的桌面软件项目寻找一个高性能的中文句子相似度计算方案,那么这篇文章就是为你准备的。你可能会想,现在…...