当前位置：首页 > article >正文

10M参数也能跑ARC与数独，Bengio团队押注「多轨迹推理」

article 2026/5/23 0:42:05

10M 参数跑到数独 97%GRAM 把递归推理改成多轨迹采样。10M 参数在大模型时代显得有些微不足道。但 Yoshua Bengio 团队与 KAIST、Mila、NYU 研究人员提出的 GRAM用这个量级的模型跑出了几组值得注意的结果。在 Sudoku-Extreme 上准确率达到 97.0%并在面向少样例模式识别与抽象视觉推理的 ARC-AGI 中分别取得 52.0%ARC-AGI-1和 11.1%ARC-AGI-2。论文还列出了部分大模型结果作为任务难度参考DeepSeek-R1、Claude 3.7 16k 与 o3-mini-high 在 Sudoku-Extreme 上均为 0.0%。不过作者也明确强调这些结果不是同等训练、同等推理设置下的受控 baseline不能直接理解为小模型公平击败大模型。〓 GRAM 在 Sudoku-Extreme、ARC-AGI-1/2 上超过 HRM、TRM 等递归模型大模型分数仅作任务难度参考。这些结果背后的主要变化不在递归推理本身而在于 GRAM 把确定性递归更新改成了概率多轨迹计算。传统递归架构通过共享转移函数反复更新隐状态在不增加参数量的情况下延长内部计算。HRM、TRM 等模型已经显示出这条路线的潜力但它们大多仍是确定性递归模型同一个输入和初始化会对应同一条隐空间轨迹缺少探索其他候选轨迹的机制。基于这个问题团队提出 GRAM即生成式递归推理模型将单一确定性递归轨迹改造成概率潜变量过程并允许推理时并行采样多条隐空间推理轨迹。〓确定性递归与 GRAM 多轨迹对比论文标题Generative Recursive Reasoning论文链接http://arxiv.org/abs/2605.19376项目主页https://ahn-ml.github.io/gram-website/递归更新如何变成多轨迹采样GRAM 的核心是对隐状态更新机制的重构。模型将隐状态解耦为高、低两层 z(h,l)承担不同时间尺度的计算任务。低层状态 l 负责细粒度中间计算。在一次隐变量转移中它在高层状态固定的情况下连续执行 K 次确定性更新高层状态承载更抽象的推理状态每次转移时更新一次。模型先基于底层计算生成确定性候选状态随后向候选状态注入依赖当前状态的高斯扰动均值负责指引推理方向方差控制探索幅度。论文还特别指出随机性只加在高层状态 h 上作者尝试过向低层状态注入噪声但没有带来性能提升。训练阶段GRAM 采用截断梯度传播的深度监督机制优化截断后的代理目标。附录实验显示在 Sudoku-Extreme 与N-Queens 上完整证据下界ELBO与截断代理目标的总体变化方向较一致。但论文也明确指出这仍是带偏但节省显存的近似而不是精确 ELBO。〓 GRAM 核心架构图展示单步随机隐空间转移过程消融实验验证随机指导不可或缺消融实验进一步说明随机性和指导信号需要同时起作用。〓消融实验展示了深度监督、层次递归与随机引导的影响在N-Queens 中仅使用深度监督与层次递归的确定性版本HRM/TRM分别达到 80.70% / 72.90%。引入随机引导后DSSG 达到 100.00%完整 GRAM 为 99.69%同时完整 GRAM 在 Sudoku-Extreme 上达到 93.96%综合表现更占优。机制拆解也给出了更直接的证据。若移除引导信号均值归零仅保留随机噪声N-Queens 准确率降至 50.27%若完全移除随机性方差归零仅保留引导均值准确率降至 0.0%。这说明 GRAM 的收益不是来自随机解码或随机初始化而是来自变分训练下的随机引导让随机轨迹成为可学习、可选择的推理资源。〓 TRM 与 GRAM 的隐空间轨迹对比推理时扩展与多解任务GRAM 在递归深度之外引入了宽度维度的推理时计算扩展。通过隐过程奖励模型预测候选轨迹最终产生正确答案的可能性模型可以在多个采样候选中选择预测值最高的输出也可以使用多数投票。在推理时扩展测试中GRAM 只需在16 次迭代中并行采样N20 条轨迹就能在数独任务中达到97.0%的准确率。这一结果超过 TRM 在320 次迭代下的90.5%。〓推理时扩展与多解任务准确率变化多解任务更能体现这类设计的价值。面对N-QueensGRAM 达到 99.7% 的准确率并覆盖 90.3% 的不同有效解。在 8 节点图着色任务中GRAM 将冲突边数压低至 2.7 条10 节点为 3.3 条优于自回归生成模型的 19.0 和 61.3 条。在 ARC-AGI-1 的附加实验中作者还比较了数据增强与并行采样的关系。无外部数据增强时GRAM 会随采样数增加而提升当数据增强较强时增加采样数的边际收益趋于饱和。这说明数据增强和推理时采样承担的是互补作用不能简单相加理解。〓数据增强与推理时采样的交互关系从条件推理到无条件生成GRAM 本身是潜变量生成模型。当输入被替换为空条件输入或固定为某个条件时同一套递归过程也可以定义为无条件生成模型。在无条件数独生成中模型从空棋盘出发生成完整盘面并按标准 Sudoku 规则评估有效性。GRAM 使用 10.9M 参数和 16 个监督步有效率达到 99.05%。作为对比离散扩散模型 D3PM 使用 55.1M 参数和 1000 次去噪步骤最高有效率为 91.33%。生成阶段没有显式约束检查器或搜索过程也就是说模型并不是靠外部搜索修正结果而是在递归生成过程中逐步形成合规棋盘。〓无条件数独生成示例在二值化 MNIST 图像生成中GRAM 在空条件输入下从初始生成状态出发通过递归隐状态更新逐步修正图像结构。递归步数从 8 增加到 256 时FID 分数由 84.08 下降至 73.34IS 分数同步提升。〓 MNIST 图像无条件生成过程总结这篇论文最值得关注的地方是把递归推理从单一确定性轨迹改成了可以采样多条候选轨迹的概率过程。至少在结构化推理和多解约束任务中这种设计带来了更好的探索能力和约束满足质量。基于宽度的并行采样也让推理时计算不再只依赖递归步数。需要强调的是GRAM 目前主要是在 Sudoku、ARC-AGI、N-Queens、Graph Coloring 和二值化 MNIST 这类受控任务上验证。论文也承认深度监督的顺序训练会限制训练效率这也是 GRAM 继续扩展到更大基础模型时绕不开的限制。更多阅读#投稿通道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

10M参数也能跑ARC与数独，Bengio团队押注「多轨迹推理」

相关文章：

10M参数也能跑ARC与数独，Bengio团队押注「多轨迹推理」

3步彻底解决Windows更新后开始菜单重置难题：ExplorerPatcher深度解析与实战

模拟几种数据融合协作频谱感知技术在认知无线电应用中性能研究（Matlab代码实现）

【顶级EI复现】考虑用户行为基于扩散模型的电动汽车充电场景生成（ Python + PyTorch代码实现）

【顶级EI复现】基于去噪概率扩散模型（DDPM）的电动汽车充电行为场景生成研究（ Python + PyTorch实现）

中性点不接地系统或中性点经消弧线圈接地系统的小电流接地故障仿真研究（Simulink仿真实现）

终极指南：如何用ESP32-A2DP库快速构建蓝牙音频设备

神州细胞递表港交所创新生物制药领军者构筑A+H双平台全球化版图

2026年阿里云OpenClaw/Hermes Agent配置Token Plan部署一文读懂

2026年腾讯云OpenClaw/Hermes Agent配置Token Plan集成流程详解

2026年京东云OpenClaw/Hermes Agent配置Token Plan保姆级搭建分享

React Props：深入解析组件间的数据传递

终极指南：在Windows系统上完整解锁MacBook Pro Touch Bar功能

基于taotoken多模型能力在ubuntu构建智能客服路由系统

从选刊到综述：GPT到底在学术写作上升级了什么？

英雄联盟智能助手：League Akari 完全使用指南与本地化优势解析

测试工程师必学的接口自动化测试框架：从0到1搭建实战

测试工程师如何进行测试计划制定？这5个步骤让你的计划更合理

软件测试的安全漏洞挖掘：掌握这3个方法，成为安全测试专家

测试工程师必知的数据库知识：这4个数据库技能，测试必备

自动化测试的最佳实践：这6个原则让你的测试脚本更稳定

硬核盘点！2026AI写作辅助软件大盘点（覆盖 99% 毕业论文需求）

2026破圈！5款AI论文工具实测，摆脱无效加班，初稿质量效率翻倍

工作中常用的注解梳理

告别普通回归！R 语言混合效应 (多水平 / 嵌套) 模型 + 贝叶斯实现，一篇学会

ElevenLabs江西话TTS上线倒计时（仅限首批200家本地企业内测）：如何抢占方言AI语音红利窗口期？

腾讯云服务器跑通 Cube Sandbox：从 PVM 内核到 65 ms 冷启动的全程实战

鸿蒙同城兴趣圈页面构建：活动热区地图、话题动态与安全提示模块详解

鸿蒙同城兴趣圈页面构建：今晚活动与同频推荐模块详解

鸿蒙同城兴趣圈页面构建：附近社群与兴趣标签模块详解