当前位置: 首页 > article >正文

10M参数也能跑ARC与数独,Bengio团队押注「多轨迹推理」

10M 参数跑到数独 97%GRAM 把递归推理改成多轨迹采样。10M 参数在大模型时代显得有些微不足道。但 Yoshua Bengio 团队与 KAIST、Mila、NYU 研究人员提出的 GRAM用这个量级的模型跑出了几组值得注意的结果。在 Sudoku-Extreme 上准确率达到 97.0%并在面向少样例模式识别与抽象视觉推理的 ARC-AGI 中分别取得 52.0%ARC-AGI-1和 11.1%ARC-AGI-2。论文还列出了部分大模型结果作为任务难度参考DeepSeek-R1、Claude 3.7 16k 与 o3-mini-high 在 Sudoku-Extreme 上均为 0.0%。不过作者也明确强调这些结果不是同等训练、同等推理设置下的受控 baseline不能直接理解为小模型公平击败大模型。〓 GRAM 在 Sudoku-Extreme、ARC-AGI-1/2 上超过 HRM、TRM 等递归模型大模型分数仅作任务难度参考。这些结果背后的主要变化不在递归推理本身而在于 GRAM 把确定性递归更新改成了概率多轨迹计算。传统递归架构通过共享转移函数反复更新隐状态在不增加参数量的情况下延长内部计算。HRM、TRM 等模型已经显示出这条路线的潜力但它们大多仍是确定性递归模型同一个输入和初始化会对应同一条隐空间轨迹缺少探索其他候选轨迹的机制。基于这个问题团队提出 GRAM即生成式递归推理模型将单一确定性递归轨迹改造成概率潜变量过程并允许推理时并行采样多条隐空间推理轨迹。〓 确定性递归与 GRAM 多轨迹对比论文标题Generative Recursive Reasoning论文链接http://arxiv.org/abs/2605.19376项目主页https://ahn-ml.github.io/gram-website/递归更新如何变成多轨迹采样GRAM 的核心是对隐状态更新机制的重构。模型将隐状态解耦为高、低两层 z(h,l)承担不同时间尺度的计算任务。低层状态 l 负责细粒度中间计算。在一次隐变量转移中它在高层状态固定的情况下连续执行 K 次确定性更新高层状态承载更抽象的推理状态每次转移时更新一次。模型先基于底层计算生成确定性候选状态随后向候选状态注入依赖当前状态的高斯扰动均值负责指引推理方向方差控制探索幅度。论文还特别指出随机性只加在高层状态 h 上作者尝试过向低层状态注入噪声但没有带来性能提升。训练阶段GRAM 采用截断梯度传播的深度监督机制优化截断后的代理目标。附录实验显示在 Sudoku-Extreme 与N-Queens 上完整证据下界ELBO与截断代理目标的总体变化方向较一致。但论文也明确指出这仍是带偏但节省显存的近似而不是精确 ELBO。〓 GRAM 核心架构图展示单步随机隐空间转移过程消融实验验证随机指导不可或缺消融实验进一步说明随机性和指导信号需要同时起作用。〓 消融实验展示了深度监督、层次递归与随机引导的影响在N-Queens 中仅使用深度监督与层次递归的确定性版本HRM/TRM分别达到 80.70% / 72.90%。引入随机引导后DSSG 达到 100.00%完整 GRAM 为 99.69%同时完整 GRAM 在 Sudoku-Extreme 上达到 93.96%综合表现更占优。机制拆解也给出了更直接的证据。若移除引导信号均值归零仅保留随机噪声N-Queens 准确率降至 50.27%若完全移除随机性方差归零仅保留引导均值准确率降至 0.0%。这说明 GRAM 的收益不是来自随机解码或随机初始化而是来自变分训练下的随机引导让随机轨迹成为可学习、可选择的推理资源。〓 TRM 与 GRAM 的隐空间轨迹对比推理时扩展与多解任务GRAM 在递归深度之外引入了宽度维度的推理时计算扩展。通过隐过程奖励模型预测候选轨迹最终产生正确答案的可能性模型可以在多个采样候选中选择预测值最高的输出也可以使用多数投票。在推理时扩展测试中GRAM 只需在16 次迭代中并行采样N20 条轨迹就能在数独任务中达到97.0%的准确率。这一结果超过 TRM 在320 次迭代下的90.5%。〓 推理时扩展与多解任务准确率变化多解任务更能体现这类设计的价值。面对N-QueensGRAM 达到 99.7% 的准确率并覆盖 90.3% 的不同有效解。在 8 节点图着色任务中GRAM 将冲突边数压低至 2.7 条10 节点为 3.3 条优于自回归生成模型的 19.0 和 61.3 条。在 ARC-AGI-1 的附加实验中作者还比较了数据增强与并行采样的关系。无外部数据增强时GRAM 会随采样数增加而提升当数据增强较强时增加采样数的边际收益趋于饱和。这说明数据增强和推理时采样承担的是互补作用不能简单相加理解。〓 数据增强与推理时采样的交互关系从条件推理到无条件生成GRAM 本身是潜变量生成模型。当输入被替换为空条件输入或固定为某个条件时同一套递归过程也可以定义为无条件生成模型。在无条件数独生成中模型从空棋盘出发生成完整盘面并按标准 Sudoku 规则评估有效性。GRAM 使用 10.9M 参数和 16 个监督步有效率达到 99.05%。作为对比离散扩散模型 D3PM 使用 55.1M 参数和 1000 次去噪步骤最高有效率为 91.33%。生成阶段没有显式约束检查器或搜索过程也就是说模型并不是靠外部搜索修正结果而是在递归生成过程中逐步形成合规棋盘。〓 无条件数独生成示例在二值化 MNIST 图像生成中GRAM 在空条件输入下从初始生成状态出发通过递归隐状态更新逐步修正图像结构。递归步数从 8 增加到 256 时FID 分数由 84.08 下降至 73.34IS 分数同步提升。〓 MNIST 图像无条件生成过程总结这篇论文最值得关注的地方是把递归推理从单一确定性轨迹改成了可以采样多条候选轨迹的概率过程。至少在结构化推理和多解约束任务中这种设计带来了更好的探索能力和约束满足质量。基于宽度的并行采样也让推理时计算不再只依赖递归步数。需要强调的是GRAM 目前主要是在 Sudoku、ARC-AGI、N-Queens、Graph Coloring 和二值化 MNIST 这类受控任务上验证。论文也承认深度监督的顺序训练会限制训练效率这也是 GRAM 继续扩展到更大基础模型时绕不开的限制。更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

相关文章:

10M参数也能跑ARC与数独,Bengio团队押注「多轨迹推理」

10M 参数跑到数独 97%,GRAM 把递归推理改成多轨迹采样。 10M 参数,在大模型时代显得有些微不足道。 但 Yoshua Bengio 团队与 KAIST、Mila、NYU 研究人员提出的 GRAM,用这个量级的模型跑出了几组值得注意的结果。 在 Sudoku-Extreme 上准确率…...

3步彻底解决Windows更新后开始菜单重置难题:ExplorerPatcher深度解析与实战

3步彻底解决Windows更新后开始菜单重置难题:ExplorerPatcher深度解析与实战 【免费下载链接】ExplorerPatcher This project aims to enhance the working environment on Windows 项目地址: https://gitcode.com/GitHub_Trending/ex/ExplorerPatcher 每次Wi…...

模拟几种数据融合协作频谱感知技术在认知无线电应用中性能研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...

【顶级EI复现】考虑用户行为基于扩散模型的电动汽车充电场景生成( Python + PyTorch代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 &#x1f381…...

【顶级EI复现】基于去噪概率扩散模型(DDPM)的电动汽车充电行为场景生成研究( Python + PyTorch实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 &#x1f381…...

中性点不接地系统或中性点经消弧线圈接地系统的小电流接地故障仿真研究(Simulink仿真实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 &#x1f381…...

终极指南:如何用ESP32-A2DP库快速构建蓝牙音频设备

终极指南:如何用ESP32-A2DP库快速构建蓝牙音频设备 【免费下载链接】ESP32-A2DP A Simple ESP32 Bluetooth A2DP Library (to implement a Music Receiver or Sender) that supports Arduino, PlatformIO and Espressif IDF 项目地址: https://gitcode.com/gh_mir…...

神州细胞递表港交所 创新生物制药领军者构筑A+H双平台全球化版图

5月22日,北京神州细胞生物技术集团股份公司(证券代码:688520,证券简称:神州细胞)正式向香港联合交易所有限公司递交上市申请,迈出“AH”双资本平台布局的关键一步。公司以科创板上市为根基&…...

2026年阿里云OpenClaw/Hermes Agent配置Token Plan部署一文读懂

2026年阿里云OpenClaw/Hermes Agent配置Token Plan部署一文读懂。OpenClaw是开源的个人AI助手,Hermes Agent则是一个能自我进化的AI智能体框架。阿里云提供计算巢、轻量服务器及无影云电脑三种部署OpenClaw 与 Hermes Agent的方案、百炼Token Plan兼容主流 AI 工具&…...

2026年腾讯云OpenClaw/Hermes Agent配置Token Plan集成流程详解

2026年腾讯云OpenClaw/Hermes Agent配置Token Plan集成流程详解。OpenClaw是开源的个人AI助手,Hermes Agent则是一个能自我进化的AI智能体框架。阿里云提供计算巢、轻量服务器及无影云电脑三种部署OpenClaw 与 Hermes Agent的方案、百炼Token Plan兼容主流 AI 工具&…...

2026年京东云OpenClaw/Hermes Agent配置Token Plan保姆级搭建分享

2026年京东云OpenClaw/Hermes Agent配置Token Plan保姆级搭建分享。OpenClaw是开源的个人AI助手,Hermes Agent则是一个能自我进化的AI智能体框架。阿里云提供计算巢、轻量服务器及无影云电脑三种部署OpenClaw 与 Hermes Agent的方案、百炼Token Plan兼容主流 AI 工具…...

React Props:深入解析组件间的数据传递

React Props:深入解析组件间的数据传递 在React中,组件间的数据传递是构建复杂应用的关键。Props(属性)是React组件间数据传递的主要方式,它允许父组件向子组件传递数据。本文将深入探讨React Props的概念、使用方法以及注意事项。 一、Props的概念 Props是React组件的…...

终极指南:在Windows系统上完整解锁MacBook Pro Touch Bar功能

终极指南:在Windows系统上完整解锁MacBook Pro Touch Bar功能 【免费下载链接】DFRDisplayKm Windows infrastructure support for Apple DFR (Touch Bar) 项目地址: https://gitcode.com/gh_mirrors/df/DFRDisplayKm 还在为MacBook Pro在Windows系统中Touch…...

基于taotoken多模型能力在ubuntu构建智能客服路由系统

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 基于taotoken多模型能力在ubuntu构建智能客服路由系统 在构建智能客服系统时,一个常见的挑战是如何平衡响应质量与成本…...

从选刊到综述:GPT到底在学术写作上升级了什么?

各位同仁好,我是七哥。一个在高校里从事人工智能相关领域研究,钻研用大模型AI实操的学术人。可以和七哥交流学术写作或Gemini、GPT、Claude等大模型学术实操相关问题,多多交流,相互成就,共同进步。 导师把选题报告打回来,批注栏里写着:“创新点不够清晰,建议重新梳理研…...

英雄联盟智能助手:League Akari 完全使用指南与本地化优势解析

英雄联盟智能助手:League Akari 完全使用指南与本地化优势解析 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一款…...

测试工程师必学的接口自动化测试框架:从0到1搭建实战

在互联网产品迭代速度不断加快的今天,接口测试已经成为软件测试流程中不可或缺的核心环节。相较于UI自动化测试,接口测试具有稳定性高、响应快、落地成本低的优势,已经成为企业保障版本质量、缩短测试周期的核心手段。对于测试工程师而言&…...

测试工程师如何进行测试计划制定?这5个步骤让你的计划更合理

对于软件测试从业者而言,一份合理可行的测试计划是项目测试工作的核心纲领,它不仅决定了测试活动的范围、方向与资源分配,更直接影响着项目的交付质量与进度管控。很多初级测试工程师常常将测试计划等同于测试时间列表,要么写得过…...

软件测试的安全漏洞挖掘:掌握这3个方法,成为安全测试专家

对于软件测试从业者而言,随着数字化转型的深入,软件系统承载的敏感数据、核心业务不断增加,安全漏洞已经从“可接受的开发瑕疵”变成了威胁业务生存的核心风险。从用户隐私泄露到核心支付系统被攻破,从开源组件漏洞引发的供应链攻…...

测试工程师必知的数据库知识:这4个数据库技能,测试必备

在软件开发的全生命周期中,数据库是支撑所有业务逻辑运转的核心骨架——用户的每一次点击、每一笔交易、每一条信息的展示,最终都会转化为数据库中数据的增删改查。对于软件测试工程师而言,数据库知识早已不是面试中的加分项,而是…...

自动化测试的最佳实践:这6个原则让你的测试脚本更稳定

在当前互联网行业快速迭代的开发模式下,自动化测试已经成为保障软件交付质量、提升测试效率的核心手段。据行业调研数据显示,成熟的互联网测试团队中,核心回归测试场景的自动化覆盖率已经超过80%,自动化测试承担了绝大部分重复性测…...

硬核盘点!2026AI写作辅助软件大盘点(覆盖 99% 毕业论文需求)

本文精选13 款2026 年实测 AI 论文工具,按全流程全能型、垂直领域专精型、润色降重专家、文献管理助手四大类别排序,覆盖从选题到定稿全链路,适配本科 / 硕博 / 期刊全场景,附选型速查表与避坑指南,帮你快速找到最佳拍…...

2026破圈!5款AI论文工具实测,摆脱无效加班,初稿质量效率翻倍

对于学生、科研工作者而言,论文写作往往面临诸多挑战:文献资料筛选耗时冗长、格式排版反复调整、查重率难以精准控制、研究逻辑梳理不够清晰,这些痛点严重制约了写作效率与学术成果的规范性。随着2026年AI技术的持续突破,各类AI论…...

工作中常用的注解梳理

注解是贴在类、方法、变量上的标记标签,以开头,本身不执行业务代码。作用主要有以下几点:代码标识说明替代配置文件自动生成代码框架识别驱动数据约束与校验单元测试序列化转换日常工作中常用的注解主要有以下十三类:JDK原生注解J…...

告别普通回归!R 语言混合效应 (多水平 / 嵌套) 模型 + 贝叶斯实现,一篇学会

在科研数据分析里,普通回归已经不够用了。你是不是经常遇到:数据有分层、嵌套、多水平结构,普通回归不准?计数数据、0-1 数据、过度离散、零膨胀,不会选模型?时空自相关、系统发育数据,不知道怎…...

ElevenLabs江西话TTS上线倒计时(仅限首批200家本地企业内测):如何抢占方言AI语音红利窗口期?

更多请点击: https://codechina.net 第一章:ElevenLabs江西话语音技术正式发布与战略意义 ElevenLabs于2024年9月正式推出全球首个面向方言场景深度优化的语音合成模型——Jiangxi-Dialect TTS v1.0,首次实现对赣语昌靖片(以南昌…...

腾讯云服务器跑通 Cube Sandbox:从 PVM 内核到 65 ms 冷启动的全程实战

腾讯云服务器跑通 Cube Sandbox:从 PVM 内核到 65 ms 冷启动的全程实战 适合第一次想把 Cube Sandbox 真正跑起来的开发者。本文用一台普通腾讯云 CVM(OpenCloudOS 9.4 / 8C16G / 无嵌套虚拟化),从空白系统一路推到 Sandbox.creat…...

鸿蒙同城兴趣圈页面构建:活动热区地图、话题动态与安全提示模块详解

鸿蒙同城兴趣圈页面构建:活动热区地图、话题动态与安全提示模块详解 前言 在 HarmonyOS 6.0 应用开发中,社交类页面的地理可视化、话题互动和安全提示是提升用户体验的关键补充模块。本文将以“同城兴趣圈”应用中的“活动热区”模拟地图、“话题动态”帖…...

鸿蒙同城兴趣圈页面构建:今晚活动与同频推荐模块详解

鸿蒙同城兴趣圈页面构建:今晚活动与同频推荐模块详解 前言 在 HarmonyOS 6.0 应用开发中,社交类页面的活动展示和用户推荐是提升用户参与度的核心功能模块。本文将以“同城兴趣圈”应用中的“今晚活动”时间线模块和“同频推荐”用户卡片网格为例&#x…...

鸿蒙同城兴趣圈页面构建:附近社群与兴趣标签模块详解

鸿蒙同城兴趣圈页面构建:附近社群与兴趣标签模块详解 前言 在 HarmonyOS 6.0 应用开发中,社交类页面的核心挑战在于如何高效展示附近社群、兴趣标签和活动信息。本文将以“同城兴趣圈”应用的主页面为例,深入解析如何在鸿蒙平台上构建社交发现…...