当前位置：首页 > article >正文

杨立昆等联合发文：为何AI还不能自学习？如何实现？

article 2026/3/22 17:42:13

当前人工智能AI在自主学习方面存在一个根本性缺陷缺乏像人一样学习的能力。儿童从出生起就在学习和行动他们能灵活选择关注什么、学习什么、何时行动、何时观察并在不同学习模式间自由切换。相比之下AI 模型一旦部署它的学习模式就固定了每一次适配都需要一支人类工程师团队重新介入负责准备数据、构建训练⽅案并根据性能指标进⾏调整。换句话说AI 的自主学习能力被“外包”给了人类。最近来自 Meta、纽约大学和加州大学伯克利分校的 Emmanuel Dupoux、杨立昆Yann LeCun、Jitendra Malik 三位研究者对当前 AI 范式提出了系统性批判并给出了一套受人类和动物认知启发的学习架构。该框架整合了基于观察的学习System A和基于主动行为的学习System B并能够根据内部生成的元控制信号在这些学习模式之间灵活切换。此外他们也借鉴生物体在进化与发育时间尺度上适应现实世界动态环境的方式探讨了该框架的构建方法。论文链接https://arxiv.org/pdf/2603.15381为什么AI还无法自主学习那么当前的 AI 难以实现自学习问题究竟出在哪里研究团队在论文中点出了 4 个结构性困境高质量文本数据的供给已接近天花板由于缺乏与环境的真实交互模型无法学习超越人类现有知识的新内容过度依赖语言而忽视了空间感知、具身认知以及对物理世界的扎根推理物理世界中的空间、具身和接地grounded推理模型在部署之后便停止自我改进无法实现终身学习。在论文中研究团队详细探讨了限制自主学习发展的三方面技术障碍并提出了可能的解决方案。1.学习范式的碎片化现有学习方法分散于各个子领域彼此之间缺乏交互难以整合到统一框架之中。研究团队认为整合的起点是认识到两种基本学习模式通过观察学习System A与通过行动学习System B系统梳理两者之间可能的交互方式。2.学习能力的外部化当前 AI 的学习实际上是由人类完成的。数据筛选、训练方案设计、性能监控全部依赖人类 MLOps 流水线。为此他们提出了元控制架构System M这是一个协调各学习组件间信息流的中央调度器能够自动重现通常需要人工完成的学习与数据过滤流程。3.缺乏规模化构建方法研究团队表示目前还没有一种有效手段在大规模架构上实现上述组件的联合训练。他们提出了一种受进化机制启发的双层优化方法联合学习元控制模型与 System A、System B 的初始状态以实现鲁棒的真实世界性能。图标准机器学习左机器本⾝并不能学习它需要⼀条由研究⼯程师和数据科学家组成的流⽔线负责收集、整理和处理各种类型的数据每⼀种数据都⽤于依次训练模型的不同组件每个组件都使⽤专⻔设计的损失函数和奖励函数。这样一来机器就无法从自身经验中学习。自主机器学习右Agent 直接通过与世界的交互进行学习数据源由 Agent 自身通过不同的学习模式通过观察、行动学习以及可扩展为更高阶的模式例如通过语言互动或自我博弈进行学习生成。团队提出的架构包含一个元控制器使 Agent 能够在真实世界中运行的同时进行学习。(图片来自 ChatGPT。让机器像人一样学习具体而言研究团队的核心思路是将学习拆解为两种基本模式再由元控制系统动态调度两者之间的协作。前两者是学习模式后者是调度两者的元控制器。System A观察学习System A 对应机器学习中的自监督学习SSL。婴儿 6 个月时能同时辨别人类与猴子面孔至 9 个月则专精于人类面孔新生儿能区分多种语言的音素至 6 至 12 个月逐渐专精于母语语音正是这一机制的典型体现。System A 的优势在于可扩展性强能有效扩展处理大规模数据集能够提取具有层次感的抽象特征并在各类下游任务中表现出强大的迁移能力。局限在于依赖人工设计的数据分布与任务生成器缺乏主动决定获取哪些数据的内置机制表征与 Agent 的行动能力脱节导致学习成果难以与现实行为场景有效对接在区分相关性与因果关系时存在显著困难。System B行动学习System B 对应强化学习RL与控制理论。System B 算法类包含通过交互运作的学习机制。行动是指通过一系列动作干预环境以达成特定目标即在时间范围 T 内优化奖励 r。例如儿童学习走路并非模仿他人步态而是经由翻滚、爬行等非双足阶段在反复试错中逐步发展出成熟步态。System B 的优势在于天然适用于实时自适应行为能够直接从稀疏或延迟结果中学习但缺点是样本效率极低即使学习简单任务也常需大量交互在高维或开放式动作空间中表现欠佳且高度依赖具有明确定义的奖励函数和可解释的动作而这些在自然环境中往往难以实现。两个System的双向支撑从直观层面来看当可能的动作数量有限、世界状态易于追踪时通过行动学习相对容易。但在现实中动作空间随自由度的增加呈指数级扩张世界状态也几乎无穷无尽。这正是 System A 能够发挥作用的地方通过为状态与动作提供压缩表征、构建预测世界模型以及生成内在奖励信号使 System B 的学习与规划变得更加可处理。System A 为 System B 提供三类关键支撑第一通过自监督学习方法将原始感知数据像素或声波压缩为更抽象、更紧凑的状态与动作表征降低强化学习的搜索空间维度第二构建预测世界模型捕捉环境动态当模型以自身动作为条件时可将 System B 从无模型强化学习转变为基于模型的规划以规划代替盲目试错第三提供预测误差的内在奖励信号引导 Agent 高效探索并在获得足够置信后转向利用。System B 同样反过来支撑 System A。System A 的局限在于依赖被动或静态数据没有引导或数据筛选它无法从无信息量、嘈杂或无关的数据流中学到有用的表征。System B 通过主动行为可以从两个方向支持 System A 的学习通过主动自监督学习显式优化 System A 的表征能力。例如选择不确定性高或预测误差大的数据片段或通过干预行动揭示被动观察无法触及的因果关系通过目标导向的自监督学习优化自身任务奖励将数据作为副产品提供给 System A为其表征提供现实世界的行为锚点。图System A 和 System B 之间的交互模式概述System A 根据过去状态和动作向 System B 提供未来状态的预测并提供可能动作的层级抽象以及可⽤于探索/好奇的 SSL 损失函数。System B 通过其动作为 System A 提供丰富且与任务相关的输⼊供其学习。然而两个 System 之间的协作并非是自然发生的。研究团队基于儿童“模仿学习”的例子指出这一能力依赖于 System A 与 System B 的紧密集成与协同运作直观呈现了两个 System 协作的复杂性。图 | 模仿学习中的学习模式交互。a自我博弈Self Play。System B 向 System A 提供动作和状态轨迹System A 据此学习世界模型并向 System B 提供基于预测的内在奖励信号。b社会观察。System B 将注意力引导到为 System A 提供复杂轨迹用于推断潜在动作的对等节点。c重定向模仿。System A 学会将外在行为和状态映射到以自我为中心的行为和状态帮助 System B 实现目标导向的行为。图⽚来⾃ ChatGPTSystem M元控制System M 作为中央调度器并不直接处理原始感知输入或运动指令而是监控三类低维内部元状态预测误差、不确定性、新奇度等认知信号。并据此动态连接或断开 System A、System B 与情节记忆之间的数据通路即时组装和拆解学习与推理流水线。System M 的就位还让两种高阶学习模式成为可能。通过交流学习识别社会性触发信号并根据信源可信度动态调节学习权重通过想象学习以记忆替代感官输入、以内部模拟替代真实动作对应生物中的记忆回放与睡眠巩固机制。图 | 认知架构蓝图其中 System M 作为⾃主协调器。System M 作为中央控制平台可⾃动执⾏数据路由和训练⽅案。如何从零构建A、B、M 三系统的蓝图已然成型但随之而来的是一个冷启动难题System A 依赖 System B 产生的数据System B 依赖 System A 提供的感知结构System M 又依赖两者产生的误差信号。三者相互依赖学习如何开始研究团队借鉴生物学中进化与发育尺度的区分提出双层优化框架来破解这一困境。内层对应发育尺度智能体在环境中交互System A 与 B 在固定的 System M 调控下持续更新参数。外层对应进化尺度通过评估智能体整个生命周期的适应度优化系统的初始元参数类比于遗传信息对神经系统初始状态的规定。整个系统中唯一需要人工设计的只有适应度函数与训练环境。参数初始化、数据过滤、学习课程全部由 System M 自动提供。图 | Evo/Devo 框架用于构建自主学习 Agent。学习过程分为两个层级在发展层级中学习者架构A、B和M通过元参数 ϕ 进行初始化。A 和 B 通过与由固定控制器M控制的环境交互来更新参数在进化层级中phi 参数会持续更新以优化系统生命周期内的适应度函数 L。图片来自ChatGPT为什么依然很难研究团队表示自 AI 诞生以来打造一台像儿童一样学习的机器始终是这一领域的核心愿景但实现路上仍横亘着多重现实障碍模拟环境。训练紧耦合的 A、B、M 三系统需要同时满足两个要求足够真实又足够快速。在大规模情况下引入社会性 Agent 或实现师生交互尤其具有挑战性。评估体系。当 Agent 趋于通用任务特定基准便逐渐失去诊断价值。论文建议转向以人类儿童学习速度为参照的评估体系。双层优化的可扩展性。在复杂环境中优化终身学习过程既需要大量计算资源又对课程设计高度敏感。伦理问题。自主学习在灵活性、安全性与社会监管之间引入了全新的权衡。自主性越强系统与预期目标的对齐就越难保证这可能需要明确的审计机制与对 System M 的干预能力。依赖内部代理信号驱动的系统可能像生物一样因信号与环境错位而产生目标偏移乃至类似成瘾或自我伤害的行为。随着 Agent 行为愈发类人用户越容易产生情感依附与错位信任应对这一风险需要对系统能力与局限性保持充分透明。一旦躯体信号被以类似疼痛或恐惧的方式处理此类 Agent 的道德地位问题将真正无可回避。这些问题远超当前 AI 技术所面临的伦理挑战自主学习在灵活性、安全性与社会监管之间引入了全新的权衡没有一项可以被轻易忽视。未来与展望A 与 B 的深度整合已在受限领域取得成功在 MuZero、Dreamer 等系统将学习到的潜在动力学与动作规划结合实现了超人类水平的游戏性能视觉-语言-动作VLA模型也正将大规模被动预训练表征直接用于引导机器人运动执行。然而这些系统的学习方案与运行逻辑依然由人类工程师固定设定远不及生物体中自主、流动的协作方式。研究团队认为距离完全自主、广域学习系统的实现可能还有数十年时间。自主学习不是 AI 的加分项而是其在真实世界可靠运行的必要前提。研究团队同时强调构建这类系统的过程本身就具有独立的科学价值这将为我们理解生物有机体如何在真实环境中学习与适应提供不可替代的定量模型并推动 AI 与认知科学的双向深度融合。

杨立昆等联合发文：为何AI还不能自学习？如何实现？

相关文章：

杨立昆等联合发文：为何AI还不能自学习？如何实现？

从Entropy到Epiplexity

量子计算受到严重质疑，新研究提出量子系统存在规模上限

在Java中什么是面向对象编程思想

Java中的并发工具类与ConcurrentHashMap

Shiro无回显漏洞实战：JRMP协议探测与内存马注入技巧

国产化替代实战：银河麒麟V10+ARM平台如何绕过Docker 18限制跑KubeSphere 3.3

企业级NAS如何为vSphere提供高性能共享存储？ISCSI优化配置与容量监控技巧

哈工大集合论与图论慕课答案全解析（2022最新版）——附对比选项技巧

30 分钟生成学生成绩管理系统！飞算 JavaAI 从需求到落地实战

从Swan语言到Scade 6：一份给嵌入式开发者的官方文档学习路线图

别急着扔！用这3个Windows系统设置，让你的老电脑再战三年

MySQL慢查询开启与分析优化案例

【深度学习】遥感影像变化检测：从模型演进到实战选型

redis的数据类型及java调用案例

Nanbeige 4.1-3B清爽WebUI效果展示：支持语音输入转文字+AI回复一体化

A*算法是路径规划领域的经典算法，但在实际应用中可能存在一些不足。为了提高效率和效果，我们可以对其进行改进

保姆级教程：用Android Studio CPU Profiler分析视频播放卡顿问题（含火焰图解读技巧）

Linux下frp内网穿透实战：从零搭建安全高效的远程访问通道

CUDA编程避坑指南：共享内存Bank Conflict的实战排查与优化（附NVIDIA Nsight工具使用）

微信小程序滚动加载实战：如何避免列表卡顿（附完整代码）

Mininet与OpenFlow控制器集成指南：从Floodlight到OpenDaylight

Python新手必看：如何快速解决‘str‘ object has no attribute ‘to‘错误（附真实案例）

YOLOv8实战：从检测框到中心坐标的精准提取与应用

GME-Qwen2-VL-2B软件重构指南：识别并改善代码中的耦合过度问题

信号与系统实战：5个拉普拉斯变换典型例题解析（附MATLAB验证代码）

保姆级教程：用OpenVINO在Intel显卡上跑通PP-OCRv5文字识别（附环境配置避坑指南）

【C#避坑实战系列文章08】C#并行处理资源瓶颈诊断：用PerformanceCounter定位CPU/内存热点，优化并行度与算法

病理图像处理新手必看：SVS和TIFF格式转换的5个实用技巧（附代码示例）

HFSS仿真教程：用Ansys还原AirPods蓝牙天线设计（含LDS工艺参数）