当前位置: 首页 > article >正文

杨立昆等联合发文:为何AI还不能自学习?如何实现?

当前人工智能AI在自主学习方面存在一个根本性缺陷缺乏像人一样学习的能力。儿童从出生起就在学习和行动他们能灵活选择关注什么、学习什么、何时行动、何时观察并在不同学习模式间自由切换。相比之下AI 模型一旦部署它的学习模式就固定了每一次适配都需要一支人类工程师团队重新介入负责准备数据、构建训练⽅案并根据性能指标进⾏调整。换句话说AI 的自主学习能力被“外包”给了人类。最近来自 Meta、纽约大学和加州大学伯克利分校的 Emmanuel Dupoux、杨立昆Yann LeCun、Jitendra Malik 三位研究者对当前 AI 范式提出了系统性批判并给出了一套受人类和动物认知启发的学习架构。该框架整合了基于观察的学习System A和基于主动行为的学习System B并能够根据内部生成的元控制信号在这些学习模式之间灵活切换。此外他们也借鉴生物体在进化与发育时间尺度上适应现实世界动态环境的方式探讨了该框架的构建方法。论文链接https://arxiv.org/pdf/2603.15381为什么AI还无法自主学习那么当前的 AI 难以实现自学习问题究竟出在哪里研究团队在论文中点出了 4 个结构性困境高质量文本数据的供给已接近天花板由于缺乏与环境的真实交互模型无法学习超越人类现有知识的新内容过度依赖语言而忽视了空间感知、具身认知以及对物理世界的扎根推理物理世界中的空间、具身和接地grounded推理模型在部署之后便停止自我改进无法实现终身学习。在论文中研究团队详细探讨了限制自主学习发展的三方面技术障碍并提出了可能的解决方案。1.学习范式的碎片化现有学习方法分散于各个子领域彼此之间缺乏交互难以整合到统一框架之中。研究团队认为整合的起点是认识到两种基本学习模式通过观察学习System A与通过行动学习System B系统梳理两者之间可能的交互方式。2.学习能力的外部化当前 AI 的学习实际上是由人类完成的。数据筛选、训练方案设计、性能监控全部依赖人类 MLOps 流水线。为此他们提出了元控制架构System M这是一个协调各学习组件间信息流的中央调度器能够自动重现通常需要人工完成的学习与数据过滤流程。3.缺乏规模化构建方法研究团队表示目前还没有一种有效手段在大规模架构上实现上述组件的联合训练。他们提出了一种受进化机制启发的双层优化方法联合学习元控制模型与 System A、System B 的初始状态以实现鲁棒的真实世界性能。图标准机器学习左机器本⾝并不能学习它需要⼀条由研究⼯程师和数据科学家组成的流⽔线负责收集、整理和处理各种类型的数据每⼀种数据都⽤于依次训练模型的不同组件每个组件都使⽤专⻔设计的损失函数和奖励函数。这样一来机器就无法从自身经验中学习。自主机器学习右Agent 直接通过与世界的交互进行学习数据源由 Agent 自身通过不同的学习模式通过观察、行动学习以及可扩展为更高阶的模式例如通过语言互动或自我博弈进行学习生成。团队提出的架构包含一个元控制器使 Agent 能够在真实世界中运行的同时进行学习。(图片来自 ChatGPT。让机器像人一样学习具体而言研究团队的核心思路是将学习拆解为两种基本模式再由元控制系统动态调度两者之间的协作。前两者是学习模式后者是调度两者的元控制器。System A观察学习System A 对应机器学习中的自监督学习SSL。婴儿 6 个月时能同时辨别人类与猴子面孔至 9 个月则专精于人类面孔新生儿能区分多种语言的音素至 6 至 12 个月逐渐专精于母语语音正是这一机制的典型体现。System A 的优势在于可扩展性强能有效扩展处理大规模数据集能够提取具有层次感的抽象特征并在各类下游任务中表现出强大的迁移能力。局限在于依赖人工设计的数据分布与任务生成器缺乏主动决定获取哪些数据的内置机制表征与 Agent 的行动能力脱节导致学习成果难以与现实行为场景有效对接在区分相关性与因果关系时存在显著困难。System B行动学习System B 对应强化学习RL与控制理论。System B 算法类包含通过交互运作的学习机制。行动是指通过一系列动作干预环境以达成特定目标即在时间范围 T 内优化奖励 r。例如儿童学习走路并非模仿他人步态而是经由翻滚、爬行等非双足阶段在反复试错中逐步发展出成熟步态。System B 的优势在于天然适用于实时自适应行为能够直接从稀疏或延迟结果中学习但缺点是样本效率极低即使学习简单任务也常需大量交互在高维或开放式动作空间中表现欠佳且高度依赖具有明确定义的奖励函数和可解释的动作而这些在自然环境中往往难以实现。两个System的双向支撑从直观层面来看当可能的动作数量有限、世界状态易于追踪时通过行动学习相对容易。但在现实中动作空间随自由度的增加呈指数级扩张世界状态也几乎无穷无尽。这正是 System A 能够发挥作用的地方通过为状态与动作提供压缩表征、构建预测世界模型以及生成内在奖励信号使 System B 的学习与规划变得更加可处理。System A 为 System B 提供三类关键支撑第一通过自监督学习方法将原始感知数据像素或声波压缩为更抽象、更紧凑的状态与动作表征降低强化学习的搜索空间维度第二构建预测世界模型捕捉环境动态当模型以自身动作为条件时可将 System B 从无模型强化学习转变为基于模型的规划以规划代替盲目试错第三提供预测误差的内在奖励信号引导 Agent 高效探索并在获得足够置信后转向利用。System B 同样反过来支撑 System A。System A 的局限在于依赖被动或静态数据没有引导或数据筛选它无法从无信息量、嘈杂或无关的数据流中学到有用的表征。System B 通过主动行为可以从两个方向支持 System A 的学习通过主动自监督学习显式优化 System A 的表征能力。例如选择不确定性高或预测误差大的数据片段或通过干预行动揭示被动观察无法触及的因果关系通过目标导向的自监督学习优化自身任务奖励将数据作为副产品提供给 System A为其表征提供现实世界的行为锚点。图System A 和 System B 之间的交互模式概述System A 根据过去状态和动作向 System B 提供未来状态的预测并提供可能动作的层级抽象以及可⽤于探索/好奇的 SSL 损失函数。System B 通过其动作为 System A 提供丰富且与任务相关的输⼊供其学习。然而两个 System 之间的协作并非是自然发生的。研究团队基于儿童“模仿学习”的例子指出这一能力依赖于 System A 与 System B 的紧密集成与协同运作直观呈现了两个 System 协作的复杂性。图 | 模仿学习中的学习模式交互。a自我博弈Self Play。System B 向 System A 提供动作和状态轨迹System A 据此学习世界模型并向 System B 提供基于预测的内在奖励信号。b社会观察。System B 将注意力引导到为 System A 提供复杂轨迹用于推断潜在动作的对等节点。c重定向模仿。System A 学会将外在行为和状态映射到以自我为中心的行为和状态帮助 System B 实现目标导向的行为。图⽚来⾃ ChatGPTSystem M元控制System M 作为中央调度器并不直接处理原始感知输入或运动指令而是监控三类低维内部元状态预测误差、不确定性、新奇度等认知信号。并据此动态连接或断开 System A、System B 与情节记忆之间的数据通路即时组装和拆解学习与推理流水线。System M 的就位还让两种高阶学习模式成为可能。通过交流学习识别社会性触发信号并根据信源可信度动态调节学习权重通过想象学习以记忆替代感官输入、以内部模拟替代真实动作对应生物中的记忆回放与睡眠巩固机制。图 | 认知架构蓝图其中 System M 作为⾃主协调器。System M 作为中央控制平台可⾃动执⾏数据路由和训练⽅案。如何从零构建A、B、M 三系统的蓝图已然成型但随之而来的是一个冷启动难题System A 依赖 System B 产生的数据System B 依赖 System A 提供的感知结构System M 又依赖两者产生的误差信号。三者相互依赖学习如何开始研究团队借鉴生物学中进化与发育尺度的区分提出双层优化框架来破解这一困境。内层对应发育尺度智能体在环境中交互System A 与 B 在固定的 System M 调控下持续更新参数。外层对应进化尺度通过评估智能体整个生命周期的适应度优化系统的初始元参数类比于遗传信息对神经系统初始状态的规定。整个系统中唯一需要人工设计的只有适应度函数与训练环境。参数初始化、数据过滤、学习课程全部由 System M 自动提供。图 | Evo/Devo 框架用于构建自主学习 Agent。学习过程分为两个层级在发展层级中学习者架构A、B和M通过元参数 ϕ 进行初始化。A 和 B 通过与由固定控制器M控制的环境交互来更新参数在进化层级中phi 参数会持续更新以优化系统生命周期内的适应度函数 L。图片来自ChatGPT为什么依然很难研究团队表示自 AI 诞生以来打造一台像儿童一样学习的机器始终是这一领域的核心愿景但实现路上仍横亘着多重现实障碍模拟环境。训练紧耦合的 A、B、M 三系统需要同时满足两个要求足够真实又足够快速。在大规模情况下引入社会性 Agent 或实现师生交互尤其具有挑战性。评估体系。当 Agent 趋于通用任务特定基准便逐渐失去诊断价值。论文建议转向以人类儿童学习速度为参照的评估体系。双层优化的可扩展性。在复杂环境中优化终身学习过程既需要大量计算资源又对课程设计高度敏感。伦理问题。自主学习在灵活性、安全性与社会监管之间引入了全新的权衡。自主性越强系统与预期目标的对齐就越难保证这可能需要明确的审计机制与对 System M 的干预能力。依赖内部代理信号驱动的系统可能像生物一样因信号与环境错位而产生目标偏移乃至类似成瘾或自我伤害的行为。随着 Agent 行为愈发类人用户越容易产生情感依附与错位信任应对这一风险需要对系统能力与局限性保持充分透明。一旦躯体信号被以类似疼痛或恐惧的方式处理此类 Agent 的道德地位问题将真正无可回避。这些问题远超当前 AI 技术所面临的伦理挑战自主学习在灵活性、安全性与社会监管之间引入了全新的权衡没有一项可以被轻易忽视。未来与展望A 与 B 的深度整合已在受限领域取得成功在 MuZero、Dreamer 等系统将学习到的潜在动力学与动作规划结合实现了超人类水平的游戏性能视觉-语言-动作VLA模型也正将大规模被动预训练表征直接用于引导机器人运动执行。然而这些系统的学习方案与运行逻辑依然由人类工程师固定设定远不及生物体中自主、流动的协作方式。研究团队认为距离完全自主、广域学习系统的实现可能还有数十年时间。自主学习不是 AI 的加分项而是其在真实世界可靠运行的必要前提。研究团队同时强调构建这类系统的过程本身就具有独立的科学价值这将为我们理解生物有机体如何在真实环境中学习与适应提供不可替代的定量模型并推动 AI 与认知科学的双向深度融合。

相关文章:

杨立昆等联合发文:为何AI还不能自学习?如何实现?

当前,人工智能(AI)在自主学习方面存在一个根本性缺陷:缺乏像人一样学习的能力。儿童从出生起就在学习和行动,他们能灵活选择关注什么、学习什么、何时行动、何时观察,并在不同学习模式间自由切换。相比之下…...

从Entropy到Epiplexity

1948年,香农以《通信的数学理论》为信息时代立碑,香农熵与柯尔莫哥洛夫复杂度自此成为信息世界的绝对法则。七十余年,学界笃信:信息守恒,确定性变换无法生新;顺序无关,信息总量与排列无涉&#…...

量子计算受到严重质疑,新研究提出量子系统存在规模上限

首先,发表在《美国国家科学院院刊》(PNAS)上的一项新研究表明,量子系统可能存在规模上限。该研究提出了一种名为“理性量子力学”的模型,该模型认为量子系统的数据量存在固定限制。论文的题目是《Rational quantum mec…...

在Java中什么是面向对象编程思想

Java面向对象编程的本质是用类建模事物、对象承载状态、包装、继承和多态组织逻辑;类是抽象模板,对象是具体的例子;包装注重可控访问,继承表达“一”,组合表达“一”,界面定义能力合同,抽象类提…...

Java中的并发工具类与ConcurrentHashMap

ConcurrentHashMap 不能用 put 替代 computeIfAbsent,因 put 初始化的原子性不能保证,但原子性不能保证 computeIfAbsent 通过 RESERVED 状态、CAS 并保证分段锁 key 对应 value 只创建一次。ConcurrentHashMap 为什么不能直接使用? put 替代…...

Shiro无回显漏洞实战:JRMP协议探测与内存马注入技巧

1. Shiro无回显漏洞的困境与突破 很多安全工程师都遇到过这样的尴尬场景:明明通过工具扫描发现了Shiro框架的加密密钥(key),但在实际利用时却发现目标系统没有任何回显。这种情况就像拿到了保险箱密码却发现箱子里空空如也&#x…...

国产化替代实战:银河麒麟V10+ARM平台如何绕过Docker 18限制跑KubeSphere 3.3

国产化ARM平台容器化突围:银河麒麟V10部署KubeSphere 3.3全实战指南 当国产化替代遇上云原生技术栈,技术团队往往需要在不完善的生态中寻找突破口。银河麒麟V10作为国产操作系统的代表,其ARM架构版本在部署最新版KubeSphere时面临的核心矛盾在…...

企业级NAS如何为vSphere提供高性能共享存储?ISCSI优化配置与容量监控技巧

企业级NAS与vSphere深度整合:ISCSI性能调优与智能监控实战 在虚拟化架构中,存储性能往往成为制约整体系统效率的关键瓶颈。根据实际运维数据显示,超过60%的vSphere性能问题可追溯至存储子系统配置不当。本文将深入剖析如何通过ISCSI协议实现企…...

哈工大集合论与图论慕课答案全解析(2022最新版)——附对比选项技巧

哈工大集合论与图论慕课高效学习指南:解题策略与知识点精要 引言:如何高效攻克集合论与图论慕课 集合论与图论作为计算机科学和数学的重要基础课程,在哈工大慕课平台上吸引了大量学习者。然而,许多同学在学习过程中常常陷入"…...

30 分钟生成学生成绩管理系统!飞算 JavaAI 从需求到落地实战

使用飞算 JavaAI 快速生成学生成绩管理系统 系统需求分析 学生成绩管理系统通常包含以下核心功能: 学生信息管理(增删改查)成绩录入与统计(科目、班级、个人维度)数据导出(Excel或PDF报表)用…...

从Swan语言到Scade 6:一份给嵌入式开发者的官方文档学习路线图

从Swan语言到Scade 6:嵌入式开发者的高效学习路径 当你在Swan语言的官方教程中频繁遇到"假设读者已掌握Scade 6基础"的提示时,是否感到一丝迷茫?作为嵌入式开发领域的从业者,我完全理解这种技术栈切换带来的困惑。本文将…...

别急着扔!用这3个Windows系统设置,让你的老电脑再战三年

别急着扔!用这3个Windows系统设置,让你的老电脑再战三年 手里那台老电脑开机要三分钟,开个浏览器都能卡成PPT?先别急着下单买新机。作为从业十年的系统调优师,我见过太多被"硬件升级"思维定式耽误的老设备—…...

MySQL慢查询开启与分析优化案例

一、前言1.1 什么是慢查询日志慢查询日志是MySQL提供的一种性能诊断工具,用于记录执行时间超过指定阈值的SQL语句。通过分析这些“慢SQL”,可以精准定位数据库性能瓶颈,优化索引、SQL写法或表结构。1.2 基础知识要求MySQL基础:熟悉…...

【深度学习】遥感影像变化检测:从模型演进到实战选型

1. 遥感影像变化检测:从“找不同”到“智能感知” 还记得小时候玩的“找不同”游戏吗?给你两张看似一样的图片,让你圈出其中的差异点。遥感影像变化检测,本质上就是给地球这个“大家伙”玩一场超级复杂的“找不同”游戏。只不过&a…...

redis的数据类型及java调用案例

Redis 的丰富数据类型是它能够适应多种场景的核心原因。下面我会结合 Java&#xff08;Jedis 客户端&#xff09; 的代码示例&#xff0c;为你展示每种类型的典型用法和应用场景。1. 准备工作&#xff1a;Java 连接 Redisxml<!-- Maven 依赖 --> <dependency> <…...

Nanbeige 4.1-3B清爽WebUI效果展示:支持语音输入转文字+AI回复一体化

Nanbeige 4.1-3B清爽WebUI效果展示&#xff1a;支持语音输入转文字AI回复一体化 1. 引言&#xff1a;当AI对话遇见极简美学 想象一下&#xff0c;你打开一个AI对话界面&#xff0c;看到的不是拥挤的侧边栏、死板的方形头像和密密麻麻的按钮&#xff0c;而是一个像手机短信应用…...

A*算法是路径规划领域的经典算法,但在实际应用中可能存在一些不足。为了提高效率和效果,我们可以对其进行改进

改进A*算法 算法对比 数据详细 路径规划算法 Matlab 传统A*算法 先来看传统A*算法的基本框架&#xff1a; function path aStarSearch(grid, start, goal)% 初始化优先队列priorityQueue [];% 评估函数值g zeros(size(grid));h ones(size(grid));% 父节点记录parent ze…...

保姆级教程:用Android Studio CPU Profiler分析视频播放卡顿问题(含火焰图解读技巧)

深度解析Android视频播放卡顿&#xff1a;CPU Profiler实战与火焰图精读指南 当你在开发一款视频类应用时&#xff0c;是否遇到过这样的场景&#xff1a;用户反馈播放高清视频时频繁卡顿&#xff0c;评论区充斥着"一卡一卡的"、"看着头晕"的差评&#xff1…...

Linux下frp内网穿透实战:从零搭建安全高效的远程访问通道

1. 为什么你需要frp内网穿透&#xff1f; 想象一下这个场景&#xff1a;你在家里搭建了一个NAS存储服务器&#xff0c;存满了珍贵的家庭照片和工作文档&#xff1b;或者你在办公室的Linux服务器上部署了一个内部使用的Web应用。这些服务运行得非常好&#xff0c;但有个致命问题…...

CUDA编程避坑指南:共享内存Bank Conflict的实战排查与优化(附NVIDIA Nsight工具使用)

CUDA共享内存性能调优实战&#xff1a;从Bank Conflict诊断到Nsight工具链深度解析 当你的CUDA Kernel性能提升陷入瓶颈时&#xff0c;共享内存可能是那个既熟悉又陌生的关键因素。作为GPU编程中最接近寄存器速度的内存资源&#xff0c;共享内存理论上能带来数量级的加速&…...

微信小程序滚动加载实战:如何避免列表卡顿(附完整代码)

微信小程序滚动加载实战&#xff1a;如何避免列表卡顿&#xff08;附完整代码&#xff09; 在移动互联网时代&#xff0c;用户体验的流畅度直接决定了产品的留存率。对于微信小程序开发者而言&#xff0c;列表滚动卡顿是一个常见但棘手的问题&#xff0c;尤其是在电商商品列表、…...

Mininet与OpenFlow控制器集成指南:从Floodlight到OpenDaylight

Mininet与OpenFlow控制器集成指南&#xff1a;从Floodlight到OpenDaylight 引言 在软件定义网络&#xff08;SDN&#xff09;的研究与开发中&#xff0c;Mininet作为轻量级网络仿真工具已成为不可或缺的利器。它能在单台机器上快速构建包含虚拟主机、交换机和控制器的完整网络环…...

Python新手必看:如何快速解决‘str‘ object has no attribute ‘to‘错误(附真实案例)

Python新手必看&#xff1a;如何快速解决str object has no attribute to错误&#xff08;附真实案例&#xff09; 刚接触Python编程时&#xff0c;遇到各种报错信息总是让人头疼不已。其中AttributeError: str object has no attribute to这类错误尤为常见&#xff0c;它看似简…...

YOLOv8实战:从检测框到中心坐标的精准提取与应用

1. 为什么需要提取物体中心坐标&#xff1f; 在目标检测任务中&#xff0c;我们通常使用边界框&#xff08;bounding box&#xff09;来标识物体的位置。但很多时候&#xff0c;仅仅知道物体的边界框是不够的。比如在做物体追踪时&#xff0c;我们需要一个更简洁的表示方式——…...

GME-Qwen2-VL-2B软件重构指南:识别并改善代码中的耦合过度问题

GME-Qwen2-VL-2B软件重构指南&#xff1a;识别并改善代码中的耦合过度问题 你是不是也遇到过这样的场景&#xff1f;接手一个老项目&#xff0c;想改一个功能&#xff0c;结果发现牵一发而动全身&#xff0c;改A模块的代码&#xff0c;B、C、D模块都跟着报错。或者&#xff0c…...

信号与系统实战:5个拉普拉斯变换典型例题解析(附MATLAB验证代码)

信号与系统实战&#xff1a;5个拉普拉斯变换典型例题解析&#xff08;附MATLAB验证代码&#xff09; 拉普拉斯变换作为信号与系统课程的核心工具&#xff0c;其工程价值往往被理论教学的抽象性所掩盖。许多电子信息工程专业的学生能够熟练背诵变换公式&#xff0c;却在面对实际…...

保姆级教程:用OpenVINO在Intel显卡上跑通PP-OCRv5文字识别(附环境配置避坑指南)

保姆级教程&#xff1a;用OpenVINO在Intel显卡上跑通PP-OCRv5文字识别&#xff08;附环境配置避坑指南&#xff09; 在数字化转型浪潮中&#xff0c;光学字符识别&#xff08;OCR&#xff09;技术已成为企业文档处理、票据识别和自动化办公的核心工具。飞桨推出的PP-OCRv5以其…...

【C#避坑实战系列文章08】C#并行处理资源瓶颈诊断:用PerformanceCounter定位CPU/内存热点,优化并行度与算法

1. 从监控到诊断&#xff1a;PerformanceCounter的进阶玩法 很多C#开发者都遇到过这样的场景&#xff1a;你的并行处理程序在服务器上跑得风生水起&#xff0c;突然某天运维同事怒气冲冲地找上门——"你们的服务又把服务器CPU吃满了&#xff01;"。你打开任务管理器&…...

病理图像处理新手必看:SVS和TIFF格式转换的5个实用技巧(附代码示例)

病理图像处理新手必看&#xff1a;SVS和TIFF格式转换的5个实用技巧&#xff08;附代码示例&#xff09; 在医学研究和人工智能开发领域&#xff0c;病理图像处理已成为不可或缺的关键环节。对于刚接触这一领域的研究人员和开发者来说&#xff0c;如何高效处理SVS和TIFF这两种主…...

HFSS仿真教程:用Ansys还原AirPods蓝牙天线设计(含LDS工艺参数)

HFSS仿真教程&#xff1a;用Ansys还原AirPods蓝牙天线设计&#xff08;含LDS工艺参数&#xff09; 当拆解AirPods时&#xff0c;最令人惊叹的莫过于其内部精密的天线设计——如何在如此紧凑的空间内实现稳定的蓝牙连接&#xff1f;这正是射频工程师需要掌握的三维电磁场仿真技术…...