当前位置：首页 > article >正文

DeepMind CEO 访谈：人类离 AGI 只剩 4 年，只差最后 3 块拼图

article 2026/5/16 11:11:06

作者老纪的技术唠嗑局楔子前几天4 月 29 日Google DeepMind CEO、2024 年诺贝尔化学奖得主 Demis Hassabis 在一期播客节目《Agents, AGI The Next Big Scientific Breakthrough》[1] 中预测 AGI通用人工智能有望在 2030 年实现并介绍了当前 AI 的几个致命短板。下面这个就是原视频强烈推荐一看看完之后我认为——这个简短的访谈比近期的任何一场 AI 产品发布会都更值得大家观看和思考。不是因为发布了什么新模型什么 benchmark 跑到了全宇宙第一。恰恰相反Hassabis 花了大量时间讲一件事现在的 AI到底还差什么“A true general intelligence system shouldn’t have that kind of jaggedness.”一个真正的通用智能系统不该有这种锯齿。Hassabis 的答案不长只有三个“小锯齿”但每个缺陷都很致命持续学习Continual Learning不能像人一样终身学习、不断更新知识长程推理Long-term Reasoning复杂逻辑链、多步骤规划能力极弱真正的记忆Memory不只靠上下文窗口而是结构化、可索引的长期记忆他直言因为这三个问题还现在的 LLM 还只是 **“一半天使、一半智障”**。而前两个问题“长程记忆”和“持续学习”都依赖于先解决第三个问题“真正的记忆”。什么意思虽然 AI 能拿国际数学奥赛金牌但却可能会因为无法持久地记住历史会话和用户偏好而在面对简单问题时无法做出正确的决策。接下来我会把访谈里最核心的这几个问题和大家聊上一聊~欢迎大家关注 OceanBase 社区公众号 “老纪的技术唠嗑局”在这里我们会持续为大家更新与 #AI 和 #Data 相关的技术内容~一、暴力堆砌的上下文窗口 ≠ AI 记忆大家一定都注意到了最近各家大模型在比赛一件事谁的上下文窗口更长。从 4K 到 128K到 100 万 token到 1000 万 token。好像只要上下文足够长什么问题都能塞进去解决。然后 Hassabis 在访谈中算了一笔让大家一愣的账。现在最大的上下文窗口是 1000 万 token 对吧听起来很厉害但本质上是暴力堆砌记忆就像《哆啦 A 梦》漫画里大雄靠吃记忆面包来应付考试一样。****Hassabis 的原话是 “100 万 token 约 20 分钟视频。按这个换算即使放大到 1000 万 token也就 200 分钟的视觉信息”。如果大家仔细想想对于一个需要理解你数天、数周、数月甚至数年生活、工作习惯的 AI 助手来说200 分钟算个啥而且现在的问题不只是容量。更重要的是——现在的做法是把**所有东西一股脑塞进 Context Window上下文窗口**包括不重要的、错误的、过时的信息。每次对话本质上是无状态的。关掉窗口上一轮聊了什么全没了。Context Window 其实就相当于人脑里的 Working Memory工作记忆。人的工作记忆能同时装多少东西答案是 7 个数字。比如让你背一个朋友的电话号码其实能记住的也真就是 7 位的样子不信可以试试看因为如果位数再多就该“溢出”了。而大模型呢已经做到 100 万 Token。按理说模型的工作记忆比人大几十万倍应该比人聪明几十万倍才对。但显然不是。记忆的本质海马体持续学习Hassabis 拿 AI 和人脑做了个对比因为这位大佬读博士时研究的就是海马体如何把新知识优雅地融入已有知识体系。问题也恰恰就出现在这。AI 习惯把所有东西都塞进 Context Window 里里面包含了不重要的东西、错的东西、过时的东西。看起来信息很多其实是一团乱麻。那人为什么 7 个数字的工作记忆就够用因为人脑背后还有另一套机制在工作。我们记得几年前的事记得童年的事记得几小时前发生的事。这些都不塞在工作记忆里而是另一套系统这套系统就是刚刚提到的海马体大脑里负责把新知识整合进已有知识库的那个部分。Hassabis 在播客中介绍说人脑在快速眼动睡眠REM sleep期间会回放白天的经历主动判断哪些值得记住、哪些应该遗忘然后把有价值的经验”写入”长期记忆。2013 年 DeepMind 那个名震一时的 DQN 算法第一个在雅达利游戏上达到人类水平的深度强化学习系统一个关键技术就是从这里借来的——**经验回放experience replay**反复回放成功路径来学习。这件事放在 AI 领域已经算是上古时期的了。这个把新东西融进旧知识库的过程就是所谓的**持续学习Continual Learning**。但到了 2026 年AI 普遍还都没有真正做到这一点。AI 海马体应该长什么样子Hassabis 在播客的观点很清晰AI 需要一套独立的、高效索引的记忆模块——能主动决定记住什么、遗忘什么。这是 AI Agent 在长时间维度可信赖地自主运行的前提条件。换句话说上下文窗口只是一张越摊越大的桌面。AI 真正缺的是一颗海马体。PowerMem我参与的一个 PowerMem[2] 开源项目就专门为 AI Agent 加上了这个“海马体”——一套能够持久化持续学习的记忆系统。它的思路和 Hassabis 描述的方向高度一致不是把所有对话都塞进上下文而是从对话中提取关键事实按工作记忆、短期记忆、长期记忆分层管理引入艾宾浩斯遗忘曲线机制——用到的记忆会强化长期不用的记忆会逐渐淡出甚至自动清理和 Hassabis 说的“主动决定记住什么、遗忘什么”异曲同工支持向量全文图谱三路混合检索多 Agent 之间可以做记忆隔离和共享而且有一个数据很直观。在长对话记忆基准测试 LOCOMO[3] 上指标 PowerMem 全上下文方式准确率78.70%52.9% 检索 p95 延迟1.44s17.12sToken 消耗**~0.9k**~26k同样的任务用 PowerMem 的 token 消耗只有全上下文方式的18%少了 82% 的 token结果反而更准——因为不是所有旧对话都有价值。除了 PowerMem 之外我们的另一个项目 seekdb M0[4] 也是专门为 AI Agent 设计的自进化的云记忆支持一键接入分享经验自主学习和进化。当然PowerMem 和 seekdb M0 可能都还达不到 Hassabis 描述的那套人类大脑中“能在睡眠时回放和整合经验”的记忆系统终极形态。但探索和努力的方向肯定是对的记忆不该只靠暴力堆砌的上下文窗口硬撑。二、模型蒸馏 —— 大模型有多强六个月后的端侧设备就有多强访谈中的另一个重要片段是关于**模型蒸馏Distillation**。主持人问了一个很多人都好奇的问题”小模型到底能聪明到什么程度蒸馏有没有理论极限“Hassabis 的回答很干脆“我不觉得我们已经碰到了信息论上的极限。至少目前没人知道有没有碰到。我们的假设是一个前沿的 Pro 模型发布后在半年到一年内它的能力就能被压缩到非常小的、几乎可以跑在边缘设备上的模型里。”他给了具体数字蒸馏后的小模型可以达到前沿大模型 90-95% 的能力成本仅约十分之一。这不是远期展望而是正在发生的。谷歌的 DeepMind 自家产品线就是这套逻辑Gemini Pro前沿旗舰→ Flash蒸馏后的消费级推理→ Nano端侧设备。开源的 Gemma 4 模型发布两周半下载量达到 4000 万次。“小模型的价值不只是成本低。速度快同样会带来巨大的好处——你能迭代得更快迭代速度赚回来的远超那 10% 的能力差距。”Hassabis 还特别提到了边缘场景的意义“车载设备、智能穿戴设备、具身机器人……这些场景**不光需要效率还需要隐私和安全”**。“想象一下你家里的机器人你会希望本地跑一个高效且强大的模型只在特定场景下把任务委托给云端大模型。音频和视频流都在本地处理、数据留在本地——这是一个很好的终极状态。”这话让我想到一个正在发生的趋势当大模型的能力以 6-12 个月的周期“流”向端侧一个很自然的问题浮现——端侧设备上谁来给这些小模型提供数据底座它需要边缘设备上跑一个完整的传统数据库实例同时还要让它支持向量检索、全文搜索、结构化查询。这就是我参与的另一个项目 —— seekdb[5] 瞄准的方向。seekdb 的服务器模式只需要1C2G的资源支持pip install一键安装、秒级启动。嵌入式模式甚至可以作为 Python / JS / TS 的动态库直接运行在应用程序内部不需要独立数据库进程几乎没有任何资源开销。同时塞进去了向量检索、全文搜索、JSON、GIS——一个引擎全包兼容 MySQL 语法学习成本极低。关于 AI “从重到轻”的大趋势我之前写过两篇文章来分析。这里不再继续展开感兴趣的可以翻翻看~《如今的数据库产品为何总是越“轻”越火》《AI 应用爆发传统数据库为何“力不从心”》Hassabis 的判断会让人更加确信端侧智能不是“未来某天的事”它以 6 个月为周期在逼近。那些能在极低资源开销下提供完整 AI 数据能力的基础设施很快就会从“可选”变成“刚需”。三、AI 安全只写在 prompt 里还远远不够Hassabis 在访谈中花了不少篇幅谈安全。他的核心判断是“目前的 AI 系统在网络攻防方面已经相当强了。关键是要确保防御能力跑在攻击能力前面。”他认为 AI 是典型的“双重用途”技术——既能加强防御也能被利用来发现漏洞、自动化攻击。最紧迫的风险有两类恶意人类行为者利用 AI 发动攻击AI自主性增强带来的长期对齐问题第二点尤其值得警惕。随着 AI Agent 越来越能“自己做判断”“它自己做了个判断然后把你的数据库和备份都给搞没了”这类事情已经不只是理论推演。昨天发布的公众号文章 700 万人围观 AI 删库跑路罪魁祸首写下奇葩检讨就是一个血淋淋的案例。这也是为什么 Hassabis 说“技术狂奔的同时底线不能丢”。但“AI 的安全底线”不能只写在 prompt 里一部分责任也需要落到底层基础设施的身上。例如在数据库层面就应该为 AI 安全专门设计多道安全防线**数据分支Branch / Fork**像 Git 一样。AI Agent 在 Fork 出来的分支上随便实验主库 / 主表纹丝不动。改好了 MERGE 回去改砸了直接扔掉。回收站闪回被 DROP 的表暂存回收站FLASHBACK一键捞回。闪回查询还可以看任意历史时间点的数据快照。主备物理隔离备份和主库跑在独立的存储集群上不在同一个“爆炸半径”里。说到底Hassabis 的焦虑和 PocketOS 的事故都指向同一个结论与其指望 Agent 不犯错不如假定它一定会犯错。然后在数据库层面把所有破坏性操作的口子焊死。四、AI 领域还在等它的“爱因斯坦”访谈快结束时Hassabis 说了一段让人很难忘的话。他提到了一个他称为“爱因斯坦测试”的标准“给一个 AI 系统截止到 1911 年的所有知识看它能不能像爱因斯坦在 1915 年那样自己推导出广义相对论。很明显今天的系统做不到这一点。”他进一步解释现在最强的 AI 系统能做到在既有框架内解决问题——解一道物理题甚至是奥赛级别的。但 AGI 需要的是发明框架本身——不是答好一道物理题而是创造一套全新的物理理论。“能发明围棋吗给系统一段高层描述‘一个五分钟能学会规则、但穷尽一生也难以精通的游戏美学上很优雅一个下午能下完一盘’——然后系统返回给你围棋。今天的系统做不到。”AlphaGo 能在棋盘上下出惊世骇俗的第 37 手但它发明不了围棋。这大概就是当前 AI 的处境总结能在考试里拿满分但还没学会发明考试。Hassabis 说AI 这个领域也还在等待一次“爱因斯坦式”的突破。在那个时刻到来之前我们能做的是把记忆造好把端侧铺好把安全兜好。让 AI 在通往 AGI 的路上少摔几个跟头。而要做到这三件事只靠模型层还不够基础设施层也必须跟着一起进化。本文的观点主要来自 Demis Hassabis 与 YC CEO Garry Tan 的 How to Build the Future 播客访谈视频*2026 年 4 月 29 日以及*访谈文字稿[6]*。*What’s more ?欢迎关注和预约 OceanBase 社区 5 月 7 日在视频号“老纪的技术唠嗑局”的线上直播。在今晚的直播中首先会由 seekdb M0 的开发者玉楼为大家介绍这个支持自进化的 AI Agent 记忆产品 —— M0。然后潜心钻研 AI Memory 的“总监”尹海文也会为大家带来一个和 AI 记忆系统相关的精彩分享~相关内容推荐给 AI Agent 装上长期记忆PowerMem 1.0.0 正式发布seekdb M0让 OpenClaw 记忆不丢失经验能共享如今的数据库产品为何总是越“轻”越火AI 应用爆发传统数据库为何“力不从心”干货内容推荐参考资料[1]Video《Agents, AGI The Next Big Scientific Breakthrough》: https://www.youtube.com/watch?vJNyuX1zoOgU[2]PowerMem: https://github.com/oceanbase/powermem[3]LOCOMO: https://github.com/snap-research/locomo[4]seekdb M0: https://m0.seekdb.ai[5]seekdb: https://github.com/oceanbase/seekdb[6]Draft《Agent, AGI The Next Big Scientific Breakthrough》: https://www.techflowpost.com/zh-CN/article/31409

DeepMind CEO 访谈：人类离 AGI 只剩 4 年，只差最后 3 块拼图

相关文章：

DeepMind CEO 访谈：人类离 AGI 只剩 4 年，只差最后 3 块拼图

2025届最火的AI辅助论文方案横评

FontForge入门指南：从零开始设计你的第一套字体

WeChatMsg：突破性微信聊天记录管理工具 - 从数据碎片到情感记忆的革命

LangGraph Agent 开发指南（9~工具 Tools）

别再只做静态分析了！用DPABI探索小鼠大脑rs-fMRI的动态功能连接（含Matlab代码片段）

3步解决Beyond Compare 5评估模式错误：密钥生成与完全激活指南

高性能JSXBIN解码器架构设计：3大核心技术优势深度解析

批量转账工具评测：GTokenTool 凭什么成为 Web3 首选？

英雄联盟终极自动化助手：三步掌握LeagueAkari提升游戏体验

【基于Xilinx ZYNQ7000与PYNQ的嵌入式AI实践】从零构建实时人脸识别系统

AUBO机械臂视觉跟踪避坑指南：手眼标定后，如何让末端稳定跟随移动的ArUco码？

LaTeX引用中文文献总出乱码？可能是你的.bib文件编码和编译顺序没搞对

Python知乎API开发完全指南：从零构建高效数据采集系统

ARMv8浮点运算单元与MVFR寄存器深度解析

Translumo终极指南：3个简单技巧掌握实时屏幕翻译

Power Query处理月度报表，遇到数据有null怎么办？详解【标准】运算与自定义列的计算逻辑差异

DockDoor终极指南：快速掌握macOS窗口预览与高效切换

课程第四天（基础）

怎样快速删除背景？2026年免费工具实测对比，找到最简单的抠图方法

蜡笔变蜡烛：DIY分层香薰蜡烛的材料原理与制作实践

从“记录系统”到“智能系统” From “System of Record” to “System of Intelligence” —— A16Z

Claude 代码在大型代码库中的运作方式：最佳实践与入门指南

基于RAG与智能体技术构建法律领域AI应用实战指南

技术管理者最痛：如何让团队从“要我做”变成“我要做”？

AssetStudio：从Unity游戏资源中提取3D模型、纹理和Lua脚本的完整指南

ncmdump终极解决方案：解锁网易云音乐NCM格式的完整指南

Bili2Text：3分钟将B站视频转为文字稿，AI语音识别提升学习效率10倍

从功能测试到测试开发，薪资翻倍的秘密都在这里

Coolapk-UWP 深度解析：基于MVVM架构的Windows桌面酷安客户端开发实战指南