当前位置: 首页 > article >正文

杨立昆的「秘密厨房」:JEPA 到底在煮什么?——从 LeJEPA 到 EchoJEPA 的全面解读

基于 bycloud 视频解读结合 LeJEPA、EchoJEPA、V-JEPA 2 等最新论文深度研读视频原链接What Is Yann LeCun Cooking? JEPA Explained Simply一个 AI 界的异端2025 年 9 月纽约大学的一场研讨会上Meta 首席 AI 科学家杨立昆Yann LeCun说了一句让整个 AI 圈炸锅的话“自回归大语言模型注定失败。”说这话的人不是什么无名之辈——他是深度学习的三巨头之一2018 年图灵奖得主卷积神经网络的发明者。而他口中的替代方案就是他这几年一直在推的JEPAJoint-Embedding Predictive Architecture联合嵌入预测架构。但问题是每次杨立昆讲 JEPA底下的人都在挠头。这个概念涉及隐空间、表征坍塌、等方高斯分布……一堆抽象术语让大多数人听完还是一头雾水。今天我们用最通俗的方式把 JEPA 的核心逻辑、最新进展和真实效果讲清楚。先忘掉你认识的所有 AI 训练方式要理解 JEPA先得理解它反对什么。目前主流的 AI 训练方式有两种第一种自回归预测LLM 的做法给你一段文字的前半部分让你预测下一个字。GPT 就是这么训练的。它的特点是逐字生成精确到像素/字符级别。问题在哪想象你在看一部电影有人每隔一秒就暂停问你下一帧画面长什么样。你当然猜不准——因为光影变化、镜头抖动、风吹草动这些细节根本无法精确预测。但如果你被问的是接下来会发生什么故事你就能回答得很好。第二种像素级重建MAE、VAE 的做法给你一张图片的一部分让你把缺失的像素补全。这就像给你一张被撕掉一角的拼图让你把缺的那块画出来——精确到每个像素的颜色。问题在哪太关注细节忽略了语义。一张猫的照片猫的毛发方向、光线角度这些细节对理解猫毫无帮助但像素级重建会强迫模型去学这些无关紧要的东西。JEPA 的做法完全不同它不预测像素也不预测 token而是预测抽象描述。“视图”JEPA 的基本单位JEPA 的核心概念是视图View。什么是视图就是对同一个事物的不同看法。比如一张猫的照片裁剪后的版本是一个视图模糊后的版本是一个视图调整亮度后的版本是一个视图遮住一部分后的版本是一个视图这些视图虽然看起来不同但语义是相同的——它们都是猫。JEPA 的训练逻辑是给定一个视图上下文预测另一个视图在隐空间中的表征。注意关键词隐空间Latent Space。JEPA 不是让你预测被遮住的那块区域长什么样那是像素级重建而是让你预测那块区域的抽象特征是什么。打个比方如果有人给你看了一幅画的左半边让你猜右半边。像素级重建要求你画出每一笔的颜色和位置而 JEPA 只要求你说出右半边应该是一只鸟在飞——它关注的是语义不是细节。这就是 JEPA 的核心优势过滤无关噪声聚焦语义信息。JEPA 的三大组件JEPA 的训练涉及三个核心模块1. 上下文编码器Context Encoder把你看到的部分比如视频的前半段编码成一个隐空间向量。这个向量是对你看到的内容的抽象描述。2. 目标编码器Target Encoder把你要预测的部分比如视频的后半段也编码成一个隐空间向量。这个向量是正确答案的抽象描述。3. 预测器Predictor给定上下文编码器的输出预测目标编码器的输出。训练目标就是让预测器的预测尽可能接近目标编码器的实际输出。关键细节目标编码器的梯度是截断的stop-gradient。这意味着预测器在学习如何预测但目标编码器在学习如何编码时不受预测器的影响。这就像考试学生预测器要猜老师的答案目标编码器但老师不会因为学生的猜测而改变自己的评分标准。三大应用场景场景一表征提取I-JEPA这是最基础的应用。用 JEPA 训练一个视觉编码器让它学会从图像中提取有意义的特征。训练完成后这个编码器可以直接用于下游任务分类、检测等不需要从头训练。Meta 的 I-JEPA 在 ImageNet 上的线性探测准确率达到了当时自监督方法的 SOTA。场景二世界建模V-JEPA / V-JEPA 2这是杨立昆最看重的方向。V-JEPA 用视频数据训练让模型学会预测视频中被遮住的时空区域在隐空间中的表征。本质上它是在学习一个世界模型——理解物理世界的运作规律。2025 年推出的V-JEPA 2更是实现了突破它不仅在互联网规模的视频数据上进行了自监督预训练还结合了少量机器人交互数据实现了零样本机器人控制。也就是说一个只看过网上的视频、从未操作过机器人的模型可以直接控制机器人完成新任务。这是 JEPA 路线最有力的证据理解世界 ≠ 生成文本。场景三机器人隐空间规划传统的机器人规划在像素空间或动作空间中进行计算成本极高。JEPA 可以在隐空间中进行规划——先在抽象世界中模拟不同动作的后果选择最优方案再执行。这就像人类下棋高手不会在脑中精确模拟每个棋子的移动轨迹而是在一个抽象的策略空间中思考。JEPA 让 AI 也能做到这一点。最大的敌人表征坍塌JEPA 的训练有一个致命的陷阱表征坍塌Representation Collapse。什么是表征坍塌想象你是一个学生考试题目是根据上半句猜下半句。如果你发现一个万能答案——不管上半句是什么你都回答我不知道——虽然这个答案每次都错得不多但你什么都没学到。在 JEPA 中这表现为编码器把所有输入都映射到几乎相同的向量。如果所有图像的隐空间表征都一样预测器只需要输出一个固定向量就能预测任何目标——任务变得毫无意义。有两种坍塌完全坍塌所有输入映射到同一个点维度坍塌所有输入映射到一个低维子空间为了对抗坍塌研究者们发明了各种补丁补丁一EMA指数移动平均用两个编码器一个在线更新一个通过 EMA 缓慢更新。目标编码器用 EMA 版本这样即使预测器找到了作弊的方法目标编码器也不会立刻配合。这是 SimSiam、BYOL 等方法的核心技巧。补丁二样本对比法SimCLR 为代表同时处理多个样本让不同样本的表征尽量远离相同样本的不同视图尽量接近。这需要较大的 batch size通常 4096计算成本高。补丁三维度对比法Barlow Twins、VICReg 为代表不比较不同样本而是约束隐空间中每个维度的统计特性——让方差足够大、让不同维度之间尽量不相关。VICReg 是目前最流行的方案之一。这些方法各有优劣但都有一个共同问题它们都是启发式的heuristic——我们知道它们有效但不知道为什么有效也不知道它们是否最优。LeJEPA用数学终结补丁时代2025 年底LeJEPALatent-Euclidean JEPA横空出世来自 Meta FAIR 的 Randall Balestriero 和杨立昆本人。LeJEPA 的核心贡献不是又发明了一个新补丁而是从数学上证明了最优解是什么。核心定理隐空间表征应该服从各向同性高斯分布LeJEPA 证明了如果要让模型在训练后的各种下游任务上表现最好编码器输出的隐空间表征应该服从各向同性高斯分布Isotropic Gaussian——即均值向量为零、协方差矩阵为单位矩阵的多维正态分布。这个结论听起来很抽象但直觉很清晰想象你在整理一个图书馆。最好的整理方式是让每本书在各个维度上的信息都均匀分布——不能所有书都挤在一个角落维度坍塌也不能所有书都叠在一起完全坍塌。各向同性高斯分布就是这种均匀且分散的理想状态。SIGReg如何高效地达到理想分布知道了目标分布怎么让编码器的输出逼近它LeJEPA 提出了SIGRegSketched Isotropic Gaussian Regularization一个精妙的正则化方法随机选择一组方向向量把隐空间表征投影到这些方向上检查投影后的分布是否接近标准正态分布如果不是调整编码器使其接近这就像质检员从不同角度检查产品——不需要检查所有细节只需要从足够多的角度抽查就能确保产品质量。SIGReg 的优势线性复杂度计算和内存开销与维度成线性关系理论保证有严格的统计检验理论支撑无需启发式不需要 stop-gradient、teacher-student、超参数调度器实验结果简洁即力量LeJEPA 的结果令人印象深刻ImageNet-1k 线性探测ViT-H/14 达到79%与需要大量启发式技巧的方法相当训练稳定性即使在18 亿参数的 ViT-g上也能稳定训练不需要任何特殊技巧跨架构通用在 ResNet、ViT、ConvNeXt、MaxViT、Swin Transformer 等 60 架构上都能工作领域迁移在 Galaxy10天文图像数据集上LeJEPA 的域内预训练全面超越DINOv2/v3 的迁移学习——即使后者是在数十亿自然图像上训练的前沿模型最令人惊讶的是LeJEPA 的核心代码只有约 50 行。没有 stop-gradient没有 EMA没有 teacher-student只有一个超参数。这印证了一个朴素的道理当你真正理解了问题解决方案往往出奇地简单。EchoJEPAJEPA 在医学影像的惊艳落地如果说 LeJEPA 证明了 JEPA 的理论基础那么 EchoJEPA 则证明了它的实用价值。EchoJEPAICML 2026将 JEPA 应用于超声心动图——全球每年约 3000 万次检查的心脏超声影像。超声影像有一个独特的挑战散斑噪声Speckle Noise。这些随机出现的噪点与心脏解剖结构毫无关系但传统方法会强迫模型去学习这些噪声模式。EchoJEPA 的核心优势正好对症下药JEPA 在隐空间中预测天然过滤了像素级的噪声。结果令人惊叹零样本泛化到儿科患者EchoJEPA 在成人数据上预训练后直接应用于儿科患者性能超越了在儿科数据上完全微调的基线模型对声学退化的鲁棒性在模拟各种超声伪影深度衰减、声影、散斑的测试中EchoJEPA 的性能下降仅17%而竞争对手高达40%数据效率仅用 1% 的标注数据就能达到竞争性能这告诉我们当你不强迫模型去预测无关细节时它反而学到了更本质的东西。为什么 JEPA 不适用于大语言模型视频里提到了一个重要观点JEPA 不适合替代 LLM。为什么核心原因是模态差异视觉/视频信息是连续的、冗余的。一张猫的照片有百万像素但猫这个概念只需要几个维度就能表达。JEPA 的隐空间预测天然适合这种高冗余 → 低维语义的压缩。语言信息是离散的、密集的。每个词都承载着精确的语义“猫和狗之间没有中间状态”。在语言中预测下一个 token 本身就是在做语义预测——没有像素噪声需要过滤。所以杨立昆说LLM 注定失败更准确的理解是自回归 LLM 不是通向 AGI 的唯一路径也不是最优路径。对于需要理解物理世界、进行规划和推理的任务JEPA 式的世界模型可能是更好的选择。杨立昆到底在煮什么回到最初的问题杨立昆的 JEPA 到底在做什么他在做一件看似逆潮流的事在所有人都在追求更大的 LLM 时他在追求一种完全不同的 AI 范式。这个范式的核心信念是理解世界需要世界模型而不是更多的文本数据预测应该在抽象层面进行而不是在像素或 token 层面好的理论比好的工程更重要——LeJEPA 用 50 行代码证明了这一点JEPA 可能不会取代 ChatGPT但它可能成为机器人、自动驾驶、医学影像、科学发现等领域的基础架构。当 AI 需要理解物理世界、做出规划决策时JEPA 式的世界模型可能是比自回归生成更合适的工具。开源了你可以自己玩EB-JEPA2026 年 2 月Meta FAIR 发布的官方开源库包含图像、视频、动作条件视频的 JEPA 实现以及基于 JEPA 的规划算法。代码github.com/facebookresearch/eb_jepa特点每个示例都可在单 GPU 上几小时内训练完成包含I-JEPA、V-JEPA、AC-JEPA动作条件的完整实现V-JEPA 22025 年 6 月视频世界模型支持零样本机器人控制。论文arxiv.org/abs/2506.09985代码github.com/facebookresearch/jepaLeJEPA理论最优的 JEPA 实现约 50 行核心代码。论文arxiv.org/abs/2511.08544我的思考JEPA 最打动我的是它对什么是好的表征这个根本问题的回答。LeJEPA 证明了最好的表征是各向同性高斯分布。这意味着一个理想的基础模型应该把所有输入均匀地分散在隐空间的各个角落——没有浪费的维度没有坍塌的子空间每个维度都承载着独特的信息。这让我想到一个更深层的问题人类大脑是不是也在做类似的事情我们看到一只猫不会去记忆每个像素而是提取出猫这个概念。这个概念在我们的神经网络中是如何表征的它是否也接近某种均匀分散的状态也许 JEPA 不仅仅是一个工程方法它还是一扇窥探智能本质的窗口。论文 | LeJEPA (arxiv.org/abs/2511.08544) | EchoJEPA (ICML 2026) | V-JEPA 2 (arxiv.org/abs/2506.09985) | EB-JEPA (arxiv.org/abs/2602.03604)代码 | facebookresearch/eb_jepa视频 | What Is Yann LeCun Cooking? by bycloud

相关文章:

杨立昆的「秘密厨房」:JEPA 到底在煮什么?——从 LeJEPA 到 EchoJEPA 的全面解读

基于 bycloud 视频解读,结合 LeJEPA、EchoJEPA、V-JEPA 2 等最新论文深度研读 视频原链接:What Is Yann LeCun Cooking? JEPA Explained Simply 一个 AI 界的"异端" 2025 年 9 月,纽约大学的一场研讨会上,Meta 首席 A…...

Linux RT 调度器的 resched_curr:RT 任务的重新调度触发

简介在工业控制、自动驾驶、5G 基站、音视频实时编解码等强实时场景中,Linux RT 调度器的确定性直接决定系统能否在微秒级时限内响应高优先级任务。resched_curr是 RT 抢占机制的核心入口函数,负责在高优先级 RT 任务唤醒时,标记当前 CPU 需要…...

Linux RT 调度器的 preempt_count:RT 任务的抢占控制

前言在工业控制、车载自动驾驶、5G 基站基带处理等强实时场景中,Linux RT 调度器的确定性直接决定系统能否在微秒级时限内完成关键任务。preempt_count作为 RT 抢占控制的核心计数器,既保证临界区数据安全不被打断,又严格遵循 “高优先级 RT …...

OpenClaw与Notion联动:自动同步工作任务、整理笔记,实现高效管理

OpenClaw与Notion联动:构建智能化工作流系统引言在数字化工作环境中,任务管理与知识整理是提升效率的核心环节。OpenClaw作为自动化脚本工具与Notion的联动,可构建闭环式工作流系统。通过API接口实现数据双向同步,该系统能自动捕获…...

工业数字孪生与OpenUSD技术融合实践

1. 工业数字孪生与OpenUSD技术融合概述在制造业与工业领域,效率与精度始终是企业运营的核心诉求。随着数字孪生技术的成熟,离散事件仿真(Discrete-Event Simulation)已成为优化产线布局、物流系统和设备配置的关键工具。FlexSim作…...

别再死记硬背了!用Python+Matplotlib动态演示ASK/FSK/PSK信号调制过程

用Python动态可视化ASK/FSK/PSK信号调制:从理论到代码实战 通信原理中那些晦涩的调制概念,是否总让你在课堂和考试中感到困惑?本文将通过Python代码和Matplotlib动画,带你亲手构建三种基础数字调制技术(ASK/FSK/PSK&am…...

Linux上安装哔哩哔哩客户端:3种方法解决B站Linux用户痛点

Linux上安装哔哩哔哩客户端:3种方法解决B站Linux用户痛点 【免费下载链接】bilibili-linux 基于哔哩哔哩官方客户端移植的Linux版本 支持漫游 项目地址: https://gitcode.com/gh_mirrors/bi/bilibili-linux 想在Linux系统上流畅观看哔哩哔哩视频吗&#xff1…...

Pinpoint部署完数据刷不出来?排查HBase 1.4.9单机版这些配置坑(附GC优化参数)

Pinpoint数据刷不出来?HBase单机版配置与GC调优实战指南 当你终于按照教程部署完Pinpoint全家桶,满心期待打开Web界面时,却发现数据迟迟不出现——这种挫败感我太熟悉了。去年我们团队迁移微服务监控体系时就遇到过完全相同的困境。本文将分享…...

从CPU缓存到Redis:Write Back策略为什么不适合你的数据库?一次讲透底层原理

从CPU缓存到Redis:Write Back策略为什么不适合你的数据库?一次讲透底层原理 在计算机系统的性能优化中,缓存策略的选择往往决定了系统的吞吐量和一致性保障。当我们讨论Write Back策略时,会发现一个有趣的现象:这种在C…...

Boost变换器建模避坑指南:手把手教你用Simulink搞定CCM模式下的RHPZ分析

Boost变换器CCM模式下的RHPZ实战分析:从Simulink建模到稳定性设计 在电力电子系统设计中,Boost变换器的右半平面零点(RHPZ)现象一直是工程师面临的棘手问题。当你在实验室调试电路时,可能会遇到这样的情况&#xff1a…...

LangChain怎么换大模型?3步免费切换OpenAI/DeepSeek/Qwen全教程(2026 全新切换配置教程 全程避坑,亲测有效)

一、为什么需要切换大模型?LangChain 的核心价值解析 1.1 大模型生态的碎片化现状 当前大模型市场呈现 “百花齐放,协议割裂” 的局面: OpenAI:GPT 系列(闭源),API 协议成为事实标准国产模型…...

python电商订单数据分析可视化系统 用户行为分析 大数据

1、项目介绍 电商订单数据分析可视化用户行为分析系统 技术栈: python语言、Django框架、Echarts可视化、sqlite数据库、电商订单数据、19万数据集 功能模块: 一、注册登录 二、商品订单分析 1、各城市订单数据柱状图分析 2、每日订单量趋势折线图分…...

告别黑屏!手把手教你用V4L2+FrameBuffer在Linux终端直接显示摄像头画面

无图形界面下的Linux摄像头实时显示:V4L2与FrameBuffer实战指南 想象一下这样的场景:你正在远程维护一台没有图形界面的Linux服务器,突然需要快速检查摄像头是否正常工作。或者你正在开发一款嵌入式设备,需要在启动过程中直接显示…...

避坑指南:在Xilinx Ultrascale+ FPGA上处理高速LVDS ADC信号时,我踩过的那些时序上的‘坑’

Xilinx Ultrascale FPGA高速LVDS ADC信号处理的五个关键时序陷阱与实战解法 当你在Xilinx Ultrascale FPGA上处理高速LVDS ADC信号时,时序问题就像潜伏在暗处的陷阱,稍有不慎就会导致数据错位、信号不稳定甚至系统崩溃。本文将分享我在实际项目中遇到的五…...

从零到一:手把手教你用Zynq和AD9361搭建你的第一个软件无线电接收机(附Linux驱动配置避坑指南)

从零到一:手把手教你用Zynq和AD9361搭建你的第一个软件无线电接收机(附Linux驱动配置避坑指南) 在嵌入式系统和通信技术快速发展的今天,软件定义无线电(SDR)因其灵活性和可重构性,正逐渐成为无线…...

ROS2 Humble + MoveIt2 配置实战:解决‘模型不动’、‘只有虚影’等常见报错问题

ROS2 Humble MoveIt2 实战排障指南:从模型虚影到运动规划的全链路解决方案 当你在深夜的实验室里,终于完成了机械臂URDF模型的最后一行代码,满怀期待地启动demo.launch.py文件时——却发现RViz中要么空空如也,要么只有孤零零的虚…...

不止于调用:在OpenModelica里玩转从Simulink导出的FMU,实现模型验证与联合仿真

从黑盒到系统级:OpenModelica中FMU的高级应用实战指南 当你在Simulink中完成FMU导出后,真正的工程魔法才刚刚开始。作为开源Modelica环境的标杆,OpenModelica提供了远超简单仿真的可能性——在这里,FMU不再是孤立的黑盒&#xff0…...

Python3 模块精讲:csv --读写 CSV 表格文件(完整版・超多实战代码)

📝 本章学习目标:本章聚焦 Python 数据处理核心技能,帮助读者从零到一掌握csv 标准库的完整用法、工程实践与避坑指南。通过本章学习,你将全面掌握「Python3 csv 模块:读写 CSV 表格文件」全场景解决方案,实…...

【Docker低代码配置黄金标准】:基于17家头部企业落地数据验证的8项必配参数清单

第一章:Docker低代码配置的演进逻辑与行业共识Docker 本身并非低代码平台,但其声明式配置范式(尤其是 docker-compose.yml 和 Dockerfile)天然契合低代码的核心思想——通过可读性强、结构化、可复用的文本描述替代重复性手工操作…...

5分钟快速上手:PotPlayer字幕翻译插件百度版终极使用教程

5分钟快速上手:PotPlayer字幕翻译插件百度版终极使用教程 【免费下载链接】PotPlayer_Subtitle_Translate_Baidu PotPlayer 字幕在线翻译插件 - 百度平台 项目地址: https://gitcode.com/gh_mirrors/po/PotPlayer_Subtitle_Translate_Baidu 还在为看不懂的外…...

如何快速免费将网页小说转换为EPUB电子书:WebToEpub完整指南

如何快速免费将网页小说转换为EPUB电子书:WebToEpub完整指南 【免费下载链接】WebToEpub A simple Chrome (and Firefox) Extension that converts Web Novels (and other web pages) into an EPUB. 项目地址: https://gitcode.com/gh_mirrors/we/WebToEpub …...

如何通过MongoDB GridFS实现文件的分块下载

GridFS分块下载应使用find配合open_download_stream,而非手动拼接chunks;需通过GridFSBucket初始化,支持断点续传与字节范围下载(start/end参数),并发时应避免复用同一stream对象。GridFS 分块下载的核心是…...

BiliDownloader:一站式智能下载B站视频的高效解决方案

BiliDownloader:一站式智能下载B站视频的高效解决方案 【免费下载链接】BiliDownloader BiliDownloader是一款界面精简,操作简单且高速下载的b站下载器 项目地址: https://gitcode.com/gh_mirrors/bi/BiliDownloader 在数字化学习与内容消费的时代…...

Yarn 安装速度优化:一键换源+清缓存+重装依赖

Yarn 安装速度优化:一键换源清缓存重装依赖 yarn install 慢99% 都是默认国外源,我给你全套最快、最新、一步到位的加速方案(Yarn 1 通用,直接复制命令执行即可)。 一、全局切换最新淘宝镜像(首选&#x…...

6本必读的集成学习经典书籍推荐

1. 集成学习入门:为什么这6本书值得一读? 集成学习作为机器学习领域的重要分支,通过组合多个基础模型的预测结果来提升整体性能,在实际应用中展现出显著优势。我从业十年来见证过太多团队从单一模型转向集成方法后取得的突破性进展…...

别再死记硬背了!用Python从零实现感知机,手把手带你跑通李航《统计学习方法》第一个例子

用Python从零实现感知机:李航《统计学习方法》例题3.1实战解析 当你第一次翻开李航老师的《统计学习方法》,看到感知机那一章的数学公式和抽象描述时,是否感到一头雾水?作为机器学习中最基础的分类模型,感知机看似简单…...

手机热点+ESP-01S:零路由器环境下,手把手搞定TCP客户端与服务器双向通信

手机热点ESP-01S:零路由器环境下实现TCP双向通信的实战指南 在移动开发或物联网原型设计中,我们常遇到没有传统路由器的临时场景——可能是校园实验室的角落、户外测试场地,或是深夜宿舍断电后的应急调试。这时,手机热点成为最可靠…...

从零搭建RK3588多路SerDes摄像头监控系统:V4L2框架设计与USB HAL对接实战

RK3588多路SerDes摄像头系统架构设计与工程实践 在智能安防和工业视觉领域,多摄像头协同工作已成为刚需。RK3588作为一款高性能处理器,配合SerDes技术能够构建稳定可靠的多路视觉系统。本文将深入探讨从硬件连接到上层应用的全链路实现方案。 1. SerDes技…...

网络学习实例:多网段企业网络部署

网络学习实例:基础模型第一部分:网络拓扑与设计目标本网络设计为一个企业或教育实验室环境,核心目标是实现三个隔离网段之间的互联互通,同时提供关键网络服务。拓扑结构如下:三个网段:每个网段对应一个VLAN…...

Zed快捷键大全:50个必备快捷键提升你的编码速度

Zed快捷键大全:50个必备快捷键提升你的编码速度 【免费下载链接】zed Rethinking code editing. 项目地址: https://gitcode.com/gh_mirrors/zed/zed Zed是一款重新定义代码编辑体验的编辑器,通过合理使用快捷键可以显著提升编码效率。本文整理了…...