当前位置：首页 > article >正文

看完小鹏刘先明的采访，更能理解VLA 2.0的思路......

article 2026/4/16 17:57:04

点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线本文经授权转自《晚点Auto》作者 | 李安琪编辑 | 龚方毅自动驾驶前沿信息获取→自动驾驶之心知识星球昨天下午晚点Auto团队发布了一篇采访刘先明的文章。看完之后有一些想法和大家分享一下。从采访的信息上看猜测小鹏VLA 1.0 使用大模型输出的文本轨迹最终得到驾驶动作/轨迹即「原来模型输出结果要先变成 language tokens [3] 查表翻译成文字再生成驾驶动作」。假设是这个方案那 1.0 升级到 2.0 的原因也就不难理解。一方面语言文本输出的轨迹是离散的并且原生VLM天然缺乏对空间环境理解的能力。另一方面自动驾驶的行驶轨迹在物理世界层面是连续的。用离散的语言描述连续的轨迹本身就不合理。从这个角度分析就需要引入一个Action Head解码出自车轨迹。即晚点原文表述的「中间不再经过语言Language翻译。这个基座模型接上动作模块就是 VLA 控车接上视频生成就是世界模型」。目前业内常用的两种方式自回归和扩散模型。进一步分析应该是视觉输入和语言输入经由LLM编码后得到的特征输入至Action Head进一步解码出自车轨迹这个方法符合当下VLA的主流范式。普通人确实不需要先在脑子里先把看到的东西翻译成一段话。但问题在于VLA可以并行得到驾驶场景的文本描述和行为动作这两者并非严格的串行关系。从这个层面上看VLA 2.0 可能没有原先想象的那么复杂。视觉 / 指令 → VLM → Action Head → 行驶轨迹。整体结构上看小鹏 VLA 2.0和一段式端到端的差距不大。相比之下多了语言指令的输入这也能够解释他们为何放弃思维链输出因为最终目的只是服务于自车轨迹并非做两者间的因果关联。以下是晚点Auto原文。2022 年下半年通用汽车旗下的 Cruise 在旧金山晚高峰跑了一趟一个半小时的 Robotaxi无人驾驶出租车全程零接管。不久后公司请 Sam Altman 做了一场内部炉边谈话当时在 Cruise 做机器学习和计算机视觉研究的刘先明和同事们聊起这趟行程很骄傲。而 Sam Altman 一直在说他们正在做的 ChatGPT —— 当时没太多人在意。几个月后 OpenAI 发布 ChatGPT一个足够简单的模型架构加上足够大的参数量、数据和算力展现出超越预期的智能。刘先明说当时被震撼了他想也许沿着同样的路径不用手写成千上万条规则不用给系统装五颗激光雷达再把沿街会遮挡传感器的树枝修剪一遍智能驾驶也有机会涌现出智能。2024 年初他带着这个判断加入小鹏汽车。在小鹏硅谷办公室第一次见何小鹏时他想的是 “如果他听不懂我在说什么我就不来了”。今年 3 月基于这套逻辑开发的小鹏汽车第二代 VLA [1]视觉-语言-动作模型开始上车。这也是刘先明加入小鹏以来最完整的一次交付。因为太多同行想测一辆装了新版软件的试驾车日租金一度被炒到八千元。交付后我们在小鹏的上海研发办公室见到了刘先明。他剃个圆寸头、戴黑框眼镜、说话温和是 i 人但因为工作成了话痨。熟人评价他 “目标感很清晰能力非常综合既能讲很深的技术也能把复杂问题说清楚”。刘先明在小鹏汽车历任北美 AI 负责人、基座模型负责人、自动驾驶中心负责人2026 年 2 月出任通用智能中心负责人统管智驾和座舱这两个原先的一级部门。在他之前吴新宙为小鹏建立了智驾第一梯队的行业认知李力耘用工程和规则把 “端到端” 高阶辅助驾驶推向全国量产。刘先明要做的是自研基座模型拆掉语言翻译让模型从视频和驾驶数据里直接学开车。两年间刘先明成了小鹏花钱最多的人。2025 年他统管的业务吃掉了 45 亿元年度 AI 研发预算中最大的份额。何小鹏在第二代 VLA 量产推送前的直播里说 “连续十几个月每月花 3 个亿去赌这个事情心里也很慌。”但一个绕不开的问题是智驾行业目前的整体处境是否值得这种规模的投入。目前没有哪个细分市场的销量冠军是靠智驾赢的头部智驾供应商还在亏钱而且技术领先的花期又很短总有后发者快速追上。刘先明的回答是他们赌的不只是智驾还有物理 AI。而在实现这个愿景前他跟何小鹏还有一个更具体的赌约今年 8 月底达不到特斯拉 FSD V14 在硅谷的水平他将在金门大桥裸跑。以下是《晚点 Auto 》和小鹏汽车通用智能中心负责人刘先明的对谈与追问经编辑“拆掉 LanguageVLA 2.0 才真正开始”晚点什么是 VLA 2.0刘先明之前行业里做智驾大模型包括我们第一代 VLA基本都是拿开源的语言模型做骨架加上图像数据就能做 VLM [2]视觉-语言模型。但问题是摄像头看到画面后要先经过语言模型处理再输出驾驶动作这个过程容易有高延迟一秒钟只能输出两三次指令做不到实时处理。做 VLA 2.0 时我们自研基座模型传感器信息输入系统输出驾驶动作中间不再经过语言Language翻译。这个基座模型接上动作模块就是 VLA 控车接上视频生成就是世界模型。从头训练一个基座模型需要大量的钱、数据和精力还要冒险当下汽车行业谁敢在不确定的情况下投这么多这个决定是最难的。做出结果之后说服别人并不难。晚点这就是你们说的拆掉 Language刘先明拆掉的是推理链路中间的语言翻译原来模型输出结果要先变成 language tokens [3] 查表翻译成文字再生成驾驶动作。普通人开车不需要先在脑子里把看到的东西翻译成一段话这一步没有必要。但语言没有从整个系统消失。输入端还需要语言用户语音控车、意图理解都要用到语言模型。所以不是做了一个完全没有 language 的东西拆掉的是中间那层翻译。晚点在原来的架构上继续喂更多数据不拆 Language 不行吗刘先明不行。模型中间不能有信息瓶颈一旦产生后面再增加数据量也不见得有好的效果。另外自动驾驶对实时性要求非常高最终要权衡的是模型体量和推理延时。在有限车端算力下参数量扩大十倍推理就变慢控车能力变差但要想更好控车、更低延时那模型体量要减小。我们去年做了一个特别有意思的事当时团队里不是所有人都信任这个方向所以一开始用开源模型再加上 Action动作数据训了一套自动驾驶 VLA 模型后有一天我们几个人偷偷把 Language 拆了模型但还是用原来的名字我们第一次上了最大数量的 GPU 来训练模型GPU 变大数据量变大变多拆完训完发现效果挺好的。晚点那是 VLA 2.0 的雏形当时花了多久做这件事刘先明去年 5 月份花了两三个星期。晚点拆掉了语言模块之后训练数据的来源是不是也要跟着变刘先明互联网上的文字数据是最多的非常容易获得信息量很大可以快速把模型做起来。但做物理 AI做机器人做自动驾驶更多数据来自于每天回传的车辆数据从物理世界真实采集出来的。如果要做物理 AI一定要把这部分数据弄好训练方式一定要改过来。晚点机器人行业也有反思减少大语言模型直接做理解生成一体化。小鹏二代 VLA 也受这个范式启发吗刘先明这个思考可能是在不同的人群和领域中同时发生的。自动驾驶和机器人都属于物理 AI面对的问题本质是一样的都要与真实物理世界交互处理非结构化的输入输出连续而非离散的动作车子的驾驶动作和机器人的行为动作。拿掉 “语言” 这个思路很符合第一性原理它简单、直接是更极致的端到端也很像人类开车和日常生活中很多不用语言但暗含智能的 “直觉行为”。晚点但我们听说这版 VLA 2.0 发布推迟了两个月刘先明本来定在 1 月底开始冻结版本、2 月全量推送。1 月初有一天小鹏给我打电话他说 “现在这样不行你们每天都在修下限模型上限完全没有释放出来再给你两个月的时间你会做成什么样” 我说 “老板你要再给两个月时间我马上把结构给换了”。他说 “好”。于是调整到 3 月份推送。第二天我们换了模型结构重新开始训练。有人说我们交作业总是很迟因为我们看到更好的可能性。如果 2 月份我们真的发了一版可能现在天天在修 bug。晚点如果觉得可以做得更好为什么不主动提延迟刘先明一个是当时版本确实可以上线。另一个原因是模型、AI 发展是永远往前进我们现在理论上每天能更新四个版本。但从公司商业决策来看要考虑产品型谱、上市节奏、财务状况来决定什么时候产出结果。晚点多给 2 个月模型怎么做到显著进步刘先明我们的核心优势是迭代速度而不是做一个非常 fancy、跨时代的模型结构。现在每家的 AI 模型结构都极其相似和简单越复杂的东西越不好用。我们有一套体系可以加快迭代速度速度越快才能发现新问题、尝试新结构。对很多团队来说最大的问题不是不知道下个结构用什么而是没时间去试。我们在做一件没人知道正确答案的事只能猜或者只能靠经验判断没有人百分百准确。我们每天都在不停迭代把过去的结论推翻重新来。晚点马斯克也说过创新来自于速度的迭代。刘先明特别明显现在模型收敛速度越来越快不是因为更多工程师加入而是我们的体系自动化程度越来越高。晚点这条路总结下来就是 Data Scaling [5] 刘先明不仅是 Data Scaling。首先 AI 一定是极致简化不像过去做语音得先有个模型做语音识别再做语言处理最后做语音生成。现在大家都是原生多模态模型端到端结构一定要简单。第二Scaling 不仅体现在数据还体现在模型是体系层级的 Scaling。有任何短板这事都做不成绝不是一两天、半年就能追得上来。晚点现在车端模型的参数有多大刘先明差不多 ****。晚点模型越大越好吗刘先明没有绝对说法至少体量上越大越好但越大的模型需要越多数据。收集数据对我们来说不是难事尤其是二代 VLA 推出去后会有大量影子模式数据回来。真正难的是如何在车端芯片塞入更大的模型。晚点现在数据有多大的量级刘先明整体数据存储量 50 PB 左右。晚点总体来说数据规模越大对于模型性能越有利刘先明高质量、有用的数据规模越大越有利。我们一开始也遇到过车在直行场景开得很好一掉头就废的情况。原因是 90% 以上的数据都是空旷道路直行。数据单纯多没有意义得找到有用数据。晚点找几百个熟练的专车司机让他们全国到处开把他们的数据收集下来这个方式行得通吗刘先明行不通。200 个、2 万个司机跟上百万个司机完全不一样。200 个司机能覆盖多少场景有段时间我们碰到最奇葩的数据采集案例是近距离绕行一个司机停在前面另一个人绕过再停在前面再绕过去。我们也想过请司机但这样的数据没有意义因为都不是来自于真实场景。数据收集要像是真实世界采样器采样得越密集、越随机量足够大才可能逼近真实世界场景模型才具有泛化性才能解决之前没见过的问题。晚点我们体验过好几家智驾一个共同感受是前 10 分钟效果惊艳越到后面越容易唯唯诺诺这是为什么刘先明第一可能是模型的容量本身受限它会限制使用场景还没办法泛化到很大的落地场景。另一个原因是数据数据是个新的问题。怎么去挖掘高质量数据Meta 做一个事情叫做 data curation [8] 数据治理这本身就是目前 AI 里面最难的问题怎么发现一个数据不在你的训练样本里面是一个 outlier [9]异常值它还不是一个坏数据。这里也有一个悖论。首先你发现它一定是因为它不在大规模数据里第二它如果在小规模里面它很有可能是 outlier是 “脏数据”可能会被踢掉。怎么解决问题其实有一套方法但需要时间需要不停地扩充数据的边缘。晚点你说 VLA 世界模型也有 CoT [6] 思维链就像 chatbot 的思考过程换到自动驾驶领域模型是怎么做思维链推理的刘先明大家觉得 CoT 思维链很聪明核心是啥Scaling law [4] 有两个维度一个是 training time scaling [7] 训练时扩展即训练阶段投入更多算力让模型变强另一个是 test-time scaling测试时扩展就是推理时消耗多少算力投入更多算力通常能得到更好的结果。CoT 的过程是生成一个 token 作为输入再重新生成下个 token 不停产生中间的结果这是个计算过程。CoT 还可以做很多采样有随机性采样的话就可以做强化学习探索不同的解决方案给出最好结果。视觉 CoT 的本质就是一个 test-time scaling 给更多计算时间产生更好的推理结果。车端做推理时只是在训练过程中将中间结果可视化出来我们也想知道它脑子里到底在想什么于是通过世界模型生成未来一段时间内的道路环境和自车行为预测模型下一步动作我们称之为 “脑内小剧场”剧场生成的画面可以是鸟瞰图也可以是对应不同位置摄像头的视频画面。我们发现这个玩意儿挺有用的。“智驾团队花了最多钱不想用规则交差”晚点如果能更早意识到第一代 VLA 中语言的限制早点拆掉二代 VLA 是不是更快出来刘先明也不会。模型训练跟交响乐协奏曲一样多个要素一起发展。如果连足够的行车数据都没有就想拆掉 Language其实搞不定就算有足够数据有了更好的模型如果训练集群的稳定性和效率不高也搞不定。把节奏排好模型、数据、Infra [10]基础设施都没有短板花多大钱办多大事。晚点规则阶段积累的东西还能派上用场吗刘先明其实不多有些东西甚至应该尽早拿掉。没有人告诉你 VLA 具体怎么做只有大概思路去想工程应该怎么匹配怎么用最少时间、不大改动系统的情况下把它做出来再逐渐拆分中间模块。晚点听起来很顺滑但你们实际上在二代 VLA 测试阶段遇到了很多问题。刘先明对当时有个决定比较艰难。二代 VLA 模型测试后遇到各种问题比如撞路沿子或者不居中。这时候要不要借助规则把它修正一下有段时间整个团队都很挣扎因为只要上了规则系统就变味儿了就拆不掉了。晚点为什么会拆不掉刘先明模型还没量产前应该尽量让它暴露问题。规则能修但我想从数据角度解决模型问题。那时候测试一周新问题越来越多团队也很困惑问题解得完吗只要上一点规则后处理事情就搞定了。但是一旦写了规则所有问题都会被盖住丧失发现问题的能力。不把规则拆干净就像在修一条到不了未来的路。晚点小鹏现在是 0 规则、0 超级对齐吗刘先明我们没有规则。端到端时代可以加规则大家都是这么做的但模型时代依靠数据规模驱动如果再加规则模型的上限最终肯定会被规则限制住。加规则也许短期可以攒出一个还不错的版本但可能到 8 月份完成不了任务我还是要去裸跑的笑其他厂商也一定很快追上来。举个例子模型走错路确实可以搭载车道级导航在还剩 300 米右转时强行变道但一旦上了会发现后面导航变成了拐杖只能解决一时的问题。我们不想重度依赖导航信息因为我们做的是全球化产品欧洲等地区没有图商提供高清地图信息的。这是一个选择是通过技术手段解决还是用一个 shortcut捷径搞定代价是后面没法继续。我们希望达到的状态是限制我们的只有自己的迭代速度。晚点这里的技术手段是指强化学习刘先明要解决走错路的问题最好的办法是强化学习。在汇入汇出这种场景可以使用强化学习加上适当的 reward奖励让模型学会在什么情况下该做什么事情。闯红灯也有几种不同的办法。一种是加规则用传统的技术栈 2D 模型检测检测到红灯就一脚摁死刹停但会带来一个问题整个技术栈会过分依赖于已有的规则。晚点加或者不加规则到底是如何影响模型工作的刘先明不管是端到端模型还是 VLA 模型核心是有一些输入经过加工之后要去输出。比如我们认为输出就是一个车要规划几秒的轨迹轨迹之间的时间间隔是多少如果横向最大的范围是 20 米纵向是 80 米把这个范围离散化所有可能的轨迹点组合就构成了一个极大的搜索空间。传统方法不管是 Monte Carlo [11] 蒙特卡洛方法还是非凸优化核心都是砍掉搜索空间把它砍到可计算的范围之内。在算力和模型不足的情况下对搜索空间做大幅的缩减。AI 模型反过来。为什么我们觉得现在 AI 聪明、能做很多事情因为它的参数量直接决定了它的输出空间。如果有几个 Billion十亿参数的模型比如 OpenAI 220B 的模型理论上它可以探索 220B 这么大规模的空间这是足够大的搜索空间了。所以要解决问题很简单就是让你的搜索空间足够大。过去我们做了很多平衡比如对搜索空间不做太多限制但把时间和空间分开。横向很丝滑我们一般叫做空间纵向一般是用速度和加速来控制我们一般叫做时间。很多传统方法即使到端到端的时代也是这样——先输出一个横向轨迹至于什么时间点到这个位置可能是单独用规则去算的。那它就会一脚刹死因为规则没有这么大的浮动空间。我们则希望通过一个足够大的模型能够探索这么大的搜索空间。为了让整个模型不会过拟合到某些特定的模式上就需要很多训练数据。有了更多的训练数据就有一个很大的模型但又不希望模型是个倒金字塔——输入的信息量很少一直在做插值升维其实信息量本身没有上升。于是我们就让整个模型尽量变成一个通畅的结构通畅的结构要求输入的信息量足够大。这是为什么我们不用激光雷达因为激光雷达给我们的信息量太小了而且频率又很低整个系统会拖慢到 10 赫兹。它还有光栅的闪变光栅的处理时间一般是 80 到 100 毫秒。最近小鹏第二代 VLA 从喀什到上海横穿中国全程 5000 公里纯视觉方案经历沙尘暴、雨雪等天气和场景单次最长 0 接管里程 1360 公里这已经能说明问题。把所有东西加在一块整个逻辑就非常简单找到一个给你提供高密度信息输入的传感器配置一个足够强大的模型和一个能够端到端去训练的方式。《晚点》试驾小鹏汽车 VLA 2.0。这里是一段路口左转交替通行的展示。晚点什么样的智驾体验可以称得上好刘先明智驾体验过于主观没有特别好的评价标准。过去大家一直用接管 MPI、MPCI 来评价但如果加规则或者限制是很容易做到零接管的。我一直说自动驾驶是白开水能让坐在后座的用户忘掉驾驶这件事。我们内部评价时会尽量排除主观因素用比较客观的 CCES compliance-合规comfort-舒适efficiency-效率safety-安全。其中安全最重要有时候为了安全不得不牺牲一些效率和舒适性但我们不想就此放弃效率和舒适就看怎么平衡。晚点这形成共识很难吗刘先明很难因为行业很卷。想出圈一定要挑出不同的特质去让别人注意到自己。晚点你会怎么做刘先明没有固定答案。最好的办法是在技术架构和技术路线上不能有短期的 trade-off妥协一定要做具备可拓展性、向上空间足够大的东西。另外基础能力要足够强才可以在不同风格上做 trade-off。作为技术一号位我能做的就是告诉大家不要去追求某些短期目标而去欠下一些技术债。晚点哪些算 trade-off 呢刘先明比如为了舒适性加一些 “过路口减速” 规则或者在某些特定情况给模型加兜底。晚点你这些说的都挺好的。但我们还是想知道去年天天测、天天出新问题的时候团队还信这条技术路线吗刘先明有一段时间士气比较惨测试结果很惨天天我都去看。那时候真不敢回国。那段时间压力很大团队确实有不同的声音。但顶过压力后发现问题的收敛速度非常快。问题充分暴露后用比较系统的方法去修AI 修问题不是一个个修是一坨一坨修的。有时候加了一个数据解决一个问题另外一坨不相关的问题也解了。这个事情确定之后系统就好干了大家都认同方向了。以前系统会存在很多模块兜底长得奇形怪状特别乱没法优化现在系统可以简化很多。晚点是前面说的去年 5 月份那时候吗刘先明差不多那时候真不敢回国。我本来 5 月回国时应该给大师兄测 demo 的结果到约定时间都没找他。一直等到我坐上飞美国的飞机才给他发消息说下次回来一定让你坐 demo。晚点确认一下你是上了飞机才告诉他的刘先明我想的是什么时候做出来了什么时候再回国。晚点我要是交不出稿可能也消失。刘先明但是你交不出稿你消失的话会不会有人问你晚点当然会啊。当时何小鹏真没找过你刘先明大师兄对我真的挺宽容他不问我。有时候他在飞书上跟我发消息打个招呼然后不管了。晚点做不出来的时候你忐忑吗刘先明大师兄经常开玩笑说我 “花了全公司最多的钱但是发现分文不挣”。作为管理者我肯定有压力。一家公司能健康地发展下去不能只投入要讲产出的否则游戏转不下去。但如果你在做的事关系到公司的未来命运或者整个商业化进程没有压力是不可能的这一点上全公司压力最大的肯定是大师兄。有的时候他也会跟我吐槽说他自己很痛苦。在我这一层他其实一直极力保护我。有时候一个会议我刚进门他会说 “你走吧这会不需要你回去干活。” 今天车圈如此卷半年做不出来东西可能很多一号位就被干掉了。我做这个事情这么长时间资源一直源源不断的投入进来老板并没有因为短暂的体验不好就放弃或者换一条路走。这种信任和笃定不太能在别的地方找到。大概去年 6 月份我们进展还是很快的所以敢回国了。我在回来的航班上看一个版本的实验结果觉得不错落地之后赶紧去测试天天追着大师兄坐 demo从北京追到上海。大师兄问我为什么不去广州测我说广州跑不下来太难了。晚点小鹏对你的管理风格是偏向宽容还是严格刘先明既宽容又严厉。对于结果很宽容不急功近利不短视。正是有这种对于研究和技术突破的宽容才有了今天的技术突破。很多 CEO 嘴上喊的都是技术突破和投入但忍不了半年。这是我最欣赏和佩服大师兄的地方。他对于原则很严厉对就是对错就是错。不能浪费资源不能浑水摸鱼。这也是小鹏能逐渐走得更快更稳的原因。晚点你什么时候知道你花了整个公司最多的钱刘先明一直都知道。每年都会跟小鹏和财务去审预算太可怕了。晚点所以是多少刘先明这不能告诉你们。晚点公开能查到的 2025 年是 45 亿元 AI 研发投入是这个数字吗刘先明我去要预算是 2024 年的事情。2025 年已经是公开数字了。晚点刚到小鹏时觉得你自己能花多少钱刘先明我刚来的时候给老板写一个方案要预算然后他问我说这些够吗我说不太够于是我们重新写了一个版本叫 “格局打开版”预算直接 x2大师兄直接批了。不过在资源不受限的情况下很多事情过于理想化而在人、时间预算都受限的情况下你不得不去想怎么让庞大的组织变得更高效在哪些事情上做取舍哪些事情让你有更大赢面。晚点能举个例子吗你刚加入时算力没有今天丰富当时的某个决策放到今天会是什么刘先明变化特别明显我刚来时算力还 OK但大家觉得不够用每个人都在申请更多的卡要预算。那时候我去看整个训练集群的训练效率发现 GPU 利用率只有 8%很低。我的决策很简单把它干到 40%效率提升 5 倍。当时我们要训更大的模型为了在规定的时间点完成它直接把卡的数量 x2不够就 x3、x4这样可以缩短单个模型的训练时间当时更多是技术选择。现在不一样。一方面要优化整个训练效率还要考虑数据数据成本存储/读取成本。但更重要的是哪些业务线可以等哪些事情是可以被砍掉的怎么把预算分配大盘子里让长板变得更长。晚点8% 也太低了。怎么会这样刘先明那个时候模型规模还比较小大家没有意识到这个问题并且没有深入看这个问题训练速度慢就直接加机器简单粗暴。但资源达到瓶颈后就必须要看了。在硅谷工程师的文化和传统通常是先做工具先做各种 profiling [12]性能分析和 dashboard数据可视化这也是硅谷工程师和研究人员效率很高的原因。但这初期很费时间后期却能做到加速度。解决问题核心是找对人来做这种硬核的事情还要团队能有统一的认知内部要有节奏不能揠苗助长也不能急功近利。最后就是科学的方法论不是靠喊口号和硬派指标要从数据出发做出科学的决定。晚点去年小鹏卖的车更多了何小鹏给你买卡的预算有没有变多刘先明我们去要预算他总是问 “够吗”晚点满分 10 分你给这版 VLA 2.0 打几分刘先明6 分离我们所有人的理想还有差距。目前已知的问题导航我们不想用任何先验信息比如高精地图或者规则点来限制模型的泛化能力我们需要让他在没有这些先验信息的地方也能好用比如乡村地库漫游海外所以还需要时间处理极端情况的能力。所以我不认为世界上目前有任何一个系统已经接近 10 分。“不止智驾小鹏还要搏物理 AI 的未来”晚点现在的 VLA 是不是还不够你刚说的 “极简”刘先明整体架构上应该差不多了。但是内部很多细节还在不停更新包括我们也在尝试各种各样的方法在往前做不管是训练的方法还是模型的架构都在往前做但整个范式是基本不会变的。晚点还可能要拆掉什么东西吗刘先明没什么可拆的了再拆就没了。晚点再拆就剩骨架了。刘先明对。所以说到底其实这背后没有什么太多的秘密秘密就是极致的工程化这也是我刚来的时候跟小鹏说的话AI 的背后就是极致工程化。晚点目前自动驾驶领域还有技术非共识刘先明还有很多可能一家公司甚至团队里都有非共识。比如怎么做 VLA 大家就没有共识再比如自动驾驶出多条轨迹还是单条轨迹也没有共识是横向空间纵向空间分开做出轨迹还是横纵联合出轨迹也没有共识。如果大算力、大数据是强共识那两年前所有车企都应该去做大算力芯片但现在很多量产的下一代芯片算力还是 Orin 量级。晚点非共识意味着不确定性但何小鹏说三年内自动驾驶可以实现这是一个很大的确定性。这里面有矛盾吗刘先明没有大矛盾方法论是固定的大方向是确定的可能行业还没完全信。我们笃定是因为过去几年 AI 的发展就是这样比如 OpenAI、Gemini、Claude 出来。2023 年谷歌发第一代大模型时大家还认为是造假但想象不到一年后Gemini 3 能做到现在这样。当路径是对时趋势会发展得非常快的。核心在于有没有选择一条对的路不断调整方法快速探索。晚点你在 Cruise 研究 L4 自动驾驶、Robotaxi一些 L4 自动驾驶公司普遍会认为沿着 L2 智驾的路线没有办法抵达 L4 级自动驾驶。你怎么评价刘先明沿着 L2 可以走到 L4AI 大模型和规模法则Scaling Law让我们看到并且坚信这个方向。我们的 VLA 2.0 架构就是为了 L4 而生的从视觉输入到轨迹输出的极简架构能够支持模型、数据和算力的高效扩展scaling 能让我们突破模仿学习的上限突破 L2世界模型和强化学习能够帮助模型自我进化解决各种各样的 corner case。其实Cruise 是当时自动驾驶圈里追 Waymo 追得非常狠的公司。2019 年还是纯规则工程师写一段代码然后自己坐到副驾现场调试开一圈出去没撞就说明没事如果撞了就说明代码有问题。晚点写完代码立刻测试刘先明对。那时候技术栈非常重规则最早 Cruise 那帮人很多都参加过 DARPA [13] 的无人驾驶挑战赛也有人来自 CMU卡内基梅隆大学机器人实验室。我第一次见到 Cruise 车的时候惊呆了那么小的 GM Chevy Bolt雪佛兰小型电动车车上装了 5 颗激光雷达。第二代车有 22 颗摄像头4 颗 128 线激光雷达8 颗近场激光雷达。那个时候的代码怎么写的雷达点云作为输入进来检测然后执行规则写优化器然后计算轨迹。在旧金山街道我们的车被树枝垂下来遮住激光雷达被卡住了。Cruise 还动用 “钞” 能力把整条街的树枝都得修剪了。Cruise 是全美第一个商业化的自动驾驶企业虽然后面有不幸的事情。能做到这一点是因为 2019 年 Cruise 决心换思路成立了 AI 部门我是那个时候加入的。当时提出概念 Continuous Learning Machine 的概念即一种持续学习的机器。当时觉得不太可能实现但也是从那时候开始我们大规模学习 Infra建立非常通用、简单的模型框架。晚点你在 Cruise 时已经能看到 AI 大模型的技术框架支撑进化到自动驾驶了吗刘先明那时候没有人敢说一定是对的。2022 年底 Cruise 内部邀请 Sam AltmanOpenAI 创始人来跟当时的 CEO Kyle Vogt 做炉边谈话当时我们在旧金山体验了一个多小时 Robotaxi没有远程接管过我们跟 Sam 吹牛看我们多牛。但是 Sam 当时说我们在做 GPT紧接着 2023 年 ChatGPT 就出来了非常震撼。晚点为什么之后又去了小鹏刘先明当时在商业化面前要做最终取舍还要用各种规则把模型限制住。离开 Cruise 还是因为当你相信一条路但在这看不到尽头你可能会选择一个新的地方去实现它。晚点你当时跟何小鹏第一次见面就达成了共识刘先明跟大师兄约在硅谷办公室面试。面试之前我想的事情是如果他听不懂我在说什么我就不来了。估计大师兄当时想的事情是如果这个人想的事情还是过去那套我也不要他了。他希望做一家有创新能力的 AI 企业所以才大刀阔斧去改革。我觉得我跟他说什么他是认同并觉得就应该做的。我也是一个比较激进的人聊完了之后我觉得给我准备 offer 吧。晚点当时有多家智驾公司也在接触你你选择了小鹏汽车刘先明我要做的事一定需要大量数据和大量资金支持肯定选择一个能有数据和硬件支持的地方只能是主机厂。当然大师兄自己也有了类似的想法想找人跟他一起实现。所以刚来小鹏的时候我们认为这条路是对的但没人百分百确信。那个时间点上小鹏想做我也终于找到一个愿意投钱的老板。晚点你最早加入小鹏出任 AI 负责人还不是技术一号位当时怎么争取资源、怎么说服团队尝试新路线刘先明小鹏自动驾驶团队一直非常扁平。我来的时候跟力耘电话他说这个团队是你的一会儿又打过来说这个团队也是你的。其实不需要去争取什么。过去几年小鹏做了很多事情比如 2022 年开始建 “扶摇” 万卡集群很多先天条件都已经铺好。它的积累在所有主机厂里是最有先天优势的。晚点你什么时候才觉得自己在小鹏站稳了脚跟刘先明我刚来时很多人跟我说踩了几个死穴。第一是空降第二是跨国当时团队一半在国内一半在美国第三还让人觉得高高在上那时候科学家气质比较重很高冷不像现在话痨一样。很多人判断我撑不过一年。晚点但你走到了今天还被赋予更多职责。刘先明小鹏的团队是很包容的因为一直有硅谷团队大家很适应有能力、有新想法的人加入也适应跨文化协作。晚点从哪个节点开始你觉得团队开始信你刘先明可能就是无图城市 NOA 阶段包括去激光雷达、搭建 OCC占据网络阶段开始向团队输出一些想法推动底层框架变化大家愿意跟着你一起干最终结果好像还不错那时候开始有人相信你的技术判断。晚点自动驾驶的技术依然在向前演进除了 VLA还有别的路线可能吗有行业人士说技术路径已经进入停滞年代您认同吗刘先明我不认同我们才只是物理 AI 很初始的阶段。我们也都看到了过去、今年AI 是以什么节奏进步的。核心还是你要做自动驾驶软件还是物理 AI 。自动驾驶算法可能接近天花板了但是物理 AI 刚开始。晚点机器人的研发会对智驾还有哪些启示吗小鹏会在机器人关节的自研上做到哪种程度刘先明小鹏机器人现阶段会充分复用小鹏智驾乃至整个汽车体系的能力。机器人行业是软件驱动硬件设计机器人的关键在于融合创新要做到这一点全栈自研就成了必选项。只有自己研发的硬件才能完美匹配自己训练的模型而模型的训练也要根据实际需求进行专项调整。到最后我们发现只有全栈自研才能造出一个足够领先同时又能实现规模化量产的机器人。晚点你前面说小鹏汽车极致扁平这是场面话吗刘先明扁平化真是小鹏的独特文化你很少能在饭堂看到一个 CEO 这么平易近人也跟你一样吃猪脚饭。我在食堂见到他当时还拄着拐大师兄见到我说来坐这吃我说我走不动然后大师兄端着饭盘过来了。晚点你们现在人也挺多的特斯拉 FSD 团队没那么人车企智驾有必要养这么庞大的智驾队伍吗刘先明不一样特斯拉 Autopilot 团队确实人不多。我们团队其实有很大的变化很多人转到了中间的 Infra去做训练、推理、车端部署、数据研发等。很多之前写规则的工程师虽然不适应做模型但知道什么数据最重要所以他是做数据最好的人。数据不是能从车上回传回来就可以用。每天一辆车平均开车 1.7 个小时但真实有效数据不超过 90 秒。如果没有对自动驾驶行为非常准确的判断是找不出来数据的。我们不是要干掉这些人而是给大家找更合适的位置。我们还有大众的项目、机器人 .... 很多横向项目也会涉及到很多人。尽量帮大家做转型和升级。晚点如果按商业化顺序来看自动驾驶、机器人、通用智能哪个优先级最高刘先明自动驾驶、机器人、通用智能。晚点你是个容易 “挂脸” 的人吗刘先明不是有人说我很 nice但是我会因为浪费时间和逻辑不清楚这两件事情直接打断所有人讲话。晚点你 MBTI 是什么刘先明INTJ。晚点作为小鹏通用智能中心的负责人你希望团队成员用哪三个关键词来评价自己的领导风格刘先明克制稳定果断。晚点如果要用一场具体的仗来让整个通用智能中心形成战斗力你会选什么刘先明就是今年的舱驾联动因为这是整个组织转型重构底层架构以及让大家看到上限的一次战斗。这个故事很熟悉自动驾驶也是 VLA 2.0 这么一战打成的。晚点你跟我们提了很多次 “简单”这是你的某种信条吗刘先明其实是在读书的时候我的博导 Thomas Huang我们叫他 Tom黄煦涛教授他一辈子追求的理念就是简单相信简单的东西才是美的。2012 年我在美国读书那会 Alexnet 神经网络刚出来当时我们整个实验室做图像处理和计算机视觉Tom 说所有人停下手里所有工作全转去神经网络。这其实就是模型 Scaling 和数据 Scaling 的早期雏形。但业界很多人不敢去转在排斥我们当学生的心里也比较打鼓但可能当时已经有这样的想法。毕业以后第一次被直接的触动确实是 Sam Altman 介绍 GPT所有人都在考虑是不是这就是未来。我们这代人很幸运2016 年的时候有 Resnet残差神经网络2017 年有 TransformerGPT 最早是 2019 年2023 年 Chat GPT。你会发现你不确定的道路已经有些先驱者帮你探好路告诉你是对的。题图来源小鹏汽车注释上下滑动查看[1] VLAVisual-Language-Action 的缩写即 “视觉—语言—动作模型”指将视觉输入、语言理解与动作输出结合在一起的模型。文中所说小鹏 VLA 2.0核心变化是减少中间语言翻译环节让模型更直接地从感知走向动作输出[2] VLMVision-Language Model 的缩写即 “视觉—语言模型”通常用于处理图像、视频与文本之间的联合理解任务。[3] Language / language token文中指模型推理过程中的语言表征。token 是大模型处理信息时使用的基本单位可理解为文本被切分后的最小计算单元之一。[4] Scaling Law规模法则指模型能力通常会随着参数规模、训练数据量和算力投入的增长而提升。[5] Data Scaling通过扩大数据规模、提升数据质量来增强模型能力的方法。[6] CoTChain of Thought 的缩写常译为 “链式推理” 或 “思维链”指模型通过生成中间推理步骤来提升结果质量。[7] training time scaling / test-time scaling前者指在训练阶段增加算力、数据和训练资源后者指在推理阶段增加计算量以换取更好的结果。[8] data curation数据筛选、数据治理指从海量数据中识别、清洗、组织出对训练真正有价值的数据。[9] outlier异常值指明显偏离多数样本分布的数据。它未必是错误数据但往往更难处理。[10] Infrainfrastructure 的缩写即 “基础设施”。在本文语境里主要指训练集群、数据系统、推理部署等支撑模型研发和运行的底层能力。[11] Monte Carlo蒙特卡洛方法一类基于随机采样的统计模拟方法常用于复杂系统的求解与优化。[12] profiling / dashboardprofiling 指性能分析用于定位系统运行瓶颈dashboard 指数据看板或可视化面板用于监测和展示关键指标。[13] DARPA / CMUDARPA 是美国国防高级研究计划局曾举办多届无人驾驶挑战赛CMU 是卡内基梅隆大学其机器人研究长期处于全球前沿。自动驾驶之心求点赞求分享求喜欢

看完小鹏刘先明的采访，更能理解VLA 2.0的思路......

相关文章：

看完小鹏刘先明的采访，更能理解VLA 2.0的思路......

Balena Etcher 终极指南：3分钟学会安全烧录系统镜像的免费神器

10分钟训练专业AI音色：RVC变声器完整指南与实战教程

别再踩坑了！用curl测试通义千问API，遇到‘Incorrect API key provided’的3个常见原因和排查步骤

OpenPLC Editor C语言实战：在MP157 ARM板上实现自定义IO驱动与Modbus通信

3分钟快速实现Axure RP中文界面：完整汉化包使用指南

uiautomator2实战进阶：从元素定位到自动化测试框架搭建

开源智能手环OV-Watch V2.4复刻全记录：从立创下单到LVGL界面调试的完整避坑指南

drawio插件开发实战：打通Gitee API实现云端文件同步与版本管理

论文阅读：arxiv 2026 Security Considerations for Artificial Intelligence Agents

利用Selenium实现安全微伴课程自动化学习：解放双手的编程实践

Java的java.util.random.RandomGeneratorFactory随机数生成器工厂选择

OpenRocket完全指南：从零开始掌握开源火箭设计与仿真

# Iceberg 数据湖实战

博士论文，可能是学术写作中最特别的存在

3分钟解决iPhone在Windows电脑上的连接问题：苹果驱动一键安装指南

如何快速掌握m3u8下载器：面向初学者的完整实践指南

别人在“自说自话”，你在“学术对话”：好写作AI的硕士论文功能，帮你锁定学术“C位”

避坑指南：Unity中使用ShaderGraph创建平面镜反射的常见问题与解决方案

OpenRocket终极指南：5步快速掌握免费火箭设计与飞行仿真

保姆级教程：手把手教你排查QFIL刷机时‘找不到sec.dat‘等文件错误

如何用pycatia彻底改变CATIA设计自动化工作流程？

别再只盯着GPTQ了！AWQ量化为何在指令微调模型上更胜一筹？深入对比Llama-Factory中的选择策略

从游戏挂机到自动化测试：揭秘Python win32gui操控Windows窗口的3个硬核实战案例

解密Camera Shakify：让Blender动画告别机械感的神器

仅限头部AI团队内部流通的热更新Checklist（含Prometheus监控指标+Chaos Engineering注入点）

R语言：microeco包实战指南——trans_network类在微生物共现网络构建中的关键技术与可视化

百度搜索算法逆向思考的技术文章

生成式AI应用容错设计全景图（2024生产环境实证版）：覆盖提示注入、token溢出、向量漂移三大隐性故障源

【深度学习】【基础】Linear与Flatten层的协同工作原理