当前位置：首页 > article >正文

Generalist最新长文定调：具身原生才是正道，中国玩家原力灵机已交卷

article 2026/4/9 18:00:17

Jay 发自凹非寺量子位 | 公众号 QbitAIGeneralist AI的GEN-1热度仍在发酵。自节前那场引爆全网的Demo之后昨日创始人Pete Florence与团队正式释出了GEN-1的技术博客。与其说这是一篇技术分享不如说这是一篇「教同行做事」的檄文。一点甲不叠上来就毫不留情地否定了当前炙手可热的世界模型与VLA之争。直言所有关于技术路线的争论都是浪费时间。现在关于「世界模型」的讨论其实是由各种想法在驱动确实很令人兴奋。但问题是你的目标是什么在他们看来具身智能的关注点应该回归到「目标」本身。这正是Generalist选择「离经叛道」的根本原因。完全不依赖任何已有路线。不走微调VLM加动作头的捷径也不宣称自己是世界模型。直接基于真机数据从零开训。GEN-1大约99%的参数都是从零开始训练的。Generalist强调这才是促成GEN-1实现飞跃的核心机密也是他们真正想与行业分享的洞见。这是他们从第一性原理出发得出的最终答案想要实现物理AGI最好的方式或许就是「从零训练」这条看似不好走的路。如果用原力灵机的话说这叫「具身原生」。△原力灵机CEO唐文斌在2026技术开放日现场是的这条路线其实并非GEN-1首创。就在两个月前这家来自中国的具身智能新星就已经用同样的逻辑举办了一场「具身原生」主题的技术开放日交出了一份惊艳的答卷。原力灵机具身原生大模型DM0RoboChallenge真机评测全球第一。所以具身原生到底有什么魔力GEN-1引爆具身GPT-3时刻GEN-1的发布无疑是2026年春节后具身智能行业的第一次「大地震」。创始人Pete Florence将其称为「GPT-3时刻」。在多个任务中该模型的成功率超过99%完成任务的速度比此前最先进的模型快了大概3倍甚至涌现出Failure Recovery故障恢复的能力。用实际demo表现验证了机器人领域的Scaling Law。而此次Generalist在技术博客中的「暴论」又在行业中掀起了一波余震。只要数据和算力够从零训永远是赢家。这句话放在2024年说大概率会被当成疯话。彼时VLA风潮席卷全球拿一个预训练好的视觉语言模型接上动作头微调一下是兼顾效率和效果的公认最优解。到了2026年初世界模型又成了新的流量密码。Generalist偏偏不站队。他们从来没把自己的模型叫VLA但也不宣扬自己是世界模型。事实上他们至今也没说自己是个什么技术路线也不想去刻意贴标签。但有一点却是无比清楚无论靠什么方式即便是「离经叛道」他们也要彻底实现物理AGI。GEN-1的博客引用了John Schulman的观点犀利地划分了「想法驱动」与「目标驱动」两种研究范式。前者是雇佣兵。追涨杀跌哪个方法火就选哪个只为眼前的战功。后者是传教士。选定一个终极目标然后埋头苦行坚定不移地前行扫清挡在路上的一切障碍。Generalist选了后者。基于这个第一性原理Generalist做出了那个看似疯狂的决定——不基于任何现有的基础模型直接拿原始数据冷启动。在这方面Generalist表现出了近乎偏执的「完美主义」。在他们看来微调别人的模型意味着从第一行代码开始天花板就被别人锁死了。知识边界、认知能力、甚至底层的缺陷都已注定无法更改。Generalist想要赌的是明天。而站在未来的时间节点回望你会惊觉无论是VLM、VLA还是世界模型本质上都只是标签数据匮乏时期的「拐杖」。关键问题在于当「身体」恢复健康、肌肉足够强壮后我们还需要拐杖吗供给端的版图永远在日新月异。这正是这场比赛最惊心动魄的地方。就像F1赛车规则制定者会刻意限制车胎耐久标准正是在这些Trade-off权衡的极限施压下才催生出无数截然不同的夺冠策略。在LLM领域虽然互联网数据不再是瓶颈但算力成为了新的紧箍咒。这才造就了OpenAI、Anthropic、DeepMind各自基于不同哲学思考走出了截然不同的进化路线因为资源只够他们选一条去All in。因此基于第一性原理做出的长期主义战略判断才会更显得尤为珍贵。最难的不是应对变化而是在风云诡谲的环境中找到那个屹立不变的锚点。你不仅要计算当前的限制更要预判这些限制将如何不可避免地发生崩塌。限制变化得越快这种预判就越重要。而在Generalist看来机器人数据不够仅仅是暂时的限制。进入2026年事实证明这项限制条件确实被改写了。Generalist已经积累了超过50万小时的物理交互数据。当原生数据足够丰富时所有辅助手段终将被扫进历史的垃圾堆。在他们看来只有具身原生从零开训这个「从无到有」的概念是为那个即将到来的新世界而生的。不过GEN-1可能并非第一个具身原生模型。在中国同样有家All in这个概念的明星具身公司并且早在今年2月份便高调发布过。DM0首个具身原生模型一起再来看看原力灵机的这份成绩单吧。DM0RoboChallenge真机评测双项全球第一。单任务成功率62%多任务成功率37.3%排在它身后的是Pi0.5、Pi0等一众明星模型。而取得这一成绩的仅仅是一个2.4B参数的模型。并且已全面开源。2.4B是什么概念在大模型的军备竞赛中这个参数量几乎可以被忽略不计。但结果却令人哗然。对于这个结果原力灵机联合创始人周而进在与「智能相对论」的对话中淡定地表示在机器人领域无脑堆参数量这件事非常荒诞。周而进一针见血地指出参数并非第一性原理。事实上一旦找到了真正「原生」的路线现有具身数据量根本无法支撑起一个大参数模型。那么DM0所说的「原生」到底「原生」在哪可以分为三个层面——首先是数据原生这是拉开差距的关键。当前行业的普遍做法是下载一个预训练好的VLM然后外挂一些机器人操作数据进行微调。快是快但问题同样致命模型压根没见过关节电机长什么样。它只是看过一些互联网数据背诵了关于机械动作的文字描述。仅此而已。这种「死记硬背」导致了大量无意义的训练最终带来参数膨胀。这或许是一种参数层面的「幻觉」。如果模型只是针对单一机型记忆「拿起瓶子」时每个关节该转多少度那么一旦换一台硬件它将束手无策。因此DM0走了完全不同的路。它的训练数据融合了三类来源:多模态互联网数据奠定语义理解和常识推理的基座能力。驾驶数据赋予模型对物理世界的时空推理与动态感知。具身传感数据涵盖视觉、触觉、力觉等多维度信息让模型真正「触摸」到这个世界。模型的输入端不再仅仅是图像和文字更包含了机器人实操的具身轨迹数据。两类数据共同优化迫使模型同时学会「看懂世界」和「动手操作」。这是一种极其聪明的做法在让数据结构更立体的同时也巧妙地实现了数据规模的Scaling。在具体采集策略上原力灵机的「原生」第一性原理同样体现得淋漓尽致——正是因为完全目标导向所以手段可以相当灵活。比如对仿真数据的态度。仿真数据量大管饱但在精细操作场景中价值有限。例如「装水」任务液体一晃整个瓶子的质心就在变化仿真环境难以准确建模。因此原力灵机在室内导航、刚性物体抓取等方面利用仿真数据但在精细操作层面则坚决侧重真机。追求Scaling但不迷信数据量而是让每一份数据都发挥最大价值。这恰好与Generalist在GEN-1博客中的判断形成呼应供给端是会变化的你要为即将到来的世界而构建。其次是训练原生。DM0将「理解世界」、「操作世界」、「预测世界」三种能力统一训练。它不是先训练一个VLM再接一个动作头Action Head而是从第一天起就让这三种能力在同一个模型体内共同生长、相互塑造。模型的设计紧贴真实世界需求评价标准是真机效果奖励函数来自真实场景的实践反馈。第三是架构原生。DM0采用天然支持多模态的架构设计将力觉、触觉等维度的信息直接融入模型核心而非外挂式地拼接传感器模块。同时它具备原生记忆能力为长序列任务的执行提供坚实支撑。三个「原生」叠加在一起指向一个反直觉结果模型虽小却异常泛化。对具身智能来说泛化性是真正的试金石。原力灵机将其拆解为四个维度对象泛化同样是抓取换个形状、材质、大小照样能稳稳拿起。场景泛化在A车间能干活搬到B车间也绝不掉链子。任务泛化不只局限于被教过的几个动作更能自主排列组合将简单动作串联成复杂的长程任务。机型泛化即便换一台胳膊更长、关节更多的机器人也能直接驱动其上手干活。四个维度缺一不可。而DM0从第一天就在为这四个维度做准备。原力灵机没有像行业里很多团队那样先针对一种机型训一个专用模型跑通demo再说。DM0在预训练阶段就同时混合了操作、导航、全身控制三类任务覆盖了8种构型迥异的机器人硬件。相当「粗暴」。这相当于对模型说你不是喜欢死记硬背吗好我把所有任务和所有本体混杂在一起扔给你——来背事实证明这一策略成功锁死了模型想通过死记硬背走捷径的念头。「混乱」中原力灵机倒逼模型不再执着于电机参数转而去理解每次操作背后通用的逻辑和物理规律。智能就这样从原生的物理交互中自然而然地生长了出来。2.4B参数RoboChallenge双项全球榜首。2026年是具身原生元年GEN-1的博客里有句话目标比方法更强大。过去两年行业最高频的问题是机器人什么时候能进厂干活?但或许比这个问题更值得关注的是机器人什么时候能找到进厂干活的正确方法?Generalist用GEN-1给出了答案。从零训练原生模型摒弃一切拐杖的「借力」可能才是通往终局的唯一路线。无独有偶原力灵机的DM0同样不约而同地在今年踏上了这条少有人走的路。2026年或许不是具身智能的元年。但GEN-1和DM0的出现正在为2026年烙上一个新标签具身原生元年。

Generalist最新长文定调：具身原生才是正道，中国玩家原力灵机已交卷

相关文章：

Generalist最新长文定调：具身原生才是正道，中国玩家原力灵机已交卷

颠覆式OpenCore自动化配置：5分钟完成黑苹果EFI构建的终极解决方案

突破原神帧率限制：genshin-fps-unlock工具的流畅游戏体验实现指南

AI开发-python-langchain框架（--并行流程）惫

5分钟极速上手：AdGuard浏览器扩展的广告拦截与隐私保护实战指南

观点_倒计时4年！Gartner重磅发布《2026网络安全6大趋势》，AI失控、量子威胁已逼近企业生命线

智能字幕处理引擎：基于LLM的视频字幕全流程自动化解决方案

神农架文旅景区游客数据统计难？本地批量数据提取服务

7种音频格式一键转换：FlicFlac便携工具完全指南

让大模型异步地增强推理能力

灯具展板、展会展板哪里能找到？答案在这！

【vLLM】引擎核心探秘：从Executor到Worker的模型加载链路剖析

【算法实战 | DFS应用】从迷宫到图论：深度优先搜索的进阶技巧与优化策略

『小程序/视频号直播』重磅上线｜Tigshop JAVA v5.8.21 正式发布

3种方案实现IDM永久使用：开源工具激活方法全解析

StreamFab

6.2 成本与性能分析

3步安全获取阿里云盘Refresh Token：从工具部署到高效应用指南

Python入门之函数调用

Typora新手必看：5个隐藏功能与高效写作技巧（附避坑指南）

本地化效率工具Umi-OCR：隐私保护与多场景OCR解决方案

OpenCore Legacy Patcher技术揭秘：老Mac升级macOS的底层原理与实战指南

终极Windows Defender移除指南：3步彻底禁用微软安全组件，性能飙升30%

WarcraftHelper终极指南：让经典魔兽争霸III在现代电脑完美运行

Win11Debloat：如何让Windows 11重获新生？一个开源工具的全方位解决方案

Maomi.In | .NET 全能多语言解决方案八

如何解决Windows容器开发痛点？Container Desktop带来的轻量级技术革新

C#调用Llama-3、Phi-4等开源大模型实现毫秒级响应（企业私有化部署避坑指南）

如何用Win11Debloat高效解决Windows系统臃肿问题：极简优化指南

手把手调试：用逻辑分析仪抓取Camera Sensor的DVP和SPI时序波形（附MIPI对比）