当前位置: 首页 > article >正文

Generalist最新长文定调:具身原生才是正道,中国玩家原力灵机已交卷

Jay 发自 凹非寺量子位 | 公众号 QbitAIGeneralist AI的GEN-1热度仍在发酵。自节前那场引爆全网的Demo之后昨日创始人Pete Florence与团队正式释出了GEN-1的技术博客。与其说这是一篇技术分享不如说这是一篇「教同行做事」的檄文。一点甲不叠上来就毫不留情地否定了当前炙手可热的世界模型与VLA之争。直言所有关于技术路线的争论都是浪费时间。现在关于「世界模型」的讨论其实是由各种想法在驱动确实很令人兴奋。但问题是你的目标是什么在他们看来具身智能的关注点应该回归到「目标」本身。这正是Generalist选择「离经叛道」的根本原因。完全不依赖任何已有路线。不走微调VLM加动作头的捷径也不宣称自己是世界模型。直接基于真机数据从零开训。GEN-1大约99%的参数都是从零开始训练的。Generalist强调这才是促成GEN-1实现飞跃的核心机密也是他们真正想与行业分享的洞见。这是他们从第一性原理出发得出的最终答案想要实现物理AGI最好的方式或许就是「从零训练」这条看似不好走的路。如果用原力灵机的话说这叫「具身原生」。△原力灵机CEO唐文斌在2026技术开放日现场是的这条路线其实并非GEN-1首创。就在两个月前这家来自中国的具身智能新星就已经用同样的逻辑举办了一场「具身原生」主题的技术开放日交出了一份惊艳的答卷。原力灵机具身原生大模型DM0RoboChallenge真机评测全球第一。所以具身原生到底有什么魔力GEN-1引爆具身GPT-3时刻GEN-1的发布无疑是2026年春节后具身智能行业的第一次「大地震」。创始人Pete Florence将其称为「GPT-3时刻」。在多个任务中该模型的成功率超过99%完成任务的速度比此前最先进的模型快了大概3倍甚至涌现出Failure Recovery故障恢复的能力。用实际demo表现验证了机器人领域的Scaling Law。而此次Generalist在技术博客中的「暴论」又在行业中掀起了一波余震。只要数据和算力够从零训永远是赢家。这句话放在2024年说大概率会被当成疯话。彼时VLA风潮席卷全球拿一个预训练好的视觉语言模型接上动作头微调一下是兼顾效率和效果的公认最优解。到了2026年初世界模型又成了新的流量密码。Generalist偏偏不站队。他们从来没把自己的模型叫VLA但也不宣扬自己是世界模型。事实上他们至今也没说自己是个什么技术路线也不想去刻意贴标签。但有一点却是无比清楚无论靠什么方式即便是「离经叛道」他们也要彻底实现物理AGI。GEN-1的博客引用了John Schulman的观点犀利地划分了「想法驱动」与「目标驱动」两种研究范式。前者是雇佣兵。追涨杀跌哪个方法火就选哪个只为眼前的战功。后者是传教士。选定一个终极目标然后埋头苦行坚定不移地前行扫清挡在路上的一切障碍。Generalist选了后者。基于这个第一性原理Generalist做出了那个看似疯狂的决定——不基于任何现有的基础模型直接拿原始数据冷启动。在这方面Generalist表现出了近乎偏执的「完美主义」。在他们看来微调别人的模型意味着从第一行代码开始天花板就被别人锁死了。知识边界、认知能力、甚至底层的缺陷都已注定无法更改。Generalist想要赌的是明天。而站在未来的时间节点回望你会惊觉无论是VLM、VLA还是世界模型本质上都只是标签数据匮乏时期的「拐杖」。关键问题在于当「身体」恢复健康、肌肉足够强壮后我们还需要拐杖吗供给端的版图永远在日新月异。这正是这场比赛最惊心动魄的地方。就像F1赛车规则制定者会刻意限制车胎耐久标准正是在这些Trade-off权衡的极限施压下才催生出无数截然不同的夺冠策略。在LLM领域虽然互联网数据不再是瓶颈但算力成为了新的紧箍咒。这才造就了OpenAI、Anthropic、DeepMind各自基于不同哲学思考走出了截然不同的进化路线因为资源只够他们选一条去All in。因此基于第一性原理做出的长期主义战略判断才会更显得尤为珍贵。最难的不是应对变化而是在风云诡谲的环境中找到那个屹立不变的锚点。你不仅要计算当前的限制更要预判这些限制将如何不可避免地发生崩塌。限制变化得越快这种预判就越重要。而在Generalist看来机器人数据不够仅仅是暂时的限制。进入2026年事实证明这项限制条件确实被改写了。Generalist已经积累了超过50万小时的物理交互数据。当原生数据足够丰富时所有辅助手段终将被扫进历史的垃圾堆。在他们看来只有具身原生从零开训这个「从无到有」的概念是为那个即将到来的新世界而生的。不过GEN-1可能并非第一个具身原生模型。在中国同样有家All in这个概念的明星具身公司并且早在今年2月份便高调发布过。DM0首个具身原生模型一起再来看看原力灵机的这份成绩单吧。DM0RoboChallenge真机评测双项全球第一。单任务成功率62%多任务成功率37.3%排在它身后的是Pi0.5、Pi0等一众明星模型。而取得这一成绩的仅仅是一个2.4B参数的模型。并且已全面开源。2.4B是什么概念在大模型的军备竞赛中这个参数量几乎可以被忽略不计。但结果却令人哗然。对于这个结果原力灵机联合创始人周而进在与「智能相对论」的对话中淡定地表示在机器人领域无脑堆参数量这件事非常荒诞。周而进一针见血地指出参数并非第一性原理。事实上一旦找到了真正「原生」的路线现有具身数据量根本无法支撑起一个大参数模型。那么DM0所说的「原生」到底「原生」在哪可以分为三个层面——首先是数据原生这是拉开差距的关键。当前行业的普遍做法是下载一个预训练好的VLM然后外挂一些机器人操作数据进行微调。快是快但问题同样致命模型压根没见过关节电机长什么样。它只是看过一些互联网数据背诵了关于机械动作的文字描述。仅此而已。这种「死记硬背」导致了大量无意义的训练最终带来参数膨胀。这或许是一种参数层面的「幻觉」。如果模型只是针对单一机型记忆「拿起瓶子」时每个关节该转多少度那么一旦换一台硬件它将束手无策。因此DM0走了完全不同的路。它的训练数据融合了三类来源:多模态互联网数据奠定语义理解和常识推理的基座能力。驾驶数据赋予模型对物理世界的时空推理与动态感知。具身传感数据涵盖视觉、触觉、力觉等多维度信息让模型真正「触摸」到这个世界。模型的输入端不再仅仅是图像和文字更包含了机器人实操的具身轨迹数据。两类数据共同优化迫使模型同时学会「看懂世界」和「动手操作」。这是一种极其聪明的做法在让数据结构更立体的同时也巧妙地实现了数据规模的Scaling。在具体采集策略上原力灵机的「原生」第一性原理同样体现得淋漓尽致——正是因为完全目标导向所以手段可以相当灵活。比如对仿真数据的态度。仿真数据量大管饱但在精细操作场景中价值有限。例如「装水」任务液体一晃整个瓶子的质心就在变化仿真环境难以准确建模。因此原力灵机在室内导航、刚性物体抓取等方面利用仿真数据但在精细操作层面则坚决侧重真机。追求Scaling但不迷信数据量而是让每一份数据都发挥最大价值。这恰好与Generalist在GEN-1博客中的判断形成呼应供给端是会变化的你要为即将到来的世界而构建。其次是训练原生。DM0将「理解世界」、「操作世界」、「预测世界」三种能力统一训练。它不是先训练一个VLM再接一个动作头Action Head而是从第一天起就让这三种能力在同一个模型体内共同生长、相互塑造。模型的设计紧贴真实世界需求评价标准是真机效果奖励函数来自真实场景的实践反馈。第三是架构原生。DM0采用天然支持多模态的架构设计将力觉、触觉等维度的信息直接融入模型核心而非外挂式地拼接传感器模块。同时它具备原生记忆能力为长序列任务的执行提供坚实支撑。三个「原生」叠加在一起指向一个反直觉结果模型虽小却异常泛化。对具身智能来说泛化性是真正的试金石。原力灵机将其拆解为四个维度对象泛化同样是抓取换个形状、材质、大小照样能稳稳拿起。场景泛化在A车间能干活搬到B车间也绝不掉链子。任务泛化不只局限于被教过的几个动作更能自主排列组合将简单动作串联成复杂的长程任务。机型泛化即便换一台胳膊更长、关节更多的机器人也能直接驱动其上手干活。四个维度缺一不可。而DM0从第一天就在为这四个维度做准备。原力灵机没有像行业里很多团队那样先针对一种机型训一个专用模型跑通demo再说。DM0在预训练阶段就同时混合了操作、导航、全身控制三类任务覆盖了8种构型迥异的机器人硬件。相当「粗暴」。这相当于对模型说你不是喜欢死记硬背吗好我把所有任务和所有本体混杂在一起扔给你——来背事实证明这一策略成功锁死了模型想通过死记硬背走捷径的念头。「混乱」中原力灵机倒逼模型不再执着于电机参数转而去理解每次操作背后通用的逻辑和物理规律。智能就这样从原生的物理交互中自然而然地生长了出来。2.4B参数RoboChallenge双项全球榜首。2026年是具身原生元年GEN-1的博客里有句话目标比方法更强大。过去两年行业最高频的问题是机器人什么时候能进厂干活?但或许比这个问题更值得关注的是机器人什么时候能找到进厂干活的正确方法?Generalist用GEN-1给出了答案。从零训练原生模型摒弃一切拐杖的「借力」可能才是通往终局的唯一路线。无独有偶原力灵机的DM0同样不约而同地在今年踏上了这条少有人走的路。2026年或许不是具身智能的元年。但GEN-1和DM0的出现正在为2026年烙上一个新标签具身原生元年。

相关文章:

Generalist最新长文定调:具身原生才是正道,中国玩家原力灵机已交卷

Jay 发自 凹非寺量子位 | 公众号 QbitAIGeneralist AI的GEN-1热度,仍在发酵。自节前那场引爆全网的Demo之后,昨日,创始人Pete Florence与团队,正式释出了GEN-1的技术博客。与其说这是一篇技术分享,不如说这是一篇「教同…...

颠覆式OpenCore自动化配置:5分钟完成黑苹果EFI构建的终极解决方案

颠覆式OpenCore自动化配置:5分钟完成黑苹果EFI构建的终极解决方案 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify OpCore-Simplify是一款专…...

突破原神帧率限制:genshin-fps-unlock工具的流畅游戏体验实现指南

突破原神帧率限制:genshin-fps-unlock工具的流畅游戏体验实现指南 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 价值主张:告别卡顿,重获丝滑战斗体验…...

AI开发-python-langchain框架(--并行流程 )惫

如果有多个供应商,你也可以使用 [[CC-Switch]] 来可视化管理这些API key,以及claude code 的skills。 # 多平台安装指令 curl -fsSL https://claude.ai/install.sh | bash ## Claude Code 配置 GLM Coding Plan curl -O "https://cdn.bigmodel.cn/i…...

5分钟极速上手:AdGuard浏览器扩展的广告拦截与隐私保护实战指南

5分钟极速上手:AdGuard浏览器扩展的广告拦截与隐私保护实战指南 【免费下载链接】AdguardBrowserExtension AdGuard browser extension 项目地址: https://gitcode.com/gh_mirrors/ad/AdguardBrowserExtension 你是否厌倦了网页上无处不在的广告弹窗&#xf…...

观点_倒计时4年!Gartner重磅发布《2026网络安全6大趋势》,AI失控、量子威胁已逼近企业生命线

观点|倒计时4年!Gartner重磅发布《2026网络安全6大趋势》,AI失控、量子威胁已逼近企业生命线 Gartner 重磅发布 2026 年网络安全六大核心趋势,直指在 AI 技术迭代、量子计算发展与地缘政治相互交织下,网络安全已成为贯穿企业治理…...

智能字幕处理引擎:基于LLM的视频字幕全流程自动化解决方案

智能字幕处理引擎:基于LLM的视频字幕全流程自动化解决方案 【免费下载链接】VideoCaptioner 🎬 卡卡字幕助手 | VideoCaptioner - 基于 LLM 的智能字幕助手 - 视频字幕生成、断句、校正、字幕翻译全流程处理!- A powered tool for easy and e…...

神农架文旅景区游客数据统计难?本地批量数据提取服务

一、神农架文旅数据痛点:游客数据分散成运营 “拦路虎” 多渠道数据分散难整合:神农架景区游客数据来自线上 OTA 平台、线下售票窗口、本地合作旅行社、自驾散客登记等 8 渠道,人工汇总需 3-5 天,错过客流分析黄金决策期人工统计…...

7种音频格式一键转换:FlicFlac便携工具完全指南

7种音频格式一键转换:FlicFlac便携工具完全指南 【免费下载链接】FlicFlac Tiny portable audio converter for Windows (WAV FLAC MP3 OGG APE M4A AAC) 项目地址: https://gitcode.com/gh_mirrors/fl/FlicFlac 在数字音频处理中,格式转换是每个…...

让大模型异步地增强推理能力

当大模型进入推理时代,如何在不牺牲效果的前提下,把测试时扩展做得更快、更稳、更高效?ATTS给出了一种值得关注的新答案。过去一年,大模型的发展逻辑正在发生一个明显变化。如果说早期大家更关注“模型有多大、数据有多少、训练得…...

灯具展板、展会展板哪里能找到?答案在这!

在灯具行业,无论是灯具门店的日常展示,还是参加各类展会,合适的展板都起着至关重要的作用。它们不仅能有效展示灯具的特点和魅力,还能提升整体的展示效果。那么,灯具展板、展会展板究竟哪里能找到呢?今天就…...

【vLLM】引擎核心探秘:从Executor到Worker的模型加载链路剖析

1. vLLM引擎架构概览 vLLM作为当前大模型推理领域的高性能解决方案,其核心设计采用了多进程分布式架构来应对百亿参数模型的加载挑战。整个系统像精密的钟表机构,由EngineCore作为主发条,通过Executor协调多个Worker进程完成实际工作。这种设…...

【算法实战 | DFS应用】从迷宫到图论:深度优先搜索的进阶技巧与优化策略

1. 深度优先搜索的核心思想 深度优先搜索(DFS)就像一个人在迷宫里探险,遇到岔路时总是选择最左边的那条路,走到死胡同再原路返回,尝试下一条未走过的路。这种"不撞南墙不回头"的特性,正是DFS最形…...

『小程序/视频号直播』重磅上线|Tigshop JAVA v5.8.21 正式发布

Tigshop JAVA 全产品「小程序 / 视频号直播」功能重磅上线!本次 Tigshop开源商城系统JAVA v5.8.21 版本升级以私域直播为核心,优化商城服务体验、提升交易转化效率,同时全面修复已知问题,进一步提升系统稳定性,为商家打…...

3种方案实现IDM永久使用:开源工具激活方法全解析

3种方案实现IDM永久使用:开源工具激活方法全解析 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script IDM(Internet Download Manager&#xf…...

StreamFab

链接:https://pan.quark.cn/s/10cd1ef07b17这是一款全球网站视频离线下载器...

6.2 成本与性能分析

1.1 Multi-Agent 成本的结构性挑战 在单体 LLM 应用中,成本模型相对简单:输入 Token 数 输入单价 + 输出 Token 数 输出单价 = 总成本。但 Multi-Agent 系统的成本结构完全不同——主 Agent 需要协调多个子 Agent,每个子 Agent 独立调用 LLM,加上工具执行、记忆检索等额…...

3步安全获取阿里云盘Refresh Token:从工具部署到高效应用指南

3步安全获取阿里云盘Refresh Token:从工具部署到高效应用指南 【免费下载链接】aliyundriver-refresh-token QR Code扫码获取阿里云盘refresh token For Web 项目地址: https://gitcode.com/gh_mirrors/al/aliyundriver-refresh-token 在云存储自动化管理领域…...

Python入门之函数调用

第1关:内置函数 - 让你偷懒的工具任务描述 我们在编程过程中会用到很多函数,但我们不需要每个函数都自己去编写,因为 Python 内置了很多十分有用的函数,我们在编程过程中可以直接调用。本关目标是让学习者了解并掌握一些常用的 Py…...

Typora新手必看:5个隐藏功能与高效写作技巧(附避坑指南)

Typora新手必看:5个隐藏功能与高效写作技巧(附避坑指南) 第一次打开Typora时,那种简洁的界面和即时渲染的Markdown效果确实让人眼前一亮。但用久了才发现,这款看似简单的编辑器里藏着不少能大幅提升效率的"秘密武…...

本地化效率工具Umi-OCR:隐私保护与多场景OCR解决方案

本地化效率工具Umi-OCR:隐私保护与多场景OCR解决方案 【免费下载链接】Umi-OCR OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言…...

OpenCore Legacy Patcher技术揭秘:老Mac升级macOS的底层原理与实战指南

OpenCore Legacy Patcher技术揭秘:老Mac升级macOS的底层原理与实战指南 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 对于拥有2007年以后的Inte…...

终极Windows Defender移除指南:3步彻底禁用微软安全组件,性能飙升30%

终极Windows Defender移除指南:3步彻底禁用微软安全组件,性能飙升30% 【免费下载链接】windows-defender-remover A tool which is uses to remove Windows Defender in Windows 8.x, Windows 10 (every version) and Windows 11. 项目地址: https://g…...

WarcraftHelper终极指南:让经典魔兽争霸III在现代电脑完美运行

WarcraftHelper终极指南:让经典魔兽争霸III在现代电脑完美运行 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸III在现代电…...

Win11Debloat:如何让Windows 11重获新生?一个开源工具的全方位解决方案

Win11Debloat:如何让Windows 11重获新生?一个开源工具的全方位解决方案 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other …...

Maomi.In | .NET 全能多语言解决方案八

AI Agent 时代的沙箱需求 从 Copilot 到 Agent:执行能力的质变 在生成式 AI 的早期阶段,应用主要以“Copilot”形式存在,AI 仅作为辅助生成建议。然而,随着 AutoGPT、BabyAGI 以及 OpenAI Code Interpreter(现为 Advan…...

如何解决Windows容器开发痛点?Container Desktop带来的轻量级技术革新

如何解决Windows容器开发痛点?Container Desktop带来的轻量级技术革新 【免费下载链接】container-desktop Provides an alternative for Docker for Desktop on Windows using WSL2. 项目地址: https://gitcode.com/gh_mirrors/co/container-desktop 在Wind…...

C#调用Llama-3、Phi-4等开源大模型实现毫秒级响应(企业私有化部署避坑指南)

第一章:C#调用Llama-3、Phi-4等开源大模型实现毫秒级响应(企业私有化部署避坑指南)在企业私有化AI场景中,直接通过C#原生集成Llama-3、Phi-4等主流开源大模型面临推理延迟高、内存泄漏、GPU上下文切换失败等典型问题。关键在于绕过…...

如何用Win11Debloat高效解决Windows系统臃肿问题:极简优化指南

如何用Win11Debloat高效解决Windows系统臃肿问题:极简优化指南 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutte…...

手把手调试:用逻辑分析仪抓取Camera Sensor的DVP和SPI时序波形(附MIPI对比)

实战指南:用逻辑分析仪精准捕捉Camera Sensor的DVP与SPI时序问题 调试摄像头Sensor时,图像花屏、颜色异常或帧率不稳定往往是工程师最头疼的问题。上周在调试一款安防摄像头模组时,客户反馈夜间画面出现规律性条纹,经过逻辑分析仪…...