当前位置: 首页 > article >正文

具身Scaling Law押对了!独角兽新品1小时学会新任务,重复1800次成功率99%

克雷西 发自 凹非寺量子位 | 公众号 QbitAI机器人也开始内卷了一位表现极其离谱的“新员工”直接拉高了机器人的“就业门槛”。具身智能独角兽Generalist刚刚推出了最新的研究成果——新模型Gen-1。在包装手机和折叠纸箱这些精细活儿上它把机器人的成功率从64%硬生生拉到了99%几乎告别了手残职业病。以前折叠一个标准纸箱需要慢悠悠地磨掉34秒现在GEN-1仅用12.1秒就能完成效率直接开启了3倍速模式。而且GEN-1的表现也用实际表现验证了机器人领域的Scaling Law。机器人模型卷出新高度GEN-1上岗后的表现简直像是在倍速播放而且即便面对维护扫地机器人200次这种枯燥任务它也能稳如泰山。甚至连续装箱1800次也能从从容容游刃有余。更离谱的是它处理突发状况的脑回路。如果零件在流水线上被意外撞歪了它绝不会傻站在那儿报错会自己切换抓取角度甚至动用两只手配合着把活干完。这种靠直觉解决问题的即兴智能让它在处理乱七八糟的杂物时表现得像个干了十年的老师傅那种死读程序的铁疙瘩僵硬感彻底消失了。用人类活动记录训练机器人为了让GEN-1具备使机器人变身“全能打工人”的能力研发团队对数据处理架构进行了重写。他们没有死磕昂贵且难以扩展的机器人遥操作数据这条老路转而通过低成本穿戴设备捕捉了数百万项人类活动记录让AI像看电影一样预习物理世界的潜规则。这种“去机器人化”的预训练方案巧妙绕过了数据规模的瓶颈让基础模型在接触机械臂之前就已经从人类视角洞察了空间、时间与物理因果。这种基于50万小时高保真物理交互数据集练就的底座让它的学习效率直接起飞达到了前代模型的10倍。哪怕是面对从未见过的奇怪任务或陌生的机器身体给GEN-1一个小时的实机演示也能让它火速入职。另外为了让机器人的动作不再卡成PPT以及实现实时操控研发团队还在推理端祭出了两项关键技术。首先是专门为物理世界打造的分页注意力Paged Attention机制。在处理PB级别的物理交互数据流时传统的内存管理方式容易导致计算资源分配不均进而产生响应延迟。Paged Attention通过更高效地调度计算资源解决了动作指令发射时的调度难题确保每一个动作指令都能在毫秒级的时间维度内即时发射让AI的反应速度能跟上现实世界的物理节奏。配合演进的还有一套Harmonic Reasoning系统。它作为推理层面的核心组件改变了以往单一路径预测动作的死板模式。它允许模型在输出指令时通过多尺度的动态调节来引导权重使其在执行折叠纸箱或包装手机等复杂动态任务时能够展现出超越单一模型权重分布的性能上限。研发团队为此投入数月时间优化训练稳定性并编写了大量自定义内核来压榨硬件算力的极限。机器人领域的Scaling LawGEN-1的性能跨越证明了Scaling Law在物理世界依然有效——只要喂够了数据和算力机器人的脑子也会产生“开窍”时刻。通过大规模预训练机器人不再生硬地模仿动作序列自己悟出了空间、时间和因果关系的规律感知到了物体之间的相互影响。有了直觉之后机器人干活就开始带点“灵性”。当任务中途出现没见过的阻碍它会自发尝试一些教学大纲以外的操作比如发现东西塞不进去时会像人一样晃晃袋子。这种即兴解题的能力源于它真正理解了“动作会导致后果”的逻辑。即使现场零件被意外撞歪它也能凭直觉找回节奏不需要人类像保姆一样每一步都盯着纠错。这种在真实世界摔打出来的经验让原本悬浮在百科全书里的抽象文字变成了实打实的行动力。研发团队通过对齐技术给这种即兴天赋装上了“导航仪”确保机器人“临场发挥”的动作依然会严丝合缝地待在用户设定的规范里。这种进化让机器人从一个只能按部就班的机器变成了一个真正懂物理常识、能独立处理复杂局面的“职场老手”。DeepMind大牛创业成果GEN-1的底层逻辑源于资深团队在机器人领域的长期积累创始人Pete Florence的技术背景为这一方案提供了深厚的理论底色。他曾任Google DeepMind高级研究科学家通过Dense Object Nets等工作探索了视觉引导下机器人从感知到动作的端到端学习路径。在谷歌PaLM团队工作期间他作为核心力量参与并主导了PaLM-E、RT-2等多个具备代际跨越意义的机器人项目。2024年Pete Florence离开谷歌并创立了Generalist。即便在他离职后的2025年3月DeepMind在发布的Gemini Robotics论文中依然四次引用了他参与合著的研究。参考链接https://generalistai.com/blog/apr-02-2026-GEN-1—完— 风云变幻的Q1谁是AI超级应用量子位智库「AI 100」旗舰、创新双产品榜单开启招募扫码申报让你的产品成为季度风向标。

相关文章:

具身Scaling Law押对了!独角兽新品1小时学会新任务,重复1800次成功率99%

克雷西 发自 凹非寺量子位 | 公众号 QbitAI机器人也开始内卷了,一位表现极其离谱的“新员工”,直接拉高了机器人的“就业门槛”。具身智能独角兽Generalist,刚刚推出了最新的研究成果——新模型Gen-1。在包装手机和折叠纸箱这些精细活儿上&am…...

欧拉角内旋外旋傻傻分不清?一个动画演示让你秒懂(附Python代码)

欧拉角内旋与外旋的视觉化解析:用Python动画破解3D旋转迷思 刚接触3D图形学的开发者,往往会在欧拉角的内旋(intrinsic rotation)与外旋(extrinsic rotation)概念前陷入困惑。数学公式的抽象性让这两个本应…...

新手福音:通过快马生成的示例项目,轻松上手豆包开放平台第一个AI调用

今天想和大家分享一个特别适合新手入门豆包开放平台的小项目——用快马生成的"天气查询助手"。作为一个刚接触API开发的小白,我发现这种方式真的能快速理解整个调用流程,而且完全不需要从零开始写代码。 项目背景与功能设计 这个天气查询助手…...

BilibiliDown:解锁B站视频资源高效管理新方式,让每个创作者轻松掌控内容资产

BilibiliDown:解锁B站视频资源高效管理新方式,让每个创作者轻松掌控内容资产 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: …...

告别VMware窗口切换!用Termius SSH直连CentOS 7虚拟机的保姆级教程

告别VMware窗口切换!用Termius SSH直连CentOS 7虚拟机的保姆级教程 每次在宿主机和虚拟机之间来回切换窗口,是不是让你感到效率低下?尤其当需要同时操作多个虚拟机时,频繁的窗口切换不仅浪费时间,还容易打断工作流。本…...

2026年10款高效AI写小说软件全面测评,快速解决卡文与大纲难题(含实测体验)

经常有新人问我:现在ai写小说到底靠不靠谱?是不是生成的都是没有感情的机器味? 说实话,前两年我觉得不行,但到了2026年,如果你还不会用AI辅助,真的会比别人慢半个身位。从灵感枯竭到大纲崩坏&a…...

雷石KTV惊艳7000系列专用云猫点歌系统刷机包|含刷机工具+硬盘系统文件|实测一键成功|可复刻部署

温馨提示:文末有联系方式 产品概览:专为雷石惊艳7000系列深度适配的云猫点歌系统刷机套件 本套件包含经实测验证的云猫点歌系统刷机包、配套刷机工具及完整硬盘系统文件,全面兼容雷石KTV惊艳7000系列主机。 所有组件已在多台设备上完成稳定刷…...

收藏!AI风口来袭,程序员必学大模型,薪资翻倍不是梦!

本文介绍了AI大模型应用开发的巨大机遇,适合想转行或提升技能的程序员。文章指出,掌握AI大模型、RAG、Prompt等技术,不仅能获得高薪工作,还能提升个人竞争力。作者提供了完整的学习资料和路线图,帮助读者快速入门&…...

2025新版机器视觉软件开发框架|Halcon+WPF插件源码(含完整算子库)

温馨提示:文末有联系方式2025年度升级版机器视觉软件框架发布 全新适配工业AI检测趋势,本框架为面向实际产线部署优化的轻量级、模块化视觉开发平台,专为自动化检测、定位引导与尺寸测量等场景设计,代码结构清晰,便于二…...

GLM-4.1V-9B-Base部署实战:GPU节点资源隔离与QoS保障配置

GLM-4.1V-9B-Base部署实战:GPU节点资源隔离与QoS保障配置 1. 模型概述 GLM-4.1V-9B-Base是智谱开源的一款视觉多模态理解模型,专注于图像内容识别与中文视觉理解任务。该模型采用9B参数规模设计,在保持较高推理效率的同时,能够完…...

这个 Plugin 让 OpenClaw 减少Skill 90%Token消耗

别让 Skill 列表烧光你的 Token——用一个 Plugin 让 OpenClaw 瘦身 90% 95 个 Skill,每轮对话就消耗 5000 多个 Token?本文将分享我们如何通过 Elasticsearch 语义搜索和一个 OpenClaw Plugin,将 Skill 列表从“全量注入”变为“按需加载”&…...

利用Google Earth与KML技术高效提取数字高程等高线

1. 从零开始认识数字高程与KML技术 数字高程模型(DEM)就像给地球表面拍了一张"立体照片",它能精确记录每个位置的海拔高度。我第一次接触DEM数据时,被它的实用性震惊了——从洪水模拟到城市规划,再到手机导…...

GLM-OCR模型处理SolidWorks工程图中的技术说明

GLM-OCR模型处理SolidWorks工程图中的技术说明 在制造业和工程设计领域,SolidWorks输出的二维工程图是产品信息的核心载体。一张图纸里,除了几何图形,还包含了大量的文本信息:技术要求、标题栏里的零件名称与材料、明细表中的零件…...

5 款主流开源 SDD 框架深度体验与 PK

强大的 AI Coding 似乎无时无刻不在制造新的焦虑:程序员、IDE、甚至软件工程都不再被需要,“会说话就会开发软件”。这是极端且不负责任的。毕竟,还有更多需要逻辑严密的商业软件系统。 强如 OpenAI,在使用Codex开发内部系统时依…...

uni-app——语音识别后 UI 卡死?微信小程序 getRecorderManager 的坑,用 getRecordRecognitionManager 一步解决

问题 语音输入功能使用 getRecorderManager() voiceToText() 实现,用户说完话点击「完成」后,弹窗卡死,转圈动画不停,按钮无法点击,只能重启小程序。 原因: 异步链路过长(stop → onStop → re…...

全球化内容创作新范式:MoneyPrinterTurbo多语言工具全攻略

全球化内容创作新范式:MoneyPrinterTurbo多语言工具全攻略 【免费下载链接】MoneyPrinterTurbo 利用AI大模型,一键生成高清短视频 Generate short videos with one click using AI LLM. 项目地址: https://gitcode.com/GitHub_Trending/mo/MoneyPrinte…...

掌握智能温控:从噪音控制到散热效率的进阶指南

掌握智能温控:从噪音控制到散热效率的进阶指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/FanCon…...

深入解析7段式S形曲线加减速算法:从理论到实践

1. 为什么需要7段式S形曲线加减速 在工业机器人和CNC机床控制中,运动平滑性直接影响加工质量和设备寿命。想象一下开车时的体验:急刹车会让乘客前仰后合,而渐进式制动则平稳舒适。传统梯形加减速就像急刹,会在速度突变处产生机械…...

从实战案例出发:面阵与线阵相机选型策略及镜头配置全解析

1. 面阵与线阵相机的本质区别 第一次接触工业相机选型时,我也曾被各种参数搞得晕头转向。直到有次在产线上亲眼看到两种相机的实际表现,才真正理解了它们的差异。简单来说,面阵相机就像我们平时用的数码相机,一次拍摄就能获取整个…...

半导体工艺模拟进阶:如何用Sentaurus Sprocess实现精确的刻蚀/沉积建模

半导体工艺模拟进阶:Sentaurus Sprocess刻蚀与沉积建模实战解析 在半导体制造工艺开发中,TCAD仿真已成为缩短研发周期、降低试错成本的关键工具。作为Synopsys Sentaurus套件的核心模块,Sprocess凭借其精确的几何处理能力和丰富的工艺模型库&…...

生成对抗网络(GAN)实战指南:从原理到图像生成

1. 生成对抗网络(GAN)初探:当画家遇上鉴定师 第一次听说生成对抗网络时,我脑海中浮现的是一个有趣的场景:有个刚入行的画家在拼命模仿梵高的画作,而旁边坐着一位经验丰富的艺术鉴定师。画家每完成一幅仿作,鉴定师就会…...

Kazumi动漫播放器:3步打造你的专属追番神器

Kazumi动漫播放器:3步打造你的专属追番神器 【免费下载链接】Kazumi 基于自定义规则的番剧采集APP,支持流媒体在线观看,支持弹幕,支持实时超分辨率。 项目地址: https://gitcode.com/gh_mirrors/ka/Kazumi 还在为追番资源分…...

保姆级教程:用Python搞定数美滑块验证码(含DES加密还原与轨迹模拟)

Python实战:数美滑块验证码全流程破解指南 每次看到那个烦人的滑块验证码,是不是都有种想砸键盘的冲动?特别是当你的爬虫程序在数据采集过程中频繁触发数美验证时,整个项目进度可能都会被拖慢。作为爬虫开发者,我们需要…...

如何彻底解决微信QQ消息撤回难题?3步打造终极防撤回方案

如何彻底解决微信QQ消息撤回难题?3步打造终极防撤回方案 【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁(我已经看到了,撤回也没用了) 项目地址: https://gitcode.…...

性能引擎:G-Helper让创意工作流告别卡顿与过热

性能引擎:G-Helper让创意工作流告别卡顿与过热 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, Scar, and…...

QwQ-32B与Token技术实现安全认证系统

QwQ-32B与Token技术实现安全认证系统 1. 引言 在现代应用开发中,安全认证系统是保护用户数据和系统资源的第一道防线。传统的认证方案往往面临诸多挑战:复杂的密码策略让用户头疼,静态的访问控制难以应对动态的业务需求,而多因素…...

新手友好:借助快马平台从零复刻w777.7cc经典小游戏

作为一个刚接触编程的新手,最近在InsCode(快马)平台尝试复刻w777.7cc经典小游戏时,发现整个过程比想象中简单许多。这种翻牌匹配类游戏规则明确、交互直观,特别适合用来理解前端三件套(HTML/CSS/JavaScript)的协作逻辑…...

多语言语音识别新选择:Fun-ASR-MLT-Nano模型部署与应用

多语言语音识别新选择:Fun-ASR-MLT-Nano模型部署与应用 1. 项目概述与技术亮点 1.1 多语言语音识别新标杆 Fun-ASR-MLT-Nano-2512是阿里通义实验室推出的轻量级多语言语音识别模型,凭借800M参数的紧凑架构,实现了对31种语言的高精度识别。…...

openpilot终极指南:快速实现300+车型自动驾驶辅助的完整方案

openpilot终极指南:快速实现300车型自动驾驶辅助的完整方案 【免费下载链接】openpilot openpilot is an operating system for robotics. Currently, it upgrades the driver assistance system on 300 supported cars. 项目地址: https://gitcode.com/GitHub_Tr…...

SEO 系统培训班有哪些推荐_SEO 系统培训班包括哪些内容

SEO 系统培训班推荐及其内容详解 在当前数字化和信息化飞速发展的时代,SEO(搜索引擎优化)已经成为每一个网站和企业不可或缺的一部分。SEO系统培训班不仅能帮助你了解SEO的基本原理,还能深入探讨其实际应用和最新技巧。本文将详细…...