当前位置: 首页 > article >正文

【论文阅读】GEN-1: Scaling Embodied Foundation Models to Mastery

快速了解部分基础信息英文1.题目: GEN-1: Scaling Embodied Foundation Models to Mastery2.时间: 2026.043.机构: Generalist AI4.3个英文关键词: GEN-1, Embodied Intelligence, VLA1句话通俗总结本文干了什么事情本文发布了新一代通用机器人模型GEN-1通过大规模物理数据预训练和算法优化首次让机器人在简单任务上达到了接近人类的“精通”水平高成功率、高速度、能即兴应变。研究痛点现有研究不足 / 要解决的具体问题现有机器人模型如GEN-0虽然具备通用性但成功率约64%和速度不足以商用传统方法依赖昂贵的遥操作数据且泛化能力差机器人缺乏在未知突发状况下即兴解决问题的能力Improvisational Intelligence。核心方法关键技术、模型或研究设计简要基于GEN-0架构利用超过50万小时的人类穿戴设备物理交互数据进行预训练结合RL强化学习、多模态人类指导及推理时算法优化定义了“精通”Mastery作为评估标准。深入了解部分作者想要表达什么作者旨在证明通过Scaling Laws缩放定律持续扩大物理交互数据和算力可以像训练大语言模型LLM一样让机器人逐步掌握物理世界的通用智能。GEN-1证明了“精通”是可以通过数据和算法量变引起质变达到的商业门槛。相比前人创新在哪里数据来源革新预训练数据完全不使用昂贵的机器人遥操作数据而是利用低成本的人类穿戴设备捕捉的50万小时物理活动数据。定义新标准提出了“精通”Mastery的概念包含可靠性99%成功率、速度比SOTA快3倍和即兴智能Improvisation三个维度。系统级优化不仅是一个模型权重而是包含推理时协调、控制硬化等系统组件的完整系统。解决方法/算法的通俗解释想象给机器人喂了海量人类如何干活的视频和动作数据预训练让它先学会“物理常识”。然后针对具体任务如叠衣服只用极少量约1小时的该任务数据进行“微调”。模型内部通过Harmonic Reasoning等技术在运行时实时计算最优动作。解决方法的具体做法预训练在无机器人数据的情况下使用大规模人类物理交互数据训练基础模型。适应特定任务针对特定任务如装手机仅使用约1小时的特定机器人数据进行微调。系统优化引入强化学习RL、多模态人类指导以及推理时的Harmonic Reasoning技术提升动作的流畅度和速度。基于前人的哪些方法基于该团队之前的GEN-0模型证明了机器人领域存在Scaling Laws并借鉴了VLM视觉语言模型、VLA视觉语言动作模型以及World Models世界模型的研究思路。实验设置、数据、评估方式、结论数据预训练数据超50万小时人类穿戴设备数据无机器人数据特定任务微调数据仅需约1小时。评估方式对比GEN-0和从零开始训练的模型评估任务成功率Reliability、任务完成时间Speed以及面对干扰时的恢复能力Improvisation。结论GEN-1在多个任务如折叠盒子、装手机上达到99%的成功率GEN-0为64%速度提升约3倍且能处理未在训练中见过的突发状况。提到的同类工作PaLM-E, RT-2, π0, π*0.6, GPT-3和本文相关性最高的3个文献Scaling Laws in Robotics with GEN-0 (Generalist, 2025)2025.11π0: A Vision-Language-Action Flow Model for General Robot Control (Black et al., 2024)2024RT-2: Vision-Language-Action Models (Brohan et al., 2023)2023我的依然大数据依然Scaling law。重点是50万小时的人类穿戴设备数据。怀疑是ego类型的。加上1小时的机器人数据后训练就能完成相应任务了。

相关文章:

【论文阅读】GEN-1: Scaling Embodied Foundation Models to Mastery

快速了解部分 基础信息(英文): 1.题目: GEN-1: Scaling Embodied Foundation Models to Mastery 2.时间: 2026.04 3.机构: Generalist AI 4.3个英文关键词: GEN-1, Embodied Intelligence, VLA 1句话通俗总结本文干了什么事情 本文发布了新一…...

企业级Agent开发保姆级教程:从入门到交付,看这一篇就够了

一、背景介绍及核心要点企业级Agent开发正在从探索期迅速迈向规模化落地期。2023年Gartner在最新AI成熟度曲线报告中指出,超过68%的全球大型企业已将多Agent协同列入未来3年核心投资清单。首先,Agent已不再是单一对话机器人,而是集成RAG知识库…...

【习题05】求n的阶乘

题目: 分别利用递归和非递归的方法求n的阶乘 1、题目分析 规定:0的阶乘为1。 非递归: 我们先列举几个求阶乘的案例,从中找寻规律。 0! 11! 12! 1 * 23! 1 * 2 * 3 从上述几个例子可…...

高性价比塑料链板输送机厂家排行适配指南

随着2026年《工业输送设备安全生产通用规范》正式落地,国内输送设备行业的准入门槛和生产标准迎来新一轮调整,新规对各领域使用的输送设备提出了更明确的合规要求,也给中小企业选购设备提供了清晰的参考标准。2026年输送设备安全生产新规核心…...

基于springboot2+vue2的纺织品企业财务管理系统

1. 获取地址 https://fifteen.xiaobias.com/source/198 2. 项目简介 本项目为一套基于 Spring Boot Vue 的纺织品企业财务管理系统。系统服务于企业内部员工、财务人员及管理员,旨在实现企业财务流程的信息化管理。主要功能涵盖: 员工报销申请与审核…...

制造业的AI智能体,为什么“部署方式”比“功能有多强”更关键?

和几位制造业IT负责人的交流中,有一个现象值得关注:他们最担心的不是AI智能体“能不能用”,而是“怎么部署”。 这和前两年的讨论方向明显不同。2024年前后,行业还在争论AI智能体到底有没有用、能在哪些场景落地。到了2026年&…...

2026网盘横评:国民级云盘领衔,这几款备选也值得一看

前言作为长期接触AI资源、代码项目、大文件存储的从业者,日常高频使用各类网盘。很多朋友都会纠结主流网盘该如何选择,不同产品的存储能力、传输表现、功能适配差距明显。本文摒弃夸张测评,以客观分享的视角,从传输、存储、功能、…...

Spring Boot 项目标准化部署打包实战

Spring Boot 项目标准化部署打包实战 一、目标 将 Spring Boot 项目打包为开箱即用的生产环境部署包。用户解压后只需修改配置文件,运行启动脚本即可启动服务。 最终目录结构 your-app/ ├── bin/ │ ├── startup.sh # Linux 启动脚本 │ └── …...

微信虚拟支付接入(道具支付)

1.描述本文档为最近因微信虚拟支付之前使用的是普通微信支付(旧模式的支付:wx.requestPayment)此类支付其实只适用于实物商品,ios端不支持(会被封禁);因其费率更低(大概在0.6%&#…...

从零开始学AI Agent:软件工程视角下的企业数字化转型实践指南(收藏版)

本文从软件工程视角出发,探讨了AI Agent在企业数字化转型中的应用与构建。首先强调需求分析的重要性,指出应从业务问题出发判断Agent是否适用。接着,介绍了Agent的系统设计,包括任务编排、上下文管理、记忆存储和工具扩展四个核心…...

Linux 硬盘分区管理

Linux 硬盘分区管理 摘要:本文系统介绍了 Linux 硬盘分区管理的核心概念与实用工具。首先阐述了硬盘分区的必要性,包括数据隔离、分类整理、降低风险等。随后详细对比了 MBR(主引导记录)和 GPT(GUID 分区表&#xff09…...

从CRUD到AI大神:小白程序员5个月逆袭之路(收藏版)

本文分享了作者从传统CRUD工程师转型为AI应用工程师的心路历程。通过实战先行、深入学习、项目巩固三个阶段,作者逐步掌握了AI模型开发、部署和服务化能力,并成功开发了多个AI应用项目。文章强调实践导向的学习方法,建议程序员利用AI工具提升…...

家居建材营销新趋势:数字化、体验式与可持续方向-佛山鼎策创局破局增长咨询有限公司

鉴于市场竞争程度愈发激烈,加上消费者需求持续升级,家居建材行业已处于营销方式转型的关键要点之处。以往惯用的广告投放手段以及门店促销方式,已无法切合新一代消费者的决策习惯。面对这种形势,行业营销朝着三个主要方向前行&…...

大模型实战:AgentScope ReActAgent 多智能体框架实战指南,小白程序员必备收藏!

本文介绍了如何利用 AgentScope 框架及其新版本 Spring AI Alibaba 来构建基于大模型的多智能体应用。文章首先强调了从单智能体优先原则出发,然后详细阐述了 AgentScope 支持的多智能体模式,包括 Pipeline、Routing、Skills、Subagents、Supervisor、Ha…...

2026年WMS软件怎么选?10款主流WMS软件功能对比与避坑指南

在2026年企业数字化转型的浪潮下,WMS软件(仓库管理系统)已经成为提升供应链效率的核心工具。面对市面上琳琅满目的产品,很多企业都在纠结2026年WMS软件怎么选才能避开那些“买得起用不起”的坑。本文将为您带来10款主流WMS软件的深…...

ZFX山海证券:“消费转向考验零售韧性”

ZFX山海证券:“消费转向考验零售韧性”Target观察到顾客行为出现意外变化,说明通胀和家庭预算压力仍在影响零售消费结构,ZFX山海证券认为,消费者更重视价格和必需品,正在压缩可选品类的增长空间。零售商需要在促销、库…...

护照阅读器在海外的经典案例分享

...

android使用websocket

简单来说常用的okhttp库就能用websocket了------------------------------------在 Android 上使用 WebSocket,你有几个常用选择,每个选择对应不同的库和集成方式。下面我帮你梳理清楚:1️⃣ 推荐库:OkHttpOkHttp 是 Android 官方…...

沥青生产导向的常减压过程模拟及排产计划优化【附仿真】

✨ 长期致力于沥青生产、多目标优化、遗传算法、排产、换热网络综合、粒子群算法研究工作,擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,点击《获取方式》 (1)原油实沸点切割与沥青…...

通过 API 实时监听企业微信外部群变更事件并同步本地数据库

能力介绍 在企业微信外部群的协同管理中,群聊的名称修改、群主变更、新成员加入或老成员退群等状态变更,往往无法仅靠主动拉取来感知。该能力通过配置接收事件服务器(Callback),利用标准的 HTTP POST 请求实时接收企微…...

第九届蓝桥杯国赛b组--备战国赛版h

第一题&#xff1a;0换零钞 - 蓝桥云课 模拟 #include <bits/stdc.h> using namespace std; int main() {int a,b,c0;for(a1;a<200;a)//一元钞票{for(b1;b<100;b)//两元钞票{for(c1;c<40;c)//五元钞票{if(ba*10&&(ab*2c*5)200){cout<<abc<&l…...

HBase 分布式集群部署实战:从解压到启动的完整指南

HBase 分布式集群部署实战&#xff1a;从解压到启动的完整指南 文章目录HBase 分布式集群部署实战&#xff1a;从解压到启动的完整指南步骤一&#xff1a;解压安装文件步骤二&#xff1a;配置环境变量步骤三&#xff1a;修改配置文件&#xff08;master节点&#xff09;步骤四&…...

fastapi · FastAPI framework, high performance, easy to learn, fast to code, ready for production

fastapi FastAPI framework, high performance, easy to learn, fast to code, ready for production 本文整理自 GitHub&#xff0c;经重新整理编辑。 FastAPI framework, high performance, easy to learn, fast to code, ready for production Documentation: https://fas…...

抖音获客失效?拆解本地商家流量困局的底层逻辑与破局路径

一、一个反直觉的数据先看两组数据&#xff0c;它们指向同一个方向。第一组&#xff1a;2025年&#xff0c;抖音本地生活服务GMV突破8500亿元。同期&#xff0c;入驻商家达到1519.8万家动销门店&#xff0c;399万新商家在一年内涌入。第二组&#xff1a;2026年Q1&#xff0c;抖…...

2026年JAVA语言前端还可以学吗?是否还能找到好工作?

因为Java并不是前端语言。前端开发主要用的是 HTML、CSS、JavaScript/TypeScript&#xff0c;以及 React、Vue 等框架。可能您是混淆了 Java 和 JavaScript&#xff0c;或者想问的是“学 Java 还能找到好工作吗&#xff1f;前端还能学吗&#xff1f;” 下面我分开讲清楚&#x…...

【芯片测试】:自定义波形与条件波形

第四篇&#xff1a;进阶篇&#xff08;上&#xff09;—— 用户自定义波形与条件波形 系列&#xff1a;《VCDSTIL 实战&#xff1a;从仿真波形到 ATE 测试向量》第 4 篇&#xff08;共 5 篇&#xff09; 前言 前三篇介绍的都是 VCDSTIL 的"自动提取"模式&#xff1a…...

在线网盘系统:基于 Spring Boot 的文件存储、分类管理与分享预览实践

在线网盘系统&#xff1a;基于 Spring Boot 的文件存储、分类管理与分享预览实践 项目概述 在线网盘系统的核心目标&#xff0c;是把“文件存储”升级为“文件管理 文件预览 文件分享”的一体化平台。相比只支持上传下载的简易文件系统&#xff0c;这个项目进一步补齐了分类管…...

软考中级《嵌入式系统设计师》全套备考资料(真题 + 教材 + 笔记)

大家好&#xff0c;今天给大家分享一份软考中级「嵌入式系统设计师」的完整备考资料包&#xff0c;从教材、真题到高频笔记全配齐&#xff0c;帮你省去整理资料的时间&#xff0c;直接进入高效备考状态&#xff01; &#x1f4c1; 资料清单 这套资料覆盖了嵌入式系统设计师备考…...

2026毕业答辩PPT模板实测:三个平台的真实体验与避坑建议

又到毕业答辩季&#xff0c;不少同学论文写完了&#xff0c;却被PPT卡住&#xff1a;排版乱、配色杂、结构不清&#xff0c;明明内容扎实&#xff0c;呈现效果却大打折扣。作为经常接触办公工具的博主&#xff0c;我实测了几个常见的PPT模板与制作平台&#xff0c;重点针对本科…...

【多通道滤波】基于最小均方(McFxLMS)算法用于自适应多通道有源噪声控制(MCANC)应用研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…...