π0:仅有3B数据模型打通Franka等7种机器人形态适配,实现0样本的完全由模型自主控制方法
Chelsea Finn引领的Physical Intelligence公司,专注于打造先进的机器人大模型,近日迎来了一个令人振奋的里程碑。在短短不到一年的时间内,该公司成功推出了他们的首个演示版本。这一成就不仅展示了团队的卓越技术实力,也预示着机器人技术的未来发展将更加智能化和高效。
想象一下,一个机器人能够轻松地洗衣服、冲咖啡,所有这些动作都无需人工遥控,完全由模型自主控制。这不仅仅是一个梦想,而是由Physical Intelligence(简称π)这家今年新成立的初创公司所开发的通用型机器人控制模型π0实现的。π0的参数量仅为3B,却能驾驭各种类型的机器人。这个强大的模型不仅训练了众多不同的机器人,还从预训练的视觉语言模型(VLM)中汲取了丰富的语义知识和视觉理解能力。VLM经过训练,能够对网络上的文本和图像进行建模。π0正是以这种广泛使用的VLM为起点,通过调整适应实时灵巧的机器人控制需求,展现出其惊人的能力。
在成立之初,π公司便迅速斩获了高达7000万美元(约合5亿人民币)的A轮融资,其中不乏科技巨头OpenAI的身影。这家新兴企业致力于研发一款革命性的通用机器人控制模型。
而π0,作为他们的开山之作,标志着这一宏伟目标的初步实现。π0适配Franka机器人等7种机器人直接控制π团队最新展示的机器人技术令人瞩目,它们能够执行一系列对机器人来说极具挑战性的任务,如叠衣服、整理桌面和装鸡蛋盒。这些任务不仅要求机器人进行长时间的连续决策,还必须在动作上达到高频率和精确度的双重标准。更复杂的是,它们还涉及到各种材料的接触动力学,例如衣物的变形、纸箱的硬度和鸡蛋的易碎性。为了成功完成这些任务,Franka等机器人必须精确地模拟并控制这些复杂的物理过程,并满足额外的物理约束条件,比如保持物体平衡和避免碰撞。π0不仅能控制机器人,还能控制不同类型的机器人,出色地完成这些任务。Franka机器人七轴力控Franka机器人设置有两个摄像头和一个8维的配置和动作空间,其中关节力控功能在一些任务当中尤为重要UR5e单臂一个配备平行爪夹持器的手臂,带有一个腕部安装和一个肩上摄像头,总共提供两张相机图像和一个7维的配置和动作空间双臂UR5e 两个UR5e设置,总共提供三张相机图像和一个14维的配置和动作空间其他不再介绍。π0的零样本任务评估在零样本任务评估中,研究人员对经过预训练的π0模型进行了严格的测试。他们要求模型在未接受特定任务训练的情况下,执行一系列复杂任务,包括衬衫折叠、简易餐桌清理(bussing easy)、高难度餐桌清理(bussing hard)以及食品杂货装袋等。实验结果令人瞩目:π0模型在所有零样本任务中均展现出卓越的表现,证明了其非凡的泛化能力。特别是在衬衫折叠任务中,模型几乎达到了完美的成功率;而在简易餐桌清理任务中,也显示出了极高的准确度。
在众多模型中,π0模型以其卓越的性能脱颖而出。相较于OpenVLA和Octo,它们在任务执行上的表现明显不足。OpenVLA受限于其自回归离散化架构,难以有效处理动作分块,导致任务执行困难重重。而Octo虽然支持动作分块,但其有限的表示能力难以满足复杂任务的需求。这些对比结果充分展示了π0模型的优势:它将大规模表达性架构与流匹配技术相结合,在零样本的情况下也能轻松应对各种任务。
π0的零样本机器人操作基于Franka机器人π0的0样本分配任务 象一下,一个双臂灵活的机器人正轻松地完成家务。它优雅地走到洗衣机前,轻轻打开舱门,然后灵巧地将洗净的衣物一件件取出,整齐地放入筐中。这一幕不仅展示了机器人的实用性,也让我们对未来智能生活的便捷与高效充满了期待。接着,她轻巧地走到另一张桌子前,小心翼翼地从筐中取出衣物。她的动作温柔而细致,将每一件衣物平铺开来,然后巧妙地折叠整齐。这一系列动作如同优雅的舞蹈,展现了她对日常家务的熟练和热爱。在整理桌面的使命中,我们的主角——一位单臂机器人,展现出了非凡的效率。它灵巧地将珍贵的物品分类放入收纳筐,而那些不再需要的物品则被精准地投入垃圾桶。这不仅是一场清洁的仪式,更是对空间秩序的一次优雅重塑。即使在物品与垃圾交错混杂的情况下,我们的系统依然能够精确执行任务。“显然,π0在零样本泛化、语言控制响应、新任务学习和多阶段任务处理等方面的表现令人瞩目。它不仅能够灵活适应新任务,还能在不同阶段的任务中展现出卓越的性能。”
零样本泛化能力上,π0在所有任务上都显著超过了baseline模型,即使未加入预训练视觉模型的π0-small也比这些baseline表现优异。π0的计算效率在指令处理领域,π0展现了卓越的自主性能,尤其在人类指导下的三个语言指令任务中表现最佳。此外,其高层策略指导能力也得到了显著提升。面对与预训练数据差异较大的新任务挑战,π0在大多数情况下都能提供最佳的性能表现,特别是在微调数据量有限的情况下,其优势尤为突出。这表明π0无需额外训练即可使机器人自动完成众多开放性任务,展现了其强大的适应性和灵活性。
在一系列极具挑战性的复杂任务中,π团队对π0进行了微调和语言指令测试,展现了其卓越的性能。π0成功完成了如折衣服、整理餐桌、组装纸箱和装鸡蛋等耗时5至20分钟的任务,平均得分超过50%。在Franka机器人抽屉物品放置任务中,尽管缺乏预训练中的类似任务,π0仍展现出了“困难”级别的能力。而在UR5e堆叠碗任务中,由于涉及抓取和移动碗的动作与预训练数据相似,π0轻松地将其归为“简单”层级。此外,在纸巾更换任务中,尽管面临未见过的物品挑战,π0也表现出了“困难”级别的处理能力。总体来看,π0的计算效率和实时性表现突出,虽然距离实现网友期待的普及应用还有提升空间,但其潜力不容忽视。
那么,π团队在π0模型上,都运用了什么样的技术呢?π0的视觉模型原理探索π0,这款由视觉模型PaLM-ViT演化而来的先进系统,它不仅保留了原始模型的核心特性,还增添了创新元素:一个投影层、一个多层感知机和一个小巧的动作专家模块。投影层专门负责处理机器人状态与动作的输入输出,而多层感知机则精妙地整合了流匹配时间步信息。动作专家模块则独立地处理机器人状态和动作tokens,赋予模型更高的灵活性和效率。π0的输入涵盖了图像、语言指令、机器人本体感受状态以及噪声动作块,其中图像和语言tokens被送入VLM主干网络进行深度分析,而状态和动作tokens则由动作专家模块精心处理。最终,π0能够输出动作块的精确向量场表示,为机器人操作提供强大的决策支持。
π0模型以其先进的条件流匹配技术,在连续动作分布建模领域独树一帜。这种方法通过逐步引入噪声简化数据分布,再逐步去除噪声以恢复隐私数据,与扩散模型的核心理念不谋而合。然而,流匹配技术的独特之处在于直接建模数据与噪声分布之间的映射场,而非像扩散模型那样学习每个去噪步骤的条件分布。这种创新方法使得π0能够精确捕捉复杂的多峰分布,特别适合于需要高频灵巧操作的任务。在训练数据方面,π0模型在迄今为止最大的机器人交互数据集上进行了深入训练。预训练阶段的数据集涵盖了OXE、DROID、Bridge等开源数据集,以及团队在8个不同机器人平台上收集的大量灵巧任务数据。团队自行收集的数据集包含68个任务,涉及单臂任务106M步和双臂任务797M步,均采用50Hz的高频控制。开源数据与团队自收集数据的比例约为1:9。为了使π0掌握特定复杂技能,团队还在20多个下游任务上进行了微调,微调数据量根据任务难度和相似度从5小时到100多小时不等,并在一些任务中结合了高层语言策略模块来分解复杂目标。正如团队成员切尔西·芬所言:“预训练旨在让模型适应各种场景,而微调则是为了让π0掌握更多的策略。”“不造机器人”的机器人公司PPhysical Intelligence,一家今年成立的新兴企业,已经成功筹集了7000万美元的A轮融资,这一成就在业界引起了广泛关注。本轮融资由知名风险投资公司红杉资本领投,同时还有包括人工智能领域的翘楚OpenAI在内的六家公司参与投资。值得一提的是,该公司还有一个富有创意的简称——π。这个名称不仅源于Physical Intelligence的缩写pi,而且巧妙地呼应了数学中圆周率π的拉丁文转写,展现了公司对科技与智慧的无限追求。"尽管π公司在机器人领域享有盛誉,但它并不涉足实体机器人的生产。相反,π专注于开发和训练先进的机器学习模型,旨在打造一个多功能、适应性强的通用机器人模型。"公司联合创始人兼首席执行官卡罗尔·豪斯曼(Karol Hausman)在一次公开演讲中阐述了这一愿景。CEO卡罗尔·豪斯曼(Karol Hausman),此前曾是谷歌大脑机器人操作研究主管,2021年至今兼任斯坦福客座教授。联创切尔西·芬(Chelsea Finn),斯坦福计算机科学和电气工程系助理教授,谷歌学术论文引用数超4.7万。此外,还有谷歌大脑机器人团队前科学家布赖恩·伊希特(Brian Ichter)、丰田研究院ML研究团队的研究科学家苏拉吉·奈尔(Suraj Nair)等。参考链接:[1]https://www.physicalintelligence.company/blog/pi0
https://www.physicalintelligence.company/download/pi0.pdf
相关文章:
π0:仅有3B数据模型打通Franka等7种机器人形态适配,实现0样本的完全由模型自主控制方法
Chelsea Finn引领的Physical Intelligence公司,专注于打造先进的机器人大模型,近日迎来了一个令人振奋的里程碑。在短短不到一年的时间内,该公司成功推出了他们的首个演示版本。这一成就不仅展示了团队的卓越技术实力,也预示着机器…...
DeepSeek-R1 低成本训练的根本原因是?
在人工智能领域,大语言模型(LLM)正以前所未有的速度发展,驱动着自然语言处理、内容生成、智能客服等众多应用的革新。然而,高性能的背后往往是高昂的训练成本,动辄数百万美元的投入让许多企业和研究机构望而…...
pandas(二)读取数据
一、读取数据 示例代码 import pandaspeople pandas.read_excel(../002/People.xlsx) #读取People数据 print(people.shape) # 打印people表的行数、列数 print(people.head(3)) # 默认打印前5行,当前打印前3行 print("") print(people.tail(3)) # 默…...
北京门头沟区房屋轮廓shp的arcgis数据建筑物轮廓无偏移坐标测评
在IT行业中,地理信息系统(GIS)是用于处理、分析和展示地理空间数据的重要工具,而ArcGIS则是GIS领域中的一款知名软件。本文将详细解析标题和描述中提及的知识点,并结合“门头沟区建筑物数据”这一标签,深入…...
【自学笔记】Java的重点知识点-持续更新
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 Java知识点概览一、Java简介二、Java基本语法三、面向对象编程(OOP)四、异常处理五、常用类库六、多线程编程七、网络编程 注意事项 总结 Ja…...
向上调整算法(详解)c++
算法流程: 与⽗结点的权值作⽐较,如果⽐它⼤,就与⽗亲交换; 交换完之后,重复 1 操作,直到⽐⽗亲⼩,或者换到根节点的位置 这里为什么插入85完后合法? 我们插入一个85,…...
LabVIEW无线齿轮监测系统
本案例介绍了基于LabVIEW的无线齿轮监测系统设计。该系统利用LabVIEW编程语言和改进的天牛须算法优化支持向量机,实现了无线齿轮故障监测。通过LabVIEW软件和相关硬件,可以实现对齿轮箱振动信号的采集、传输和故障识别,集远程采集、数据库存储…...
用deepseek解决python问题——在cmd终端运行python指令弹出应用商店,检查路径已经加入环境变量
首先上结论:可行性非常强 当然我没有广泛对比,至少豆包解决方案基本上就是网络上能搜到的一些方法,没有帮我解决,下面直接看一下对话吧 我:在cmd运行python指令弹出应用商店,检查路径已经加入环境变量 D…...
力扣第435场周赛讲解
文章目录 题目总览题目详解3442.奇偶频次间的最大差值I3443.K次修改后的最大曼哈顿距离3444. 使数组包含目标值倍数的最少增量3445.奇偶频次间的最大差值 题目总览 奇偶频次间的最大差值I K次修改后的最大曼哈顿距离 使数组包含目标值倍数的最少增量 奇偶频次间的最大差值II …...
内存四区
一、内存四区模型 1. 操作系统把物理硬盘代码load到内存 2. 操作系统把c代码分成四个区 3. 操作系统遭到main函数入口执行 二、内存四区 1. 栈区(stack) 由编译器自动分配释放,存放函数的参数值,局部变量的值。其操作方式类似…...
大模型综合性能考题汇总
- K1.5长思考版本 一、创意写作能力 题目1:老爸笑话 要求:写五个原创的老爸笑话。 考察点:考察模型的幽默感和创意能力,以及对“原创”要求的理解和执行能力。 题目2:创意故事 要求:写一篇关于亚伯拉罕…...
Python - pyautogui库 模拟鼠标和键盘执行GUI任务
安装库: pip install pyautogui 导入库:import pyautogui 获取屏幕尺寸: s_width, s_height pyautogui.size() 获取鼠标当前位置: x, y pyautogui.position() 移动鼠标到指定位置(可以先使用用上一个函数调试获取当…...
c++ list的front和pop_front的概念和使用案例—第2版
在 C 标准库中,std::list 的 front() 和 pop_front() 是与链表头部元素密切相关的两个成员函数。以下是它们的核心概念和具体使用案例: 1. front() 方法 概念: 功能:返回链表中第一个元素的引用(直接访问头部元素&am…...
租赁管理系统在促进智能物业运营中的关键作用和优化策略分析
租赁管理系统在智能物业运营中的关键作用与优化策略 随着科技的飞速发展,租赁管理系统在智能物业运营中扮演着越来越重要的角色。这种系统不仅提高了物业管理的效率,更是促进了资源的优化配置和客户关系的加强。对于工业园、产业园、物流园、写字楼和公…...
【论文复现】基于Otsu方法的多阈值图像分割改进鲸鱼优化算法
目录 1.摘要2.鲸鱼优化算法WOA原理3.改进策略4.结果展示5.参考文献6.代码获取 1.摘要 本文提出了一种基于Otsu方法的多阈值图像分割改进鲸鱼优化算法(RAV-WOA)。RAV-WOA算法能够在分割灰度图像和彩色图像时,自动选择最优阈值,并确…...
TypeScript 运算符
TypeScript 运算符 TypeScript 作为 JavaScript 的超集,在 JavaScript 的基础上增加了静态类型系统,使得开发大型应用更加容易和维护。在 TypeScript 中,运算符是执行特定数学或逻辑运算的符号。本文将详细介绍 TypeScript 中常见的运算符,并对其使用方法进行详细阐述。 …...
关于系统重构实践的一些思考与总结
文章目录 一、前言二、系统重构的范式1.明确目标和背景2.兼容屏蔽对上层的影响3.设计灰度迁移方案3.1 灰度策略3.2 灰度过程设计3.2.1 case1 业务逻辑变更3.2.2 case2 底层数据变更(数据平滑迁移)3.2.3 case3 在途新旧流程兼容3.2.4 case4 接口变更3.2.5…...
电介质超表面中指定涡旋的非线性生成
涡旋光束在众多领域具有重要应用,但传统光学器件产生涡旋光束的方式限制了其在集成系统中的应用。超表面的出现为涡旋光束的产生带来了新的可能性,尤其是在非线性领域,尽管近些年来已经有一些研究,但仍存在诸多问题,如…...
学习日记-250202
现在开始要继续写我的日记了......(也可以当作笔记吧) 一.论文 Prompt Transfer for Dual-Aspect Cross Domain Cognitive Diagnosis 主要内容: 主要是加入prompt提示, 为重叠实体设计个性化的提示,为非重叠实体设计共…...
pytorch实现简单的情感分析算法
人工智能例子汇总:AI常见的算法和例子-CSDN博客 在PyTorch中实现中文情感分析算法通常涉及以下几个步骤:数据预处理、模型定义、训练和评估。下面是一个简单的实现示例,使用LSTM模型进行中文情感分析。 1. 数据预处理 首先,我…...
【Rust自学】16.3. 共享状态的并发
喜欢的话别忘了点赞、收藏加关注哦,对接下来的教程有兴趣的可以关注专栏。谢谢喵!(・ω・) 16.3.1. 使用共享来实现并发 还记得Go语言有一句名言是这么说的:Do not communicate by sharing memory; instead, share me…...
git 新项目
新项目git 新建的项目如何进行git 配置git git config --global user.name "cc" git config --global user.email ccexample.com配置远程仓库路径 // 添加 git remote add origin http://gogs/cc/mc.git //如果配错了,删除 git remote remove origin初…...
【LeetCode 刷题】回溯算法-子集问题
此博客为《代码随想录》二叉树章节的学习笔记,主要内容为回溯算法子集问题相关的题目解析。 文章目录 78.子集90.子集II 78.子集 题目链接 class Solution:def subsets(self, nums: List[int]) -> List[List[int]]:res, path [], []def dfs(start: int) ->…...
LLMs之DeepSeek:Math-To-Manim的简介(包括DeepSeek R1-Zero的详解)、安装和使用方法、案例应用之详细攻略
LLMs之DeepSeek:Math-To-Manim的简介(包括DeepSeek R1-Zero的详解)、安装和使用方法、案例应用之详细攻略 目录 Math-To-Manim的简介 1、特点 2、一个空间推理测试—考察不同大型语言模型如何解释和可视化空间关系 3、DeepSeek R1-Zero的简介:处理更…...
2025年2月2日(网络编程 tcp)
tcp 循环服务 import socketdef main():# 创建 socket# 绑定tcp_server socket.socket(socket.AF_INET, socket.SOCK_STREAM)tcp_server.bind(("", 8080))# socket 转变为被动tcp_server.listen(128)while True:# 产生专门为链接进来的客户端服务的 socketprint(&qu…...
WSL2中安装的ubuntu搭建tftp服务器uboot通过tftp下载
Windows中安装wsl2,wsl2里安装ubuntu。 1. Wsl启动后 1)Windows下ip ipconfig 以太网适配器 vEthernet (WSL (Hyper-V firewall)): 连接特定的 DNS 后缀 . . . . . . . : IPv4 地址 . . . . . . . . . . . . : 172.19.32.1 子网掩码 . . . . . . . .…...
C#从XmlDocument提取完整字符串
方法1:通过XmlDocument的OuterXml属性,见XmlDocument类 该方法获得的xml字符串是不带格式的,可读性差 方法2:利用XmlWriterSettings控制格式等一系列参数,见XmlWriterSettings类 例子: using System.IO; …...
Ubuntu 下 nginx-1.24.0 源码分析 main函数 — ngx_cdecl 宏
ngx_cdecl 宏 int ngx_cdecl main(int argc, char *const *argv) ngx_cdecl 定义在: ngx_config.h 中: #define ngx_cdecl 这里是一个空的 define 参考: nginx中的ngx_cdecl-CSDN博客 __cdecl 是一种调用约定(Calling Con…...
2025-工具集合整理
科技趋势 github-rank 🕷️Github China/Global User Ranking, Global Warehouse Star Ranking (Github Action is automatically updated daily). 科技爱好者周刊 制图工具 D2 D2 A modern diagram scripting language that turns text to diagrams 文档帮助 …...
OpenAI 实战进阶教程 - 第一节:OpenAI API 架构与基础调用
目标 掌握 OpenAI API 的基础调用方法。理解如何通过 API 进行内容生成。使用实际应用场景帮助零基础读者理解 API 的基本用法。 一、什么是 OpenAI API? OpenAI API 是一种工具,允许开发者通过编程方式与 OpenAI 的强大语言模型(例如 gpt-…...
