当前位置: 首页 > article >正文

论文阅读笔记——π0.5: a Vision-Language-Action Model with Open-World Generalization

π0.5 论文
通过异构数据协同训练与分层推理,用中等规模的目标数据(400小时)实现了大规模泛化能力,为现实世界机器人学习提供了新范式。
在这里插入图片描述
在这里插入图片描述
高层推理(high-level) 根据当前观测和任务指令预测子任务(如“打开抽屉”)。低层推理(low-level) 基于当前观测和子任务生成具体动作序列。低级推理动作能够受益于其他机器人收集的数据;高级推理能从网络上的语义示例,高级注释预测中受益。

  • 输入:多摄像头图像、语言指令、机器人本体状态(关节位姿)。
  • 输出:高层语义子任务(文本 token)和底层动作序列(连续向量)。
  • 模态交互:图像通过视觉编码器嵌入,文本和动作通过独立编码器处理,通过双向注意力机制(不同于 LLM 的因果注意力)交互。
  • 动作专家(Action Expert:专用于 flow matching 的小型 Transformer,生成高精度连续动作。
  • 注意力掩码:限制动作 token 与文本/图像 token 的单向信息流,避免信息泄露。
    在这里插入图片描述

模型的核心分布为 π θ ( a t : t + H , ℓ ^ ∣ o t , ℓ ) \pi_{\theta}(\mathbf{a}_{t:t+H},\hat{\ell}|\mathbf{o}_{t},\ell) πθ(at:t+H,^ot,) 其中 ℓ \ell 是整体任务提示, ℓ ^ \hat{\ell} ^ 是各个子任务的提示。
将联合分布拆解为高层次和低层次两个子任务:
π θ ( a t : t + H , ℓ ^ ∣ o t , ℓ ) = π θ ( a t : t + H ∣ o t , ℓ ^ ) π θ ( ℓ ^ ∣ o t , ℓ ) \pi_\theta(\mathbf{a}_{t:t+H},\hat{\ell}\left|\mathbf{o}_t,\ell\right)=\pi_\theta(\mathbf{a}_{t:t+H}\left|\mathbf{o}_t,\hat{\ell}\right.)\pi_\theta(\hat{\ell}\left|\mathbf{o}_t,\ell\right) πθ(at:t+H,^ot,)=πθ(at:t+H ot,^)πθ(^ot,)
动作的 token 采用 π 0 − f a s t \pi_0-fast π0fast 的 token,但这种离散化表示不适合实时推理,因为需要昂贵的自回归解码推理,故而提出了一个结合 FAST 分词器和迭代整合流场来预测动作:
min ⁡ θ E D , τ , ω [ H ( x 1 : M , f θ l ( o t , l ) ) ⏟ 文本token交叉熵损失 + α ∥ ω − a t : t + H − f θ a ( a t : t + H τ , ω , o t , l ) ∥ 2 ⏟ 流匹配MSE损失 ] \min_{\theta}\mathbb{E}_{D,\tau,\omega}\left[\underbrace{\mathcal{H}(x_{1:M},f_{\theta}^{l}(o_{t},l))}_{\text{文本token交叉熵损失}}+\alpha\underbrace{\|\omega-a_{t:t+H}-f_{\theta}^{a}(a_{t:t+H}^{\tau,\omega},o_{t},l)\|^{2}}_{\text{流匹配MSE损失}}\right] θminED,τ,ω 文本token交叉熵损失 H(x1:M,fθl(ot,l))+α流匹配MSE损失 ωat:t+Hfθa(at:t+Hτ,ω,ot,l)2
阶段一:预训练(VLM模式)

  • 仅使用文本token损失(α=0)
  • 将动作视为特殊文本 token(FAST编码),继承语言模型强语义能力
  • 采用 <control mode> joint/end effector 区分末端执行器和关节
  • 各数据集动作维度单独归一化至 [-1,1](采用1%与99%分位数)
数据类型符号数据量关键特性作用
移动机械臂家庭数据MM400小时100+真实家庭环境,清洁/整理任务(图7)目标场景直接适配
多环境静态机械臂数据ME跨200+家庭轻量化单/双机械臂,安装于固定平台增强物体操作多样性
跨本体实验室数据CE含OXE数据集桌面任务(叠衣/餐具收纳等)+移动/固定基座机器人迁移无关场景技能(如咖啡研磨)
高层子任务标注数据HL全数据集标注人工标注原子子任务(如"拾取枕头")+关联定位框实现分层推理能力
多模态网络数据WD百万级样本图像描述(COCO)、问答(VQAv2)、室内场景物体检测(扩展标注)注入语义先验知识

阶段二:微调(混合模式

  • 引入动作专家分支,逐步提升α
  • 流匹配分支从文本 token 条件生成动作,建立语言-动作关联

推理流程

  1. 自回归解码:生成语义子任务 ℓ ^ \hat{\ell} ^(如“拿起盘子”)
  2. 条件去噪:基于 ℓ ^ \hat{\ell} ^ 执行10步流匹配去噪,输出连续动作 a t : t + H a_{t:t+H} at:t+H

实验结果

Q1: π 0.5 \pi_{0.5} π0.5 能否有效泛化到全新环境中的复杂多阶段任务?
在三个未曾见过的真实环境中,使用两种类型的机器人,每个机器人被指示执行卧室和厨房的清洁任务。比较了大致对应于每个任务成功完成的步骤百分比。
在这里插入图片描述
A!: 能够在各种家庭任务中持续取得成功。泛化水平超过了以往的 VLA 模型。

Q2: π 0.5 \pi_{0.5} π0.5 泛化能力随训练数据中不同环境的数量如何变化?
在这里插入图片描述
在这里插入图片描述
A2:随着训练位置的增加,任务之间的平均表现通常会有所提高。随着训练数据中地点数量的增加,语言跟随表现和成功率都有所提高。

Q3: π 0.5 \pi_{0.5} π0.5 各个共同训练成分对最终性能的贡献如何?
在这里插入图片描述
在这里插入图片描述
A3: π 0.5 \pi_{0.5} π0.5 从跨刚体(ME和CE)转移中获得了相当大的好处。移除网络数据(WD)会导致模型在处理异常分布(OOD)对象时表现显著变差。

Q4: π 0.5 \pi_{0.5} π0.5 π 0 V L A \pi_0 VLA π0VLA 相比?
在这里插入图片描述
A4: π 0.5 \pi_{0.5} π0.5 显著优于 π 0 \pi_0 π0 以及增强版本 p i 0 − pi_0- pi0-FAST+FLOW。 π 0 \pi_0 π0-FAST+FLOW 是按照混合训练设置的,但仅用包含机器人动作的数据进行训练,因此无法执行高层次推理。

Q5: π 0.5 \pi_{0.5} π0.5 的高层推理组件有多重要?与单一的低层次推理以及显式的高层基线相比如何?
在这里插入图片描述

不足之处

  • π 0.5 \pi_{0.5} π0.5 虽然展示了广泛的泛化能力,但在某些环境中仍存在挑战,如不熟悉的抽屉把手或机器人难以打开的橱柜。
  • 一些行为在部分可观测性方面存在挑战,比如:机器人手臂遮挡了应该擦拭的溢出物。
  • 在某些情况下,高层子任务推理容易分心,比如:在收拾物品时多次关闭和打开抽屉。
    目前仅能处理的是相对简单的提示。

相关文章:

论文阅读笔记——π0.5: a Vision-Language-Action Model with Open-World Generalization

π0.5 论文 通过异构数据协同训练与分层推理&#xff0c;用中等规模的目标数据&#xff08;400小时&#xff09;实现了大规模泛化能力&#xff0c;为现实世界机器人学习提供了新范式。 高层推理(high-level) 根据当前观测和任务指令预测子任务&#xff08;如“打开抽屉”&…...

电子削铅笔刀顺序图详解:从UML设计到PlantUML实现

题目&#xff1a;为电子削铅笔刀建立一个顺序图和一个通信图。图中的对象包括操作者、铅笔、插入点(也就是铅笔插入铅笔刀的位置)、马达和其他元素。包括哪些交互消息?有那些激活?如何在图中表示出自身调用。 一、顺序图概述 顺序图&#xff08;Sequence Diagram&#xff09…...

FWFT_FIFO和Standard_FIFO对比仿真

在FPGA中使用FIFO时&#xff0c;如果使用FPGA厂商提供的FIFO IP&#xff0c;一般都会有First Word Fall Through FIFO和Standard FIFO类型选项&#xff0c;那么这两种FIFO有什么差异么。两种FIFO的端口是一样的&#xff0c;看不出区别&#xff0c;只有通过仿真&#xff0c;才能…...

什么是可重入锁ReentrantLock?

大家好&#xff0c;我是锋哥。今天分享关于【什么是可重入锁ReentrantLock?】面试题。希望对大家有帮助&#xff1b; 什么是可重入锁ReentrantLock? ReentrantLock 是 Java 中的一个锁实现&#xff0c;它是 java.util.concurrent.locks 包中的一部分&#xff0c;主要用于提供…...

利用JMeter代理服务器方式实现高效压测

前言 在当今快节奏的互联网时代&#xff0c;确保Web应用和服务能够在高负载下稳定运行变得至关重要。无论是电子商务平台、社交媒体网络还是在线教育服务&#xff0c;用户对网站响应速度和稳定性的期望从未如此之高。因此&#xff0c;性能测试不再是一个可选项&#xff0c;而是…...

WSL 安装过程整理

WSL 安装过程整理 一、WSL 安装教程二、安装后小技巧1、安装位置2、常用命令 三、在 WSL2 中安装 perf&#xff1a; 一、WSL 安装教程 史上最全的WSL安装教程 WSL2 最新最全帮助小白一步步详细安装教程 在WSL2 root 和普通用户的切换 轻松搬迁&#xff01;教你如何将WSL从C盘迁…...

【go】简单理解梳理go的内存分配原理

Go 内存分配机制原理 Go 的内存分配机制设计非常精细&#xff0c;结合了多级缓存、对象池和垃圾回收等机制&#xff0c;以实现高并发下的高性能分配。 1. 整体内存结构 Go 程序启动时&#xff0c;运行时会向操作系统申请一大块连续内存区域&#xff08;heap arena&#xff0…...

GStreamer 简明教程(十一):插件开发,以一个音频生成(Audio Source)插件为例

系列文章目录 GStreamer 简明教程&#xff08;一&#xff09;&#xff1a;环境搭建&#xff0c;运行 Basic Tutorial 1 Hello world! GStreamer 简明教程&#xff08;二&#xff09;&#xff1a;基本概念介绍&#xff0c;Element 和 Pipeline GStreamer 简明教程&#xff08;三…...

【阿里云大模型高级工程师ACP学习笔记】2.1 用大模型构建新人答疑机器人

学习目标 在备考阿里云大模型高级工程师ACP认证时,学习《2.1用大模型构建新人答疑机器人》这部分内容,主要是为了掌握利用大模型技术构建高效答疑机器人的方法,提升在大模型应用开发领域的专业能力。具体目标如下: 掌握大模型API调用:学会通过API调用通义千问大模型,熟悉…...

嵌入式鸿蒙系统环境搭建与配置要求实现01

各位开发者大家好,今天主要给大家分享一下,鸿蒙系统的环境配置实现。 第一:鸿蒙配置基本要求 对电脑的要求,虚拟机配置建议 200GB 硬盘大小,10GB 内存,4*2CPU。 安装必要的依赖文件方法: sudo apt-get update && sudo apt-get install binutils git git-lfs g…...

form表单提交前设置请求头request header及文件下载

需求&#xff1a;想要在form表单submit之前&#xff0c;设置一下请求头。 除了用Ajax发起请求之外&#xff0c;还可以使用FormData来实现&#xff0c;咱不懂就问。 1 问&#xff1a;FormData什么时间出现的&#xff1f;与ajax什么联系&#xff1f; 2 问&#xff1a;FormData使…...

【c++11】c++11新特性(下)(可变参数模板、default和delete、容器新设定、包装器)

&#x1f31f;&#x1f31f;作者主页&#xff1a;ephemerals__ &#x1f31f;&#x1f31f;所属专栏&#xff1a;C 目录 前言 五、可变参数模板 1. 概念及简单定义 2. 包扩展 六、 default和delete 七、容器新设定 1. 新容器 2. 新接口 emplace系列接口 八、函数包…...

PyTorch 实现食物图像分类实战:从数据处理到模型训练

一、简介 在计算机视觉领域&#xff0c;图像分类是一项基础且重要的任务&#xff0c;广泛应用于智能安防、医疗诊断、电商推荐等场景。本文将以食物图像分类为例&#xff0c;基于 PyTorch 框架&#xff0c;详细介绍从数据准备、模型构建到训练测试的全流程&#xff0c;帮助读者…...

Qt —— 在Linux下试用QWebEngingView出现的Js错误问题解决(附上四种解决办法)

错误提示:js: A parser-blocking, cross site (i.e. different eTLD+1) script, https:xxxx, is invoked via document.write. The network request for this script MAY be blocked by the browser in this or a future page load due to poor network connectivity. If bloc…...

命名空间(C++)

命名空间主要用于大型项目中。 局部命名在该局部会覆盖全局命名。C语言中唯一一种在局部调用全局相同命名的全局变量的方式&#xff1a;指针在C中可以用作用域运算符来访问全局变量&#xff0c;作用域运算符的前面可以是作用域也可以是类。 命名空间实际上是对全局作用域的再次…...

使用Python脚本在Mac上彻底清除Chrome浏览历史:开发实战与隐私保护指南

题目&#xff1a; 《基于PyCharm与Mac系统的Chrome历史记录清理工具开发实战》 引言 在Mac系统下&#xff0c;Chrome浏览器的历史记录文件通常以SQLite数据库形式存储于用户目录中&#xff0c;仅通过浏览器内置功能清理可能残留索引文件。本文通过一个Python脚本&#xff08;c…...

LabVIEW圆锥滚子视觉检测系统

基于LabVIEW平台的视觉检测系统提高圆锥滚子内组件的生产质量和效率。通过集成高分辨率摄像头和先进的图像处理算法&#xff0c;系统能够自动识别和分类产品缺陷&#xff0c;从而减少人工检查需求&#xff0c;提高检测的准确性和速度。 ​​ ​ 项目背景 随着制造业对产品质…...

OpenAI 推出「轻量级」Deep Research,免费用户同享

刚刚&#xff0c;OpenAI 正式上线了面向所有用户的「轻量级」Deep Research 版本&#xff0c;意味着即便没有付费订阅&#xff0c;也能体验这一强大工具的核心功能。 核心差异&#xff1a;o4-mini vs. o3 模型迭代 传统的深度研究功能基于更大规模的 o3 模型。轻量级版本则改以…...

罗伯·派克:Go语言创始者的极客人生

名人说&#xff1a;路漫漫其修远兮&#xff0c;吾将上下而求索。—— 屈原《离骚》 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 罗伯派克&#xff1a;Go语言创始者的极客人生 一、传奇程序员的成长历程 1. 早年经历…...

面试题:Redis 一次性获取大量Key的风险及优化方案

Redis 一次性获取大量Key的风险及优化方案 在Redis中一次性获取大量Key&#xff08;如使用KEYS命令或大量GET操作&#xff09;会带来多种风险和性能问题&#xff0c;以下是详细分析和解决方案&#xff1a; 主要风险 1. 阻塞风险 KEYS命令阻塞&#xff1a;KEYS *会扫描整个数…...

中国头部云服务商分析

1. 阿里云 国内云服务的开创者与龙头&#xff0c;占据约三分之一的国内市场份额&#xff0c;其中IaaS占比72%&#xff0c;PaaS与SaaS占比相对较小 全球范围内500万客户&#xff0c;基础设施目前面向全球四大洲&#xff0c;开服运营15个国家、30个公共云地域、89个可用区&#x…...

关于使用git init --bare 裸仓库的使用

1、创建文件夹 对于需要作为仓库的文件夹使用git init --bare进行裸仓库初始化 2、将裸仓库添加为自己的远程仓库 使用的方法和添加远程仓库的方式相同&#xff0c;但是路径需要为绝对路径&#xff0c;同时需要加入file:///协议 git remote add origin file:///d:/Desktop/Lo…...

解释一下计算机中的内存对齐

1. 内存对齐的基本概念 内存对齐是计算机系统优化内存访问效率的一种机制&#xff0c;要求数据在内存中的起始地址必须为某个值的整数倍&#xff08;通常为数据类型大小的整数倍&#xff09;。例如&#xff1a; int (4字节) 应对齐到4的倍数地址&#xff08;如0x00, 0x04, 0x…...

小白工具视频转MPG, 功能丰富齐全,无需下载软件,在线使用,超实用

在视频格式转换需求日益多样的今天&#xff0c;小白工具网的在线视频转 MPG 功能https://www.xiaobaitool.net/videos/convert-to-mpg/ &#xff09;脱颖而出&#xff0c;凭借其出色特性&#xff0c;成为众多用户处理视频格式转换的优质选择。 从格式兼容性来看&#xff0c;它支…...

跟着deepseek学golang--认识golang

文章目录 一、Golang核心优势1. 极简部署方式生产案例​​&#xff1a;依赖管理​​&#xff1a;容器实践​​&#xff1a; 2. 静态类型系统​​类型安全示例​​&#xff1a;性能优势​​&#xff1a;​​代码重构​​&#xff1a; 3. 语言级并发支持​​GMP调度模型实例​​&…...

目前市面上知名的数据采集器

程序员爱自己动手打造一切&#xff0c;但这样离钱就会比较远。 市面上知名的数据采集工具 数据采集工具&#xff08;也称为网络爬虫或数据抓取工具&#xff09;在市场上有很多选择&#xff0c;以下是目前比较知名和广泛使用的工具分类介绍&#xff1a; 一、开源免费工具 Scra…...

问答页面支持拖拽和复制粘贴文件,MaxKB企业级AI助手v1.10.6 LTS版本发布

2025年4月24日&#xff0c;MaxKB开源企业级AI助手正式发布v1.10.6 LTS版本。这一版本主要进行了一些功能优化和问题修复。 功能优化 ■ 应用&#xff1a;文件上传支持上传其他自定义的文件类型&#xff0c;该类型文件需要自行写入函数解析&#xff1b; ■ 问答页面&#xff…...

day32 学习笔记

文章目录 前言一、霍夫变换二、标准霍夫变换三、统计概率霍夫变换四、霍夫圆变换 前言 通过今天的学习&#xff0c;我掌握了霍夫变换的基本原本原理及其在OpenCV中的应用方法 一、霍夫变换 霍夫变换是图像处理中的常用技术&#xff0c;主要用于检测图像中的直线&#xff0c;圆…...

二项分布详解:从基础到应用

二项分布详解&#xff1a;从基础到应用 目录 引言二项分布的定义概率质量函数及其证明期望与方差推导二项分布的重要性质常见应用场景与其他分布的关系知识梳理练习与思考 引言 概率论中&#xff0c;二项分布是最基础也是最常用的离散概率分布之一。它描述了在固定次数的独…...

CentOS 7上Memcached的安装、配置及高可用架构搭建

Memcached是一款高性能的分布式内存缓存系统&#xff0c;常用于加速动态Web应用的响应。本文将在CentOS 7上详细介绍Memcached的安装、配置&#xff0c;以及如何实现Memcached的高可用架构。 &#xff08;1&#xff09;、搭建memcached 主主复制架构 Memcached 的复制功能支持…...