当前位置: 首页 > article >正文

Realtime-VLA V2——从让π0实时抓取下落的钢笔到让 VLA 运行得更快、更平滑且更精确

前言今天在朋友圈刷到一则新闻称《开普勒机器人被A股公司收购前任CEO已离职创业》我仔细看了全文还是多有感慨其实对双足3-5家今年可继续卷跳舞 跑步 打拳及比赛/陪练(乒乓球/网球/羽毛球等)而3-5家之外的双足得另寻他路比如展厅讲解及接待至于双足落地工厂的话不好说毕竟按照我们过去一年平均一月去3个工厂的经验这一两年 双足在工厂还难以大规模智能落地得先靠机械臂和轮式且之前说让工厂从自动化升级到智能化然我司做深了会发现先不要急着代替已经成熟十年的自动化而是让智能化先做好补充做纯工业自动化做不了的事情总之现在各种吹的太多了务实更好正因为以上种种使得我对基于机械臂和轮式的paper比去年更关注了比如本文介绍的Realtime-VLA第一部分 以实时速度运行VLA在本第一部分中作者展示了如何仅使用一块消费级GPU以 30Hz 的帧率和最高 480Hz 的轨迹频率运行 π0 级别的多视角 VLA。这使得此前被认为大型 VLA 模型无法实现的动态、实时任务成为可能为此作者提出了一系列策略用于消除模型推理中的各种开销。真实环境实验表明采用作者策略“Running VLAs at Real-time Speed”的 π0 策略在抓取下落钢笔任务中达到了100% 的成功率基于上述结果作者进一步提出了一个用于实时机器人控制的 VLA 全流式推理框架1.1 引言与π0 级别模型预备知识1.1.1 引言基于学习的机器人控制算法正日益盛行尤其是拥有数十亿参数的VLA 模型[2, 3, 16, 18]。尽管它们具有令人印象深刻的泛化能力这些模型仍面临时延问题。许多现实世界任务如抓取移动物体往往需要快速反应时间然而VLA 模型的一次前向传播通常需要数百毫秒阻碍了人们对动态机器人所期望的快速反应。而运行时间少于 33 毫秒(约 1/30 秒)是实现实时操作的转折点——这意味着每秒 30 帧的 RGB 视频流的所有帧都能被完全处理即使达到了 34 ms在连续运行过程中作者也必须时不时丢弃一些帧。如果需要检测的事件恰好发生在被丢弃的那一帧上那么整体延迟就会增加整整一个帧周期在本文中作者作出了一个关键观察VLAs 实际上完全可以在单张消费级 RTX 4090 GPU 上实现实时运行。经过作者的优化在输入两个视角的情况下推理延迟仅为 27.3 毫秒比 openpi[2] 项目提供的“官方”推理速度显著更快见表 1这一性能提升主要得益于作者对推理流水线的工程优化首先采用 CUDA 图CUDA graph方法消除了所有 CPU 开销随后对计算图进行变换以减少总 MAC 计算量或减少 kernel 启动次数在此之后作者对各个 kernel 内部的内存和张量操作进行了重新编排以更好地利用并行性。通过以上所有策略作者成功将推理时间推进到30 FPS 及以上满足了实时控制的需求为了验证作者实时策略的有效性他们在真实环境中设计了一个简单的概念验证实验。如图1 所示制作了两个竖直对齐的夹爪来夹持一支记号笔当上方的第一个夹爪松开笔后第二个夹爪需要在合适的时间抓住这支笔。通过自动化规则收集了数百条抓取数据。通过训练π0 模型来控制夹爪去抓取从更高且存在扰动位置落下的笔。这样的任务具有非常严格的时间约束。在模型推理过程中由于推理时间得到了极大优化π0 模型在该任务上达到了100 % 的成功率这一结果促使作者重新思考应当如何将 VLA 应用于实时机器人系统目前机器人控制系统主要由三层构成不同的算法在其中以分层控制频率的形式运行。通常认为VLA 位于中层控制这一层次更高频率的控制即力控制或力矩控制则被认为由其他算法来处理然而作者发现VLA 本身就包含了不同层级的输入与输出频率。作者直接将 VLA 的结构映射为一个完整的控制算法并将该模式称为全流式推理Full StreamingInference模式系统能够以最高 480 Hz 的频率生成控制信号已触及实时力控制的门槛1.1.2 π0模型的预备知识π0[2] 是一种在通用机器人操作任务上表现优异的VLA策略。通过在机器人数据和多模态数据上进行混合训练以实现开放世界泛化能力[3]。从模型架构的角度来看它主要包括两个部分视觉-语言模型VLM和动作专家AEVLMbackbone 以 PaliGemma [1] 进行初始化PaliGemma是一个具有 30 亿参数的多模态模型它由一个具有 4 亿参数的视觉编码器 SigLIP [22] 和一个具有 26 亿参数的大型语言模型LLMGemma [19] 组成PaliGemma 的表示通过大规模网页数据预训练获得为下文 AE 部分的并行动作解码提供了强有力的先验AE 通过混合专家MoE架构与 VLM 骨干网络相耦合 [15]AE 的网络是在Gemma 的基础上缩小宽度和 MLP 维度得到的总参数量为 3 亿。AE 通过 flow matching[12] 建模用于生成分段动作的预测结果多视角图像和任务prompt 被路由到更大的 VLM 主干网络而状态和动作噪声则被路由到 AE1.2 消除开销如原论文所述接下来作者将展示一个逐步构建推理程序的过程作者的起点是一个普通的 PyTorch nn.Module实现它严格按照模型结构直接编写。测得的运行时间在 100 毫秒以上距离作者的目标相去甚远首先做的几步优化聚焦于一些“易得红利”一方面通过消除 CPU 开销对应图 2 中的“cuda graph”项显著加速计算另一方面通过去除冗余计算对应图 2中的“simplified graph”项来进一步提速1.2.1 消除 CPU 开销目前神经网络推理通常由 Python 代码驱动用来启动底层的 CUDA 内核。然而当内核数量很大时Python 部分会带来显著的开销。在 π0模型中估计每一步推理需要启动的内核总数超过一千个这使得 CPU 开销问题变得十分紧迫目前已有多种预先编译Ahead-Of-Time, AOT或即时编译Just-In-Time, JIT技术可供选择然而作者发现最简单且最有效的方法是使用 CUDA 图(CUDA graph)机制。在CUDA图中作者可以记录模型推理期间启动的内核流然后重新执行这些操作在回放阶段这些 kernel 完全由 GPU 和驱动程序发起与执行从而消除所有 Python 执行开销CUDA graph 方法需要确保从一次运行到下一次运行所有 kernel 代码和缓冲区指针都是恒定不变的在作者的 VLA 场景中这一条件是可以满足的因为底层的 transformer 块中不存在动态分支如图 2 所示这大约将推理速度提升了两倍从而挤掉了朴素实现中推理开销的主要部分1.2.2 图简化// 待更第二部分 Realtime-VLA V2让 VLA 运行得更快、更平滑且更精确// 待更

相关文章:

Realtime-VLA V2——从让π0实时抓取下落的钢笔到让 VLA 运行得更快、更平滑且更精确

前言今天在朋友圈刷到一则新闻,称《开普勒机器人被A股公司收购,前任CEO已离职创业》我仔细看了全文,还是多有感慨其实对双足,3-5家今年可继续卷跳舞 跑步 打拳及比赛/陪练(乒乓球/网球/羽毛球等)而3-5家之外的双足,得另…...

从CentOS 7/8老用户视角:快速上手CentOS 9 Stream的3个界面变化与5个安装配置新坑

从CentOS 7/8老用户视角:快速上手CentOS 9 Stream的3个界面变化与5个安装配置新坑 作为一名长期与CentOS打交道的系统管理员,第一次接触CentOS 9 Stream时,那种"熟悉又陌生"的感觉尤为明显。表面上看,它延续了红帽系一贯…...

UG许可排队严重?研发软件许可共享,盘活企业资产

我干IT这十年,见过太多公司因为许可证管理不当,堵在路上的效率和成本。2026年咱们行业平均许可证利用率只有42%,烂尾的项目不少,换算成直接损失,一个中型研发团队每年光工时浪费就抵得上一整个外包团队的薪酬。许可证到…...

别再手动折腾了!用Buildroot一键生成你的嵌入式Linux交叉工具链(附musl/glibc选型指南)

嵌入式Linux开发者的终极效率工具:Buildroot自动化工具链构建实战 在嵌入式Linux开发的世界里,搭建一个稳定可靠的交叉编译工具链往往是项目启动的第一道门槛。传统的手动配置方式不仅耗时费力,还容易因版本兼容性问题导致各种"玄学&quo…...

NX浮动许可利用率低:软件许可浪费,高端设计团队解脱

我去年在XX公司遇到个事,设计团队的NX license用着用着突然卡住了,明明有二十多个电脑在用,License Manager显示只剩三个可用。当时我就懵了,这配置不是白搭了吗?后来查资料才明白,这是典型的浮动许可资源浪…...

别急着重装!用注册表和任务管理器两步修复Edge浏览器无法上网(Win10/Win11通用)

深度修复Edge浏览器网络故障:注册表与进程管理的终极指南 当Edge浏览器突然无法连接网络时,大多数用户的第一反应往往是重装浏览器甚至操作系统。但作为一名长期与Windows系统打交道的技术顾问,我发现90%的类似问题其实无需如此大动干戈。本文…...

B站视频转换终极指南:3分钟掌握m4s转MP4永久保存技巧

B站视频转换终极指南:3分钟掌握m4s转MP4永久保存技巧 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾因B站视频突然下架而痛…...

告别Unity!用eDrawings ActiveX控件在WinForm里轻松嵌入CAD三维模型(附避坑指南)

轻量化CAD集成方案:eDrawings ActiveX控件在WinForm中的高效实践 当机械设计软件公司需要为内部物料管理系统添加零件预览功能时,技术选型往往面临两难抉择。Unity等游戏引擎虽然功能强大,但其资源占用和开发复杂度对于简单的CAD模型预览场景…...

语雀文档离线备份终极指南:3步轻松实现文档永久保存

语雀文档离线备份终极指南:3步轻松实现文档永久保存 【免费下载链接】yuque2book export yuque repo to a book 将你的语雀文档导出的工具 项目地址: https://gitcode.com/gh_mirrors/yu/yuque2book 你是不是经常担心语雀文档的安全问题?或者需要…...

用STM32F103C8T6和HC-08蓝牙模块,从零到一打造你的第一辆遥控小车(CubeMX+HAL库保姆级教程)

从零构建STM32蓝牙遥控小车:CubeMX配置与实战全解析 第一次接触嵌入式开发时,那种让硬件按照自己编写的代码动起来的成就感,至今记忆犹新。本文将带你完整经历用STM32F103C8T6和HC-08蓝牙模块打造遥控小车的全过程,特别适合刚学完…...

EEGLab新手避坑:手把手教你搞定EEG数据的Marker、分段与Epoch提取(附完整代码)

EEGLab新手避坑指南:Marker设置、数据分段与Epoch提取全流程解析 在脑电信号处理领域,EEGLab作为MATLAB环境下最常用的开源工具包,其强大的功能和灵活的扩展性深受研究者青睐。但对于刚接触EEGLab的研究生和初级用户来说,从原始EE…...

【限时解密】DeepSeek内部SSO安全加固白皮书(含JWT签名验签绕过防护方案)

更多请点击: https://codechina.net 第一章:DeepSeek SSO单点登录体系概览 DeepSeek SSO 是面向企业级 AI 开发平台构建的统一身份认证与访问控制中枢,支持 OAuth 2.0、OpenID Connect 及 SAML 2.0 多协议接入,实现跨服务&#x…...

WzComparerR2:冒险岛游戏数据的终极可视化与解密平台

WzComparerR2:冒险岛游戏数据的终极可视化与解密平台 【免费下载链接】WzComparerR2 Maplestory online Extractor 项目地址: https://gitcode.com/gh_mirrors/wz/WzComparerR2 你是否曾经好奇《冒险岛》游戏中那些精美的装备图标、华丽的技能动画和复杂的地…...

终极指南:do-mpc模型预测控制工具箱 - 5步实现工业级控制系统

终极指南:do-mpc模型预测控制工具箱 - 5步实现工业级控制系统 【免费下载链接】do-mpc Model predictive control python toolbox 项目地址: https://gitcode.com/gh_mirrors/do/do-mpc 模型预测控制(Model Predictive Control, MPC)是…...

C语言编程实战:ASCII码表的深度解析与应用

1. ASCII码表:程序员的字符密码本 第一次接触ASCII码表时,我盯着那张密密麻麻的数字字符对照表发呆了半小时。直到在调试程序时发现字母A居然能用数字65代替,才突然意识到:这简直就是程序员世界的摩斯密码。ASCII(Amer…...

定义查询≠复制粘贴:Perplexity定义功能的稀缺性使用手册(仅限前500名深度用户验证的6条黄金规则)

更多请点击: https://intelliparadigm.com 第一章:定义查询≠复制粘贴:Perplexity定义功能的本质再认知 Perplexity 的“定义查询”(Define Query)并非对搜索引擎结果的简单抓取与拼接,而是一种基于语义理…...

无王无帝定乾坤,来自田间第一人:大道同源归本心

无王无帝定乾坤,来自田间第一人。 世间千般法理,万般修行,流派纷杂,说辞各异; 世人终日寻道问路,遍历山河苦思真谛, 却往往舍近求远,向外求索不休, 反倒遗忘最本真的根源…...

10分钟快速入门:免费开源AI语音转换与音频分离完整指南

10分钟快速入门&#xff1a;免费开源AI语音转换与音频分离完整指南 【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrieval-based-Voice-Conver…...

5分钟掌握LXMusic音源配置:告别音乐资源匮乏的终极指南

5分钟掌握LXMusic音源配置&#xff1a;告别音乐资源匮乏的终极指南 【免费下载链接】LXMusic音源 lxmusic&#xff08;洛雪音乐&#xff09;全网最新最全音源 项目地址: https://gitcode.com/guoyue2010/lxmusic- 还在为找不到心仪歌曲而烦恼吗&#xff1f;你是否厌倦了…...

别再死记硬背了!用这5个Shapely实战案例,轻松搞定GIS数据处理

用5个实战案例解锁Shapely&#xff1a;告别枯燥API&#xff0c;玩转GIS数据处理 第一次接触Shapely时&#xff0c;我也曾被那些晦涩的几何术语和冰冷的API文档劝退。直到接手一个城市绿化分析项目&#xff0c;被迫在三天内完成公园边界处理&#xff0c;才真正体会到这个库的魔力…...

5分钟快速上手WuWa-Mod:解锁《鸣潮》游戏无限潜能的终极指南

5分钟快速上手WuWa-Mod&#xff1a;解锁《鸣潮》游戏无限潜能的终极指南 【免费下载链接】wuwa-mod Wuthering Waves pak mods 项目地址: https://gitcode.com/GitHub_Trending/wu/wuwa-mod 还在为《鸣潮》游戏中的技能冷却时间烦恼吗&#xff1f;想要体验无限体力、自动…...

六月学术盛宴启幕 | 2026年6月国际学术会议重磅来袭

2026年6月学术会议列表 | 会议亮点总结 顶尖大咖云集&#xff1a;学界领军人物、资深学者倾情助阵&#xff0c;汇聚全球科研力量现场分享前沿成果 顶尖院校强力赋能&#xff1a;北航、桂林电子科技大学、南方科技大学、华南理工大学等众多名校联合组织 正规出版渠道 & 高…...

【佛山大学主办,土木与交通学院承办 | 施普林格Springer系列出版 | EI、Scopus检索 | 另期刊论文征稿】第九届结构工程与工业建筑国际学术会议(ICSEIA 2026)

第九届结构工程与工业建筑国际学术会议&#xff08;ICSEIA 2026&#xff09; 2026 9th International Conference on Structural Engineering and Industrial Architecture 2026年7月3-5日 中国佛山 大会官网&#xff1a;www.icseia.com【论文投稿】 截稿时间&#xff1a;…...

对比直接使用官方API,通过Taotoken聚合调用在容灾方面的体验差异

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 对比直接使用官方API&#xff0c;通过Taotoken聚合调用在容灾方面的体验差异 在开发依赖大模型能力的应用时&#xff0c;服务的稳定…...

终极指南:掌握WinPmem Windows内存取证采集核心技术

终极指南&#xff1a;掌握WinPmem Windows内存取证采集核心技术 【免费下载链接】WinPmem The multi-platform memory acquisition tool. 项目地址: https://gitcode.com/gh_mirrors/wi/WinPmem WinPmem作为Windows平台物理内存采集的标杆工具&#xff0c;为安全分析师和…...

TestDisk PhotoRec:免费开源数据恢复终极指南,快速找回丢失的分区和文件

TestDisk & PhotoRec&#xff1a;免费开源数据恢复终极指南&#xff0c;快速找回丢失的分区和文件 【免费下载链接】testdisk TestDisk & PhotoRec 项目地址: https://gitcode.com/gh_mirrors/te/testdisk 你是否曾经不小心删除了重要文件&#xff1f;或者硬盘分…...

别再让脚本报错了!按键精灵CBool、CStr、CInt等6种类型转换函数保姆级教程

按键精灵类型转换实战指南&#xff1a;从报错到精通的六种武器 在自动化脚本开发的世界里&#xff0c;按键精灵就像一位不知疲倦的数字助手&#xff0c;能够代替我们完成各种重复性操作。但这位助手有时也会闹脾气——当你从网页抓取的数据需要计算时&#xff0c;当界面读取的…...

Prodigal原核生物基因预测工具:3天从零到精通的完整指南

Prodigal原核生物基因预测工具&#xff1a;3天从零到精通的完整指南 【免费下载链接】Prodigal Prodigal Gene Prediction Software 项目地址: https://gitcode.com/gh_mirrors/pr/Prodigal 你是否正在为原核生物基因组分析而烦恼&#xff1f;面对海量的DNA序列数据&…...

告别复杂配置,使用Taotoken CLI一键生成多工具环境配置文件

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 告别复杂配置&#xff0c;使用Taotoken CLI一键生成多工具环境配置文件 在接入多个大模型工具时&#xff0c;开发者常常需要为每个…...

避坑指南:PnetLab导入锐捷镜像时,关于qemu_options和权限的那些‘坑’

PnetLab锐捷镜像部署深度排障手册&#xff1a;从参数解析到权限修复实战 当你在深夜的机房里盯着屏幕上闪烁的命令行&#xff0c;第十次尝试启动PnetLab中的锐捷镜像却依然遭遇连接失败时&#xff0c;那种挫败感我深有体会。这不是又一篇按部就班的安装教程&#xff0c;而是一…...