当前位置: 首页 > article >正文

ICML 2025 Spotlight | 机器人界的「Sora」!让机器人实时进行未来预测和动作执行!

标题:Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

作者:Yucheng Hu, Yanjiang Guo, Pengchao Wang, Xiaoyu Chen, Yen-Jen Wang, Jianke Zhang, Koushil Sreenath, Chaochao Lu, Jianyu Chen

机构:Tsinghua University、UC Berkeley、Shanghai Artificial Intelligence Laboratory、Shanghai Qi Zhi Institute、Robot Era

原文链接:https://arxiv.org/abs/2412.14803

代码链接:https://video-prediction-policy.github.io/

  1. 导读
    视觉表示在开发通用机器人策略中起着至关重要的作用。以前的视觉编码器,通常用单图像重建或双图像对比学习进行预训练,倾向于捕捉静态信息,经常忽略对具体化任务至关重要的动态方面。最近,视频扩散模型(VDM)展示了预测未来帧的能力,并展示了对物理世界的深刻理解。我们假设VDM固有地产生包含当前静态信息和预测的未来动态的视觉表示,从而为机器人动作学习提供有价值的指导。基于这一假设,我们提出了视频预测策略(VPP ),它根据VDM内部预测的未来表示来学习隐式逆动力学模型。为了预测更精确的未来,我们根据机器人数据集和互联网人类操作数据微调预训练的视频基础模型。在实验中,VPP在Calvin ABC-D泛化基准上取得了18.6%的相对改进,并证明了复杂现实世界灵巧操作任务的成功率提高了31.6%。

  2. 效果展示
    视频预测模型中的视觉表示明确表达了当前和未来帧,为实体代理提供了有价值的前瞻性信息。以前的视觉编码器没有明确的未来表示。

图片

我们对模拟和真实世界的机器人任务进行了广泛的实验,以评估视频预测策略的性能。模拟环境包括CALVIN基准和MetaWorld基准,而现实世界的任务包括熊猫手臂操作和XHand灵巧手操作。

图片

定量结果对比:

图片

  1. 引言
    构建能够解决多种任务的通用机器人策略是一个快速发展的研究领域。在这些通用策略中,一个关键组件是视觉编码器,它从像素观测中捕获视觉信息。许多研究聚焦于为具身智能体优化视觉表征,通常利用互联网视频数据集以及自监督技术,例如单图像重建、双图像对比学习以及图像 - 文本对比学习。尽管这些视觉预训练方法在具身任务中已展现出成功,但由于它们通常仅对单个或两个采样图像进行操作,可能无法充分利用顺序视频数据集中编码的动态信息。

最近,强大的视频扩散模型(VDMs)在视频生成任务中取得了令人瞩目的成果。视频扩散模型并非对单张图像或图像对进行预训练操作,而是直接对整个视频序列进行建模。文本引导的视频预测模型(TVPs)甚至能够基于当前观测和指令预测未来帧,展现出对物理动态的良好理解。

受TVP模型强大预测能力的启发,我们假设其本身包含有价值的物理动态知识,并能为具身智能体生成更有效的视觉表征。我们深入研究了TVP模型内部的视觉表征。这些表征通常以张量形式构建,维度为(T, H, W),明确表示1个当前步骤和(T - 1)个预测的未来步骤,其中H和W分别对应图像表征的高度和宽度。相比之下,以往的视觉编码器并未明确捕获未来表征。基于这一区别,我们将视频扩散模型中的这些潜在变量称为“预测性视觉表征”。

我们的关键见解是,下游策略可以通过在预测性表征中跟踪机器人的运动来隐式学习逆动力学模型。只要视频模型能够准确预测不同任务的未来场景,策略便可以通过隐式跟踪机械臂的位置来生成适当的动作。如此一来,我们便能够将视频预测模型的泛化能力迁移到机器人策略中。我们仅需少量演示,即可将机器人的动作空间与视觉空间对齐。

  1. 主要贡献
    我们引入了视频预测策略(VPP),该策略采用两阶段学习过程:首先,我们使用互联网人类和机器人操作数据将通用视频扩散模型微调为文本引导的视频预测(TVP)模型。这一步骤旨在开发一个可控的视频生成模型,以提高操作领域的预测能力。在第二阶段,我们学习一个以TVP模型的预测性表征为条件的逆动力学模型。由于我们直接使用内部表征,并避免了先前工作中所需的多个去噪步骤,VPP能够以高频方式在闭环模式下运行。我们还对VDM内部的表征进行了可视化,并确认它们有效捕获了关于未来演化的关键信息。

在实验中,VPP在两个模拟环境和两个真实场景设置中始终优于其他基线算法,证明了我们方法的有效性。值得注意的是,与之前的最先进方法相比,VPP在Calvin ABC→D基准测试中取得了41.5%的提升。在真实实验中,VPP在高维灵巧手操作任务上的成功率比最强的基线方法提高了31.6%。

  1. 方法
    我们描述了视频预测策略的两阶段学习过程。最初,我们在不同的操作数据集上训练文本引导视频预测(TVP)模型,以利用来自互联网数据的物理知识;随后,我们设计网络来聚合TVP模型中的预测视觉表示,并输出最终的机器人动作。

图片

  1. 实验结果
    图片
图片

  2. 总结
    我们引入了视频预测策略(VPP),这是一种学习通用机器人策略的新颖方法。VPP在VDM内的预测表示条件下学习隐式逆动力学模型,并在模拟和现实世界任务中产生一致的改进。随着视频生成模型变得越来越强大,我们的目标是充分释放视频模型在构建物理智能方面的潜力,并强调视频生成模型在具身任务中的潜力。

相关文章:

ICML 2025 Spotlight | 机器人界的「Sora」!让机器人实时进行未来预测和动作执行!

标题:Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations 作者:Yucheng Hu, Yanjiang Guo, Pengchao Wang, Xiaoyu Chen, Yen-Jen Wang, Jianke Zhang, Koushil Sreenath, Chaochao Lu, Jianyu Chen 机构&am…...

CSP严格模式返回不存在的爬虫相关文件

文章目录 说明示例(返回404)示例(创建CSP例外) 说明 日期:2025年6月4日。 CSP严格模式是default-src none,但有些web应用中,在爬虫相关文件不存在的情况下,依旧返回了对应文件&…...

https(SSL)证书危机和可行的解决方案

证书危机 20250411,CAB 论坛服务器证书工作组( SCWG )投票通过一项重大提案《 SC-081v3: 引入缩短有效期和数据重复使用期的时间表》,最终决定:从 2026 年起 SSL/TLS 证书的最大有效期将从 398 天逐步缩短至 47 天,并…...

C#获取磁盘容量:代码实现与应用场景解析

C#获取磁盘容量:代码实现与应用场景解析 在软件开发过程中,尤其是涉及文件存储、数据备份等功能时,获取磁盘容量信息是常见的需求。通过获取磁盘的可用空间和总大小,程序可以更好地进行资源管理、预警提示等操作。在 C# 语言中&a…...

2359. 找到离给定两个节点最近的节点

2359. 找到离给定两个节点最近的节点 题目链接&#xff1a;2359. 找到离给定两个节点最近的节点 代码如下&#xff1a; class Solution { public:int closestMeetingNode(vector<int>& edges, int node1, int node2) {auto calc_dis [&](int x) {vector<in…...

前端导入Excel表格

前端如何在 Vue 3 中导入 Excel 文件&#xff08;.xls 和 .xlsx&#xff09;&#xff1f; 在日常开发中&#xff0c;我们经常需要处理 Excel 文件&#xff0c;比如导入数据表格、分析数据等。文章将在 Vue 3 中实现导入 .xls 和 .xlsx 格式的文件&#xff0c;并解析其中的数据…...

AI生态警报:MCP协议风险与应对指南(下)——MCP Host安全

AI生态警报&#xff1a;MCP协议风险与应对指南&#xff08;上&#xff09;——架构与供应链风险https://blog.csdn.net/WangsuSecurity/article/details/148335401?sharetypeblogdetail&sharerId148335401&sharereferPC&sharesourceWangsuSecurity&spm1011.24…...

基于VLC的Unity视频播放器(四)

上篇文章中提到的问题 播放某个m3u8地址时会嘎掉&#xff0c;想办法解决了一下&#xff0c;很粗暴的&#xff0c;先SetFormat&#xff0c;再Stop&#xff0c;最后再Play&#xff0c;能用…… if (player ! null && player.GetSize() 0) {player.GetSize((w, h) >…...

pixel刷入Android15 userdebug版本

最近入手一个pixel7,想着刷个userdebug版本&#xff0c;就不用模拟器调试开发了&#xff0c;结果按照网上的教程&#xff0c;每次刷机后都是卡在goole logo界面&#xff0c;卡了一天多我才找到问题所在&#xff0c;想着记录下&#xff0c;给自己做个备份。 1. 前期准备&#x…...

【Go-补充】ioReader + ioWriter + bufio

一、io.Reader 和 io.Writer 接口介绍 在 Go 语言中&#xff0c;io 包定义了两个最基础和最重要的接口&#xff1a;io.Reader 和 io.Writer。它们是 Go 语言中进行输入/输出操作的核心抽象&#xff0c;实现了极大的灵活性和可组合性。 io.Reader 接口 io.Reader 接口定义了一…...

leetcode 3403. 从盒子中找出字典序最大的字符串 I 中等

给你一个字符串 word 和一个整数 numFriends。 Alice 正在为她的 numFriends 位朋友组织一个游戏。游戏分为多个回合&#xff0c;在每一回合中&#xff1a; word 被分割成 numFriends 个 非空 字符串&#xff0c;且该分割方式与之前的任意回合所采用的都 不完全相同 。所有分…...

C# 一个解决方案放一个dll项目,一个dll测试项目 ,调试dll项目的源码

一个解决方案&#xff08;sln&#xff09;中放入2个项目(project&#xff0c;通常是一个文件夹)&#xff0c;一个dll项目&#xff0c;一个dll测试项目 右键dll测试项目&#xff0c;设为启动项目。 在dll测试项目添加引用 1&#xff09;右键测试项目 → 添加 → 引用 → 项目…...

【PmHub面试篇】PmHub 整合 TransmittableThreadLocal(TTL)缓存用户数据面试专题解析

你好&#xff0c;欢迎来到本次关于PmHub整合TransmittableThreadLocal (TTL)缓存用户数据的面试系列分享。在这篇文章中&#xff0c;我们将深入探讨这一技术领域的相关面试题预测。若想对相关内容有更透彻的理解&#xff0c;强烈推荐参考之前发布的博文&#xff1a;【PmHub后端…...

unity随机生成未知符号教程

目录 前言方法1方法2脚本后言示例代码 前言 在某些游戏中&#xff0c;有一些让人感到意味不明的未知符号&#xff0c;例如在游戏《巴别塔圣歌》中&#xff0c;就有这样一些能让人在初次就看不懂的未知符号。 或者在其他时候&#xff0c;这些未知符号如果跟粒子系统结合在一起的…...

基于RK3576+FPGA+AI工业控制器的工地防护检测装备解决方案

1.2.1 工地防护检测技术研究现状 在建筑施工的过程中&#xff0c;工人被要求暴露在危险的环境中作业 [2]。因此&#xff0c;防护装备 对于工人的安全与健康具有非常重要的意义[3]。工地工人必须佩戴适当的防护装备&#xff0c; 以降低意外伤害的风险。在过去的几十年里&#x…...

推荐一款PDF压缩的工具

今天一位小伙伴找来&#xff0c;问我有没有办法将PDF变小的办法。 详细了解了一下使用场景&#xff1a; 小伙伴要在某系统上传一个PDF文件&#xff0c;原文件是11.6MB&#xff0c;但是上传时系统做了限制&#xff0c;只能上传小于10MB的文件&#xff0c;如图&#xff1a; 我听…...

混沌映射(Chaotic Map)

一.定义 混沌映射是指一类具有混沌行为的离散时间非线性动力系统&#xff0c;通常由递推公式定义。其数学形式为 &#xff0c;其中 f 是非线性函数&#xff0c;θ 为参数。它们以简单的数学规则生成复杂的、看似随机的轨迹&#xff0c;是非线性动力学和混沌理论的重要研究对象…...

MySQL对数据库用户的操作

注&#xff1a;‘%’&#xff1a;表示允许远程连接&#xff0c;‘localhost’ &#xff1a;限制本地登陆 – 根据用户名、权限查询用户 SELECT USER FROM mysql.user WHERE USER‘your_name’ AND HOST‘%’; – 彻底删除用户 DROP USER ‘appuser’‘%’; – 刷新使其生效 FL…...

《PyTorch Hub:解锁深度学习模型的百宝箱》

走进 PyTorch Hub 在当今的深度学习领域,模型的复用和共享已成为推动技术飞速发展的关键力量。随着深度学习在计算机视觉、自然语言处理、语音识别等众多领域取得突破性进展,研究人员和开发者们不断探索更高效、更强大的模型架构。然而,从头开始训练一个深度学习模型往往需要…...

数据结构 堆与优先级队列

文章目录 &#x1f4d5;1. 堆(Heap)✏️1.1 堆的概念✏️1.2 堆的存储方式✏️1.3 堆的创建✏️1.4 堆的插入✏️1.5 堆的删除 &#x1f4d5;2. 优先级队列(PriorityQueue)✏️2.1 堆与优先级队列的关系✏️2.2 优先级队列的构造方法✏️2.3 优先级队列的常用方法 3. Java对象的…...

Leetcode 3569. Maximize Count of Distinct Primes After Split

Leetcode 3569. Maximize Count of Distinct Primes After Split 1. 解题思路2. 代码实现 题目链接&#xff1a;3569. Maximize Count of Distinct Primes After Split 1. 解题思路 这一题的话思路倒是还好&#xff0c;显然&#xff0c;要找出所有distinct的质数的切分&…...

用好 ImageFX,解锁游戏素材生成新姿势:从入门到进阶

用好 ImageFX&#xff0c;解锁游戏素材生成新姿势&#xff1a;从入门到进阶 (备注)大陆ip无法访问到imagefx 地址:https://labs.google/fx/zh/tools/image-fx 对于独立游戏开发者和小型团队而言&#xff0c;美术资源往往是项目推进中的一大痛点。预算有限、专业美术人员缺乏…...

unix/linux,sudo,其基本属性、语法、操作、api

现在我们要深入到sudo的“微观结构”了——它的属性、语法、操作以及是否有传统意义上的“API”。这就像我们从宏观的宇宙现象深入到基本粒子的相互作用一样,充满了探索的乐趣! 一、 sudo 的基本属性 (Fundamental Attributes) 这些属性是sudo作为一款软件和系统工具的核心…...

文本内容变化引起布局尺寸变化 导致的 UI 适配问题

在使用 Flutter 开发应用时&#xff0c;配合 easy_localization 实现多语言切换是一个非常常见的做法。但正如你所说&#xff0c;在不同语言下文字长度差异较大&#xff08;如英文和中文、阿拉伯语等&#xff09;会导致界面布局错位、UI 不美观的问题。 这个问题本质上是 文本…...

01-Redis介绍与安装

01-Redis介绍与安装 SQL与NoSQL SQLNoSQL数据结构结构化非结构化数据关联关联的非关联的查询方式SQL查询非SQL事务特性ACIDBASE存储方式磁盘内存拓展性垂直水平使用场景1、数据结构固定2、相关业务对数据安全性、一致性要求较高1、数据结构不固定2、对安全性、一致性要求不高…...

十六、【前端强化篇】完善 TestCase 编辑器:支持 API 结构化定义与断言配置

【前端强化篇】完善 TestCase 编辑器:支持 API 结构化定义与断言配置 前言准备工作第一步:更新前端 `TestCase` 类型定义第二步:改造 `TestCaseEditView.vue` 表单第三步:修改后端代码中的TestCase模型和序列化器第四步:测试强化后的用例编辑器总结前言 在之前的后端文章…...

Kafka broker 写消息的过程

Producer → Kafka Broker → Replication → Consumer|Partition chosen (by key or round-robin)|Message appended to end of log (commit log)上面的流程是kafka 写操作的大体流程。 kafka 不会特意保留message 在内存中&#xff0c;而是直接写入了disk。 那么消费的时候&…...

VR博物馆推动现代数字化科技博物馆

VR博物馆&#xff1a;推动现代数字化科博馆新篇章 随着科技的飞速发展&#xff0c;虚拟现实&#xff08;Virtual Reality, VR&#xff09;技术已经逐渐渗透到我们生活的方方面面&#xff0c;其中&#xff0c;VR博物馆作为现代数字化科博馆的重要形式之一&#xff0c;以独特的优…...

Python爬虫之数据提取

本章节主要会去学习在爬虫中的如何去解析数据的方法&#xff0c;要学习的内容有&#xff1a; 响应数据的分类结构化数据如何提取非结构化数据如何提取正则表达式的语法以及使用jsonpath解析嵌套层次比较复杂的json数据XPath语法在Python代码中借助lxml模块使用XPath语法提取非…...

第2讲、Odoo深度介绍:开源ERP的领先者

一、Odoo深度介绍&#xff1a;开源ERP的领先者 Odoo&#xff0c;其前身为OpenERP&#xff0c;是一款在全球范围内广受欢迎的开源企业管理软件套件。它不仅仅是一个ERP系统&#xff0c;更是一个集成了客户关系管理&#xff08;CRM&#xff09;、电子商务、网站构建、项目管理、…...