OmniManip:以目标为中心的交互基元作为空间约束实现通用机器人操作
25年1月来自北大、北大-智元实验室和智元机器人公司的论文“OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints”。
开发能够在非结构化环境中进行操作的通用机器人系统是一项重大挑战。虽然视觉-语言模型 (VLM) 在高级常识推理方面表现出色,但它们缺乏精确操作任务所需的细粒度 3D 空间理解。在机器人数据集上微调 VLM 以创建视觉-语言-动作模型 (VLA) 是一种潜在的解决方案,但它受到高数据收集成本和泛化问题的阻碍。为了应对这些挑战,提出一种以目标为中心的表征,以弥合 VLM 高级推理与操作所需低级精度之间的差距。主要见解是,目标的规范空间由其功能 affordance 定义,提供一种结构化且语义上有意义的方式来描述交互原语,例如点和方向。这些原语充当桥梁,将 VLM 的常识推理转化为可操作的 3D 空间约束。在此背景下,引入了双闭环、开放词汇机器人操作系统:一个循环用于通过原始重采样、交互渲染和 VLM 检查进行高级规划,另一个循环用于通过 6D 姿势跟踪进行低级执行。这种设计确保强大的实时控制,而无需 VLM 微调。大量实验证明在各种机器人操作任务中强大的零样本泛化能力,凸显这种方法在自动化大规模模拟数据生成方面的潜力。
如图所示:OmniManip 是一种开放词汇操作方法,它弥合视觉语言模型(VLM)的高级推理与低级精度之间的差距,具有规划和执行方面的闭环能力。
开发通用的机器人操作系统一直是一项艰巨的任务,这主要是由于现实世界的复杂性和多变性 [26, 47, 48]。受大语言模型 (LLM)[1, 42] 和视觉-语言模型 (VLM) [25, 28, 34, 54] 快速进步的启发,这些模型利用大量互联网数据来获取丰富的常识性知识,研究人员最近将注意转向探索它们在机器人技术中的应用 [14, 53]。大多数现有研究都侧重于利用这些知识进行高级任务规划,例如语义推理 [4, 31, 37]。尽管取得这些进展,但目前的 VLM 主要在大量 2D 视觉数据上进行训练,缺乏精确、低级操作任务所必需的 3D 空间理解能力。这种限制对非结构化环境中的操作提出挑战。
克服这一限制的一种方法,是针对大规模机器人数据集微调 VLM,将其转换为 VLA [2, 3, 8, 19]。然而,这面临两大挑战:1)获取多样化、高质量的机器人数据成本高昂且耗时;2)将 VLM 微调为 VLA 会产生特定于智体的表示,这些表示针对特定机器人量身定制,限制它们的通用性。一种有前途的替代方法是将机器人动作抽象为交互原语(例如点或矢量),并利用 VLM 推理来定义这些原语的空间约束,而传统规划算法则解决执行的问题 [13, 15, 27]。然而,现有的定义和使用原语的方法有几个局限性:生成原语提议的过程与任务无关,这会带来缺乏合适提议的风险。此外,依赖手动设计的规则进行后处理提议也会带来不稳定性。这自然引出一个重要的问题:如何开发更高效、更通用的表示形式,将 VLM 高级推理与精确的低级机器人操作连接起来?
机器人基础模型。基础模型的出现对机器人领域产生重大影响[11, 18, 51],尤其是在视觉-语言模型的应用方面[1, 4, 12, 23, 28, 50],这些模型在环境理解和高级常识推理方面表现出色。这些模型展示控制机器人在新的和非结构化环境中执行一般任务的潜力。一些研究[2, 3, 19, 24]已经在机器人数据集上对 VLM 进行微调,以创建输出机器人轨迹的 VLA 模型,但这些努力受到数据收集成本高和泛化问题的限制。其他方法尝试使用视觉基础模型 [9、13、15、21、27、33、52] 提取操作原语,然后将其用作 VLM 的视觉或语言提示,以执行高级常识推理,并结合运动规划器 [38、39、41] 进行低级控制。然而,这些方法受到将 3D 原语压缩为 VLM 所需的 2D 图像或 1D 文本的模糊性以及 VLM 本身的幻觉倾向限制,难以确保 VLM 生成的高级规划是准确的。
操作表征。结构表征决定操作方法的能力和有效性。在各种类型的表征中,关键点因其灵活性、泛化能力和建模变异性的能力而成为一种流行的选择 [32, 35, 36, 46]。然而,这些基于关键点的方法需要手动特定任务的注释来生成动作。为了实现零样本开放世界操控,[15, 27, 33] 等研究将关键点转化为 VLM 的视觉提示,从而促进高级规划结果的自动生成。尽管关键点有其优势,但可能不稳定;它们在遮挡下表现不佳,并且在提取和选择特定关键点方面带来挑战。另一种常见的表征是 6D 姿势,它有效地定义目标之间的长距离依赖关系以进行操控,并提供一定程度的遮挡鲁棒性 [16, 17, 44, 45]。然而,这些方法需要事先对几何关系进行建模,而且由于姿势的稀疏性,无法提供细粒度的几何形状。由于类内差异,这种限制可能导致跨不同目标的操纵策略失败。为了解决这些问题,OmniManip 将关键点的细粒度几何形状与 6D 姿势的稳定性相结合。它使用 VLM 自动提取目标规范坐标系内的详细功能点和方向,从而实现精确操纵。
为了应对这些挑战,本文提出一种以目标为中心的中间表征,该表征结合目标规范空间内的交互点和方向。这种表征弥补 VLM 高级常识推理与精确 3D 空间理解之间的差距。
使用交互原语进行操作
复杂的机器人任务被分解为几个阶段,每个阶段都由具有空间约束的目标交互原语定义。这种结构化方法可以精确定义任务要求,并有助于执行复杂的操作任务。
任务分解。如图所示,给定一个操作任务 T(例如,将茶倒入杯中),首先利用 GroundingDINO[30] 和 SAM[20] 这两个视觉基础模型 (VFM) 将场景中的所有前景目标(如 [49])标记为视觉提示。随后,使用 VLM [1] 过滤与任务相关的目标,并将任务分解为多个阶段 S = {S_1, S_2, . . . , S_n},其中每个阶段 S_i 可以形式化为 S = {A_i, O_iactive, O_ipassive},其中 A_i 表示要执行的动作(如抓取、倒水),O_iactive 和 O_i^passive 分别表示发起交互的目标和被操作的目标。例如,在图中,在抓取茶壶的阶段茶壶是被动目标,而茶壶在将茶倒入杯中的阶段是主动目标,杯子是被动的。
以目标为中心的规范交互原语。提出一种以目标为中心的表示方法,该方法具有规范的交互原语,以描述目标在操作任务过程中的交互方式。具体而言,目标的交互原语由其在规范空间中的交互点和方向来表征。交互点 p 表示目标上发生交互的关键位置,而交互方向 v 表征与任务相关的主轴。这些共同构成交互原语 O = {p, v},封装满足任务约束所需的基本内在几何和功能属性。这些规范的交互原语是相对于其规范空间定义的,在不同场景中保持一致,从而实现更通用和可重用的操作策略。
具有空间约束的交互原语。在每个阶段 S_i,一组空间约束 C_i 控制主动和被动目标之间的空间关系。这些约束分为两类:距离约束 d_i,用于调节交互点之间的距离,以及角度约束 θ_i,用于确保交互方向的正确对齐。这些约束共同定义精确空间对齐和任务执行所需的几何规则。每个阶段 S_i 的整体空间约束由以下公式给出:C_i = {O_iactive, O_i^passive, d_i, θ_i}。一旦定义约束 C_i,就可以将任务执行表述为优化问题。
基元和约束提取
如上图所示,首先通过单视图 3D 生成 [29、40、57] 获取与任务相关的主动和被动目标 3D 目标网格,然后使用 Omni6DPose [56] 进行姿势估计,这样可进行目标规范化。接下来,提取与任务相关的交互基元及其相应的约束。
落地交互点。如下图所示,交互点分为可见和有形(例如茶壶把手)或不可见或无形(例如其开口的中心)。为了增强 VLM 于交互点落地,采用 SCAFFOLD [22] 视觉提示机制,将笛卡尔网格叠加到输入图像上。如下图所示,可见点直接定位在图像平面上,而不可见点则通过基于所提出的规范目标表征的多视图推理推断出来。推理从主要视点开始,通过切换到正交视图解决歧义问题。这种方法可以使交互点落地更加灵活和可靠。对于抓取之类的任务,热图由多个交互点生成,从而提高抓取模型的鲁棒性。
采样交互方向。在规范空间中,目标的主轴通常具有功能相关性。如图所示,将主轴视为候选交互方向。但是,由于当前 VLM 对空间的理解有限,评估这些方向与任务的相关性具有挑战性。为了解决这个问题,提出一个 VLM 字幕和 LLM 评分机制:首先,使用 VLM 为每个候选轴生成语义描述,然后使用 LLM 推断并评分这些描述与任务的相关性。此过程会产生一组最符合任务要求的有序候选方向。
最终,使用 VLM 生成具有约束的交互原语,为每个阶段 S_i 生成一个有序的受约束交互原语列表,表示为 K_i = {C_i(1), C_i(2), . . . , C_i^(N)}。
双闭环系统
以上获得主动和被动目标的交互原语,分别表示为 Oactive 和 O^passive,以及定义其空间关系的空间约束 C。然而,这是一个开环推理,它本质上限制系统的稳健性和适应性。这些限制主要来自两个方面:1) 大型模型中的幻觉效应,2) 现实世界环境的动态性质。为了克服这些挑战,提出一个双闭环系统。
闭环规划。为了提高交互原语的准确性并减轻 VLM 中的幻觉问题,引入一种基于重采样、渲染和检查 (RRC) 的自我校正机制。该机制使用来自视觉-语言模型 (VLM) 的实时反馈来检测和纠正交互错误,确保精确执行任务。RRC 过程包括两个阶段:初始阶段和细化阶段。如下算法 1 概述整体 RRC 机制。在初始阶段,系统评估定义的交互约束 K_i,该约束指定主动和被动目标之间的空间关系。对于每个约束 C_i(k),系统根据当前配置渲染交互图像 I_i,并将其提交给 VLM 进行验证。VLM 返回三个结果之一:成功、失败或细化。如果成功,则接受约束,任务继续。如果失败,则评估下一个约束。如果细化,系统进入细化阶段进行进一步优化。在细化阶段,系统围绕预测的交互方向 v_i 执行细粒度重采样,以纠正目标的功能轴和几何轴之间的错位。系统均匀地围绕 v_i 采样六个细化方向 v_i^(j) 并对其进行评估。
闭环执行。一旦为每个阶段定义交互基元和相应的空间约束 C,任务执行就可以表述为优化问题。目标是最小化损失函数以确定末端执行器的目标姿势 P^ee∗。最优问题定义如下:
其中约束损失 L_C 确保动作遵守任务的空间约束 C,定义为
其中,ρ(·) 测量主动目标 P_iactive 和被动目标 P_i^passive 的当前空间关系与所需约束 C 之间的偏差,而 Φ(·) 将末端执行器姿势映射到主动目标的姿势。碰撞损失 L_collision 可防止末端执行器与环境中的障碍物发生碰撞,其定义为
其中 d(P^ee, O_j) 表示末端执行器与障碍物 O_j 之间的距离,d_min 为最小允许安全距离。路径损失 L_path 确保运动平稳,定义为
其中 d_trans(·) 和 d_rot(·) 分别表示末端执行器的平移和旋转位移,λ1 和 λ2 是平衡平移和旋转影响的加权因子。通过最小化这些损失函数,系统可以动态调整末端执行器姿势 P^ee,确保成功执行任务,同时避免碰撞并保持平稳运动。
虽然公式(3)概述如何利用交互基元及其相应的空间约束来优化可执行末端执行器姿势,但现实世界的任务执行通常涉及重要的动态因素。例如,抓取姿势的偏差可能会导致抓取任务期间目标意外移动。此外,在某些动态环境中,目标物体可能会发生位移。这些挑战凸显闭环执行在处理此类不确定性方面的关键重要性。为了应对这些挑战,系统利用所提出的以目标为中心的交互原语,并直接采用现成的 6D 目标姿势跟踪算法,实时持续更新主动目标 P_tactive 和被动目标 P_t^passive 的姿势,如公式(4)所示。这种实时反馈允许对末端执行器的目标姿势进行动态调整,从而实现稳健而准确的闭环执行。
实验平台以 Franka Emika Panda 机械臂为基础,其平行夹持器的手指被 UMI 手指取代[6]。为了实现感知,使用两个英特尔 RealSense D415 深度摄像头。一个摄像头安装在夹持器上,以提供操作区域的第一人称视角,而第二个摄像头位于机器人对面,以提供工作空间的第三人称视角。
将该方法与三个基线进行比较:1)VoxPoser[14],它使用 LLM 和 VLM 生成 3D 价值图以合成机器人轨迹,在零样本学习和闭环控制方面表现出色;2)CoPa[13],它引入目标部分的空间约束并与 VLM 相结合以实现开放词汇操作;3)ReKep[15],它采用关系关键点约束和分层优化从自然语言指令实时生成动作。实现细节使用 OpenAI API 中的 GPT-4O 作为视觉-语言模型,利用一小组交互示例作为提示,指导模型对操作任务的推理。采用现成的模型 [10, 43] 进行 6-DOF 通用抓取,并利用 GenPose++[56] 进行通用 6D 姿势估计。
相关文章:

OmniManip:以目标为中心的交互基元作为空间约束实现通用机器人操作
25年1月来自北大、北大-智元实验室和智元机器人公司的论文“OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints”。 开发能够在非结构化环境中进行操作的通用机器人系统是一项重大挑战。虽然视觉-语言模型 …...

论文第二次阅读笔记
摘要学习 存在问题:目前流行的图神经网络仅通过欧几里得几何及其相关的向量空间操作来建模数据,存在局限性 我们通过提出一种数学上有根据的图卷积网络(GCN)的推广,将其扩展到常曲率空间(或其乘积空间),从而填补了这一空白。 一是引入一种统一的形式主义,可以在所有常…...

【Android开发AI实战】选择目标跟踪基于opencv实现——运动跟踪
文章目录 【Android 开发 AI 实战】选择目标跟踪基于 opencv 实现 —— 运动跟踪一、引言二、Android 开发与 AI 的融合趋势三、OpenCV 简介四、运动跟踪原理(一)光流法(二)卡尔曼滤波(三)粒子滤波 五、基于…...

系统漏洞扫描服务:安全风险识别与防护指南
系统安全的关键在于漏洞扫描服务,此服务能迅速发现潜在的安全风险。借助专业的扫描工具和技术,它确保系统稳定运作。以下将简要介绍这一服务的主要特点。 扫描原理 系统漏洞扫描服务依赖两种主要手段:一是通过漏洞数据库进行匹配࿰…...

2.Excel:滨海市重点中学的物理统考考试情况❗(15)
目录 NO12 1.数据透视表 2. 3.sum函数 4.sumifs客观/主观平均分 5.sumifs得分率 6.数字格式修改 NO3/4/5 sumifs某一组数据相加,某一范围,某一范围的具体点向下拖拉,锁定列;向左右,锁定行F4&#x…...
使用 React 16+Webpack 和 pdfjs-dist 或 react-pdf 实现 PDF 文件显示、定位和高亮
写在前面 在本文中,我们将探讨如何使用 React 16Webpack 和 pdfjs-dist 或 react-pdf 库来实现 PDF 文件的显示、定位和高亮功能。这些库提供了强大的工具和 API,使得在 Web 应用中处理 PDF 文件变得更加容易。 项目设置 首先,我们需要创建…...
驱动开发系列35 - Linux Graphics GEM Buffer Object 介绍
一:概述 在 Linux 内核中,DRM(Direct Rendering Manager)模块 是用于管理显示硬件和图形渲染的核心框架。它负责协调用户空间应用程序(例如 X Server、Wayland Compositors、Mesa 等)和 GPU 硬件之间的通信,是 Linux 图形子系统的重要组成部分。 GEM (Graphics Executio…...
Java常见的异常类有哪些?
对应异常: 空指针 → NullPointerException数据库 → SQLException数组越界 → IndexOutOfBoundsException文件丢失 → FileNotFoundExceptionIO问题 → IOException强制转 → ClassCastException方法找不到 → NoSuchMethodException数组类型错 → ArrayStoreExce…...

清华大学新闻与传播学院沈阳团队出品的《DeepSeek:从入门到精通》104页PDF
前言 本机运行DeepSeek R1大模型文章如下: Windows电脑本地部署运行DeepSeek R1大模型(基于Ollama和Chatbox)【保姆级万字教程】在Windows计算机部署DeepSeek大模型,给在实验室无外网的同事们用(基于Ollama和OpenWebUI…...
增量hdfs数据追平
1、假设客户只改了最近的分区。他不会去修改历史的分区表,如果大量改历史的分区表,那纯纯把hive当mysql用了。这样我们就只能找出变动的表,然后删除,重新迁移。 2、此处是确保他们不会大量改历史分区,只有少部分改&am…...

Linux高并发服务器开发 第十七天(管道缓存区查询大小 管道的优劣 命名管道mkfifo 建立释放映射区mmap/munmap 匿名映射 进程间的通信)
目录 1.pipe管道读写行为 1.1例题:实现父子进程 ls | wc -l 1.2兄弟进程 ls | wc -l 2.管道缓存区 2.1命令查询 2.2函数查询 3.pipe管道的优劣 4.命名管道 fifo 5.mmap 5.1文件进程间通信 5.2建立、释放映射区 5.3匿名映射 6.进程间通信 6.1父子进间通…...

C语言常见概念
目录 第一个C语言程序 main函数 写法: printf和库函数 printf()函数 库函数 关键字 字符和ASCII码表 字符串和\0 转义字符 语句 注释 注释的两种形式 第一个C语言程序 #include<stdio.h>//第一个c语言程序 int main() {printf("Hello World…...

AI代码生成器如何重塑前端开发的工作环境
近年来,人工智能(AI)技术迅猛发展,深刻地改变着各行各业的工作方式。在软件开发领域,AI写代码工具的出现更是掀起了一场革命,尤其对前端开发工程师的工作环境和协作方式产生了深远的影响。本文将深入探讨AI…...
设计模式-结构型-外观模式
在软件开发中,随着功能的不断迭代,系统会变得越来越复杂,模块之间的依赖关系也会越来越深。这种复杂性会导致代码难以理解、维护和扩展。而外观模式(Facade Pattern)正是为了解决这一问题而生的。 一、外观模式简介 …...

8.flask+websocket
http是短连接,无状态的。 websocket是长连接,有状态的。 flask中使用websocket from flask import Flask, request import asyncio import json import time import websockets from threading import Thread from urllib.parse import urlparse, pars…...

ARM Cortex-M3/M4 权威指南 笔记【二】架构
一、架构 1.1 架构简介 Cortex-M3/M4 处理器都基于 ARMv7-M 架构。最初的 ARMv7-M 架构是随着 Cortex-M3 处理器一同引入的,而在 Cortex-M4 发布时,架构中又额外增加了新的指令和特性,改进后的架构有时也被称为 ARMV7E-M。要了解 ARM7-M 和…...

HCIA项目实践--静态路由的拓展配置
7.7 静态路由的拓展配置 网络中的两个重要思想: (1) 实的不行来虚的; (2) 范围太大,划分范围。(分治) 7.7.1 负载均衡 (1)定义 负载均衡是一种网…...

STL中list的模拟实现
文章目录 1. 前言and框架2. 相对完整的框架3. 模拟实现接口1. 迭代器的引入2. 迭代器的区分list迭代器迭代器的构造list迭代器的实现模拟指针解引用前置和前置--后置和--迭代器!迭代器-> list的const迭代器迭代器模板迭代器是否需要析构,拷贝构造&…...
计算机网络知识速记:HTTP1.0和HTTP1.1
计算机网络知识速记:HTTP1.0和HTTP1.1 1. 基本概念 1.1 HTTP1.0 HTTP1.0是1996年发布的第一个正式版本,主要用于客户端与服务器之间的简单请求和响应交互。它的设计理念相对简单,适合处理一些基本的网页服务。 1.2 HTTP1.1 HTTP1.1是HTT…...

Apache Kafka 中的认证、鉴权原理与应用
编辑导读:本篇内容将进一步介绍 Kafka 中的认证、鉴权等概念。AutoMQ 是与 Apache Kafka 100% 完全兼容的新一代 Kafka,可以帮助用户降低 90%以上的 Kafka 成本并且进行极速地自动弹性。作为 Kafka 生态的忠实拥护者,我们也会持续致力于传播 …...
web vue 项目 Docker化部署
Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段: 构建阶段(Build Stage):…...
R语言AI模型部署方案:精准离线运行详解
R语言AI模型部署方案:精准离线运行详解 一、项目概述 本文将构建一个完整的R语言AI部署解决方案,实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点: 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

《Qt C++ 与 OpenCV:解锁视频播放程序设计的奥秘》
引言:探索视频播放程序设计之旅 在当今数字化时代,多媒体应用已渗透到我们生活的方方面面,从日常的视频娱乐到专业的视频监控、视频会议系统,视频播放程序作为多媒体应用的核心组成部分,扮演着至关重要的角色。无论是在个人电脑、移动设备还是智能电视等平台上,用户都期望…...

(二)原型模式
原型的功能是将一个已经存在的对象作为源目标,其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。 一、源型模式的定义 原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现,忽略对象创建过程中的其它细节。 📌 核心特点: 避免重复初…...
Element Plus 表单(el-form)中关于正整数输入的校验规则
目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入(联动)2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...
Python ROS2【机器人中间件框架】 简介
销量过万TEEIS德国护膝夏天用薄款 优惠券冠生园 百花蜂蜜428g 挤压瓶纯蜂蜜巨奇严选 鞋子除臭剂360ml 多芬身体磨砂膏280g健70%-75%酒精消毒棉片湿巾1418cm 80片/袋3袋大包清洁食品用消毒 优惠券AIMORNY52朵红玫瑰永生香皂花同城配送非鲜花七夕情人节生日礼物送女友 热卖妙洁棉…...

C++使用 new 来创建动态数组
问题: 不能使用变量定义数组大小 原因: 这是因为数组在内存中是连续存储的,编译器需要在编译阶段就确定数组的大小,以便正确地分配内存空间。如果允许使用变量来定义数组的大小,那么编译器就无法在编译时确定数组的大…...

使用LangGraph和LangSmith构建多智能体人工智能系统
现在,通过组合几个较小的子智能体来创建一个强大的人工智能智能体正成为一种趋势。但这也带来了一些挑战,比如减少幻觉、管理对话流程、在测试期间留意智能体的工作方式、允许人工介入以及评估其性能。你需要进行大量的反复试验。 在这篇博客〔原作者&a…...

力扣热题100 k个一组反转链表题解
题目: 代码: func reverseKGroup(head *ListNode, k int) *ListNode {cur : headfor i : 0; i < k; i {if cur nil {return head}cur cur.Next}newHead : reverse(head, cur)head.Next reverseKGroup(cur, k)return newHead }func reverse(start, end *ListNode) *ListN…...
Redis:现代应用开发的高效内存数据存储利器
一、Redis的起源与发展 Redis最初由意大利程序员Salvatore Sanfilippo在2009年开发,其初衷是为了满足他自己的一个项目需求,即需要一个高性能的键值存储系统来解决传统数据库在高并发场景下的性能瓶颈。随着项目的开源,Redis凭借其简单易用、…...