RoboBrain:从抽象到具体的机器人操作统一大脑模型
25年2月来自北大、北京智源、中科院自动化所等的论文“RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete”。
目前的多模态大语言模型(MLLM) 缺少三项必备的机器人大脑能力:规划能力,将复杂的操作指令分解为可管理的子任务;affordance感知,识别和解释交互目标affordance的能力;轨迹预测,预测成功执行所需的完整操作轨迹。为了增强机器人大脑从抽象到具体的核能力,引入 ShareRobot,这是一个高质量的异构数据集,可标记任务规划、目标affordance和末端执行器轨迹等多维信息。ShareRobot 的多样性和准确性,经过三位人类注释员的改进。基于该数据集,开发 RoboBrain一个基于 MLLM 的模型,它结合机器人和通用多模态数据,采用多阶段训练策略,并结合长视频和高分辨率图像来提高其机器人操控能力。
RoboBrain 如下所示:
为了增强RoboBrain的规划、感知和轨迹预测能力,开发一个ShareRobot的数据集,这是一个专为机器人操作任务设计的大规模、细粒度的数据集。数据集的生成过程如图所示:
ShareRobot 是一个综合性数据集,将抽象概念转化为具体动作,促进更高效的任务执行。ShareRobot 数据集的主要特点包括:
• 细粒度。与仅提供通用高级任务描述的 Open X-Embodiment 数据集[53]不同,ShareRobot 中的每个数据点都包含与各个帧相关的详细低级规划指令。这种特殊性增强模型在正确的时刻准确执行任务的能力。
• 多维。为了增强 RoboBrain 从抽象到具体的能力,标记任务规划、目标affordance和末端执行器轨迹,从而提高任务处理的灵活性和精确度。
• 高质量。为从 Open-X-Embodiment 数据集[53]中选择数据建立严格的标准,重点关注高分辨率、准确描述、成功执行任务、可见affordance和清晰的运动轨迹。基于这些标准,验证 51,403 个实例以确保高质量,从而为 RoboBrain 的核心功能奠定基础。
• 大规模。ShareRobot 拥有 1,028,060 个问答对,是最大的开源任务规划、可供性预测和轨迹预测数据集,可以更深入地理解从抽象到具体的复杂关系。
• 丰富的多样性。与 RoboVQA[60] 数据集的有限场景相比,ShareRobot 具有 102 个场景,涵盖 12 个实施例和 107 种原子任务。这种多样性使 MLLM 能够从不同的现实世界环境中学习,从而增强复杂、多步骤规划的稳健性。
• 易于扩展。数据生成管道具有高可扩展性,随着新的机器人实具身、任务类型和环境的发展,可轻松扩展。这种适应性确保 ShareRobot 数据集可以支持日益复杂的操作任务。
标注
从每个机器人操作演示中提取 30 帧。用这些帧及其高级描述,使用 Gemini [63] 将它们分解为低级规划指令。然后,三位注释者审查并完善这些指令,以确保标记的准确性。低级规划数据的格式与 RoboVQA [60] 结构一致,用于模型训练,使用 RoboVQA 中 10 种问题类型的问题模板。此过程将 51,403 个低级规划条目转换为 1,028,060 个问答对,注释者监控数据生成以维护数据集的完整性。
从数据集中筛选出 8,511 张图像,并为每张图像标注affordance区域。对于每个 30 帧的演示,在第一帧中标记可affordance,对应于末端执行器和目标之间的接触区域。确定接触帧,即末端执行器首次接触目标的位置,并将第一帧中的真值边框标记为 {l(x), l(y), r(x), r(y)},其中 {l(x), l(y)} 是左上角坐标,{r(x), r^(y)} 是右下角坐标。
用边框注释 8,511 张夹持器图像,与affordance边框格式保持一致。每个末端执行器都标有三部分:整个夹持器、左手指和右手指。这些数据用于计算轨迹位置和训练夹持器检测器。轨迹位置通过平均左右手指的边框来确定,从而可以有效地标记其他数据。
目标是使多模态大语言模型 (MLLM) 能够理解抽象指令并明确输出目标affordance区域和潜操作轨迹,从而促进从抽象到具体的过渡。采用多阶段训练策略:第一阶段专注于通用 OneVision (OV) 训练,以开发具有强大理解和指令遵循能力的基础 MLLM。第二阶段,即机器人训练阶段,旨在增强 RoboBrain 的核心能力,使其从抽象到具体。
RoboBrain 包含三个模块:规划基础模型、affordance 感知 A-LoRA 模型和轨迹预测 T-LoRA 模型。在实际应用中,模型首先生成详细规划,然后将其拆分为子任务描述以执行affordance感知和轨迹预测。RoboBrain 流程如图 所示:
用 LLaVA 作为 RoboBrain 的基础模型,它由三个主要模块组成:视觉编码器(ViT)g(·)、投影器 h(·)和大语言模型(LLM)f(·)。具体来说,用 SigLIP [74]、2 层 MLP [39] 和 Qwen2.5-7B-Instruct [64]。给定图像或视频 X_v 作为视觉输入,ViT 将其编码为视觉特征 Z_v = g(X_v),然后通过投影器将其映射到 LLM 的语义空间,得到一系列视觉tokens H_v = h(Z_v)。最后,LLM 根据人类语言指令 X_t 和 H_v 以自回归方式生成文本响应。
Affordance是指人手与目标接触的区域。在交互过程中,人类会本能地与特定区域内的各种目标互动。利用边框来表示affordance。正式地,考虑一个由多个目标及其affordance组成的图像 I:O_i = {A0_i , A1_i , …, AN_i },其中第 i 个目标拥有 N 个affordance。Affordance的格式定义为 {l(x), l(y), r(x), r(y)},其中 {l(x), l(y)} 表示左上角坐标,而 {r(x), r^(y)} 是右下角坐标。
“轨迹”一词是指 [21] 中提出的 2D 视觉轨迹概念。将轨迹航点定义为一系列 2D 坐标,表示整个过程中末端执行器或手的运动。形式上,在时间步 t,轨迹航点可以表示为 P_t:N = {(x_i, y_i) | i = t, t + 1,…,N},其中 (x_i,y _i) 表示视觉轨迹中的第 i 个坐标,N 表示episode中的总时间步数。
训练
第 1 阶段:通用 OV 训练在第 1 阶段,用 LLaVA-OneVision [34] 的训练数据和策略,构建了具有通用多模态理解和视觉指令跟踪能力的基础模型。这为第 2 阶段增强模型的机器人操作规划能力奠定基础。
在第 1 阶段,用 LCS-558K 数据集 [10, 59] 中的图文数据来训练 Projector,促进视觉特征 Zv 与 LLM 语义特征 Hv 的对齐。在第 1.5 阶段,用 4M 高质量图文数据训练整个模型,以增强模型的多模态常识理解能力。在第 2 阶段,用来自 LLaVA-OneVision-Data [34] 的 3.2M 单图像数据和 1.6M 图像和视频数据进一步训练整个模型,旨在增强 RoboBrain 的指令遵循能力并提高对高分辨率图像和视频的理解。
第 2 阶段:机器人训练在第 2 阶段,以第 1 阶段开发的稳健多模态基础模型为基础,为机器人操作规划创建更强大的模型。具体而言,目标是让 RoboBrain 理解复杂、抽象的指令,支持对历史帧信息和高分辨率图像的感知,并在预测潜操作轨迹的同时输出目标affordance区域。这将有助于操作规划任务从抽象到具体的转变。
在第 3 阶段,收集 1.3M 机器人数据的数据集,以提高模型的机器人操作规划能力。具体来说,这些数据来源于 RoboVQA-800K [60]、ScanView-318K 包括 MMScan-224K [24, 47]、3RScan-43K[24, 67]、ScanQA-25K [4, 24]、SQA3d-26K [24, 48] 以及本文介绍的 ShareRobot-200K 子集。这些数据集包含大量的场景扫描图像数据、长视频数据和高分辨率数据,以支持模型感知不同环境的能力。此外,ShareRobot 数据集中细粒度、高质量的规划数据进一步增强 RoboBrain 的机器人操控规划能力。为了缓解灾难性遗忘问题 [75],从第 1 阶段选取约 1.7M 的高质量图文数据子集,与第 3 阶段收集的机器人数据混合进行训练,并相应地调整整个模型。
在第 4 阶段,利用 ShareRobot 数据集中标注的 affordance 和轨迹数据,进一步增强模型根据指令感知目标affordance和预测操作轨迹的能力。这是通过引入 LoRA [23] 模块进行训练来实现细粒度规划能力的。
如表所示:各阶段的训练参数细节
在整个训练阶段,采用 Zero3 [58] 分布式训练策略,所有实验都在一个服务器集群上进行,每个服务器配备 8×A800 GPU。
相关文章:

RoboBrain:从抽象到具体的机器人操作统一大脑模型
25年2月来自北大、北京智源、中科院自动化所等的论文“RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete”。 目前的多模态大语言模型(MLLM) 缺少三项必备的机器人大脑能力:规划能力,将复杂…...

算法 之 前缀和 与 滑动窗口 与 背包问题 的差异(子数组之和为k问题)
文章目录 使用前缀和哈希表560.和为K的子数组525.连续数组2588.统计美丽子数组数目 子数组的定义是原来的数组当中连续的非空的序列,而我们的背包问题的选与不选的情况,对应的是这个非连续的情况,那么这种情况就要注意当然啦,对于线性的时间内…...

微电网协调控制器ACCU-100 分布式光伏 光储充一本化
安科瑞 华楠 18706163979 应用范围: 分布式光伏、微型风力发电、工商业储能、光储充一体化电站、微电网等领域。 主要功能: 数据采集:支持串口、以太网等多通道实时运行,满足各类风电与光伏逆变器、储能等 设备接入ÿ…...

IDEA入门及常用快捷键
IDEA是java常用的IDE。当run一个.java文件时,其实是经历了先编译为.class,再运行的过程。 在project文件夹中,out文件夹存储编译的.class文件,src文件夹存储.java代码文件。 设置自动导包 快捷键: 格式化快捷键&…...

electron打包结构了解
Electron 应用打包后的文件结构和内容取决于你使用的打包工具(如 electron-builder、electron-packager 等)以及目标操作系统(Windows、macOS、Linux)。以下是典型 Electron 应用打包后的文件结构和关键组成部分: 1. 基…...

03.06 QT
一、使用QSlider设计一个进度条,并让其通过线程自己动起来 程序代码: <1> Widget.h: #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QThread> #include "mythread.h"QT_BEGIN_NAMESPACE namespace Ui {…...

Python中的常用库
一、collections collections是 Python 标准库中的一个模块,提供了一些专门的容器数据类型,能够帮助你更高效地处理常见的数据结构操作。 1、Counter Counter 是一个字典的子类,用于计数可哈希对象。它会统计对象的出现次数,并…...

马尔科夫不等式和切比雪夫不等式
前言 本文隶属于专栏《机器学习数学通关指南》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见《机器学习数学通关指南》 正文 统计概率的利剑:掌…...

护照阅读器在汽车客运站流程中的应用
在汽车客运站的日常运营里,如何高效服务旅客、保障出行安全是工作重点。护照阅读器作为精准身份识别的得力工具,在客运站的多个关键流程,如自助购票、柜台购票、安检以及行李托运中,发挥着不可小觑的作用,有力地提升了…...

CentOS 7 安装Nginx-1.26.3
无论安装啥工具、首先认准了就是官网。Nginx Nginx官网下载安装包 Windows下载: http://nginx.org/download/nginx-1.26.3.zipLinxu下载 wget http://nginx.org/download/nginx-1.26.3.tar.gzLinux安装Nginx-1.26.3 安装之前先安装Nginx依赖包、自行选择 yum -y i…...

Unity 使用NGUI制作无限滑动列表
原理: 复用几个子物体,通过子物体的循环移动实现,如下图 在第一个子物体滑动到超出一定数值时,使其放到最下方 --------------------------------------------------------------》 然后不停的循环往复,向下滑动也是这…...

linux中断调用流程(arm)
文章目录 ARM架构下Linux中断处理全流程解析:从硬件触发到驱动调用 ⚡**一、中断触发与硬件层响应** 🔌**1. 设备触发中断** 📡 **二、CPU阶段:异常入口与上下文处理** 🖥️**1. 异常模式切换** 🔄**2. 跳转…...

基于Matlab的多目标粒子群优化
在复杂系统的设计、决策与优化问题中,常常需要同时兼顾多个相互冲突的目标,多目标粒子群优化(MOPSO)算法应运而生,作为群体智能优化算法家族中的重要成员,它为解决此类棘手难题提供了高效且富有创新性的解决…...

【网络安全】——协议逆向与频繁序列提取:从流量中解码未知协议
目录 引言 一、为什么要结合频繁序列提取? 二、四步融合分析法 步骤1:原始流量采集与预处理 步骤2:多粒度序列模式挖掘 层1:单包内字节级频繁项 层2:跨数据包的行为序列 步骤3:关键字段定位与结构假…...

CSS 中等比例缩放的演变:从传统技巧到 aspect-ratio 属性
CSS 中等比例缩放的演变:从传统技巧到 aspect-ratio 属性 在响应式网页设计和多设备兼容成为主流的今天,如何实现元素的等比例缩放成为前端开发中一个重要的课题。无论是图片、视频还是其他容器,都常常需要保持固定的宽高比,以便…...

系统架构设计师—计算机基础篇—进度管理
文章目录 基本概念进程的特征进程的状态前趋图 进程的通信进程的互斥做题方法 进程的同步PV操作做题方法 基本概念 进程的特征 进程通常由程序、数据集合、进程控制块PCB组成。 PCB是一种数据结构,是进程存在的唯一标识。 组织方式说明线性方式把所有PCB组织在一…...

初始提示词(Prompting)
理解LLM架构 在自然语言处理领域,LLM(Large Memory Language Model,大型记忆语言模型)架构代表了最前沿的技术。它结合了存储和检索外部知识的能力以及大规模语言模型的强大实力。 LLM架构由外部记忆模块、注意力机制和语…...

Ollama+AnythingLLM安装
一、文件准备 1. 安装包获取 从联网设备下载: AnythingLLMDesktopInstaller.exe(官网离线安装包) deepseek-r1-1.5b.gguf(1.5B 参数模型文件) 2. 传输介质 使用 U 盘或移动硬盘拷贝以下文件至离线设…...

docker拉取失败
备份原始配置文件 sudo cp /etc/docker/daemon.json /etc/docker/daemon.json.bak 清理或修复 daemon.json 文件 sudo nano /etc/docker/daemon.json 删除 文件中的所有内容,确保文件为空。 cv下面这个文件内容 { "registry-mirrors": [ &…...

PHP之Cookie和Session
在你有别的编程语言的基础下,你想学习PHP,可能要了解的一些关于cookie和session的信息。 Cookie 参数信息 setcookie(name,value,expire, path, domain); name : Cookie的名称。 value : Cookie的值。 expire : Cookie的过期时间,可以是一…...

【万字长文】基于大模型的数据合成(增强)及标注
写在前面 由于合成数据目前是一个热门的研究方向,越来越多的研究者开始通过大模型合成数据来丰富训练集,为了能够从一个系统的角度去理解这个方向和目前的研究方法便写了这篇播客,希望能对这个领域感兴趣的同学有帮助! 欢迎点赞&…...

CES Asia 2025增设未来办公教育板块,科技变革再掀高潮
作为亚洲消费电子领域一年一度的行业盛会,CES Asia 2025(第七届亚洲消费电子技术贸易展)即将盛大启幕。今年展会规模再度升级,预计将吸引超过500家全球展商参展,专业观众人数有望突破10万。除了聚焦人工智能、物联网、…...

Python详细安装教程——Python及PyCharm超详细安装教程:新手小白也能轻松搞定!(最新版)
Python作为一门简单易学、功能强大的编程语言,近年来在数据分析、人工智能、Web开发等领域广受欢迎。而PyCharm作为一款专业的Python集成开发环境(IDE),提供了强大的代码编辑、调试和项目管理功能,是Python开发者的得力…...

游戏引擎学习第137天
演示资产系统中的一个 bug 我们留下了个问题,你现在可以看到,移动时它没有选择正确的资产。我们知道问题的原因,就在之前我就预见到这个问题会出现。问题是我们的标签系统没有处理周期性边界的匹配问题。当处理像角度这种周期性的标签时&…...

RAGflow升级出错,把服务器灌满了
使用自动化更新命令,从16升级到17,结果发现出现了大问题,不断下载,一直无法下载完毕。 df -h 直接把服务器搞满了。哈哈哈哈~。查看一下: sudo du -sh /var/lib/docker确认是docker里面安装的ragflow有问题。所以&am…...

[数字图像处理]直方图规定化
这里分别使用基于像素手动计算、调用工具箱函数两种方法实现直方图规定化 1.基于像素进行直方图规定化 (1)读取了原始图像和期望图像,并将它们转换为灰度图像 (2)计算原始图像和期望图像的像素概率分布直方图P(i)和…...

OpenMCU(一):STM32F407 FreeRTOS移植
概述 本文主要描述了STM32F407移植FreeRTOS的简要步骤。移植描述过程中,忽略了Keil软件的部分使用技巧。默认读者熟练使用Keil软件。本文的描述是基于OpenMCU_FreeRTOS这个工程,该工程已经下载放好了移植stm32f407 FreeRTOS的所有文件 OpenMCU_FreeRTOS工…...

Redis - 高可用实现方案解析:主从复制与哨兵监控
文章目录 Pre概述Redis 高可用实现方案一、主从复制机制1.1 全量同步流程1.2 增量同步(PSYNC)流程 二、哨兵监控机制2.1 故障转移时序流程 三、方案对比与选型建议四、生产环境实践建议 Pre Redis-入门到精通 Redis进阶系列 Redis进阶 - Redis主从工作…...

SPI硬件设计及通信原理解析
SPI(Serial Peripheral interface,串行外围设备接口),是一种高速的,全双工,同步通信总线。 SPI采用主从控制模式(Master--Slave)架构,一般有1个主设备、一个或多个从设备,使得主设备可以与多个从设备之间实现片间通信。 SPI在芯片管脚中只占用四根线节约了芯片的管脚…...

腾讯云物联网平台(IoT Explorer)设备端使用
1、直接看图流程 2、跑起来demo,修改产品id,设备名称,设备秘钥。 3、连接部分 4、修改默认地址和端口 sdk里面的地址默认是带着产品ID拼接的,咱们现在中铁没有泛域名解析,要改下这里。把+productID都去掉,然后地址里的.也去掉。...