当前位置: 首页 > article >正文

机器人中的多模态——RoboBrain

论文下载地址arxiv.org/pdf/2502.21257代码地址https://github.com/FlagOpen/RoboBrain/数据集下载地址https://github.com/FlagOpen/ShareRobot/目录1.关于RoboBrain1.1 RoboBrain的潜在应用场景1.2 RoboBrain具备哪些能力2.关于ShareRobot数据集2.1 ShareRobot的主要特性2.2 ShareRobot数据集筛选标准2.3 ShareRobot数据标注流程2.4 ShareRobot数据构造过程2.5 ShareRobot的动作统计3.RoboBrain的模型结构3.1 总览3.2 规划模型3.3 可供性感知和轨迹预测4.RoboBrain的训练流程4.1 Phase1通用 OV 训练4.2 Phase2机器人训练5.RoboBrain的可视化推理结果6.代码推理过程1.关于RoboBrain1.1 RoboBrain的潜在应用场景智能家居领域在智能家居场景中机器人需要理解人类的自然语言指令并完成复杂任务。比如将“整理客厅”这样的抽象指令分解为具体子任务如识别并捡起地上的物品、将物品分类放置到相应位置等。通过物体可供性感知它能确定不同物品的抓取位置预测机械臂的操作轨迹精准地拿起和放置物品实现客厅的自动整理提升家居生活的便利性和智能化程度。工业制造领域在工业生产线上机器人需要执行高精度的操作任务。比如可以根据生产任务的要求规划机器人的动作序列比如在零件组装任务中准确规划机械臂抓取不同零件的顺序和路径。利用物体可供性感知它能快速识别零件的可抓取部位结合轨迹预测确保机械臂准确地抓取和组装零件提高生产效率和产品质量降低生产成本。物流仓储领域物流仓储场景下机器人需要在复杂环境中搬运和分拣货物。比如通过理解任务指令规划最优的搬运路径避免与障碍物碰撞。通过对货物和货架的可供性感知确定合适的抓取点和放置位置预测搬运过程中的轨迹高效地完成货物的搬运和分拣任务提升物流仓储的自动化水平和运营效率。1.2 RoboBrain具备哪些能力1.Planning长距离操作任务规划可将复杂操作指令分解为一系列易于管理的子任务如在“将杯子放到盘子上”任务中能依次规划出“伸手拿杯子”“抓住杯子”“抬起杯子”“将杯子移向盘子”“把杯子放在盘子上”“松开杯子”等子任务合理安排执行顺序确保任务高效完成。在“用茶壶倒水进杯子”任务里它能把任务分解为“靠近并拿起茶壶”“移动茶壶使壶嘴对准杯子”“倾斜茶壶倒水”等步骤展现出强大的任务规划能力。2.Affordance物体可供性感知能够识别和解释交互对象的可供性确定人类手与物体接触的区域并用边界框表示。面对“用瓶子喝水”指令时它能判断瓶子盖处于关闭状态并提供瓶盖区域的可供性信息帮助机器人准确理解与物体交互的可行区域为后续动作执行提供关键信息。3.Trajectory操作轨迹预测可以预测末端执行器或手在操作过程中的完整轨迹通过定义轨迹路标点为一系列2D坐标来实现。无论是简单还是复杂的操作都能依据视觉观察和任务指令准确预测2D轨迹且预测结果与实际轨迹结构紧密契合还能通过学习优化执行路径提高操作效率。在“拿起苹果”任务中能精准规划从起始位置到苹果位置再到目标位置的轨迹确保机器人平稳、准确地完成操作。4.视觉问答任务在机器人视觉问答RoboVQA和开放式环境问答OpenEQA等视觉问答任务中表现卓越。能根据机器人所处场景的视觉信息和提出的问题理解问题含义并给出准确答案帮助机器人更好地理解环境和任务要求与人类进行有效交互。在OpenEQA任务中面对关于环境理解的问题如“当前场景中是否可以执行某个动作”它能结合视觉信息和自身知识给出合理判断。2.关于ShareRobot数据集1.专为机器人操作任务设计的大规模、细粒度数据集。2.用于提升RoboBrain的规划、可供性感知以及轨迹预测能力。2.1 ShareRobot的主要特性1.细粒度Fine-grained每个数据点都包含与单个帧相关的详细低级规划指令提高了模型在正确时间执行任务的准确性。在机器人进行“将物品放置到指定位置”的任务时ShareRobot数据集能精确到每个动作对应的具体帧指导机器人何时、以何种方式进行操作。2.多维度Multi-dimensional该数据集标注了任务规划、物体可供性和末端执行器轨迹在任务处理上提供了更大的灵活性和精确性。比如在机器人操作场景中不仅规划了任务步骤还明确了物体可被操作的区域以及机械臂的运动轨迹。3.高质量High quality从Open-X-Embodiment数据集中筛选数据时建立了严格标准聚焦于高分辨率、准确描述、任务执行成功、可见的可供性和清晰的运动轨迹。基于这些标准验证了51403个实例为RoboBrain的核心能力奠定了基础。只有满足高分辨率图像、准确描述等条件的数据才会被纳入确保数据质量。4.大规模Largescale拥有1027990个问答对是用于任务规划、可供性感知和轨迹预测的最大开源数据集有助于更深入地理解从抽象到具体的复杂关系。大规模的数据量让模型能够学习到更多的任务模式和场景变化。5.丰富多样性Rich diversity与RoboVQA数据集有限的场景不同ShareRobot具有102个场景涵盖12种机器人机体和107种原子任务类型最小的任务单元如抓取某个物体。这种多样性使多模态大语言模型能够从各种现实世界场景中学习增强在复杂多步规划中的稳健性。机器人可以在不同场景、使用不同机体执行多种任务提升应对复杂情况的能力。6.易扩展性Easy scalability数据生成管道设计具有高扩展性便于随着新的机器人机体、任务类型和环境的发展进行扩展。这一特性确保 ShareRobot 数据集能够支持日益复杂的操作任务。当出现新的机器人类型或任务时能够方便地添加新数据。2.2 ShareRobot数据集筛选标准ShareRobot数据集的数据选择基于 OpenX-embodiment 数据集进行从中精心挑选了51403个实例这些实例将作为后续数据标注和模型训练的重要基础。数据筛选原则高分辨率图像高分辨率图像能提供更丰富准确的视觉信息。准确描述模型训练依赖于对任务的准确理解模糊或缺失的描述会干扰模型学习任务规划。成功状态丢弃任务失败的视频失败的任务演示无法为模型提供正确的操作范例可能误导模型学习。长视频长度丢弃帧数少于30帧的视频较短的视频包含的原子任务有限无法充分展示复杂任务的完整流程不利于模型学习多步骤操作长视频能涵盖更丰富的任务动作序列。物体未被覆盖移除目标物体或末端执行器被其他物体覆盖的视频模型需要准确识别末端执行器和物体的位置及可供性被覆盖的情况会增加识别难度影响模型训练效果。清晰轨迹不使用轨迹不清晰或不完整的演示数据不清晰或不完整的轨迹数据会降低模型学习的准确性。2.3 ShareRobot数据标注流程1.规划标注PlanningLabeling指令分解从每个机器人操作演示中提取30帧结合其高级描述借助Gemini工具将其分解为低级规划指令。为确保标注精确由三名注释者对这些指令进行审核和完善。在“将杯子放到盘子上”的操作演示里Gemini可能将其分解为“移动到杯子位置”“抓取杯子”等具体步骤注释者会检查这些步骤是否准确合理。生成问答对针对RoboVQA中的10种问题类型为每种类型设计5种不同模板。在数据生成过程中为每个实例随机选择每种问题类型的2个模板来生成问答对。这一操作将51403个实例扩展成了1027990个问答对。比如对于“放置杯子”任务可能有“目标是放置杯子下一步该做什么”等不同模板生成的问题对应的答案可能是“抓取杯子”等。在生成问答对时注释者会监控数据生成过程以维护数据集的完整性。2.可供性标注Affordance Labeling筛选与标注图像筛选出6522张图像依据其高级描述为每张图像标注可供性区域标注可供性区域的左上角坐标和右下角坐标。对于“拿起杯子”的任务图像会标注出杯子上适合抓取部位的边界框坐标。审核与完善对每个标注指令进行严格的人工审核和细化保证指令与相关可供性区域精确匹配提高标注的准确性。3.轨迹标注Trajectory Labeling筛选与标注图像挑选6870张图像按照低级指令为每张图像标注抓手的轨迹且每条轨迹至少使用三个坐标点表示。在“移动杯子”任务的图像中会标注出抓手在不同时间点的坐标来描述其运动轨迹。审核与完善对每个标注指令进行严格人工审核和细化确保标注的轨迹与实际操作中的轨迹精确对齐使标注数据能准确反映机器人的运动路径。2.4 ShareRobot数据构造过程2.5 ShareRobot的动作统计在ShareRobot数据集中出现频率最高的前20个原子动作的分布情况。3.RoboBrain的模型结构3.1 总览3.2 规划模型使用LLaVA作为基础框架由视觉编码器ViT、Projectior和大语言模型LLM三个主要模块组成。https://zhuanlan.zhihu.com/p/690526314视觉编码器采用SigLIP模型siglip-so400m-patch14-384它在WebLi数据集上以384x384分辨率进行预训练通过27个隐藏层将输入图像按14 x 14大小的补丁处理生成729个视觉标记相比传统CLIP架构SigLIP使用 sigmoid 损失函数提升了训练效率。投影Projectior由2层 MLP 组成负责将视觉编码器输出的视觉标记投影到文本嵌入的维度实现视觉特征与语言模型语义空间的对接。大语言模型采用Qwen2.5-7B-Instruct它具有28个隐藏层支持长达128K令牌的长上下文输入具备29种以上语言的多语言能力能基于人类语言指令和视觉标记以自回归方式生成文本响应为机器人操作任务提供规划能力。3.3 可供性感知和轨迹预测A-LoRA Module for Affordance Perception可供性指人类手与物体接触的区域通过边界框来表示。对于包含多个物体及其可供性的图像每个物体可能有N个可供性区域。A-LoRA模块帮助模型识别和解释交互对象的可供性使机器人能够理解在当前场景下可以对物体进行何种操作以及在物体的哪些部位进行操作。T-LoRA Module for Trajectory Prediction负责轨迹预测这里的轨迹指2D视觉痕迹。模型将轨迹路标点定义为一系列2D坐标。根据任务指令和视觉信息预测机器人末端执行器或手在操作过程中的完整轨迹确保机器人在执行任务时能准确规划运动路径提高操作的准确性和效率。4.RoboBrain的训练流程4.1 Phase1通用 OV 训练借鉴了LLaVA-OneVision的训练数据和策略构建一个具备通用多模态理解能力和视觉指令跟随能力的基础模型为在Phase2中提升模型的机器人操作规划能力奠定了基础。在RoboBrain模型的训练体系里通用OV训练是重要的起始阶段。它借助已有的优秀训练资源搭建基础1.通过特定数据集让Projector能更好地融合视觉与语言特征2.用大量数据提升模型对多模态知识的理解3.强化模型对指令的响应以及对高分辨率图像和视频的处理能力为后续专门针对机器人操作的训练做好准备逐步提升模型在机器人领域的综合表现Stage1利用来自LCS-558K数据的图像文本数据训练Projector促进视觉特征与大语言模型语义特征对齐。Stage1.5使用400万高质量图像文本数据训练整个模型以增强模型的多模态常识理解能力。Stage2进一步使用320万单图像数据以及来自 LLaVA-OneVision-Data 的160万图像和视频数据训练整个模型旨在提升RoboBrain的指令跟随能力并增进对高分辨率图像和视频的理解。4.2 Phase2机器人训练是RoboBrain模型训练的关键环节建立在Phase1通用OV训练的基础之上目的是使RoboBrain能够理解复杂、抽象的指令支持对历史帧信息和高分辨率图像的感知准确输出物体的可供性区域同时预测潜在的操作轨迹从而实现从抽象指令到具体机器人操作的转化提升其在机器人操作任务中的性能。Stage3收集了130万机器人数据这些数据来源于RoboVQA800K、ScanView-318K包含MMScan-224K、3RScan-43K、ScanQA-25K、SQA3d-26K以及ShareRobot-200K等数据集。这些数据包含丰富的场景扫描图像、长视频和高分辨率数据能支持模型感知多样环境其中ShareRobot数据集中的精细高质量规划数据可增强模型的操作规划能力。为解决灾难性遗忘问题从第一阶段选取约170万高质量图像文本数据与Stage3收集的机器人数据混合训练并对整个模型进行相应调整。Stage4利用ShareRobot数据集及其他开源来源的可供性和轨迹数据通过在训练过程中引入LoRA模块增强模型从指令中感知物体可供性和预测操作轨迹的能力赋予模型具体的操作能力。5.RoboBrain的可视化推理结果6.代码推理过程代码地址https://github.com/FlagOpen/RoboBrain/

相关文章:

机器人中的多模态——RoboBrain

论文下载地址:arxiv.org/pdf/2502.21257 代码地址:https://github.com/FlagOpen/RoboBrain/ 数据集下载地址:https://github.com/FlagOpen/ShareRobot/ 目录1.关于RoboBrain1.1 RoboBrain的潜在应用场景1.2 RoboBrain具备哪些能力2.关于Share…...

3步实现视频转PPT:extract-video-ppt工具让内容提取效率提升80%

3步实现视频转PPT:extract-video-ppt工具让内容提取效率提升80% 【免费下载链接】extract-video-ppt extract the ppt in the video 项目地址: https://gitcode.com/gh_mirrors/ex/extract-video-ppt 在数字化办公日益普及的今天,视频转PPT工具已…...

Flappy Bird AI训练避坑指南:为什么你的DQN模型总是‘撞墙’?

Flappy Bird AI训练避坑指南:为什么你的DQN模型总是‘撞墙’? 在强化学习领域,Flappy Bird这个小游戏因其简单的规则和复杂的决策过程,成为了检验算法效果的经典测试平台。然而许多开发者在尝试用DQN(深度Q网络&#x…...

Awesome-Dify-Workflow:可视化流程编排赋能企业级应用快速开发

Awesome-Dify-Workflow:可视化流程编排赋能企业级应用快速开发 【免费下载链接】Awesome-Dify-Workflow 分享一些好用的 Dify DSL 工作流程,自用、学习两相宜。 Sharing some Dify workflows. 项目地址: https://gitcode.com/GitHub_Trending/aw/Aweso…...

如何自定义ProxyManager代理生成器:从入门到精通的完整指南

如何自定义ProxyManager代理生成器:从入门到精通的完整指南 【免费下载链接】ProxyManager 🎩✨🌈 OOP Proxy wrappers/utilities - generates and manages proxies of your objects 项目地址: https://gitcode.com/gh_mirrors/pr/ProxyMan…...

Nunchaku-flux-1-dev快速上手:Python环境配置与基础调用代码详解

Nunchaku-flux-1-dev快速上手:Python环境配置与基础调用代码详解 你是不是也对最近火热的AI绘画模型感到好奇,想自己动手试试,但一看到复杂的代码和配置就头疼?别担心,今天我们就来聊聊如何从零开始,用Pyt…...

Petalinux 2018.3实战:解决ZYNQ u-boot环境变量保存失败与NFS挂载报错

Petalinux 2018.3实战:解决ZYNQ u-boot环境变量保存失败与NFS挂载报错 在嵌入式Linux开发中,Xilinx ZYNQ系列芯片因其强大的可编程逻辑与ARM处理器的完美结合而广受欢迎。然而,即便是经验丰富的工程师,在使用Petalinux工具链进行开…...

F3D:为什么这款极简3D查看器能让你彻底告别传统软件的臃肿?

F3D:为什么这款极简3D查看器能让你彻底告别传统软件的臃肿? 【免费下载链接】f3d Fast and minimalist 3D viewer. 项目地址: https://gitcode.com/GitHub_Trending/f3/f3d 在3D设计、工程可视化和科研数据分析的日常工作中,你是否曾因…...

特斯拉行车记录仪视频合并神器:告别碎片化,一键生成完整记录

特斯拉行车记录仪视频合并神器:告别碎片化,一键生成完整记录 【免费下载链接】tesla_dashcam Convert Tesla dash cam movie files into one movie 项目地址: https://gitcode.com/gh_mirrors/te/tesla_dashcam 还在为特斯拉行车记录仪生成的海量…...

Captura视频质量优化终极指南:先降噪后锐化的完美工作流

Captura视频质量优化终极指南:先降噪后锐化的完美工作流 【免费下载链接】Captura Capture Screen, Audio, Cursor, Mouse Clicks and Keystrokes 项目地址: https://gitcode.com/gh_mirrors/ca/Captura Captura是一款功能强大的屏幕录制工具,支持…...

nlp_structbert模型助力AIGC内容审核:生成文本与违规库相似度比对

nlp_structbert模型助力AIGC内容审核:生成文本与违规库相似度比对 1. 引言:当AIGC内容爆发,审核成了大难题 最近两年,AIGC技术发展得太快了。无论是写文章、做设计,还是生成营销文案,AI工具已经渗透到内容…...

3个步骤掌握Book Searcher:从安装到实战高效图书检索工具

3个步骤掌握Book Searcher:从安装到实战高效图书检索工具 【免费下载链接】private This project has been deleted to avoid legal risks. 项目地址: https://gitcode.com/gh_mirrors/pr/private Book Searcher是一款专为私人图书馆管理设计的高效图书检索工…...

如何快速掌握PathOfBuilding:流放之路终极角色构建规划神器

如何快速掌握PathOfBuilding:流放之路终极角色构建规划神器 【免费下载链接】PathOfBuilding Offline build planner for Path of Exile. 项目地址: https://gitcode.com/GitHub_Trending/pa/PathOfBuilding 还在为《流放之路》复杂的天赋树和装备搭配而头疼…...

libmill实战教程:构建高性能TCP服务器的10个技巧

libmill实战教程:构建高性能TCP服务器的10个技巧 【免费下载链接】libmill Go-style concurrency in C 项目地址: https://gitcode.com/gh_mirrors/li/libmill libmill是一个在C语言中实现Go风格并发的库,它允许开发者轻松创建高性能的网络应用程…...

宝塔面板新手避坑指南:从服务器选购到LNMP环境一键部署全流程

宝塔面板新手避坑指南:从服务器选购到LNMP环境一键部署全流程 第一次接触服务器运维的新手,往往会被各种专业术语和复杂操作搞得晕头转向。作为过来人,我深知那种面对命令行时的无助感。宝塔面板的出现,确实让服务器管理变得简单了…...

ESP32S3端口死活不识别?别急着换线,先试试这个USB驱动修复大法

ESP32S3端口识别难题:从底层原理到实战修复的全方位指南 当你满怀期待地将ESP32S3开发板连接到电脑,准备开始物联网项目的开发时,却发现设备管理器里怎么也找不到对应的COM端口——这种挫败感我深有体会。作为一款功能强大的Wi-Fi/蓝牙双模芯…...

Python 3.14 JIT vs PyPy 8.3 vs GraalPython:金融风控场景下GC暂停时间对比实测(数据全部脱敏)

第一章:Python 3.14 JIT vs PyPy 8.3 vs GraalPython:金融风控场景下GC暂停时间对比实测(数据全部脱敏)为评估新一代Python运行时在低延迟金融风控场景中的实际表现,我们在统一硬件环境(Intel Xeon Platinu…...

工业质检项目从零开始:如何用‘主动学习’策略,把标注成本降低70%以上?

工业质检降本实战:用主动学习策略实现70%标注成本压缩 当某汽车零部件制造商首次将5000张未标注的焊接缺陷图片交到我们团队时,质检主管提出了两个灵魂拷问:"这批数据标注预算只有行业平均水平的30%,能不能做?&q…...

yfinance终极指南:5分钟掌握免费金融数据获取

yfinance终极指南:5分钟掌握免费金融数据获取 【免费下载链接】yfinance Download market data from Yahoo! Finances API 项目地址: https://gitcode.com/GitHub_Trending/yf/yfinance 在金融分析和量化投资领域,高质量的数据是一切分析的基础。…...

赋能工业智能化转型实战案例解析

随着“工业4.0”和智能制造的深入推进,工业生产现场正经历着从“自动化”向“智能化”的深刻转型。在这一进程中,传统的机器视觉(MV)虽在速度与精度上表现优异,但面对柔性制造、非结构化环境以及复杂多变的任务需求时&…...

BYD Battery Emulator:让电动汽车电池成为家庭储能的智能桥梁

BYD Battery Emulator:让电动汽车电池成为家庭储能的智能桥梁 【免费下载链接】BYD-Battery-Emulator-For-Gen24 This software enables EV battery packs to be used for stationary storage in combination with solar inverters. 项目地址: https://gitcode.co…...

别再只建桶了!华为云OBS的5个高阶配置,让你的存储成本直降30%

别再只建桶了!华为云OBS的5个高阶配置,让你的存储成本直降30% 当你的业务数据量突破TB级时,存储成本就会像野马一样失控。去年我们团队就经历过这样的教训——每月OBS账单突然暴涨40%,排查后发现是数百GB的过期日志仍按标准存储计…...

从轮胎变形到车辆漂移:深入浅出聊聊自动驾驶横向控制里的‘侧偏刚度’

轮胎侧偏刚度:自动驾驶横向控制中的隐形弹簧 想象一下在高速公路上以120km/h的速度变道时,方向盘只需轻轻转动几度——这种看似反直觉的操控背后,是轮胎侧偏刚度在默默发挥着作用。就像跳水运动员入水时水面产生的弹性变形一样,轮…...

AI净界开箱即用:无需配置,上传图片秒出透明背景,亲测好用

AI净界开箱即用:无需配置,上传图片秒出透明背景,亲测好用 1. 产品核心价值 在电商设计、内容创作和数字营销领域,背景移除是最频繁却又最耗时的图像处理需求之一。传统方法要么需要专业软件技能,要么效果难以令人满意…...

Spring Authorization Server Redis缓存优化:构建高性能分布式授权服务的架构设计与性能调优指南

Spring Authorization Server Redis缓存优化:构建高性能分布式授权服务的架构设计与性能调优指南 【免费下载链接】spring-authorization-server Spring Authorization Server 项目地址: https://gitcode.com/gh_mirrors/sp/spring-authorization-server 在现…...

OpenMVG CMake构建系统完全指南:模块化设计与依赖管理最佳实践

OpenMVG CMake构建系统完全指南:模块化设计与依赖管理最佳实践 【免费下载链接】openMVG open Multiple View Geometry library. Basis for 3D computer vision and Structure from Motion. 项目地址: https://gitcode.com/gh_mirrors/op/openMVG OpenMVG&am…...

AI驱动的 Vue3应用开发平台深入探究(十五):扩展与定制之自定义设置器与属性编辑器

自定义设置器与属性编辑器 自定义 Setter 和属性编辑器构成了 VTJ 可扩展属性配置系统的基础,使开发者能够为物料组件属性创建专门的输入控件。该系统提供了基于插件的架构,与设计器环境无缝集成,同时为属性编辑场景提供最大的灵活性。 架构…...

ESP32智能语音助手创新实践:从技术原理到跨设备协同

ESP32智能语音助手创新实践:从技术原理到跨设备协同 【免费下载链接】xiaozhi-esp32 Build your own AI friend 项目地址: https://gitcode.com/GitHub_Trending/xia/xiaozhi-esp32 随着物联网技术的飞速发展,智能语音交互已成为连接物理世界与数…...

Z-Image-Turbo-辉夜巫女详细步骤:Xinference服务状态检查+Gradio端口映射配置

Z-Image-Turbo-辉夜巫女详细步骤:Xinference服务状态检查Gradio端口映射配置 1. 模型简介 Z-Image-Turbo-辉夜巫女是基于Z-Image-Turbo模型的LoRA版本,专门用于生成具有辉夜巫女风格的人物图片。这个模型通过Xinference框架部署,提供了稳定…...

10倍加速PDF转HTML:pdf2htmlEX终极优化指南

10倍加速PDF转HTML:pdf2htmlEX终极优化指南 【免费下载链接】pdf2htmlEX Convert PDF to HTML without losing text or format. 项目地址: https://gitcode.com/gh_mirrors/pd/pdf2htmlEX pdf2htmlEX是一款能够将PDF文件转换为HTML格式的强大工具&#xff0c…...