当前位置: 首页 > news >正文

清华大学、字节跳动等单位联合发布最新视觉语言动作模型RoboVLMs

近年来,视觉语言基础模型(Vision Language Models, VLMs)大放异彩,在多模态理解和推理上展现出了超强能力。现在,更加酷炫的视觉语言动作模型(Vision-Language-Action Models, VLAs)来了!通过为 VLMs 加上动作预测模块,VLAs 不仅能 “看” 懂和 “说” 清,还能 “动” 起来,为机器人领域开启了新玩法! 清华大学、字节跳动等单位联合发布最新视觉语言动作模型RoboVLMs 观看更多转载,清华大学、字节跳动等单位联合发布最新视觉语言动作模型RoboVLMs虽然 VLAs 在各种任务和场景中表现抢眼,但大家在模型设计上却走了很多不同的路,比如用什么架构、怎么选数据、怎么调训练策略等等,这导致领域内对 “怎么做好一个 VLA” 还没有统一的答案。为了理清这些问题,我们通过一系列的实验,提出了一个全新模型 ——RoboVLMs。论文标题:Towards Generalist Robot Policies: What Matters in
Building Vision-Language-Action Models论文地址:https://arxiv.org/pdf/2412.14058
在这里插入图片描述

这个模型超级简单,但性能却相当硬核!它不仅在三个模拟任务中取得了高分,还在真实机器人实验中交出了满分答卷。这篇文章就是要带你一起看看,我们是如何用 RoboVLMs 解锁 VLA 的无限可能!四大灵魂拷问:RoboVLMs 是怎么炼成的?我们围绕四个关键问题,对 VLA 的设计展开了深度探索,下面就带你看看答案!1. 为什么要用 VLA 模型?简单说,通过实验,我们发现设计合理的 VLA 不仅能轻松搞定常见的操作任务,还能在陌生场景中稳稳发挥。仿真任务中拿下顶尖成绩在 CALVIN 和 SimplerEnv 环境里,RoboVLMs 取得了压倒性的胜利:任务成功率:表现稳定且超越主流模型。泛化能力:即使在陌生场景中,表现依然抗打!在这里插入图片描述
在这里插入图片描述
图 1 SimplerEnv 仿真环境中的评测结果 在这里插入图片描述
在这里插入图片描述
图 2 针对视觉语言预训练的消融实验结果
真实机器人实验也不输在真实环境中,RoboVLMs 面对更复杂的挑战,仍然比其他模型表现更好。比如,在果蔬分类任务中,它不仅能精准识别,还能应对干扰环境,稳稳完成分类操作。无论是已知场景还是新任务,它都能轻松拿下。在这里插入图片描述
图 3 真实环境下的评测结果对于未见过的技能描述、背景、干扰物体和目标物体,RoboVLMs 均能很好的完成任务。在这里插入图片描述
2. 怎么设计一个靠谱的 VLA 架构?这里面讲究可不少!比如:动作空间:用连续动作空间比离散的好很多。历史信息:加多步历史信息后,模型的操作更稳准狠。历史信息组织模块:一个专门的模块可以让模型更懂 “上下文”。经过一系列实验,我们确认了这些设计选择是提升模型性能和泛化能力的关键。进一步的实验也表明,最优的设计来自于基于 KosMos 基座模型的架构,并且结合了专门的历史信息组织模块。这样的设计在 CALVIN 中实现了出色的泛化能力,在 zero-shot 设置下仅有轻微的性能下降,而其他设计形式的模型则出现了显著掉分。这一结论直接说明,架构设计的好坏对模型的泛化能力和效率至关重要。
在这里插入图片描述
3. 选什么基座模型最合适?我们对比了当前主流的 8 种视觉语言模型(VLM),结果发现 KosMos 和 Paligemma 的表现遥遥领先,轻松碾压其他模型。无论是任务完成的精确度还是泛化能力,它们都展现出了压倒性的优势。究其原因,主要得益于它们经过了扎实且全面的视觉语言预训练,从而为模型提供了强大的先验知识和理解能力。这一发现让我们更加确信:选对基座模型,就是让 VLA 模型起飞的关键一步!想要让模型在多模态任务中表现惊艳,一个经过深度预训练、具备强大视觉语言表征能力的 VLM 基座显然能提供无与伦比的助力。而一旦打好了这个基础,后续的设计和训练才能真正发挥最大潜力。
在这里插入图片描述
4. 跨本体数据什么时候加入最合适?实验告诉我们一个黄金法则:在预训练阶段引入跨本体数据(如 Open-X Embodiment 数据集)可以显著提升模型的鲁棒性和少样本场景下的表现。反之,直接将跨本体数据和微调数据混合训练,效果就没那么显著了。这些结论为未来 VLA 模型的训练策略指明了方向。具体实验中,我们在 WidowX+Bridge 和 Google Robot 两大环境下分别进行了不同训练策略的测试:WidowX+Bridge 环境:Bridge Finetune:直接在完整的 Bridge 数据集上微调(测试任务不包括在内)。OXE Pre-Train:先用 OXE 数据集预训练模型。Post-Train:用经过 OXE 预训练的模型再在 Bridge 数据集上微调。
Google Robot 环境:RT-Partial Finetune:仅在特定的 RT 任务上微调。RT Finetune:在完整的 RT 数据集上微调(包括测试任务)。OXE Pre-Train:先用 OXE 数据集预训练模型。Post-Train:在 OXE 预训练基础上用 RT 数据集进一步训练。
在这里插入图片描述

实验结果进一步验证了:在预训练阶段引入跨本体数据不仅能提升泛化能力,还能让模型在少样本和高复杂任务下表现更佳。
展望未来:VLA 的进阶之路虽然 RoboVLMs 已经很能打了,但接下来的发展空间更让人期待!未来可以探索:更细化的设计优化:比如再打磨 VLM 内部结构、信息融合模块和训练目标,让它更高效。挑战复杂任务:像 “做早餐” 这种长链条任务,也许是下一个突破点!多模态协作能力:进一步让机器人 “看懂”、“听清”、“动得更聪明”。
RoboVLMs 的出现,验证了视觉语言动作模型的可能性,也让机器人更接近成为我们的全能助手。未来,它们或许不仅能理解语言和视觉,还能真正帮我们完成那些繁琐又复杂的任务。

相关文章:

清华大学、字节跳动等单位联合发布最新视觉语言动作模型RoboVLMs

近年来,视觉语言基础模型(Vision Language Models, VLMs)大放异彩,在多模态理解和推理上展现出了超强能力。现在,更加酷炫的视觉语言动作模型(Vision-Language-Action Models, VLAs)来了&#x…...

网络安全、Web安全、渗透测试之笔经面经总结

本篇文章涉及的知识点有如下几方面: 1.什么是WebShell? 2.什么是网络钓鱼? 3.你获取网络安全知识途径有哪些? 4.什么是CC攻击? 5.Web服务器被入侵后,怎样进行排查? 6.dll文件是什么意思,有什么…...

.NET Core NPOI 导出图片到Excel指定单元格并自适应宽度

NPOI:支持xlsx,.xls,版本>2.5.3 XLS:HSSFWorkbook,主要前缀HSS, XLSX:XSSFWorkbook,主要前缀XSS,using NPOI.XSSF.UserModel; 1、导出Excel添加图片效果&#xff0…...

python bs4 selenium 查找a href=javascript:();的实际点击事件和url

在使用 BeautifulSoup 和 Selenium 时,处理 href"javascript:;" 的链接需要一些额外的步骤,因为这些链接不直接指向一个 URL,而是通过 JavaScript 代码来执行某些操作。这可能包括导航到另一个页面、触发模态窗口、显示/隐藏内容等…...

三 BH1750 光感驱动调试1

一 扫描设备 查看手册 BH1750 光感模块 寄存器地址为 0x23 官方手册 : http://rohmfs.rohm.com/en/products/databook/datasheet/ic/sensor/light/bh1750fvi-e.pdf su 然后用 i2cdetect 扫描设备: 拨,插 对比, 探测设备挂载在 /dev/i2c-5 上, 从设备地址为 0x23 二 …...

UE材质节点Fresnel

Fresnel节点 ExponentIn 控制边缘透明度 BaseReflectFractionIn 控制中心透明度...

linux的大内核锁与顺序锁

大内核锁 Linux大内核锁(Big Kernel Lock,BKL)是Linux内核中的一种锁机制,用于保护内核资源,以下是关于它的详细介绍: 概念与作用 大内核锁是一种全局的互斥锁,在同一时刻只允许一个进程访问…...

用户注册模块用户校验(头条项目-05)

1 用户注册后端逻辑 1.1 接收参数 username request.POST.get(username) password request.POST.get(password) phone request.POST.get(phone) 1.2 校验参数 前端校验过的后端也要校验,后端的校验和前端的校验是⼀致的 # 判断参数是否⻬全 # 判断⽤户名是否…...

面向对象的基本概念

本篇,来介绍面向对象的基本概念。 1 面向过程与面向对象 面向过程与面向对象,是两种不同的编程思想。 1.1 面向过程 面向过程的思路,是按照问题的解决步骤,将程序分解为一个个具体的函数或过程,然后依次调用这些函数来实现程序的功能。 面向对象的程序设计,程序的执行…...

深度学习每周学习总结R4(LSTM-实现糖尿病探索与预测)

🍨 本文为🔗365天深度学习训练营 中的学习记录博客R6中的内容,为了便于自己整理总结起名为R4🍖 原作者:K同学啊 | 接辅导、项目定制 目录 0. 总结1. LSTM介绍LSTM的基本组成部分如何理解与应用LSTM 2. 数据预处理3. 数…...

如何使用 PHP 操作亚马逊 S3 对象云存储

以下是使用PHP与亚马逊S3对象云存储(也有其他支持S3协议的云存储服务,原理类似)进行交互的常见文档接口使用示例,涵盖了基本的操作如上传文件、下载文件、删除文件、列举文件等内容。 ### 前提条件 1. 首先,你需要获取…...

26_Redis RDB持久化

从这个模块开始带领大家来学习Redis分布式缓存的相关内容,主要学习目标见下: 数据丢失问题:实现Redis数据持久化(RDB和AOF)并发能力问题:搭建Redis主从集群,实现读写分离故障恢复问题:利用Redis哨兵模式,实现健康检测和自动恢复存储能力问题:搭建Redis分片集群,利用…...

标准Android开发jdk和gradle和gradle AGP和AndroidStudio对应版本

还在为用什么gradle版本烦恼吗?编译不过IDE不开始下载第三方库吗?是时候匹配下你的gradle编译版本了: 1.Gradle 各版本支持的 JDK 版本范围如下: Gradle 版本最低支持 JDK最高支持 JDK7.0 - 7.6JDK 8JDK 178.0 - 8.2JDK 11JDK 1…...

太速科技-628-基于VU3P的双路100G光纤加速计算卡

基于VU3P的双路100G光纤加速计算卡 一、板卡概述 基于Xilinx UltraScale16 nm VU3P芯片方案基础上研发的一款双口100 G FPGA光纤以太网PCI-Express v3.0 x16智能加速计算卡,该智能卡拥有高吞吐量、低延时的网络处理能力以及辅助CPU进行网络功能卸载的能力…...

潜力巨大但道路曲折的量子计算

近一年来,由于工作的原因参观访问了一些量子产业园,接触了量子加密计算机、量子云计算等非常炫酷的概念性产品,这与自己一直认为的“量子技术仍然处于实验室研究阶段”的基本判断与认知产生了强烈的冲突,一刹那间,心中…...

LabVIEW驱动电机实现样品自动搜索

利用LabVIEW控制电机驱动相机在XY平面上进行扫描,以检测样品位置。样品最初可能位于相机视野范围之外,需要实现自动搜索样品位置并完成精确定位扫描的功能。该系统需具有以下特点: 高效搜索:能够快速确定样品位置,缩短…...

React Native Hooks开发指南

一、什么是Hooks Hooks 是 React 16.8 的新增特性。在不编写 class 的情况下使用 state 以及其他的 React 特性。Hooks 是一种在函数式组件中使用有状态函数的方法。 二、类组件 componentDidMount、componentDidUpdate 和 componentWillUnmount 这三个函数的组合。 三、常用…...

腾讯云AI代码助手编程挑战赛-厨房助手之AI大厨

腾讯云AI代码助手编程挑战赛-厨房助手之AI大厨 作品简介 身处当今如火箭般迅猛发展的互联网时代,智能聊天助手已然化身成为提升用户体验的关键利器,全方位渗透至人们的数字生活。 紧紧跟随着这股汹涌澎湃的时代浪潮,我毅然投身于极具挑战性…...

ubuntu22.04 gcc,g++从10.5切换到低版本9.5

一、安装gcc-9.5 mkdir gcc cd gcc sudo apt-get download $(apt-cache depends --recurse --no-recommends --no-suggests --no-conflicts --no-breaks --no-replaces --no-enhances --no-pre-depends gcc-9 | grep -v i386 | grep "^\w") sudo dpkg -i *.deb sudo…...

在 WSL 中使用 Jupyter Notebook 的 TensorBoard 启动问题与解决方法

在 WSL(Windows Subsystem for Linux)环境中,通过 Jupyter Notebook 使用 %tensorboard --logdir outputs有时会出现 “Timed out waiting for TensorBoard to start” 错误。常见原因通常是先前的 TensorBoard 进程尚未结束,占用…...

地震勘探——干扰波识别、井中地震时距曲线特点

目录 干扰波识别反射波地震勘探的干扰波 井中地震时距曲线特点 干扰波识别 有效波:可以用来解决所提出的地质任务的波;干扰波:所有妨碍辨认、追踪有效波的其他波。 地震勘探中,有效波和干扰波是相对的。例如,在反射波…...

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧 一、链表基础概念与内核链表优势1.1 为什么使用链表?1.2 Linux 内核链表与用户态链表的区别 二、内核链表结构与宏解析常用宏/函数 三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

1.3 VSCode安装与环境配置

进入网址Visual Studio Code - Code Editing. Redefined下载.deb文件,然后打开终端,进入下载文件夹,键入命令 sudo dpkg -i code_1.100.3-1748872405_amd64.deb 在终端键入命令code即启动vscode 需要安装插件列表 1.Chinese简化 2.ros …...

LLM基础1_语言模型如何处理文本

基于GitHub项目:https://github.com/datawhalechina/llms-from-scratch-cn 工具介绍 tiktoken:OpenAI开发的专业"分词器" torch:Facebook开发的强力计算引擎,相当于超级计算器 理解词嵌入:给词语画"…...

AI编程--插件对比分析:CodeRider、GitHub Copilot及其他

AI编程插件对比分析:CodeRider、GitHub Copilot及其他 随着人工智能技术的快速发展,AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者,分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...

微信小程序云开发平台MySQL的连接方式

注:微信小程序云开发平台指的是腾讯云开发 先给结论:微信小程序云开发平台的MySQL,无法通过获取数据库连接信息的方式进行连接,连接只能通过云开发的SDK连接,具体要参考官方文档: 为什么? 因为…...

[Java恶补day16] 238.除自身以外数组的乘积

给你一个整数数组 nums,返回 数组 answer ,其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法,且在 O(n) 时间复杂度…...

C++八股 —— 单例模式

文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念 线程安全(Thread Safety) 线程安全是指在多线程环境下,某个函数、类或代码片段能够被多个线程同时调用时,仍能保证数据的一致性和逻辑的正确性&#xf…...

【数据分析】R版IntelliGenes用于生物标志物发现的可解释机器学习

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍流程步骤1. 输入数据2. 特征选择3. 模型训练4. I-Genes 评分计算5. 输出结果 IntelliGenesR 安装包1. 特征选择2. 模型训练和评估3. I-Genes 评分计…...

Springboot社区养老保险系统小程序

一、前言 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,社区养老保险系统小程序被用户普遍使用,为方…...