清华大学、字节跳动等单位联合发布最新视觉语言动作模型RoboVLMs
近年来,视觉语言基础模型(Vision Language Models, VLMs)大放异彩,在多模态理解和推理上展现出了超强能力。现在,更加酷炫的视觉语言动作模型(Vision-Language-Action Models, VLAs)来了!通过为 VLMs 加上动作预测模块,VLAs 不仅能 “看” 懂和 “说” 清,还能 “动” 起来,为机器人领域开启了新玩法! 清华大学、字节跳动等单位联合发布最新视觉语言动作模型RoboVLMs 观看更多转载,清华大学、字节跳动等单位联合发布最新视觉语言动作模型RoboVLMs虽然 VLAs 在各种任务和场景中表现抢眼,但大家在模型设计上却走了很多不同的路,比如用什么架构、怎么选数据、怎么调训练策略等等,这导致领域内对 “怎么做好一个 VLA” 还没有统一的答案。为了理清这些问题,我们通过一系列的实验,提出了一个全新模型 ——RoboVLMs。论文标题:Towards Generalist Robot Policies: What Matters in
Building Vision-Language-Action Models论文地址:https://arxiv.org/pdf/2412.14058

这个模型超级简单,但性能却相当硬核!它不仅在三个模拟任务中取得了高分,还在真实机器人实验中交出了满分答卷。这篇文章就是要带你一起看看,我们是如何用 RoboVLMs 解锁 VLA 的无限可能!四大灵魂拷问:RoboVLMs 是怎么炼成的?我们围绕四个关键问题,对 VLA 的设计展开了深度探索,下面就带你看看答案!1. 为什么要用 VLA 模型?简单说,通过实验,我们发现设计合理的 VLA 不仅能轻松搞定常见的操作任务,还能在陌生场景中稳稳发挥。仿真任务中拿下顶尖成绩在 CALVIN 和 SimplerEnv 环境里,RoboVLMs 取得了压倒性的胜利:任务成功率:表现稳定且超越主流模型。泛化能力:即使在陌生场景中,表现依然抗打!

图 1 SimplerEnv 仿真环境中的评测结果 

图 2 针对视觉语言预训练的消融实验结果
真实机器人实验也不输在真实环境中,RoboVLMs 面对更复杂的挑战,仍然比其他模型表现更好。比如,在果蔬分类任务中,它不仅能精准识别,还能应对干扰环境,稳稳完成分类操作。无论是已知场景还是新任务,它都能轻松拿下。
图 3 真实环境下的评测结果对于未见过的技能描述、背景、干扰物体和目标物体,RoboVLMs 均能很好的完成任务。
2. 怎么设计一个靠谱的 VLA 架构?这里面讲究可不少!比如:动作空间:用连续动作空间比离散的好很多。历史信息:加多步历史信息后,模型的操作更稳准狠。历史信息组织模块:一个专门的模块可以让模型更懂 “上下文”。经过一系列实验,我们确认了这些设计选择是提升模型性能和泛化能力的关键。进一步的实验也表明,最优的设计来自于基于 KosMos 基座模型的架构,并且结合了专门的历史信息组织模块。这样的设计在 CALVIN 中实现了出色的泛化能力,在 zero-shot 设置下仅有轻微的性能下降,而其他设计形式的模型则出现了显著掉分。这一结论直接说明,架构设计的好坏对模型的泛化能力和效率至关重要。

3. 选什么基座模型最合适?我们对比了当前主流的 8 种视觉语言模型(VLM),结果发现 KosMos 和 Paligemma 的表现遥遥领先,轻松碾压其他模型。无论是任务完成的精确度还是泛化能力,它们都展现出了压倒性的优势。究其原因,主要得益于它们经过了扎实且全面的视觉语言预训练,从而为模型提供了强大的先验知识和理解能力。这一发现让我们更加确信:选对基座模型,就是让 VLA 模型起飞的关键一步!想要让模型在多模态任务中表现惊艳,一个经过深度预训练、具备强大视觉语言表征能力的 VLM 基座显然能提供无与伦比的助力。而一旦打好了这个基础,后续的设计和训练才能真正发挥最大潜力。

4. 跨本体数据什么时候加入最合适?实验告诉我们一个黄金法则:在预训练阶段引入跨本体数据(如 Open-X Embodiment 数据集)可以显著提升模型的鲁棒性和少样本场景下的表现。反之,直接将跨本体数据和微调数据混合训练,效果就没那么显著了。这些结论为未来 VLA 模型的训练策略指明了方向。具体实验中,我们在 WidowX+Bridge 和 Google Robot 两大环境下分别进行了不同训练策略的测试:WidowX+Bridge 环境:Bridge Finetune:直接在完整的 Bridge 数据集上微调(测试任务不包括在内)。OXE Pre-Train:先用 OXE 数据集预训练模型。Post-Train:用经过 OXE 预训练的模型再在 Bridge 数据集上微调。
Google Robot 环境:RT-Partial Finetune:仅在特定的 RT 任务上微调。RT Finetune:在完整的 RT 数据集上微调(包括测试任务)。OXE Pre-Train:先用 OXE 数据集预训练模型。Post-Train:在 OXE 预训练基础上用 RT 数据集进一步训练。

实验结果进一步验证了:在预训练阶段引入跨本体数据不仅能提升泛化能力,还能让模型在少样本和高复杂任务下表现更佳。
展望未来:VLA 的进阶之路虽然 RoboVLMs 已经很能打了,但接下来的发展空间更让人期待!未来可以探索:更细化的设计优化:比如再打磨 VLM 内部结构、信息融合模块和训练目标,让它更高效。挑战复杂任务:像 “做早餐” 这种长链条任务,也许是下一个突破点!多模态协作能力:进一步让机器人 “看懂”、“听清”、“动得更聪明”。
RoboVLMs 的出现,验证了视觉语言动作模型的可能性,也让机器人更接近成为我们的全能助手。未来,它们或许不仅能理解语言和视觉,还能真正帮我们完成那些繁琐又复杂的任务。
相关文章:
清华大学、字节跳动等单位联合发布最新视觉语言动作模型RoboVLMs
近年来,视觉语言基础模型(Vision Language Models, VLMs)大放异彩,在多模态理解和推理上展现出了超强能力。现在,更加酷炫的视觉语言动作模型(Vision-Language-Action Models, VLAs)来了&#x…...
网络安全、Web安全、渗透测试之笔经面经总结
本篇文章涉及的知识点有如下几方面: 1.什么是WebShell? 2.什么是网络钓鱼? 3.你获取网络安全知识途径有哪些? 4.什么是CC攻击? 5.Web服务器被入侵后,怎样进行排查? 6.dll文件是什么意思,有什么…...
.NET Core NPOI 导出图片到Excel指定单元格并自适应宽度
NPOI:支持xlsx,.xls,版本>2.5.3 XLS:HSSFWorkbook,主要前缀HSS, XLSX:XSSFWorkbook,主要前缀XSS,using NPOI.XSSF.UserModel; 1、导出Excel添加图片效果࿰…...
python bs4 selenium 查找a href=javascript:();的实际点击事件和url
在使用 BeautifulSoup 和 Selenium 时,处理 href"javascript:;" 的链接需要一些额外的步骤,因为这些链接不直接指向一个 URL,而是通过 JavaScript 代码来执行某些操作。这可能包括导航到另一个页面、触发模态窗口、显示/隐藏内容等…...
三 BH1750 光感驱动调试1
一 扫描设备 查看手册 BH1750 光感模块 寄存器地址为 0x23 官方手册 : http://rohmfs.rohm.com/en/products/databook/datasheet/ic/sensor/light/bh1750fvi-e.pdf su 然后用 i2cdetect 扫描设备: 拨,插 对比, 探测设备挂载在 /dev/i2c-5 上, 从设备地址为 0x23 二 …...
UE材质节点Fresnel
Fresnel节点 ExponentIn 控制边缘透明度 BaseReflectFractionIn 控制中心透明度...
linux的大内核锁与顺序锁
大内核锁 Linux大内核锁(Big Kernel Lock,BKL)是Linux内核中的一种锁机制,用于保护内核资源,以下是关于它的详细介绍: 概念与作用 大内核锁是一种全局的互斥锁,在同一时刻只允许一个进程访问…...
用户注册模块用户校验(头条项目-05)
1 用户注册后端逻辑 1.1 接收参数 username request.POST.get(username) password request.POST.get(password) phone request.POST.get(phone) 1.2 校验参数 前端校验过的后端也要校验,后端的校验和前端的校验是⼀致的 # 判断参数是否⻬全 # 判断⽤户名是否…...
面向对象的基本概念
本篇,来介绍面向对象的基本概念。 1 面向过程与面向对象 面向过程与面向对象,是两种不同的编程思想。 1.1 面向过程 面向过程的思路,是按照问题的解决步骤,将程序分解为一个个具体的函数或过程,然后依次调用这些函数来实现程序的功能。 面向对象的程序设计,程序的执行…...
深度学习每周学习总结R4(LSTM-实现糖尿病探索与预测)
🍨 本文为🔗365天深度学习训练营 中的学习记录博客R6中的内容,为了便于自己整理总结起名为R4🍖 原作者:K同学啊 | 接辅导、项目定制 目录 0. 总结1. LSTM介绍LSTM的基本组成部分如何理解与应用LSTM 2. 数据预处理3. 数…...
如何使用 PHP 操作亚马逊 S3 对象云存储
以下是使用PHP与亚马逊S3对象云存储(也有其他支持S3协议的云存储服务,原理类似)进行交互的常见文档接口使用示例,涵盖了基本的操作如上传文件、下载文件、删除文件、列举文件等内容。 ### 前提条件 1. 首先,你需要获取…...
26_Redis RDB持久化
从这个模块开始带领大家来学习Redis分布式缓存的相关内容,主要学习目标见下: 数据丢失问题:实现Redis数据持久化(RDB和AOF)并发能力问题:搭建Redis主从集群,实现读写分离故障恢复问题:利用Redis哨兵模式,实现健康检测和自动恢复存储能力问题:搭建Redis分片集群,利用…...
标准Android开发jdk和gradle和gradle AGP和AndroidStudio对应版本
还在为用什么gradle版本烦恼吗?编译不过IDE不开始下载第三方库吗?是时候匹配下你的gradle编译版本了: 1.Gradle 各版本支持的 JDK 版本范围如下: Gradle 版本最低支持 JDK最高支持 JDK7.0 - 7.6JDK 8JDK 178.0 - 8.2JDK 11JDK 1…...
太速科技-628-基于VU3P的双路100G光纤加速计算卡
基于VU3P的双路100G光纤加速计算卡 一、板卡概述 基于Xilinx UltraScale16 nm VU3P芯片方案基础上研发的一款双口100 G FPGA光纤以太网PCI-Express v3.0 x16智能加速计算卡,该智能卡拥有高吞吐量、低延时的网络处理能力以及辅助CPU进行网络功能卸载的能力…...
潜力巨大但道路曲折的量子计算
近一年来,由于工作的原因参观访问了一些量子产业园,接触了量子加密计算机、量子云计算等非常炫酷的概念性产品,这与自己一直认为的“量子技术仍然处于实验室研究阶段”的基本判断与认知产生了强烈的冲突,一刹那间,心中…...
LabVIEW驱动电机实现样品自动搜索
利用LabVIEW控制电机驱动相机在XY平面上进行扫描,以检测样品位置。样品最初可能位于相机视野范围之外,需要实现自动搜索样品位置并完成精确定位扫描的功能。该系统需具有以下特点: 高效搜索:能够快速确定样品位置,缩短…...
React Native Hooks开发指南
一、什么是Hooks Hooks 是 React 16.8 的新增特性。在不编写 class 的情况下使用 state 以及其他的 React 特性。Hooks 是一种在函数式组件中使用有状态函数的方法。 二、类组件 componentDidMount、componentDidUpdate 和 componentWillUnmount 这三个函数的组合。 三、常用…...
腾讯云AI代码助手编程挑战赛-厨房助手之AI大厨
腾讯云AI代码助手编程挑战赛-厨房助手之AI大厨 作品简介 身处当今如火箭般迅猛发展的互联网时代,智能聊天助手已然化身成为提升用户体验的关键利器,全方位渗透至人们的数字生活。 紧紧跟随着这股汹涌澎湃的时代浪潮,我毅然投身于极具挑战性…...
ubuntu22.04 gcc,g++从10.5切换到低版本9.5
一、安装gcc-9.5 mkdir gcc cd gcc sudo apt-get download $(apt-cache depends --recurse --no-recommends --no-suggests --no-conflicts --no-breaks --no-replaces --no-enhances --no-pre-depends gcc-9 | grep -v i386 | grep "^\w") sudo dpkg -i *.deb sudo…...
在 WSL 中使用 Jupyter Notebook 的 TensorBoard 启动问题与解决方法
在 WSL(Windows Subsystem for Linux)环境中,通过 Jupyter Notebook 使用 %tensorboard --logdir outputs有时会出现 “Timed out waiting for TensorBoard to start” 错误。常见原因通常是先前的 TensorBoard 进程尚未结束,占用…...
Redis相关知识总结(缓存雪崩,缓存穿透,缓存击穿,Redis实现分布式锁,如何保持数据库和缓存一致)
文章目录 1.什么是Redis?2.为什么要使用redis作为mysql的缓存?3.什么是缓存雪崩、缓存穿透、缓存击穿?3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...
ip子接口配置及删除
配置永久生效的子接口,2个IP 都可以登录你这一台服务器。重启不失效。 永久的 [应用] vi /etc/sysconfig/network-scripts/ifcfg-eth0修改文件内内容 TYPE"Ethernet" BOOTPROTO"none" NAME"eth0" DEVICE"eth0" ONBOOT&q…...
学校时钟系统,标准考场时钟系统,AI亮相2025高考,赛思时钟系统为教育公平筑起“精准防线”
2025年#高考 将在近日拉开帷幕,#AI 监考一度冲上热搜。当AI深度融入高考,#时间同步 不再是辅助功能,而是决定AI监考系统成败的“生命线”。 AI亮相2025高考,40种异常行为0.5秒精准识别 2025年高考即将拉开帷幕,江西、…...
nnUNet V2修改网络——暴力替换网络为UNet++
更换前,要用nnUNet V2跑通所用数据集,证明nnUNet V2、数据集、运行环境等没有问题 阅读nnU-Net V2 的 U-Net结构,初步了解要修改的网络,知己知彼,修改起来才能游刃有余。 U-Net存在两个局限,一是网络的最佳深度因应用场景而异,这取决于任务的难度和可用于训练的标注数…...
C++实现分布式网络通信框架RPC(2)——rpc发布端
有了上篇文章的项目的基本知识的了解,现在我们就开始构建项目。 目录 一、构建工程目录 二、本地服务发布成RPC服务 2.1理解RPC发布 2.2实现 三、Mprpc框架的基础类设计 3.1框架的初始化类 MprpcApplication 代码实现 3.2读取配置文件类 MprpcConfig 代码实现…...
【java面试】微服务篇
【java面试】微服务篇 一、总体框架二、Springcloud(一)Springcloud五大组件(二)服务注册和发现1、Eureka2、Nacos (三)负载均衡1、Ribbon负载均衡流程2、Ribbon负载均衡策略3、自定义负载均衡策略4、总结 …...
结构化文件管理实战:实现目录自动创建与归类
手动操作容易因疲劳或疏忽导致命名错误、路径混乱等问题,进而引发后续程序异常。使用工具进行标准化操作,能有效降低出错概率。 需要快速整理大量文件的技术用户而言,这款工具提供了一种轻便高效的解决方案。程序体积仅有 156KB,…...
2025.6.9总结(利与弊)
凡事都有两面性。在大厂上班也不例外。今天找开发定位问题,从一个接口人不断溯源到另一个 接口人。有时候,不知道是谁的责任填。将工作内容分的很细,每个人负责其中的一小块。我清楚的意识到,自己就是个可以随时替换的螺丝钉&…...
数据挖掘是什么?数据挖掘技术有哪些?
目录 一、数据挖掘是什么 二、常见的数据挖掘技术 1. 关联规则挖掘 2. 分类算法 3. 聚类分析 4. 回归分析 三、数据挖掘的应用领域 1. 商业领域 2. 医疗领域 3. 金融领域 4. 其他领域 四、数据挖掘面临的挑战和未来趋势 1. 面临的挑战 2. 未来趋势 五、总结 数据…...
HTML版英语学习系统
HTML版英语学习系统 这是一个完全免费、无需安装、功能完整的英语学习工具,使用HTML CSS JavaScript实现。 功能 文本朗读练习 - 输入英文文章,系统朗读帮助练习听力和发音,适合跟读练习,模仿学习;实时词典查询 - 双…...
