当前位置：首页 > news >正文

具身智能controller---RT-1（Robotics Transformer）（中---实验介绍）

news 2026/2/9 2:04:50

6 实验

实验目的是验证以下几个问题:

RT-1可以学习大规模指令数据，并且可以在新任务、对象和环境上实现zero-shot的泛化能力？
训练好的模型可以进一步混合多种其他数据（比如仿真数据和来自其他机器人的数据）吗？
多种方法如何对long-horizon的机器人场景实现泛化?
泛化度量如何随着数据数量和数据多样性变化？
在设计模型方面重要和实践的决策应该是什么？他们又将如何影响性能和泛化性?

6.1 实验设置

机器人环境
机器人训练数据的采集是在一个环境下的，示教共13个机器人采集，然后会放在另外两个不同的环境中进行验证。
Seen task performance：即在训练过的任务上来评测，但这类数据也存在一定的变化（如机器人位置，物体位置不同等），一共测试了超过200个任务: 36物体抓取任务, 35敲击物体的任务, 35摆放物体的任务,48个移动物体的操作,18个开关不同抽屉的任务和36个从抽屉中取出或者放置物体的任务；
Unseen tasks generalization：在21个未见的指令任务上进行了测试，这里的未见是指组合任务未见，但拆分的动作和目标对象是见过的；
Robustness：进行了30个任务对错误诱导的鲁棒性验证实验和22个背景鲁棒性验证实验，如下图所示：
Long-horizon scenarios: 测试了机器人需要执行一些列技能的场景，在两个厨房场景中测试了15个这样的任务，每个任务需要约10个步骤，这些步骤由Saycan系统根据高层指令自动产生，然后由RT-1执行。

数据
本工作的目标是建立一个高性能机器人控制系统,，对新任务具有一定的通用性，并对背景和干扰选项具有鲁棒性，因此需要采集大量的机器人数据集，包括多任务、对象和环境。原始数据集包含约130k机器人示教，在13个机器人上耗时17个月采集；当前的技能包括：抓取，放置，开关抽屉，从抽屉取放东西, 直立地放置细长东西，将他们锁住,抽出餐巾纸和打开瓶罐，同时技能的扩充是很容易的，随着需求扩增数据即可。

6.2 RT-1是否可以学习大规模指令数据，并且可以在新任务、对象和环境上实现zero-shot的泛化能力？

为回答这个问题，首先和先前的几个工作（Gato, BC-Z， BC-Z XL）进行对比比较，实验结果表明本方法具有更好的性能和泛化性；
为了进一步验证泛化能力，我们在厨房环境中进行实验，首先根据真实厨房环境与训练环境的差异，将其划分成L1-L3三个等级，L1表示对新的案台上面布局和不同光照条件的通用性，L2表示额外有未见过的诱导物体，L3表示额外有较大的新未见任务设置，未见物体或者未见位置，然后对比不同方法在这三种场景下的成功率。
实验对比泛化性

6.3 训练好的模型可以进一步混合多种其他数据（比如仿真数据和来自其他机器人的数据）吗？

设计了两大类实验：(1) RT-1同时在真实数据和仿真数据上进行训练和测试 (2) RT-1在大规模不同任务上机芯训练，这些数据来自不同机器人，实验结果如下：
sim+real 使用多个机器人数据训练

6.4 多种方法如何对long-horizon的机器人场景实现泛化?

在Saycan的框架下验证RT-1在long-horizon任务上的泛化能力。另外因为移动操作任务同时需要导航和操作，因此策略对底盘位置的鲁棒性也很重要（底盘可能无法到达期望位置，这时机械臂需要一定的鲁棒性）。
long horizon任务

6.5 泛化度量如何随着数据数量和数据多样性变化?

此部分对数据集的大小和多样性进行消融实验，因为数据在传统数据受限的机器人学习中扮演着重要的作用。同时由于数据采集是很昂贵的，了解什么样的数据有助于模型实现特定性能和泛化性也是很重要的。
数据泛化性
数据增长

D4 模型消融实验：在设计模型方面重要和实践的决策应该是什么？他们又将如何影响性能和泛化性?

可能的性能提升猜想包括(i) 模型的容量和表征能力，可以通过消融模型大小和试用其他结构来验证(e.g., 移除Transformer部分); (ii)特定的动作表征, 可以使得表征复杂的多模态动作分别更容易，可以通过转向连续(正态分布)动作，或者自回归动作表征; (iii) ImageNet预训练权重初始化，可以通过随机初始化进行验证;(iv)短历史帧输入,可以通过减少观测历史来验证。更具体地，消融实验包括(1)减少模型大小(参数了从 35M 降低到 21M), (2) 移除Transformer结构 (使用一个预训练的EfficientNet), (3)使用连续的动作空间(使用MSE损失和多变量正太分布输出(multivariate normal output)), (4) 自回归训练动作, (5)移除ImageNet的预训练权重初始化, and (6) 移除历史（将历史6帧观测减少到当前单帧）。
模型消融实验

7 结论，局限和未来工作

结论

RT-1在超过700个指令任务上达到97%的成功率，同时对新任务，物体和环境具有比之前工作更好的泛化性；.
RT-1可以成功吸收多种数据，来自仿真环境或者其他机器人，不会牺牲在原来任务上面的性能，同时改进了对新场景的泛化性；
展示了这种性能和通用性如何可以被应用到SayCan框架中执行最多可达50步的long-horizon任务。

局限

RT-1是一种模仿学习的方法，因此也继承了该类方法的缺陷，如无法超越示教者的能力；
对未见新指令的泛化性来自于以前见过的概念组合，对完全未见的指令任务不具备泛化性；
我们的方法应用在大规模但并不灵巧的操作任务.

未来工作

通过开发允许非专家来训练机器人的方法来加快机器人技能的扩充；
当前RT-1对错误诱导的鲁棒性很好，其对背景和环境的鲁棒性可以通过增加环境的多样性来提升；已有工作见diffusion-rosie；
通过可扩展的注意力和记忆来提升反应速度和文本记忆。

个人见解
RT-1模型上最大的创新在于使用了Transformer网络，其架构上也方便进行scale，比如输出可以按需增加或者减少，同时足以容纳足够多的训练数据，另外就是用充足的实验证明了机器人利用模仿学习里的BC训练方法可以从大量数据中学习到较泛化的能力，突出了数据的重要性，指引了通用机器人的一个研发方向。

具身智能controller---RT-1（Robotics Transformer）（中---实验介绍）

6 实验

6.1 实验设置

6.2 RT-1是否可以学习大规模指令数据，并且可以在新任务、对象和环境上实现zero-shot的泛化能力？

6.3 训练好的模型可以进一步混合多种其他数据（比如仿真数据和来自其他机器人的数据）吗？

6.4 多种方法如何对long-horizon的机器人场景实现泛化?

6.5 泛化度量如何随着数据数量和数据多样性变化?

D4 模型消融实验：在设计模型方面重要和实践的决策应该是什么？他们又将如何影响性能和泛化性?

7 结论，局限和未来工作

相关文章：

具身智能controller---RT-1（Robotics Transformer）（中---实验介绍）

无涯教程-jQuery - load( url, data, callback)方法函数

【Shell】Shell编程之免交互

从Vue2到Vue3【七】——Vue2中响应式原理的实现及其缺陷

用C语言实现堆排序算法

tauri在github上进行自动更新打包并发版过程，实战操作避坑

css中flex后文本溢出的问题

restful接口设计规范[仅供参考]

Metabase 远程代码执行(CVE-2023-38646)

【TiDB理论知识 07】SQL执行流程

微服务——服务异步通讯RabbitMQ

事件冒泡、事件捕获和事件委托

WEB 典型安全功能说明

SQL编译优化原理

qt signal slots lambda

Spring【声明式事务】

【雕爷学编程】MicroPython动手做（17）——掌控板之触摸引脚2

pytorch 中 view 和reshape的区别

认识数组指针

SSM面试题-Spring容器的启动流程

Docker 运行 Kafka 带 SASL 认证教程

LLM基础1_语言模型如何处理文本

C++ 求圆面积的程序（Program to find area of a circle）

IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)

python报错No module named ‘tensorflow.keras‘

蓝桥杯冶炼金属

Yolov8 目标检测蒸馏学习记录

（一）单例模式

【Linux系统】Linux环境变量：系统配置的隐形指挥官

MyBatis中关于缓存的理解