当前位置：首页 > news >正文

具身智能controller---RT-1（Robotics Transformer）（上---方法介绍）

news 2025/7/7 0:20:01

具身智能controller---RT-1（Robotics Transformer）（上---方法介绍）

相关链接
摘要和简介
- 相关工作与预备知识
- 系统概述
- 模型 RT-1: ROBOTICS TRANSFORMER
- - 模型

摘要和简介

迁移学习在计算机视觉领域已有很多研究，但在端到端的机器人学习控制的领域研究还比较少，本论文提出通用的机器人模型一个关键点在于开放式的（open-ended）任务不可知的(task-agnostic)训练, 有着高容量(high-capacity)的网络结构，可以吸收所有不同种类的机器人数据。
论文里的核心问题：可否利用大量的机器人任务数据训练一个大规模多任务骨干模型?这个模型是否会从别的领域观测获得好处, 表现出对新任务、环境和对象的zero-shot能力? 其挑战主要存在两个方面：正确的数据集和合适的模型设计

数据集：好的泛化性需要数据集同时具有规模和宽泛性，包含各种不同的任务和设置；
模型设计：需要大容量，Transformer网络很符合这个需求。
为此，该论文提出一个先进的机器人控制网络RT-1
(Robotics Transformer 1), 它将高维输入和输出编码成紧凑的token表征，包括图像，文本指令和电机控制指令，并可以进行实时推理控制。

系统概述

目标：创建和演示一个通用的机器人学习系统，可以吸收大规模的数据并能有效地泛化；
机器人平台：EverydayRobots的移动操作机器人，具有7自由度的机械臂，两指夹爪和一个移动底盘；

环境:三个厨房环境—两个真实办公厨房和一个基于这些真实厨房建模的训练环境；

数据: 人类提供的示教，并对每个episode进行文本标注，用于表示其动作指令。我们最大的数据集包含在超过700个任务上超过130条独立示教；
skills
RT-1: 输入短序列图像和一条自然语言指令，输出当前时刻机器人的动作。为此，网络结构包括多个部分:首先使用一个基于ImageNet预训练的卷积神经网络对图像和文本进行处理生成多个token，然后使用Token Learner计算一个紧凑的token集合，最后使用一个Transformer处理这些Token，并产生离散的动作tokens。输出的动作包括机械臂的七自由度运动 (x, y, z, roll, pitch, yaw, opening of the gripper), 底盘的三自由度运动(x, y, yaw)和一个离散维度用于表征动作模式转换（控制机械臂，控制底盘或者结束)。

模型 RT-1: ROBOTICS TRANSFORMER

本部分介绍如何tokenize图像，文本指令和动作,然后讨论RT-1模型结构，并描述如何进行实时控制，最后介绍数据采集流程以及数据集中的技能和指令。

模型

指令和图像tokenization：RT-1通过将最新的6帧图像输入到基于ImageNet预训练的EfficientNet-B3网络来tokenizes这些图像,该网络使用6张300x300的图像，输出一张9x9x512的空间特征图，然后变平成81个512维的token输给后面的网络层来处理；指令首先通过universal sentense encoder进行编码，得到一个512维的向量，这个embedding然后输入到 identity-initialized FiLM层，加入到预训练的EfficientNet中用来训练图像编码器。整个图像和指令tokenization网络共有约6M参数，包括26层MBConv块和FiLM层,最终产生81个指令图像token；
TokenLearner：TokenLearner对81视觉指令token进行采样，最终获得仅仅8个tokens，输入到后续的Transformer层；
Transformer: 历史6张张图像指令对应的8 个token拼接在一起形成48个token(包括增加的位置编码)，输入到Transformer骨干。Transformer是一个 decoder-only序列模型，它有8个self-attention层，总共约19M参数，最终输出action tokens；
动作tokenization：每个连续的动作被离散到256维的bin中，并被映射到其中之一；
Loss：标准分类交叉熵和随机mask
实时推理加速：1，使用token learner对原始token进行压缩；2，推理时保留历史5帧图像对应的指令图像token，而不必全部重新计算；分别加速2.4倍和1.7倍。

具身智能controller---RT-1（Robotics Transformer）（上---方法介绍）

具身智能controller---RT-1（Robotics Transformer）（上---方法介绍）

相关链接

摘要和简介

相关工作与预备知识

系统概述

模型 RT-1: ROBOTICS TRANSFORMER

模型

相关文章：

具身智能controller---RT-1（Robotics Transformer）（上---方法介绍）

视频内存过大如何压缩变小？这个压缩方法了解一下

【Ansible】自动化部署工具-----Ansible

Ubuntu下安装Node.js；npm

设计模式-模版方法模式

Linux 学习记录59(ARM篇)

TypeScript -- 函数

网页开发基础——HTML

C# 继承，封装，多态等知识点

决策树概述

青枫壁纸小程序V1.4.0（后端SpringBoot）

Error: unknown flag: --export 【k8s，kubernets报错】

进入linux系统中修改网段-ip

通过REST API接口上传Nexus仓库

Docker镜像端口映射简介及配置指南

Excel双向柱状图的绘制

Linux6.17 Docker 安全及日志管理

学好Elasticsearch系列-索引的CRUD

Python - OpenCV机器视觉库的简单使用经验

【计算机网络 01】说在前面信息服务因特网 ISP RFC技术文档边缘与核心交换方式定义与分类网络性能指标计算机网络体系结构章节小结

模型参数、模型存储精度、参数与显存

基于ASP.NET+ SQL Server实现（Web）医院信息管理系统

渗透实战PortSwigger靶场-XSS Lab 14：大多数标签和属性被阻止

DBAPI如何优雅的获取单条数据

BCS 2025｜百度副总裁陈洋：智能体在安全领域的应用实践

NFT模式：数字资产确权与链游经济系统构建

企业如何增强终端安全？

使用 SymPy 进行向量和矩阵的高级操作

ip子接口配置及删除

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据