当前位置: 首页 > news >正文

具身智能controller---RT-1(Robotics Transformer)(上---方法介绍)

具身智能controller---RT-1(Robotics Transformer)(上---方法介绍)

  • 相关链接
  • 摘要和简介
    • 相关工作与预备知识
    • 系统概述
    • 模型 RT-1: ROBOTICS TRANSFORMER
      • 模型

相关链接

github链接
主页链接(包括论文和训练数据集)

摘要和简介

迁移学习在计算机视觉领域已有很多研究,但在端到端的机器人学习控制的领域研究还比较少,本论文提出通用的机器人模型一个关键点在于开放式的(open-ended)任务不可知的(task-agnostic)训练, 有着高容量(high-capacity)的网络结构,可以吸收所有不同种类的机器人数据。
论文里的核心问题:可否利用大量的机器人任务数据训练一个大规模多任务骨干模型?这个模型是否会从别的领域观测获得好处, 表现出对新任务、环境和对象的zero-shot能力? 其挑战主要存在两个方面:正确的数据集和合适的模型设计

  • 数据集:好的泛化性需要数据集同时具有规模和宽泛性,包含各种不同的任务和设置;
  • 模型设计: 需要大容量,Transformer网络很符合这个需求。
    为此,该论文提出一个先进的机器人控制网络RT-1
    (Robotics Transformer 1), 它将高维输入和输出编码成紧凑的token表征,包括图像,文本指令和电机控制指令,并可以进行实时推理控制。

相关工作与预备知识

  • 在使用语言和Transformer控制机器人这个方向,本工作在此方向上更进一步,将语言视觉观测映射到机器人动作的过程当作一个序列建模过程,并使用Transformer网络来学习这个映射;
  • 大部分工作专注于让Transformer学习单个任务(如Goto, Behaviour Transformer),本工作验证了基于Transformer的策略在保持实时性的同时,具有高容量(high capacity)和泛化性;
  • 本工作进一步支持了多任务和language-conditioned机器人学习的能力, 在大规模数据集(有大量不同行为,对象和场景)上提供了实验结果,并提出了新的结构和设计选项,使得机器人可以在更大规模上进行学习;
  • 机器人学习(Robot learning): 我们旨在学习机器人策略,用于从视觉观测中解决language-conditioned任务;
  • Transformers:,一个Transformer网络是一系列的模型映射,它将一个输入序列映射到一个输出序列,联合使用自注意力(self-attention)层和全连接神经网络;
  • 模仿学习(Imitation learning):在演示数据上学习机器人策略,类似一般深度学习中的监督学习,目标是最小化基于观测的预测值与标签值之间的差异。

系统概述

目标:创建和演示一个通用的机器人学习系统,可以吸收大规模的数据并能有效地泛化;
机器人平台:EverydayRobots的移动操作机器人,具有7自由度的机械臂,两指夹爪和一个移动底盘;
机器人

环境:三个厨房环境—两个真实办公厨房和一个基于这些真实厨房建模的训练环境;
环境

数据: 人类提供的示教,并对每个episode进行文本标注,用于表示其动作指令。我们最大的数据集包含在超过700个任务上超过130条独立示教;
skills
RT-1: 输入短序列图像和一条自然语言指令,输出当前时刻机器人的动作。为此,网络结构包括多个部分:首先使用一个基于ImageNet预训练的卷积神经网络对图像和文本进行处理生成多个token,然后使用Token Learner计算一个紧凑的token集合,最后使用一个Transformer处理这些Token,并产生离散的动作tokens。输出的动作包括机械臂的七自由度运动 (x, y, z, roll, pitch, yaw, opening of the gripper), 底盘的三自由度运动(x, y, yaw)和一个离散维度用于表征动作模式转换(控制机械臂,控制底盘或者结束)。

模型 RT-1: ROBOTICS TRANSFORMER

本部分介绍如何tokenize图像,文本指令和动作,然后讨论RT-1模型结构,并描述如何进行实时控制,最后介绍数据采集流程以及数据集中的技能和指令。

模型

模型
指令和图像tokenization:RT-1通过将最新的6帧图像输入到基于ImageNet预训练的EfficientNet-B3网络来tokenizes这些图像,该网络使用6张300x300的图像,输出一张9x9x512的空间特征图,然后变平成81个512维的token输给后面的网络层来处理;指令首先通过universal sentense encoder进行编码,得到一个512维的向量,这个embedding然后输入到 identity-initialized FiLM层,加入到预训练的EfficientNet中用来训练图像编码器。整个图像和指令tokenization网络共有约6M参数,包括26层MBConv块和FiLM层,最终产生81个指令图像token;
TokenLearner:TokenLearner对81视觉指令token进行采样,最终获得仅仅8个tokens,输入到后续的Transformer层;
Transformer: 历史6张张图像指令对应的8 个token拼接在一起形成48个token(包括增加的位置编码),输入到Transformer骨干。Transformer是一个 decoder-only序列模型,它有8个self-attention层,总共约19M参数,最终输出action tokens;
动作tokenization:每个连续的动作被离散到256维的bin中,并被映射到其中之一;
Loss:标准分类交叉熵和随机mask
实时推理加速:1,使用token learner对原始token进行压缩;2,推理时保留历史5帧图像对应的指令图像token,而不必全部重新计算;分别加速2.4倍和1.7倍。

相关文章:

具身智能controller---RT-1(Robotics Transformer)(上---方法介绍)

具身智能controller---RT-1(Robotics Transformer)(上---方法介绍) 相关链接摘要和简介相关工作与预备知识系统概述模型 RT-1: ROBOTICS TRANSFORMER模型 相关链接 github链接 主页链接(包括论文和训练数据集&#xf…...

视频内存过大如何压缩变小?这个压缩方法了解一下

在日常生活中,不管是日常随手拍的视频还是在工作中遇到的视频文件,在编辑处理的时候,如果视频的内存过大,不仅会占用很大的内存,在传送的时候也会花费很长时间,这时候将视频给压缩一下就可以很好的解决这一…...

【Ansible】自动化部署工具-----Ansible

自动化部署工具-Ansible 1.Ansible概述2.ansible环境安装部署2.1 command模块2.2 shell模块2.3 cron模块2.4 user模块2.5 group模块2.6 copy模块2.7 file模块2.8 hostname模块2.9 ping模块2.10 yum模块2.11 service/systemd模块2.12 script模块2.13 mount模块2.14 archive模块2…...

Ubuntu下安装Node.js;npm

Ubuntu下安装Node.js curl -sL https://deb.nodesource.com/setup_8.x | sudo -E bash - sudo apt-get install -y nodejs Ubuntu下安装npm sudo apt-get install npm Ubuntu下指定版本升级npm sudo npm install npm8.15.0 -g Ubuntu下升级node 安装n模块:s…...

设计模式-模版方法模式

生活中处处存在模版,模版定义了大的框架,具体内容由使用者填充即可,这给很多人的生活、工作带来了很大的遍历。比如: PPT模版:好的PPT模版提供了更全面的叙述框架,更优美的UI画面&图标,提升…...

Linux 学习记录59(ARM篇)

Linux 学习记录59(ARM篇) 本文目录 Linux 学习记录59(ARM篇)一、IIC总线1. 概念2. IIC总线硬件连接 二、系统框图三、IIC时序1. 起始信号 / 停止信号2. 数据传输信号3. 应答信号 / 非应答信号4. 寻址信号 四、IIC协议1. 主机给从机发送一个字节(写)2. 主机给从机发送多个连续字…...

TypeScript -- 函数

文章目录 TypeScript -- 函数JS -- 函数的两种表现形式函数声明函数的表达式es6 箭头函数 TS -- 定义一个函数TS -- 函数声明使用接口(定义)ts 定义参数可选参数写法 -- ?的使用TS函数 -- 设置剩余参数函数重载 TypeScript – 函数 JS – 函数的两种表现形式 我们熟知js有两…...

网页开发基础——HTML

一、flask框架 Flask是一种轻量级的Python web应用程序框架,可以帮助使用者快速构建Web应用程序和API。由于其简洁、灵活和易于上手的特点,Flask被广泛用于开发小型到中型的Web应用程序和后端API。本次我们主要是使用flask框架,进行一个小型w…...

C# 继承,封装,多态等知识点

一:面向对象的三大特征:继承性,封装性,多态性 1:继承性:继承主要描述是类与类之间的关系,通过继承可以在无需重新编写原有的类的情况下,对原有的类的功能进行扩展。 2:封…...

决策树概述

文章目录 决策树介绍1.介绍**决策树API:**构建决策树的三个步骤决策树的优缺点通过sklearn实现决策树分类并进一步认识决策树2. ID3 决策树1. 信息熵2. 信息增益**定义:****根据信息增益选择特征方法是:****算法:**3. ID3算法步骤4. 例子:3. C4.5 决策树1. 信息增益率计算…...

青枫壁纸小程序V1.4.0(后端SpringBoot)

引言 那么距离上次的更新已经过去了5个多月,期间因为忙着毕业设计的原因,更新的速度变缓了许多。所以,这次的更新无论是界面UI、用户功能、后台功能都有了非常大的区别。希望这次更新可以给用户带来更加好的使用体验 因为热爱,更…...

Error: unknown flag: --export 【k8s,kubernets报错】

报错情况如下: [rootk8smaster ~]# kubectl get deploy nginx -oyaml --export > my2.yaml Error: unknown flag: --export See kubectl get --help for usage.原因: --export在所使用的版本中已被移除 解决:去除--export即可&#xff0c…...

进入linux系统中修改网段-ip

第一步 :开启虚拟机 cd 到 /etc/sysconfig/network-scripts 目录下,输入命令给ls,展示这个目录下文件和文件夹 第二步:进入到以ifcfg开头的文件 # ifcfg开头的文件,如果有多个网卡,有多个ifcfg-ensxx文件 命令…...

通过REST API接口上传Nexus仓库

一、Nexus API文档 API文档链接:Components API 二、上传API接口说明 在Nexus中可以直接调试api接口,url参考:http://localhost:8081/#admin/system/api 三、上传请求案例 $ curl -X POST "http://localhost:8081/service/rest/v1/c…...

Docker镜像端口映射简介及配置指南

目录 引言:什么是端口映射?配置端口映射的步骤:1. 创建Docker镜像:2. 选择要映射的端口:3. 运行容器并进行端口映射:4. 验证端口映射: 示例:结论: 引言: Doc…...

Excel双向柱状图的绘制

Excel双向柱状图在绘制增减比较的时候经常用到,叫法繁多,双向柱状图、上下柱状图、增减柱状图都有。 这里主要介绍一下Excel的基础绘制方法和复杂一点的双向柱状图的绘制 基础双向柱状图的绘制 首先升降的数据如下: 月份上升下降20220359-…...

Linux6.17 Docker 安全及日志管理

文章目录 计算机系统5G云计算第四章 LINUX Docker 安全及日志管理一、Docker 容器与虚拟机的区别1.隔离与共享2.性能与损耗 二、Docker 存在的安全问题1.Docker 自身漏洞2.Docker 源码问题 三、Docker 架构缺陷与安全机制1.容器之间的局域网攻击2.DDoS 攻击耗尽资源3.有漏洞的系…...

学好Elasticsearch系列-索引的CRUD

本文已收录至Github,推荐阅读 👉 Java随想录 文章目录 创建索引删除索引查询数据添加 & 更新数据cat命令公共参数 常用命令aliases 显示别名allocation 显示每个节点的分片数和磁盘使用情况count 显示整个集群或者索引的文档个数fielddata 显示每个节…...

Python - OpenCV机器视觉库的简单使用经验

OpenCV是一个开源的计算机视觉库,它支持多种编程语言,包括Python。下面是Python 3中OpenCV的详细解析: 安装OpenCV 在Python 3中安装OpenCV,可以使用pip命令来安装。例如,在终端中输入以下命令: pip ins…...

【计算机网络 01】说在前面 信息服务 因特网 ISP RFC技术文档 边缘与核心 交换方式 定义与分类 网络性能指标 计算机网络体系结构 章节小结

第一章--概述 说在前面1.1 计算机网络 信息时代作用1.2 因特网概述1.3 三种交换方式1.4 计算机网络 定义与分类1.5 计算机网络的性能指标1.6 计算机网络体系结构1 常见的计算机网络体系结构2 计算机网络体系结构分层的必要性3 计算机网络体系结构分层思想举例4 计算机网络体系结…...

POI信息点的diPointX、diPointY转化成经纬度

需求:接口返回某个地点的数据(diPointX、diPointY),前端需把该地点转化成经纬度形式在地图上进行Marker标记。 实现:(查找百度地图开发文档) 代码验证: console.log(new BMap.Merca…...

虚拟机(VMware)安装Linux(Ubuntu)安装教程

清华大学开源网站镜像站网址:清华大学开源软件镜像站 | Tsinghua Open Source Mirror 进入之后在搜索框中搜索“ubuntu” 直接点击箭头所指的蓝色字体“ubuntu-20.04.1-desktop-amd64.iso”即可下载...

linux系统下(centos7.9)安装Jenkins全流程

一、卸载历史版本 # rpm卸载 rpm -e jenkins# 检查是否卸载成功 rpm -ql jenkins# 彻底删除残留文件 find / -iname jenkins | xargs -n 1000 rm -rf二、环境依赖安装 yum -y install epel-releaseyum -y install daemonize三、安装Jenkins Jenkins官网传送带: …...

Java版知识付费源码 Spring Cloud+Spring Boot+Mybatis+uniapp+前后端分离实现知识付费平台

提供职业教育、企业培训、知识付费系统搭建服务。系统功能包含:录播课、直播课、题库、营销、公司组织架构、员工入职培训等。 提供私有化部署,免费售后,专业技术指导,支持PC、APP、H5、小程序多终端同步,支持二次开发…...

[OnWork.Tools]系列 01-简介

说明 OnWork.Tools 是基于 Net6 的桌面程序。支持Windows7SP1及以上系统,主要是日常办公或者是开发工作过程中常用的工具集合。界面使用WPF Mvvm模式开发,目的是将开源项目中,好用的项目集成到一起,方便大家使用和学习。 功能 …...

神码ai火车头伪原创设置【php源码】

大家好,给大家分享一下python考什么内容,很多人还不知道这一点。下面详细解释一下。现在让我们来看看! 火车头采集ai伪原创插件截图: 1、Python 计算机二级都考什么 Python要到什么程度 考试内容 一、Python语言的基本语法元素…...

QEMU源码全解析15 —— QOM介绍(4)

接前一篇文章:QEMU源码全解析14 —— QOM介绍(3) 本文内容参考: 《趣谈Linux操作系统》 —— 刘超,极客时间 《QEMU/KVM》源码解析与应用 —— 李强,机械工业出版社 特此致谢! 上一回讲到pci…...

【QT】Day 2

1> 继续完善登录框&#xff0c;当登录成功时&#xff0c;关闭登录界面&#xff0c;跳转到新的界面中 second.h #ifndef SECOND_H #define SECOND_H#include <QWidget>namespace Ui { class second; }class second : public QWidget {Q_OBJECTpublic:explicit second…...

腾讯云 Cloud Studio 实战训练营活动招募中

点击链接了解详情...

前端常用UI框架

前言&#xff1a; 作为一个前端码农&#xff0c;不仅要熟练使用原生技术&#xff0c;现在更需要掌握的是技术框架和ui框架&#xff0c;因为框架可以帮助我们快速的开发项目&#xff0c;并且能够保证界面的兼容和美观&#xff0c;下面是一些常用的前端ui框架&#xff0c;供大家参…...