【论文阅读】RT-SKETCH: GOAL-CONDITIONED IMITATION LEARNING FROM HAND-DRAWN SKETCHES
RT-Sketch:基于手绘草图的目标条件模仿学习
摘要:在目标条件模仿学习(imitation learning,IL)中,自然语言和图像通常被用作目标表示。然而,自然语言可能存在歧义,图像则可能过于具体。在这项工作中,我们研究将手绘草图作为一种目标指定方式。草图和语言一样,用户可以轻松即时提供,但与图像类似,它也能帮助下游策略具备空间感知能力,甚至超越图像,区分与任务相关和不相关的对象。我们提出了 RT-Sketch,这是一种用于操作任务的目标条件策略,它将所需场景的手绘草图作为输入,并输出动作。我们在一个包含成对轨迹和相应合成生成的目标草图的数据集上训练 RT-Sketch。我们在一个可铰接的台面上进行的六个涉及桌面物体重新排列的操作技能任务中评估了这种方法。实验发现,在简单场景中,RT-Sketch 的表现与基于图像或语言条件的智能体相似,而在语言目标存在歧义或有视觉干扰的情况下,它表现出更强的鲁棒性。此外,我们展示了 RT-Sketch 能够解释并根据不同详细程度的草图采取行动,从简单的线条画到详细的彩色画。有关补充材料和视频,请访问我们的网站。
1. 引言
在家庭、工作场所或工业环境中与人类协同工作的机器人,在提供协助和实现自主作业方面有着巨大潜力。但需要仔细考虑,哪种目标表示方式最便于人类传达给机器人,同时也便于机器人理解并据此行动。具有指令跟随能力的机器人,试图通过将自然语言命令这一直观界面,作为语言条件模仿学习策略的输入,来解决这一问题(Brohan 等人,2023b;a;Karamcheti 等人,2023;Lynch 和 Sermanet,2020;Lynch 等人,2023)。例如,想象让一个家用机器人摆好餐桌。像 “把餐具、餐巾和盘子放在桌子上” 这样的语言描述就不够精确或存在歧义。餐具相对于盘子或餐巾的具体摆放位置并不明确,它们之间的距离是否重要也不清楚。为了达到更高的精度,用户可能需要给出更详细的描述,比如 “把叉子放在盘子右边 2 厘米处,距离桌子最左边边缘 5 厘米”,甚至需要在线修正(“不,你往右移得太远了,往回移一点!”)(Cui 等人,2023;Lynch 等人,2023)。虽然语言是指定目标的直观方式,但其定性的本质和模糊性,使得人类如果不给出冗长的说明或修正,就很难提供准确信息,也让机器人策略难以在下游精确操作中进行解释。
另一方面,近年来,使用目标图像指定目标,并结合或不结合语言指令来训练目标条件模仿学习策略,已被证明相当成功(Jiang 等人,2022;Jang 等人,2022)。在这些场景中,期望最终状态的场景图像可以完全指定预期目标。然而,这也有其自身的缺点:获取目标图像是一个很强的先验假设,而且预先录制的目标图像可能与特定环境相关,很难在不同环境中复用和泛化。
介于自然语言缺乏精确指定目标的粒度,而图像在不必要的细节上过度指定目标,导致需要互联网规模的数据来进行泛化之间,我们认识到当前的框架缺乏一种能够以方便且富有表现力的方式充分捕捉用户意图的目标表示。虽然自然语言高度灵活,但也可能高度模糊,或者需要冗长的描述。这在长期任务或需要空间感知的任务中,很快就会变得困难。与此同时,目标图像在不必要的细节上过度指定目标,导致需要互联网规模的数据来进行泛化。
为此,为了应对这些挑战,我们研究将手绘草图作为视觉模仿学习中一种方便且富有表现力的目标指定方式。由于草图简洁,它仍然像语言一样,便于用户即时提供。然而,与语言不同的是,(1)草图能提供更多信息,且有助于更具空间感知的任务指定。与目标图像一样,草图可以很容易地与现成的接受视觉输入的策略架构集成,但它提供了更高层次的目标抽象,忽略了不必要的像素级细节。最后,草图的质量以及对细节的选择性包含或排除,可以帮助下游策略区分与任务相关和不相关的细节,而无需像在图像中那样忠实地保留像素级细节;(2)帮助下游策略根据对物体的选择性包含、排除或细节程度,区分与任务相关和不相关的物体。此外,草图可以很容易地与接受视觉表示作为输入的现成策略架构集成。
在这项工作中,我们提出了 RT-Sketch,这是一种用于操作的目标条件策略,它将用户提供的所需场景的手绘草图作为输入,并输出动作。RT-Sketch 的新颖架构修改了原始的 RT-1 从语言到动作的 Transformer 架构(Brohan 等人,2023b),使其能够处理视觉目标而非语言目标,从而可以灵活地基于草图、图像或任何其他可视觉表示的目标进行条件设定。为了实现这一点,我们在进行标记化之前,将目标草图和观察历史连接起来作为输入,省略了语言部分。我们在一个包含 80K 条轨迹的数据集上训练 RT-Sketch,这些轨迹与通过图像到草图风格化网络合成生成的目标草图配对,该网络是从几百对图像 - 草图对中训练得到的。
我们在真实机器人上对 RT-Sketch 进行了六种操作技能的评估,这些技能涉及在带有抽屉的台面上重新排列桌面物体,并且场景变化多样。这些技能包括将物体移近彼此、将罐子推倒、将罐子直立放置、关闭抽屉和打开抽屉。实验发现,在简单场景中,RT-Sketch 的表现与基于图像或语言条件的智能体相似。当语言指令存在歧义或有视觉干扰时,我们发现,根据人类标注者的评估,RT-Sketch 在空间精度和对齐得分上,比基于语言或目标图像条件的策略高出约 2 倍(见图 1(右))。此外,我们展示了 RT-Sketch 可以处理不同程度的输入特异性,从粗略的草图到更逼真的彩色绘图(见图 1(左))。
2. 相关工作
在本节中,我们将讨论以前基于传统目标表示的目标条件模仿学习方法。我们还将重点介绍图像 - 草图转换方面的研究进展,这些进展为机器人领域中尚未充分探索的目标条件设定方式开辟了新的可能性。
目标条件模仿学习
尽管名称相似,但我们基于所需场景的手绘草图来学习操作策略,与策略草图(policy sketches)(Andreas 等人,2017)的概念不同,策略草图是描述任务结构子组件的符号表示。强化学习(Reinforcement learning,RL)在我们的场景中不太适用,因为定义一个能够准确量化提供的场景草图与智能体在训练过程中访问的状态之间对齐程度的奖励目标并非易事。因此,我们专注于模仿学习(imitation learning,IL)技术,特别是目标条件设定的场景(Ding 等人,2019)。
目标条件模仿学习已被证明在策略必须能够处理同一任务的空间或语义变化的场景中非常有用(Argall 等人,2009)。这些场景包括多个物体的重新排列(Brohan 等人,2023b;a;Lynch 等人,2023;Manuelli 等人,2019)、配套装备(kitting)(Zakka 等人,2020)、将可变形物体折叠成不同形状(Ganapathi 等人,2021)以及在杂乱环境中搜索不同的目标物体(Danielczuk 等人,2019)。然而,这些方法往往要么依赖语言(Brohan 等人,2023b;Lynch 和 Sermanet,2020;Lynch 等人,2023;Karamcheti 等人,2023;Shao 等人,2020),要么依赖目标图像(Danielczuk 等人,2019)来指定变化。后续工作实现了对目标图像和语言(Jang 等人,2022)、提示内图像(Jiang 等人,2022)或图像嵌入(Manuelli 等人,2019;Zakka 等人,2020;Ganapathi 等人,2021)的多模态条件设定。然而,所有这些表示最终都以某种方式源自原始图像或语言,这忽略了更抽象的目标表示的潜力,例如草图,它既易于指定,又能保留空间感知。
除了在目标表示方面缺乏灵活性之外,目标条件模仿学习还容易过度拟合演示数据,并且在新场景中即使遇到轻微的分布变化也难以处理(Ross 等人,2011)。对于语言条件设定,分布变化可能包括语义或空间歧义、新颖的指令或措辞,以及未见过的物体(Jang 等人,2022;Brohan 等人,2023b)。目标图像条件设定同样容易受到分布外视觉变化的影响,例如光照或物体外观的变化,以及未见过的背景纹理(Burns 等人,2022;Belkhale 等人,2023)。相反,我们选择草图,它足够简洁,可以抵御视觉干扰,同时又具有足够的表现力,能够提供明确的目标。先前的工作,包括(Barber 等人,2010)和(Porfirio 等人,2023),已经展示了草图在导航和有限操作场景中优于纯语言的效用。然而,这些工作中探索的草图主要用于指导操作时关节层面的低级运动,或者为导航提供明确的方向线索。Cui 等人(2022)将草图与其他模态一起视为目标条件操作的输入,但没有明确训练基于草图的策略。因此,他们得出结论,在目标指定方面,场景图像比草图图像更好。我们的结果与之不同且互补,即训练以草图为输入的策略在受到视觉干扰时,在感知空间和语义对齐的李克特量表评分上,分别比基于场景图像条件的策略高出 1.63 倍和 1.5 倍。
图像 - 草图转换
近年来,草图在计算机视觉领域越来越受欢迎,可用于物体检测、场景理解(Chowdhury 等人,2023b)等应用,既可以单独使用,也可以与文本和图像结合使用。在考虑如何最好地将草图融入模仿学习时,一个重要的设计选择是在(1)测试时(即将草图转换为与预训练策略兼容的其他目标模态),还是(2)训练时(即明确训练基于草图的模仿学习策略)考虑草图。对于(1),可以首先将给定的草图转换为目标图像,然后运行一个普通的基于目标图像条件的策略。这可以基于现有的草图到图像转换框架,如 ControlNet(Zhang 和 Agrawala,2023)、生成对抗网络(GAN)风格的方法(Koley 等人,2023),或者文本到图像合成方法,如 InstructPix2Pix(Brooks 等人,2023)或 Stable Diffusion(Rombach 等人,2022)。虽然这些模型在最佳条件下可以生成逼真的结果,但它们不能同时处理图像生成和风格转换,这使得生成的图像不太可能与智能体观察到的风格匹配。同时,这些方法容易产生幻觉伪影,引入分布变化(Zhang 和 Agrawala,2023)。
基于这些挑战,我们选择(2),并考虑使用图像到草图转换技术,对预先录制的演示轨迹中的终端图像进行事后重标记。最近,Vinker 等人(2022b;a)提出了用于预测输入图像物体或场景的基于贝塞尔曲线的草图的网络。草图质量由基于 CLIP 的对齐度量进行监督。虽然这些方法生成的草图具有较高的视觉保真度,但测试时的优化需要几分钟的时间,这无法扩展到机器人学习数据集的典型规模(数百到数千条演示轨迹)。与此同时,条件生成对抗网络(conditional generative adversarial networks,cGANs),如 Pix2Pix(Isola 等人,2017),已被证明对可扩展的图像到图像转换很有用。与我们的工作最相关的是 Li 等人(2019)的工作,他们在一个包含 5K 对图像和线条画的大规模众包数据集上,训练了一个 Pix2Pix 模型,用于从给定图像生成草图。我们在这项工作的基础上,在机器人轨迹数据上对图像到草图模型进行微调,并展示了它在实现基于草图的下游操作方面的效用。
3. 基于草图的条件模仿学习
在本节中,我们将首先介绍学习基于草图的条件策略这一问题。然后讨论训练一个端到端从草图到动作的模仿学习智能体的方法。首先,在 3.1 节中,我们将讨论辅助图像到草图转换网络的实例化,该网络可以从参考图像自动生成草图。在 3.2 节中,我们将讨论如何使用这样的模型,用合成生成的目标草图自动对现有的演示数据集进行事后重标记,并在这个数据集上训练基于草图的条件策略。
相关文章:
【论文阅读】RT-SKETCH: GOAL-CONDITIONED IMITATION LEARNING FROM HAND-DRAWN SKETCHES
RT-Sketch:基于手绘草图的目标条件模仿学习 摘要:在目标条件模仿学习(imitation learning,IL)中,自然语言和图像通常被用作目标表示。然而,自然语言可能存在歧义,图像则可能过于具体…...
【由浅入深认识Maven】第2部分 maven依赖管理与仓库机制
文章目录 第二篇:Maven依赖管理与仓库机制一、前言二、依赖管理基础1.依赖声明2. 依赖范围(Scope)3. 依赖冲突与排除 三、Maven的仓库机制1. 本地仓库2. 中央仓库3. 远程仓库 四、 版本管理策略1. 固定版本2. 版本范围 五、 总结 第二篇&…...
centos 安全配置基线
CentOS 是一个广泛使用的操作系统,为了确保系统的安全性,需要遵循一系列的安全基线。以下是详细的 CentOS 安全基线配置建议: 通过配置核查,CentOS操作系统未安装入侵防护软件,无法检测到对重要节点进行入侵的 解决方案: 安装入侵…...
备赛蓝桥杯之第十五届职业院校组省赛第一题:智能停车系统
提示:本篇文章仅仅是作者自己目前在备赛蓝桥杯中,自己学习与刷题的学习笔记,写的不好,欢迎大家批评与建议 由于个别题目代码量与题目量偏大,请大家自己去蓝桥杯官网【连接高校和企业 - 蓝桥云课】去寻找原题࿰…...
力扣 Hot 100 题解 (js版)更新ing
🚩哈希表 ✅ 1. 两数之和 Code: 暴力法 复杂度分析: 时间复杂度: ∗ O ( N 2 ) ∗ *O(N^2)* ∗O(N2)∗,其中 N 是数组中的元素数量。最坏情况下数组中任意两个数都要被匹配一次。空间复杂度:O(1)。 /…...
DeepSeek-R1:性能对标 OpenAI,开源助力 AI 生态发展
DeepSeek-R1:性能对标 OpenAI,开源助力 AI 生态发展 在人工智能领域,大模型的竞争一直备受关注。最近,DeepSeek 团队发布了 DeepSeek-R1 模型,并开源了模型权重,这一举动无疑为 AI 领域带来了新的活力。今…...
CY T 4 BB 5 CEB Q 1 A EE GS MCAL配置 - MCU组件
1、ResourceM 配置 选择芯片信号: 2、MCU 配置 2.1 General配置 1) McuDevErrorDetect: - 启用或禁用MCU驱动程序模块的开发错误通知功能。 - 注意:采用DET错误检测机制作为安全机制(故障检测)时,不能禁用开发错误检测。2) McuGetRamStateApi - enable/disable th…...
传输层协议TCP与UDP:深入解析与对比
传输层协议TCP与UDP:深入解析与对比 目录 传输层协议TCP与UDP:深入解析与对比引言1. 传输层协议概述2. TCP协议详解2.1 TCP的特点2.2 TCP的三次握手与四次挥手三次握手四次挥手 2.3 TCP的流量控制与拥塞控制2.4 TCP的可靠性机制 3. UDP协议详解3.1 UDP的…...
校园商铺管理系统设计与实现(代码+数据库+LW)
摘 要 信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全性,还是可操作性等各个方面来讲,遇到了互联网时代才发现能补上自…...
【JavaWeb学习Day13】
Tlias智能学习系统 需求: 部门管理:查询、新增、修改、删除 员工管理:查询、新增、修改、删除和文件上传 报表统计 登录认证 日志管理 班级、学员管理(实战内容) 部门管理: 01准备工作 开发规范-…...
springboot使用tomcat浅析
springboot使用tomcat浅析 关于外部tomcat maven pom配置 // 打包时jar包改为war包 <packaging>war</packaging>// 内嵌的tomcat的scope标签影响范围设置为provided,只在编译和测试时有效,打包时不带入 <dependency><groupId>…...
rust 自定义错误(十二)
错误定义: let file_content parse_file("test.txt");if let Err(e) file_content {println!("Error: {:?}", e);}let file_content parse_file2("test.txt");if let Err(e) file_content {match e {ParseFileError::File > …...
如何使用CRM数据分析优化销售和客户关系?
嘿,大家好!你有没有想过为什么有些公司在市场上如鱼得水,而另一些却在苦苦挣扎?答案可能就藏在他们的销售策略和客户关系管理(CRM)系统里。今天我们要聊的就是如何通过有效的 CRM 数据分析来提升你的销售额…...
导出地图为pdf文件
有时我们只是想创建能共享的pdf文件,而不是将地图打印出来,arcpy的ExportToPDF()函数可以实现该功能. 操作方法: 1.在arcmap中打开目标地图 2.导入arcpy.mapping模块 import arcpy.mapping as mapping 3.引用当前活动地图文档,把该引用赋值给变量 mxd mapping.MapDocumen…...
Qt 控件与布局管理
1. Qt 控件的父子继承关系 在 Qt 中,继承自 QWidget 的类,通常会在构造函数中接收一个 parent 参数。 这个参数用于指定当前空间的父控件,从而建立控件间的父子关系。 当一个控件被设置为另一控件的子控件时,它会自动成为该父控…...
电力场效应晶体管(电力 MOSFET),全控型器件
电力场效应晶体管(Power MOSFET)属于全控型器件是一种电压触发的电力电子器件,一种载流子导电(单极性器件)一个器件是由一个个小的mosfet组成以下是相关介绍: 工作原理(栅极电压控制漏极电流&a…...
一文讲解Java中的重载、重写及里氏替换原则
提到重载和重写,Java小白应该都不陌生,接下来就通过这篇文章来一起回顾复习下吧! 重载和重写有什么区别呢? 如果一个类有多个名字相同但参数不同的方法,我们通常称这些方法为方法重载Overload。如果方法的功能是一样…...
StarRocks常用命令
目录 1、StarRocks 集群管理&配置命令 2、StarRocks 常用操作命令 3、StarRocks 数据导入和导出 1、StarRocks 集群管理&配置命令 查询 FE 节点信息 SHOW frontends; SHOW PROC /frontends; mysql -h192.168.1.250 -P9030 -uroot -p -e "SHOW PROC /dbs;"…...
Pandas基础02(DataFrame创建/索引/切片/属性/方法/层次化索引)
DataFrame数据结构 DataFrame 是一个二维表格的数据结构,类似于数据库中的表格或 Excel 工作表。它由多个 Series 组成,每个 Series 共享相同的索引。DataFrame 可以看作是具有列名和行索引的二维数组。设计初衷是将Series的使用场景从一维拓展到多维。…...
Meta-CoT:通过元链式思考增强大型语言模型的推理能力
大型语言模型(LLMs)在处理复杂推理任务时面临挑战,这突显了其在模拟人类认知中的不足。尽管 LLMs 擅长生成连贯文本和解决简单问题,但在需要逻辑推理、迭代方法和结果验证的复杂任务(如高级数学问题和抽象问题解决&…...
【时时三省】(C语言基础)二进制输入输出
山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 二进制输入 用fread可以读取fwrite输入的内容 字符串以文本的形式写进去的时候,和以二进制写进去的内容是一样的 整数和浮点型以二进制写进去是不一样的 二进制输出 fwrite 字…...
【go语言】数组和切片
一、数组 1.1 什么是数组 数组是一组数:数组需要是相同类型的数据的集合;数组是需要定义大小的;数组一旦定义了大小是不可以改变的。 1.2 数组的声明 数组和其他变量定义没有什么区别,唯一的就是这个是一组数,需要给…...
10.片元
**片元(Fragment)**是渲染管线中的一个重要概念,可以理解为“潜在的像素”。用通俗易懂的方式来解释: 通俗解释:片元就像候选的颜料点 想象你是一个画家,正在画一幅画: 片元是候选的颜料点&…...
SQL-leetcode—1179. 重新格式化部门表
1179. 重新格式化部门表 表 Department: ---------------------- | Column Name | Type | ---------------------- | id | int | | revenue | int | | month | varchar | ---------------------- 在 SQL 中,(id, month) 是表的联合主键。 这个表格有关…...
k8s简介,k8s环境搭建
目录 K8s简介环境搭建和准备工作修改主机名(所有节点)配置静态IP(所有节点)关闭防火墙和seLinux,清除iptables规则(所有节点)关闭交换分区(所有节点)修改/etc/hosts文件&…...
Docker常用知识点问题
1.dockerfile基础命令及作用 —copy和add区别 —为什么要指定workdir —expose作用,能不能不用,不用会导致什么情况? —env,不用怎么打镜像 —from 2.dockerfile编写规范 —jdk版本 —依赖问题 —shell指令引用 —字体和时区配置 …...
基于微信小程序的网上订餐管理系统
作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…...
Java使用FFM API调用SDL
首发于Enaium的个人博客 首先我们需要创建一个Gradle项目,之后设置项目的JDK版本,设置为22及以上版本。 plugins {kotlin("jvm") version "2.1.0" }group "cn.enaium" version "1.0-SNAPSHOT"repositories {…...
java入门基础笔记语法篇(3)
一、 注释 什么是注释 注释定义:注释是写在程序中对代码进行解释说明的文字,方便自己和他人查看以理解程序。 Java注释的三种写法: 单行注释:以“//”开头,注释内容只能写一行。多行注释:以“/*”开头&…...
【数据结构】深入解析:构建父子节点树形数据结构并返回前端
树形数据结构列表 一、前言二、测试数据生成三、树形代码3.1、获取根节点3.2、遍历根节点,递归获取所有子节点3.3、排序3.4、完整代码 一、前言 返回前端VO对象中,有列情况列表展示需要带树形结构,例如基于RBAC权限模型中的菜单返回…...
