机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型
首先解释这篇工作名称Palm-E,发表时间为2023.03,其中的Palm是谷歌内部在2022.04开发的大语言模型,功能类似ChatGPT,只是由于各种原因没有那样火起来,E是Embodied的首字母,翻译过来就是具身多模态大语言模型大模型,我们一般习惯将其称为具身多模态大模型。
何为具身?这个词听起来非常陌生,简单说就是AI+agent(机器人是其中一种agent)的结合,强调的的agent通过与环境互动来获取智能,类似人类获得智能的范式,博主将在之后的博客里做专门篇幅讲解,欢迎大家继续关注,下面开始来详细拆解这篇论文。
Palm-E两大任务:视觉问答(VQA)和具身任务规划
Palm-E用统一的网络架构和训练方式进行多任务,主要包括视觉问答(VQA)和具身任务规划。
具身任务规划
该任务要求大模型能理解人类的语言和意图,还需要机器人观察和操作环境中的物体,以及规划一系列的子目标和动作。其输入是多模态的输入(如文本、图像、触觉信息以及机器人的3D空间状态等),输出可被机器人逐步执行的任务步骤,比如当我们让其去抽屉里拿薯片,Palm-e会输出如下子任务步骤,而后机器人利用其它模块(我们称之为Policy,本工作用了RT1和LAVA这两个Policy来执行这些步骤skill)来逐步执行之:
step1:导航到抽屉;
step2:打开抽屉;
step3:取出薯片;
step4:关闭抽屉;
step5:导航至主人处;
step6:将薯片交给主人;
VQA
该任务与agent无关,用户输入图片和想问的问题,大模型输出对问题的文字回复。
贡献
- 提出和演示一个通用的,可迁移学习的,智能决策的多模态大模型;
- 训练方面,引入先进的结构思想,使得可以对多模态输入数据进行符号表征,用于训练推理,如neural scene representations ,entity-labeling multimodal tokens.
- 除了具身推理(embodied reasoner), PaLM-E也是一个视觉语言方面的通才;
- 演示了增大模型的规模可以极大地提升多模态大模型性能,特别是减少灾难性遗忘(catastrophic forgetting)
Palm-E网络结构
整个网络的结构如上所示,多模态数据(图像,文本,物体状态等)经过特定的编码后直接输送到大语言模型,借助大语言模型的能力输出文字,这些文字可以是对问题的回复,也可以是对任务的规划。(看上去大家都应该学fei了)
训练与实验
文章大篇幅介绍了相关实验,实验数据集如下,主要包括网络VQA数据和机器人轨迹数据。
实验通过消融对比了不同大语言模型规模和训练方式对任务的影响。
VQA任务
VQA不是本工作的核心,但附带也能进行此类认为,因此也做了相关测评,该实验对比了不同规模模型和训练方式对该任务的影响,结果如下:
纯语言任务
该实验对比了不同规模模型对纯语言问答任务的影响。
机器人具身规划任务
这一部分是本工作的核心,验证了大语言模型规模和训练方式对该任务的影响,分别在TAMP(纯规划),Language table(机械臂桌面push任务)和机器人移动操作任务(室内移动操作任务)上进行对比。
TAMP(Task and Motion Planning)任务
Language-Table
在该任务中,Palm-E规划任务,将高层次的人类语言转化成多个机器人可执行步骤,然后调用LAVA这个工作执行,整个工作流程如下所示:
一些实验结果如下所示:
移动操作任务
可供性评估(Affordance prediction)和失败检测
Affordance是指根据图片判断某个子任务skill可否被成功执行,失败检测是指根据观测,判断任务是否被成功完成,两者都是机器人闭环任务规划的一大重要环节,对比结果如下:
长水平规划(Long-horizon)
实验摘要和讨论
通用性与特定任务模型–迁移性(Generalist vs specialist models – transfer)
利用多任务数据训练,最终可对单个任务起促进作用。(但这个实验博主觉得不太严密,缺乏一个full only robot data实验)
数据有效性(Data efficiency)
机器人的数据很难获得,但通过大量网络数据的训练,Palm-E也可在少量机器人数据上训练出一个不错的用于任务规划的模型,体现了一定的迁移性,OSRT的结果展示了另一种数据有效性的示例–使用集合输入表征。
保存纯语言能力
论文介绍了两种方法:
- 训练过程中freeze住LLM模型,但这可能会使得在机器人任务中很失败;
- 使用足够大的LLM模型。
总结
我们提出通过将图像等多模态信息注入到具身语言模型中来构建具身多模态大语言模型。实验表明现成的最先进的视觉语言模型仅接受一般 VQA 和字幕任务的训练还不足以用于具身推理任务,也有近期的工作表明了其在可供性评估上的局限性,为了克服这些局限性,我们提出PaLM-E,一个单一模型,能够在模拟和现实世界中控制不同的机器人,同时
具备一般视觉语言任务能力。尤其是将新颖的神经场景表示 (即 OSRT)应用到Pla-E,使得即使没有大规模数据,该模型在机器人多任务中也特别有效。重要的是,我们也证明这种多模态训练带来多种迁移能力——将语言融入具身决策规划中,从而使机器人更高效地完成规划任务。尽管我们的结果表明冻结语言模型是可行的,使得通向通用具身多模式模型的道路同时完全保留语言能力,我们还提出了使用解冻模型的替代途径:增加语言模型的大小会显着减少灾难性遗忘。最大的模型,PaLM-E-562B,展示了强大的思维链能力和视觉图像任务能力。
个人思考
谷歌Palm-E的工作向我们展示了将大语言模型和多模态应用于机器人具身规划中,可以动态规划任务,同时展现了一定的迁移泛化性。但这个工作比较难以复现,模型易懂,但其中最大问题就在于它需要大量的数据,如同大多数其他AI工作一样,机器人具身大规模数据才是最大的瓶颈。
相关文章:

机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型
首先解释这篇工作名称Palm-E,发表时间为2023.03,其中的Palm是谷歌内部在2022.04开发的大语言模型,功能类似ChatGPT,只是由于各种原因没有那样火起来,E是Embodied的首字母,翻译过来就是具身多模态大语言模型…...

编程语言都是哪些人开发出来的?为什么都是国外较小国家的人
编程语言都是哪些人开发出来的? 编程语言的开发者通常是来自计算机科学、软件工程、数学、物理学等领域的专家、学者和工程师。这些开发者具备深厚的编程技能、算法知识、系统设计能力以及创新思维,他们致力于创造出能够解决特定问题或满足特定需求的编…...

【前端速通系列|第二篇】Vue3前置知识
文章目录 1.前言2.包管理工具npm2.1下载node.js2.2配置 npm 镜像源2.3 npm 常用命令 3.Vite构建工具4.Vue3组件化5.Vue3运行原理 1.前言 本系列文章旨在帮助大家快速上手前端开发。 2.包管理工具npm npm 是 node.js中进行 包管理 的工具. 类似于Java中的Maven。 2.1下载nod…...

ES6 Module 的语法(十二)
ES6(ECMAScript 2015)引入了模块(Modules)的概念,使得JavaScript代码可以更容易地组织和复用。 1. export 关键字 命名导出 (Named Exports) 你可以使用 export 关键字导出多个变量、函数或类。 // module.js export…...

Redis 主从复制,哨兵与集群
目录 一.redis主从复制 1.redis 主从复制架构 2.主从复制特点 3.主从复制的基本原理 4.命令行配置 5.实现主从复制 6.删除主从复制 7.主从复制故障恢复 8.主从复制完整过程 9.主从同步优化配置 二.哨兵模式(Sentinel) 1.主要组件和概念 2.哨…...

CV05_深度学习模块之间的缝合教学(1)
1.1 在哪里缝 测试文件?() 训练文件?() 模型文件?(√) 1.2 骨干网络与模块缝合 以Vision Transformer为例,模型文件里有很多类,我们只在最后…...

【密码学】公钥密码的基本概念
在先前我写的密码学体制文章中谈到,现代密码学分为两大体制,介绍了一些有关对称密码体制诸如流密码和分组密码的内容。本文的主要内容则切换到公钥密码体制(又称非对称密码体制),简述了公钥密码体制的基本思想和应用方…...

【前端项目笔记】10 项目优化上线
项目优化上线 目标:优化Vue项目部署Vue项目(上线提供使用) 项目优化 项目优化策略: 生成打包报告:根据生成的报告发现问题并解决第三方库启用CDN:提高首屏页面的加载效率Element-UI组件按需加载路由懒加…...

Qt基础控件总结—多页面切换(QStackWidget类、QTabBar类和QTabWidget类)
QStackedWidget 类 QStackedWidget 类是在 QStackedLayout 之上构造的一个便利的部件,其使用方法与步骤和 QStackedLayout 是一样的。QStackedWidget 类的成员函数与 QStackedLayout 类也基本上是一致的,使用该类就和使用 QStackedLayout 一样。 使用该类可以参考QStackedL…...

团队融合与业务突破
结束了在上海久事集团下属公司的《团队融合与业务突破》课程,不仅探讨了团队领导力的关键技巧,更重要的是,我们从业务协同的视角,在跨团队中如何达成了共识,结合系统思考的相关内容,让大家看到跨部门冲突的…...

mybatilsplaus 常用注解
官网地址 baomidou注解配置...

vue引入sm-crypto通过sm4对文件进行加解密,用户输入密码
对文件加密并保存: import { sm4 } from sm-cryptofetch("你的文件地址") .then(response > response.blob()) .then(byteStream > {const reader2 new FileReader();reader2.onload function(event) {const arrayBuffer event.target.result;l…...

vue3实现无缝滚动列表(大屏数据轮播场景)
实现思路 vue3目前可以通过第三方组件来实现这个需求。 下面介绍一下这个第三方滚动组件--vue3-scroll-seamless vue3-scroll-seamless 是一个用于 Vue 3 的插件,用于实现无缝滚动的组件。它可以让内容在水平或垂直方向上无缝滚动,适用于展示轮播图、新…...

element ui ts table重置排序
#日常# 今天带的实习生,在遇到开发过程中,遇到了element ui table 每次查询的时候都需要重置排序方式,而且多个排序是由前端排序。 <el-table :data"tableData" ref"restTable"> </<el-table> <script…...

python热门面试题三
面试题1:Python中的列表推导式是什么?请给出一个例子。 回答: 列表推导式(List Comprehension)是Python中一种非常强大且简洁的构建列表的工具。它允许你通过一个表达式来创建一个新的列表,这个表达式定义…...

sql monitoring 长SQL ASH AWR 都没有 未Commit or export to csv
Duration 4小时, Database Time 22.5, Session Inactive, 1.未Commit原因, 2.慢慢导出成csv文件? How is v$session status INACTIVE and v$sql_monitor status EXECUTING concurrently 2641811 Posts: 8 Jan 11, 2016 6:47P…...

算法学习day12(动态规划)
一、不同的二叉搜索树 二叉搜索树的性质:父节点比左边的孩子节点都大;比右边的孩子节点都小; 由图片可知,dp[3]是可以由dp[2]和dp[1]得出来的。(二叉搜索树的种类和根节点的val有关) 当val为1时,左边是一定没有节点的…...

Vue 3 <script setup> 使用v-bind(或简写为 :)来动态绑定图片的 src 属性
<img :src"images[currentIndex]" > <template> <div> <!-- 使用 v-bind 或简写为 : 来动态绑定图片的 src 属性 --> <img :src"images[currentIndex]" alt"Dynamic Image" style"width: 100px; height: a…...

前端Vue自定义签到获取积分弹框组件设计与实现
摘要 随着前端技术的不断演进,开发的复杂性日益凸显。传统的整体式开发方式在面临功能迭代和修改时,常常牵一发而动全身,导致开发效率低下和维护成本高昂。组件化开发作为一种解决方案,通过实现模块的独立开发和维护,…...

闲置服务器废物利用_离线下载_私人影院_个人博客_私人云笔记_文件服务器
背景 家里有台旧windows笔记本,PentiumB940 2.00GHz的cpu 4G内存,512G硬盘 放在家里吃灰很久,最近几个月折腾折腾,装了linux操作系统,换了一个2T的硬盘 这里记录下折腾的过程,有需要的可以参考 开通公网IP 打电话给运营商一般都可…...

【Python学习笔记】调参工具Optuna + 泰坦尼克号案例
【Python学习笔记】调参工具Optuna&泰坦尼克号案例 背景前摇:(省流可不看) 最近找了份AI标注师的实习,但是全程都在做文本相关的活,本质上还是拧螺丝,就想着学点调参、部署什么的技能增加一些竞争力&a…...

GPT带我学-设计模式13-策略模式
概述 策略模式 例子 你可以创建一个策略工厂(Strategy Factory)来根据传入的 orgId 动态地选择合适的策略。以下是实现示例: 首先,定义策略接口和具体策略类: public interface CardPathStrategy {String generat…...

【Linux】Ubuntu配置JDK环境、MySQL环境
一、 Ubuntu配置JDK环境 在Ubuntu系统中安装JDK 8可以通过以下步骤进行: 打开终端。更新包列表: sudo apt update安装OpenJDK 8: sudo apt install openjdk-8-jdk验证安装是否成功: java -version注:如果系统中安…...

【ElasticSearch】ES 5.6.15 向量插件支持
参考 : https://github.com/lior-k/fast-elasticsearch-vector-scoring 下载插件 安装插件 插件目录: elasticsearch/plugins, 安装后的目录如下 plugins└── vector├── elasticsearch-binary-vector-scoring-5.6.9.jar└── plugin-descriptor.properties修…...

Kafka 高并发设计之数据压缩与批量消息处理
《Kafka 高性能架构设计 7 大秘诀》专栏第 6 章。 压缩,是一种用时间换空间的 trade-off 思想,用 CPU 的时间去换磁盘或者网络 I/O 传输量,用较小的 CPU 开销来换取更具性价比的磁盘占用和更少的网络 I/O 传输。 Kafka 是一个高吞吐量、可扩展…...

设计模式使用场景实现示例及优缺点(行为型模式——模板方法模式)
模板方法模式(Template Method Pattern) 模板方法模式(Template Method Pattern)是一种行为设计模式,它定义了一个操作中的算法的骨架,将算法的一些步骤延迟到子类中。这样可以在不改变算法的结构的前提下…...

ETL数据集成丨主流ETL工具(ETLCloud、DataX、Kettle)数据传输性能大PK
目前市面上的ETL工具众多,为了方便广大企业用户在选择ETL工具时有一个更直观性能方面的参考值,我们选取了目前市面上最流行的三款ETL工具(ETLCloud、DataX、Kettle)来作为本次性能传输的代表,虽然性能测试数据有很多相…...

eNSP:防火墙设置模拟公司配置(二)
实验拓扑: 实验要求(二): 7: 办公设备可以通过电信连接和移动上网(多对多NAT,并且需要保留一个公网IP) 8: 分公司通过公网移动电信,访问DMZ的http服务器 9&a…...

vue3 两个组件之间传值
Props 父组件可以通过 props 将数据传递给子组件。这是最常见的组件间通信方式 <!-- 父组件 --><template><ChildComponent :message"parentMessage" /></template><script>import ChildComponent from ./ChildComponent.vue;export…...

基于matlab的深度学习案例及基础知识专栏前言
专栏简介 内容涵盖深度学习基础知识、深度学习典型案例、深度学习工程文件、信号处理等相关内容,博客由基于matlab的深度学习案例、matlab基础知识、matlab图像基础知识和matlab信号处理基础知识四部分组成。 一、 基于matlab的深度学习案例 1.1、matlab:基于模…...