机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型
首先解释这篇工作名称Palm-E,发表时间为2023.03,其中的Palm是谷歌内部在2022.04开发的大语言模型,功能类似ChatGPT,只是由于各种原因没有那样火起来,E是Embodied的首字母,翻译过来就是具身多模态大语言模型大模型,我们一般习惯将其称为具身多模态大模型。
何为具身?这个词听起来非常陌生,简单说就是AI+agent(机器人是其中一种agent)的结合,强调的的agent通过与环境互动来获取智能,类似人类获得智能的范式,博主将在之后的博客里做专门篇幅讲解,欢迎大家继续关注,下面开始来详细拆解这篇论文。
Palm-E两大任务:视觉问答(VQA)和具身任务规划
Palm-E用统一的网络架构和训练方式进行多任务,主要包括视觉问答(VQA)和具身任务规划。
具身任务规划
该任务要求大模型能理解人类的语言和意图,还需要机器人观察和操作环境中的物体,以及规划一系列的子目标和动作。其输入是多模态的输入(如文本、图像、触觉信息以及机器人的3D空间状态等),输出可被机器人逐步执行的任务步骤,比如当我们让其去抽屉里拿薯片,Palm-e会输出如下子任务步骤,而后机器人利用其它模块(我们称之为Policy,本工作用了RT1和LAVA这两个Policy来执行这些步骤skill)来逐步执行之:
step1:导航到抽屉;
step2:打开抽屉;
step3:取出薯片;
step4:关闭抽屉;
step5:导航至主人处;
step6:将薯片交给主人;
VQA
该任务与agent无关,用户输入图片和想问的问题,大模型输出对问题的文字回复。
贡献
- 提出和演示一个通用的,可迁移学习的,智能决策的多模态大模型;
- 训练方面,引入先进的结构思想,使得可以对多模态输入数据进行符号表征,用于训练推理,如neural scene representations ,entity-labeling multimodal tokens.
- 除了具身推理(embodied reasoner), PaLM-E也是一个视觉语言方面的通才;
- 演示了增大模型的规模可以极大地提升多模态大模型性能,特别是减少灾难性遗忘(catastrophic forgetting)
Palm-E网络结构
整个网络的结构如上所示,多模态数据(图像,文本,物体状态等)经过特定的编码后直接输送到大语言模型,借助大语言模型的能力输出文字,这些文字可以是对问题的回复,也可以是对任务的规划。(看上去大家都应该学fei了)
训练与实验
文章大篇幅介绍了相关实验,实验数据集如下,主要包括网络VQA数据和机器人轨迹数据。
实验通过消融对比了不同大语言模型规模和训练方式对任务的影响。
VQA任务
VQA不是本工作的核心,但附带也能进行此类认为,因此也做了相关测评,该实验对比了不同规模模型和训练方式对该任务的影响,结果如下:
纯语言任务
该实验对比了不同规模模型对纯语言问答任务的影响。
机器人具身规划任务
这一部分是本工作的核心,验证了大语言模型规模和训练方式对该任务的影响,分别在TAMP(纯规划),Language table(机械臂桌面push任务)和机器人移动操作任务(室内移动操作任务)上进行对比。
TAMP(Task and Motion Planning)任务
Language-Table
在该任务中,Palm-E规划任务,将高层次的人类语言转化成多个机器人可执行步骤,然后调用LAVA这个工作执行,整个工作流程如下所示:
一些实验结果如下所示:
移动操作任务
可供性评估(Affordance prediction)和失败检测
Affordance是指根据图片判断某个子任务skill可否被成功执行,失败检测是指根据观测,判断任务是否被成功完成,两者都是机器人闭环任务规划的一大重要环节,对比结果如下:
长水平规划(Long-horizon)
实验摘要和讨论
通用性与特定任务模型–迁移性(Generalist vs specialist models – transfer)
利用多任务数据训练,最终可对单个任务起促进作用。(但这个实验博主觉得不太严密,缺乏一个full only robot data实验)
数据有效性(Data efficiency)
机器人的数据很难获得,但通过大量网络数据的训练,Palm-E也可在少量机器人数据上训练出一个不错的用于任务规划的模型,体现了一定的迁移性,OSRT的结果展示了另一种数据有效性的示例–使用集合输入表征。
保存纯语言能力
论文介绍了两种方法:
- 训练过程中freeze住LLM模型,但这可能会使得在机器人任务中很失败;
- 使用足够大的LLM模型。
总结
我们提出通过将图像等多模态信息注入到具身语言模型中来构建具身多模态大语言模型。实验表明现成的最先进的视觉语言模型仅接受一般 VQA 和字幕任务的训练还不足以用于具身推理任务,也有近期的工作表明了其在可供性评估上的局限性,为了克服这些局限性,我们提出PaLM-E,一个单一模型,能够在模拟和现实世界中控制不同的机器人,同时
具备一般视觉语言任务能力。尤其是将新颖的神经场景表示 (即 OSRT)应用到Pla-E,使得即使没有大规模数据,该模型在机器人多任务中也特别有效。重要的是,我们也证明这种多模态训练带来多种迁移能力——将语言融入具身决策规划中,从而使机器人更高效地完成规划任务。尽管我们的结果表明冻结语言模型是可行的,使得通向通用具身多模式模型的道路同时完全保留语言能力,我们还提出了使用解冻模型的替代途径:增加语言模型的大小会显着减少灾难性遗忘。最大的模型,PaLM-E-562B,展示了强大的思维链能力和视觉图像任务能力。
个人思考
谷歌Palm-E的工作向我们展示了将大语言模型和多模态应用于机器人具身规划中,可以动态规划任务,同时展现了一定的迁移泛化性。但这个工作比较难以复现,模型易懂,但其中最大问题就在于它需要大量的数据,如同大多数其他AI工作一样,机器人具身大规模数据才是最大的瓶颈。
相关文章:

机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型
首先解释这篇工作名称Palm-E,发表时间为2023.03,其中的Palm是谷歌内部在2022.04开发的大语言模型,功能类似ChatGPT,只是由于各种原因没有那样火起来,E是Embodied的首字母,翻译过来就是具身多模态大语言模型…...
编程语言都是哪些人开发出来的?为什么都是国外较小国家的人
编程语言都是哪些人开发出来的? 编程语言的开发者通常是来自计算机科学、软件工程、数学、物理学等领域的专家、学者和工程师。这些开发者具备深厚的编程技能、算法知识、系统设计能力以及创新思维,他们致力于创造出能够解决特定问题或满足特定需求的编…...

【前端速通系列|第二篇】Vue3前置知识
文章目录 1.前言2.包管理工具npm2.1下载node.js2.2配置 npm 镜像源2.3 npm 常用命令 3.Vite构建工具4.Vue3组件化5.Vue3运行原理 1.前言 本系列文章旨在帮助大家快速上手前端开发。 2.包管理工具npm npm 是 node.js中进行 包管理 的工具. 类似于Java中的Maven。 2.1下载nod…...
ES6 Module 的语法(十二)
ES6(ECMAScript 2015)引入了模块(Modules)的概念,使得JavaScript代码可以更容易地组织和复用。 1. export 关键字 命名导出 (Named Exports) 你可以使用 export 关键字导出多个变量、函数或类。 // module.js export…...

Redis 主从复制,哨兵与集群
目录 一.redis主从复制 1.redis 主从复制架构 2.主从复制特点 3.主从复制的基本原理 4.命令行配置 5.实现主从复制 6.删除主从复制 7.主从复制故障恢复 8.主从复制完整过程 9.主从同步优化配置 二.哨兵模式(Sentinel) 1.主要组件和概念 2.哨…...

CV05_深度学习模块之间的缝合教学(1)
1.1 在哪里缝 测试文件?() 训练文件?() 模型文件?(√) 1.2 骨干网络与模块缝合 以Vision Transformer为例,模型文件里有很多类,我们只在最后…...

【密码学】公钥密码的基本概念
在先前我写的密码学体制文章中谈到,现代密码学分为两大体制,介绍了一些有关对称密码体制诸如流密码和分组密码的内容。本文的主要内容则切换到公钥密码体制(又称非对称密码体制),简述了公钥密码体制的基本思想和应用方…...

【前端项目笔记】10 项目优化上线
项目优化上线 目标:优化Vue项目部署Vue项目(上线提供使用) 项目优化 项目优化策略: 生成打包报告:根据生成的报告发现问题并解决第三方库启用CDN:提高首屏页面的加载效率Element-UI组件按需加载路由懒加…...

Qt基础控件总结—多页面切换(QStackWidget类、QTabBar类和QTabWidget类)
QStackedWidget 类 QStackedWidget 类是在 QStackedLayout 之上构造的一个便利的部件,其使用方法与步骤和 QStackedLayout 是一样的。QStackedWidget 类的成员函数与 QStackedLayout 类也基本上是一致的,使用该类就和使用 QStackedLayout 一样。 使用该类可以参考QStackedL…...

团队融合与业务突破
结束了在上海久事集团下属公司的《团队融合与业务突破》课程,不仅探讨了团队领导力的关键技巧,更重要的是,我们从业务协同的视角,在跨团队中如何达成了共识,结合系统思考的相关内容,让大家看到跨部门冲突的…...

mybatilsplaus 常用注解
官网地址 baomidou注解配置...
vue引入sm-crypto通过sm4对文件进行加解密,用户输入密码
对文件加密并保存: import { sm4 } from sm-cryptofetch("你的文件地址") .then(response > response.blob()) .then(byteStream > {const reader2 new FileReader();reader2.onload function(event) {const arrayBuffer event.target.result;l…...

vue3实现无缝滚动列表(大屏数据轮播场景)
实现思路 vue3目前可以通过第三方组件来实现这个需求。 下面介绍一下这个第三方滚动组件--vue3-scroll-seamless vue3-scroll-seamless 是一个用于 Vue 3 的插件,用于实现无缝滚动的组件。它可以让内容在水平或垂直方向上无缝滚动,适用于展示轮播图、新…...

element ui ts table重置排序
#日常# 今天带的实习生,在遇到开发过程中,遇到了element ui table 每次查询的时候都需要重置排序方式,而且多个排序是由前端排序。 <el-table :data"tableData" ref"restTable"> </<el-table> <script…...
python热门面试题三
面试题1:Python中的列表推导式是什么?请给出一个例子。 回答: 列表推导式(List Comprehension)是Python中一种非常强大且简洁的构建列表的工具。它允许你通过一个表达式来创建一个新的列表,这个表达式定义…...

sql monitoring 长SQL ASH AWR 都没有 未Commit or export to csv
Duration 4小时, Database Time 22.5, Session Inactive, 1.未Commit原因, 2.慢慢导出成csv文件? How is v$session status INACTIVE and v$sql_monitor status EXECUTING concurrently 2641811 Posts: 8 Jan 11, 2016 6:47P…...

算法学习day12(动态规划)
一、不同的二叉搜索树 二叉搜索树的性质:父节点比左边的孩子节点都大;比右边的孩子节点都小; 由图片可知,dp[3]是可以由dp[2]和dp[1]得出来的。(二叉搜索树的种类和根节点的val有关) 当val为1时,左边是一定没有节点的…...
Vue 3 <script setup> 使用v-bind(或简写为 :)来动态绑定图片的 src 属性
<img :src"images[currentIndex]" > <template> <div> <!-- 使用 v-bind 或简写为 : 来动态绑定图片的 src 属性 --> <img :src"images[currentIndex]" alt"Dynamic Image" style"width: 100px; height: a…...

前端Vue自定义签到获取积分弹框组件设计与实现
摘要 随着前端技术的不断演进,开发的复杂性日益凸显。传统的整体式开发方式在面临功能迭代和修改时,常常牵一发而动全身,导致开发效率低下和维护成本高昂。组件化开发作为一种解决方案,通过实现模块的独立开发和维护,…...
闲置服务器废物利用_离线下载_私人影院_个人博客_私人云笔记_文件服务器
背景 家里有台旧windows笔记本,PentiumB940 2.00GHz的cpu 4G内存,512G硬盘 放在家里吃灰很久,最近几个月折腾折腾,装了linux操作系统,换了一个2T的硬盘 这里记录下折腾的过程,有需要的可以参考 开通公网IP 打电话给运营商一般都可…...

【kafka】Golang实现分布式Masscan任务调度系统
要求: 输出两个程序,一个命令行程序(命令行参数用flag)和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽,然后将消息推送到kafka里面。 服务端程序: 从kafka消费者接收…...
R语言AI模型部署方案:精准离线运行详解
R语言AI模型部署方案:精准离线运行详解 一、项目概述 本文将构建一个完整的R语言AI部署解决方案,实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点: 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...
SciencePlots——绘制论文中的图片
文章目录 安装一、风格二、1 资源 安装 # 安装最新版 pip install githttps://github.com/garrettj403/SciencePlots.git# 安装稳定版 pip install SciencePlots一、风格 简单好用的深度学习论文绘图专用工具包–Science Plot 二、 1 资源 论文绘图神器来了:一行…...
在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能
下面我将详细介绍如何使用HarmonyOS SDK在HarmonyOS 5中实现类似抖音的点赞功能,包括动画效果、数据同步和交互优化。 1. 基础点赞功能实现 1.1 创建数据模型 // VideoModel.ets export class VideoModel {id: string "";title: string ""…...

基于ASP.NET+ SQL Server实现(Web)医院信息管理系统
医院信息管理系统 1. 课程设计内容 在 visual studio 2017 平台上,开发一个“医院信息管理系统”Web 程序。 2. 课程设计目的 综合运用 c#.net 知识,在 vs 2017 平台上,进行 ASP.NET 应用程序和简易网站的开发;初步熟悉开发一…...

【入坑系列】TiDB 强制索引在不同库下不生效问题
文章目录 背景SQL 优化情况线上SQL运行情况分析怀疑1:执行计划绑定问题?尝试:SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景 项目中使用 TiDB 数据库,并对 SQL 进行优化了,添加了强制索引。 UAT 环境已经生效,但 PROD 环境强制索…...
Linux简单的操作
ls ls 查看当前目录 ll 查看详细内容 ls -a 查看所有的内容 ls --help 查看方法文档 pwd pwd 查看当前路径 cd cd 转路径 cd .. 转上一级路径 cd 名 转换路径 …...

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?
论文网址:pdf 英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用 目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2…...

sipsak:SIP瑞士军刀!全参数详细教程!Kali Linux教程!
简介 sipsak 是一个面向会话初始协议 (SIP) 应用程序开发人员和管理员的小型命令行工具。它可以用于对 SIP 应用程序和设备进行一些简单的测试。 sipsak 是一款 SIP 压力和诊断实用程序。它通过 sip-uri 向服务器发送 SIP 请求,并检查收到的响应。它以以下模式之一…...

Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战
说明:这是一个机器学习实战项目(附带数据代码文档),如需数据代码文档可以直接到文章最后关注获取。 1.项目背景 在金融市场日益复杂和波动加剧的背景下,风险管理成为金融机构和个人投资者关注的核心议题之一。VaR&…...