CVPR-2024 | 具身导航模型大一统!NaviLLM:学习迈向具身导航的通用模型

-
作者:Duo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong, Liwei Wang
-
单位:香港中文大学,上海人工智能实验室,感知与交互智能中心
-
论文链接:Towards Learning a Generalist Model for Embodied Navigation(https://openaccess.thecvf.com/content/CVPR2024/papers/Zheng_Towards_Learning_a_Generalist_Model_for_Embodied_Navigation_CVPR_2024_paper.pdf)
-
代码链接:https://github.com/LaVi-Lab/NaviLLM
主要贡献
-
论文提出了首个用于具身导航的通用模型NaviLLM,能够执行多种具身导航任务。
-
通过引入基于Schema的指令,将各种任务统一为生成问题,从而整合了来自不同数据集的数据源。
-
在CVDN基准上,NaviLLM相较于之前的最先进方法取得了29%的进步。
-
模型在具身问答和3D字幕生成等未见任务上同样表现出色。
研究背景

研究问题
具身导航要求智能体根据指令在三维环境中进行导航,并提供基于用户查询的文本响应。
本文主要解决的问题是如何构建一个能够与物理世界互动的通用智能体。
研究难点
该问题的研究难点包括:
-
以往的研究主要集中在特定任务的智能体上,缺乏对未见场景的泛化能力;
-
如何将各种任务统一到单个模型中也是一个挑战。
相关工作
该问题的研究相关工作有:
-
利用预训练技术、数据增强和记忆结构等方法的各种模型,但这些模型在特定任务上表现出色,但在跨任务泛化方面存在不足。
-
最近的研究表明,大语言模型(LLMs)在多个领域展示了显著的能力,但将其应用于具身导航任务仍然是一个未充分探索的领域。
研究方法
论文提出了NaviLLM,第一个用于具身导航的通用模型。

场景编码
使用视觉变换器(ViT)从图像中提取视觉特征,并通过多视图融合过程将这些特征整合为场景表示。公式如下:
其中, 是第个视角的视觉特征, 是第个视角的场景表示。
基于Schema的指令
为了将所有任务学习转化为生成问题,论文引入了基于Schema的指令。Schema包括任务、观察和历史三个部分。例如,
-
任务的Schema可以是导航指令,
-
观察的Schema可以是场景表示,
-
历史的Schema可以是过去的视觉观测。
多任务学习
将具身导航的关键任务(如视觉语言导航、对象定位、轨迹总结、3D问答和具身问答)转化为生成问题,并使用统一的交叉熵目标进行优化。每个任务的Schema具体如下:
-
视觉语言导航:任务Schema为导航指令,观察Schema为所有可达视角的场景表示,输出提示为选择移动方向。
-
对象定位:任务Schema为对象定位命令,观察Schema为当前位置的所有可见对象的表示,输出提示为选择对象。
-
轨迹总结:任务Schema为总结风格,观察Schema为历史表示和场景表示,输出提示为总结轨迹。
-
3D问答:任务Schema为室内场景的问题,观察Schema为不同位置的场景表示,输出提示为基于场景回答问题。
-
具身问答:先执行导航任务,再回答问题。
实验设计
数据收集
训练数据来自多个具身导航任务的数据集,包括CVDN、SOON、R2R、REVERIE、ScanQA和LLaVA-23k。还使用了R2R和REVERIE数据的增强数据。
实现细节
模型采用了两阶段训练策略,预训练阶段使用教师强制训练,多任务微调阶段交替使用教师强制和学生强制。
优化器为Adam,学习率为3e-5,预训练阶段训练10000步,多任务微调阶段训练5000步,批量大小为64。
评估指标
-
对于视觉语言导航任务,使用成功率(SR)、路径长度加权成功率(SPL)、Oracle成功率(OSR)、轨迹长度(TL)和目标进度(GP)作为评估指标;
-
对于3D问答任务,使用精确匹配(EM)、METEOR、ROUGE-L、CIDER和BLEU-4作为评估指标;
-
对于具身问答任务,使用成功率(SR)和路径长度加权成功率(SPL)作为评估指标。
结果与分析
与现有方法的比较


NaviLLM在CVDN、SOON和ScanQA数据集上取得了最新的结果,并在R2R和REVERIE数据集上表现与最新方法相当。特别是在CVDN数据集上,NaviLLM的目标进度(GP)显著提高了29%。
未见任务的泛化能力
在排除CVDN、SOON和REVERIE数据集的训练数据后,NaviLLM在所有任务上均优于基线方法,特别是在SOON数据集上的成功率(SR)提高了136%。此外,NaviLLM在未见任务(如具身问答和3D字幕生成)上也展示了令人印象深刻的能力。
消融实验

多任务学习增强了所有任务的性能,随机初始化的LLM显著降低了性能,而预训练在增强数据上的收益有限。
可视化

-
轨迹总结:在图(a)中,展示了模型如何根据给定的轨迹生成准确的逐步指令。这些指令可以用于数据增强。
-
对象导航:图(b)展示了模型在未见过的场景中进行对象导航的能力。
-
EQA:图(c)展示了模型在EQA任务中的表现,即模型能够先执行导航过程,然后到达目标位置后回答问题。
-
3D字幕生成:图(d)展示了模型在3D字幕生成任务中的能力,特别是模型能够根据指令生成不同粒度的字幕。
总结
论文提出了NaviLLM,第一个用于具身导航的通用模型。
通过引入基于Schema的指令和多任务学习,NaviLLM成功地将各种任务统一到一个模型中,并在多个基准数据集上取得了最新的结果。
此外,NaviLLM在未见任务上也展示了强大的泛化能力。

相关文章:
CVPR-2024 | 具身导航模型大一统!NaviLLM:学习迈向具身导航的通用模型
作者:Duo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong, Liwei Wang 单位:香港中文大学,上海人工智能实验室,感知与交互智能中心 论文链接:Towards Learning a Generalist Model for Embodied Navigation(…...
CAN201 Introduction to Networking(计算机网络)Pt.2 传输层
文章目录 3. Transport Layer(传输层)3.1 Multiplexing and demultiplexing(多路复用和多路分解)3.2 Connectionless transport:UDP3.3 Principles of reliable data transfer3.4 Pipelined communication3.5 TCP: con…...
git仓库多人协作新建分支 合并到主分支流程详解
在多人协作的 Git 仓库中,新建分支并最终将其合并到主分支的流程是为了实现团队协作、提高代码的可管理性、确保代码质量,并且避免多人同时修改同一部分代码导致冲突。以下是这个流程的目的和具体步骤。 目录 1. 在 master 上新建一个分支 2. 进行功能…...
Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码 【AI辅助开发系列】
🎀🎀🎀【AI辅助编程系列】🎀🎀🎀 Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码Visual Studio 安装和管理 GitHub CopilotVisual Studio 使用 GitHub Copilot 扩展Visual Studio 使用 GitHu…...
【时间之外】IT人求职和创业应知【74】-运维机器人
目录 OpenAI最强推理模型o3发布,AGI测试能力暴涨 英伟达宣布收购以色列AI初创企业Runai 汤姆猫首款AI机器人产品明日发售 心勿贪,贵知足。 感谢所有打开这个页面的朋友。人生不如意,开越野车去撒野,会害了自己,不如…...
高阶:基于Python paddleocr库 提取pdf 文档高亮显示的内容
预览 第1步:理解基本结构和导入必要的库 # 1. 首先导入需要的库 import os # 用于处理文件和路径 import cv2 # 用于图像处理 import numpy as np # 用于数值计算 from paddleocr import PaddleOCR # 用于文字识别 from pdf2image import convert_from_path #…...
STM32项目之环境空气质量检测系统软件设计
目录 前言一、软件需求概述二、需求实现思路1.软件开发工具准备2.温湿度实时监测功能3.空气质量实时监测功能(目前硬件没有买该模块,暂未实现)4.实时时间功能5.视觉、听觉报警功能6.WIFI云平台连接,远程查看数据功能(待…...
重温设计模式--原型模式
文章目录 原型模式定义原型模式UML图优点缺点使用场景C 代码示例深拷贝、浅拷贝 原型模式定义 用原型实例指定创建对象的种类,并且通过拷贝这些原型创建新的对象; 核心中的核心就是 克隆clone ,后面讲 原型模式是一种创建型设计模式,它的主要…...
输变电资质分一级、二级,新办从二级开始,三级已取消
输变电工程专业承包资质分为一级.二级.三级。 一、输变电工程专业承包一级资质标准:1、企业资产净资产5000万元以上。2、企业主要人员(1)机电工程专业一级注册建设师不少于10人。(2)技术负责人…...
浏览器http缓存问题
一、什么是浏览器缓存 浏览器将请求过的资源(html、js、css、img)等,根据缓存机制,拷贝一份副本存储在浏览器的内存或者磁盘上。如果下一次请求的url相同时则根据缓存机制决定是读取内存或者磁盘上的数据还是去服务器请求资源文件…...
结构化Prompt:让大模型更智能的秘诀
一、结构化提示词 1. 什么是结构化? 结构化: 对信息进行组织,使其遵循特定的模式和规则,从而方便有效理解信息。结构化的思想在各类文本中都得到了广泛应用,例如文章、书籍中都使用了标题、子标题、段落等语法结构。结构化 Prompt 的思维方…...
威联通NAS部署openwrt软路由保姆级教程附镜像文件
创作立场:原创不易,拒绝搬运~ hello 大家好,我是你们的老伙伴,稳重的大王~ 本期教程为大家分享,怎么在NAS里面部署软路由,下面是软路由的镜像文件,有两个版本,400M的是定制版~ Sh…...
《计算机网络(第7版)-谢希仁》期末考试复习题和答案(总结整理)
目录 前言: 一、选择题。 二、填空题。 三、名词解释。 四、简答题。 前言: 这个自动标题自己带了序号,一开始想全部选项和题号都改过来的,结果一看一百多个全是,懒得改了 一、选择题。 1、广域网覆盖的地理范围…...
windows和mac共享文件夹访问教程
mac共享文件夹,windows访问: mac上开启文件夹共享,并添加文件夹和用户,然后windows 上 在windows上快捷键 win r 打开运行,按如下格式输入mac设备的IP地址: 就可以访问了: windows共享文件夹…...
【PPTist】网格线、对齐线、标尺
前言:本篇文章介绍辅助我们摆放元素位置的几个功能 一、网格线功能 网格线主要是用来辅助我们对齐元素的,右键可以选择使用哪种网格线,以及关闭和打开 显示效果就是图中的这种效果。但是强迫症有点难受,它底部没对齐啊啊啊 不…...
Leetcode3218. 切蛋糕的最小总开销 I
题目描述: 有一个 m x n 大小的矩形蛋糕,需要切成 1 x 1 的小块。 给你整数 m ,n 和两个数组: horizontalCut 的大小为 m - 1 ,其中 horizontalCut[i] 表示沿着水平线 i 切蛋糕的开销。verticalCut 的大小为 n - 1 …...
ECCV-2024 | 指令不够用、大模型来生成!BEVInstructor:基于BEV感知和大模型的视觉语言导航指令生成
作者:Sheng Fan, Rui Liu, Wenguan Wang, and Yi Yang 单位:浙江大学 原文链接:Navigation Instruction Generation with BEV Perception and Large Language Models (https://link.springer.com/chapter/10.1007/978-3-031-726…...
【UE5.3.2 】引擎中安装RiderLink插件
Rider会提示你安装这个插件选择在引擎中安装 Running AutomationTool... Using bundled DotNet SDK version: 6.0.302 Starting AutomationTool... Parsing command line: BuildPlugin -Unversioned -Plugin=C:\Users\zhangbin\AppData\Local\...
【HarmonyOS 5.0】第十二篇-ArkUI公共属性(一)
一、公共样式类属性 ArkUI框架提供的基础组件直接或者间接的继承自 CommonMethod , CommonMethod 中定义的属性样式属于公共样式。下面就来学习这些样式 1.1.尺寸设置 宽高设置 设置组件的宽高,缺省时使用组件自身内容的宽高,比如充满父布…...
京准电钟解读,NTP网络授时服务器如何提升DCS系统效率
京准电钟解读,NTP网络授时服务器如何提升DCS系统效率 京准电钟解读,NTP网络授时服务器如何提升DCS系统效率 NTP 网络授时服务器为防火墙内的网络设备、终端、服务器提供准确、可靠和安全的高精度卫星时间参考,可为它支持数万台支持标准的网…...
React生态框架全解析,如何在 Apache 中启用 HSTS 以增强网络安全性 ?。
React前端框架概述 React是由Facebook开发并维护的开源JavaScript库,主要用于构建用户界面。尽管React本身是一个库,但其生态系统包含众多框架和工具,能够帮助开发者构建复杂的单页应用(SPA)或移动应用。以下是一些基于…...
QMK Toolbox:如何用这款开源工具轻松刷写机械键盘固件?
QMK Toolbox:如何用这款开源工具轻松刷写机械键盘固件? 【免费下载链接】qmk_toolbox A Toolbox companion for QMK Firmware 项目地址: https://gitcode.com/gh_mirrors/qm/qmk_toolbox QMK Toolbox 是一款专为机械键盘爱好者设计的开源固件刷写…...
订单状态机实战:代码校验 + SQL 幂等一次讲清
这篇不是“先写 SQL 再补代码”,而是从设计层面把代码层状态机和SQL 幂等更新绑定在一起。状态流转(业务真实模型) UNPAID -> PAID -> SHIPPED -> COMPLETED UNPAID -> CANCELED PAID -> REFUNDING -> REFUNDED SHIPPED-…...
SAR信号处理中的汉宁窗优化——旁瓣抑制与分辨率平衡的艺术
1. 汉宁窗在SAR信号处理中的核心作用 我第一次接触汉宁窗是在处理火星探测器雷达数据时遇到的棘手问题。当时团队获取的火星次表层雷达图像出现了严重的旁瓣干扰,就像在干净的画布上泼洒了墨水点。导师随手调出汉宁窗函数说:"试试这个魔法棒"—…...
【数据结构与算法】第30篇:哈希表(Hash Table)
一、什么是哈希表1.1 基本思想哈希表通过哈希函数将关键字映射到数组的某个位置,实现快速访问。textkey → 哈希函数 → 数组下标 → 访问/存储示例:hash(key) key % 10key25 → 25%105 → 存入下标5key37 → 37%107 → 存入下标71.2 哈希冲突不同的key…...
从输入法到天气预测:一阶与高阶马尔科夫链的建模实战
1. 马尔科夫链:从输入法到天气预测的数学魔法 第一次听说马尔科夫链这个词时,我正盯着手机输入法发呆。当时在打"奥利奥"这个词,刚输入"ao"就自动联想出"奥利奥",而前一天我还在为打不出这个词抓耳…...
Zotero Duplicates Merger:5分钟实现文献库高效整理的终极指南
Zotero Duplicates Merger:5分钟实现文献库高效整理的终极指南 【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为学术文献库中…...
一文搞懂计算机网络基础!
对于想入门网络安全、IT 运维、云计算的同学来说,计算机网络是绕不开的核心基础。但一堆晦涩的概念、复杂的分类,常常让新手望而却步。今天我们就用一张思维导图,把计算机网络基础的核心知识点全部拆解,从定义、作用、类型、核心设…...
开源模组加载器SMAPI全攻略:从新手配置到冲突解决的进阶指南
开源模组加载器SMAPI全攻略:从新手配置到冲突解决的进阶指南 【免费下载链接】SMAPI The modding API for Stardew Valley. 项目地址: https://gitcode.com/gh_mirrors/smap/SMAPI 如何通过SMAPI实现安全模组管理?三大核心优势解析 非侵入式架构…...
Flash内容还能复活吗?这款浏览器让你重温经典Flash游戏和课件
Flash内容还能复活吗?这款浏览器让你重温经典Flash游戏和课件 【免费下载链接】CefFlashBrowser Flash浏览器 / Flash Browser 项目地址: https://gitcode.com/gh_mirrors/ce/CefFlashBrowser 还记得那些陪伴我们成长的Flash小游戏和交互课件吗?当…...
