CVPR-2024 | 具身导航模型大一统!NaviLLM:学习迈向具身导航的通用模型

-
作者:Duo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong, Liwei Wang
-
单位:香港中文大学,上海人工智能实验室,感知与交互智能中心
-
论文链接:Towards Learning a Generalist Model for Embodied Navigation(https://openaccess.thecvf.com/content/CVPR2024/papers/Zheng_Towards_Learning_a_Generalist_Model_for_Embodied_Navigation_CVPR_2024_paper.pdf)
-
代码链接:https://github.com/LaVi-Lab/NaviLLM
主要贡献
-
论文提出了首个用于具身导航的通用模型NaviLLM,能够执行多种具身导航任务。
-
通过引入基于Schema的指令,将各种任务统一为生成问题,从而整合了来自不同数据集的数据源。
-
在CVDN基准上,NaviLLM相较于之前的最先进方法取得了29%的进步。
-
模型在具身问答和3D字幕生成等未见任务上同样表现出色。
研究背景

研究问题
具身导航要求智能体根据指令在三维环境中进行导航,并提供基于用户查询的文本响应。
本文主要解决的问题是如何构建一个能够与物理世界互动的通用智能体。
研究难点
该问题的研究难点包括:
-
以往的研究主要集中在特定任务的智能体上,缺乏对未见场景的泛化能力;
-
如何将各种任务统一到单个模型中也是一个挑战。
相关工作
该问题的研究相关工作有:
-
利用预训练技术、数据增强和记忆结构等方法的各种模型,但这些模型在特定任务上表现出色,但在跨任务泛化方面存在不足。
-
最近的研究表明,大语言模型(LLMs)在多个领域展示了显著的能力,但将其应用于具身导航任务仍然是一个未充分探索的领域。
研究方法
论文提出了NaviLLM,第一个用于具身导航的通用模型。

场景编码
使用视觉变换器(ViT)从图像中提取视觉特征,并通过多视图融合过程将这些特征整合为场景表示。公式如下:
其中, 是第个视角的视觉特征, 是第个视角的场景表示。
基于Schema的指令
为了将所有任务学习转化为生成问题,论文引入了基于Schema的指令。Schema包括任务、观察和历史三个部分。例如,
-
任务的Schema可以是导航指令,
-
观察的Schema可以是场景表示,
-
历史的Schema可以是过去的视觉观测。
多任务学习
将具身导航的关键任务(如视觉语言导航、对象定位、轨迹总结、3D问答和具身问答)转化为生成问题,并使用统一的交叉熵目标进行优化。每个任务的Schema具体如下:
-
视觉语言导航:任务Schema为导航指令,观察Schema为所有可达视角的场景表示,输出提示为选择移动方向。
-
对象定位:任务Schema为对象定位命令,观察Schema为当前位置的所有可见对象的表示,输出提示为选择对象。
-
轨迹总结:任务Schema为总结风格,观察Schema为历史表示和场景表示,输出提示为总结轨迹。
-
3D问答:任务Schema为室内场景的问题,观察Schema为不同位置的场景表示,输出提示为基于场景回答问题。
-
具身问答:先执行导航任务,再回答问题。
实验设计
数据收集
训练数据来自多个具身导航任务的数据集,包括CVDN、SOON、R2R、REVERIE、ScanQA和LLaVA-23k。还使用了R2R和REVERIE数据的增强数据。
实现细节
模型采用了两阶段训练策略,预训练阶段使用教师强制训练,多任务微调阶段交替使用教师强制和学生强制。
优化器为Adam,学习率为3e-5,预训练阶段训练10000步,多任务微调阶段训练5000步,批量大小为64。
评估指标
-
对于视觉语言导航任务,使用成功率(SR)、路径长度加权成功率(SPL)、Oracle成功率(OSR)、轨迹长度(TL)和目标进度(GP)作为评估指标;
-
对于3D问答任务,使用精确匹配(EM)、METEOR、ROUGE-L、CIDER和BLEU-4作为评估指标;
-
对于具身问答任务,使用成功率(SR)和路径长度加权成功率(SPL)作为评估指标。
结果与分析
与现有方法的比较


NaviLLM在CVDN、SOON和ScanQA数据集上取得了最新的结果,并在R2R和REVERIE数据集上表现与最新方法相当。特别是在CVDN数据集上,NaviLLM的目标进度(GP)显著提高了29%。
未见任务的泛化能力
在排除CVDN、SOON和REVERIE数据集的训练数据后,NaviLLM在所有任务上均优于基线方法,特别是在SOON数据集上的成功率(SR)提高了136%。此外,NaviLLM在未见任务(如具身问答和3D字幕生成)上也展示了令人印象深刻的能力。
消融实验

多任务学习增强了所有任务的性能,随机初始化的LLM显著降低了性能,而预训练在增强数据上的收益有限。
可视化

-
轨迹总结:在图(a)中,展示了模型如何根据给定的轨迹生成准确的逐步指令。这些指令可以用于数据增强。
-
对象导航:图(b)展示了模型在未见过的场景中进行对象导航的能力。
-
EQA:图(c)展示了模型在EQA任务中的表现,即模型能够先执行导航过程,然后到达目标位置后回答问题。
-
3D字幕生成:图(d)展示了模型在3D字幕生成任务中的能力,特别是模型能够根据指令生成不同粒度的字幕。
总结
论文提出了NaviLLM,第一个用于具身导航的通用模型。
通过引入基于Schema的指令和多任务学习,NaviLLM成功地将各种任务统一到一个模型中,并在多个基准数据集上取得了最新的结果。
此外,NaviLLM在未见任务上也展示了强大的泛化能力。

相关文章:
CVPR-2024 | 具身导航模型大一统!NaviLLM:学习迈向具身导航的通用模型
作者:Duo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong, Liwei Wang 单位:香港中文大学,上海人工智能实验室,感知与交互智能中心 论文链接:Towards Learning a Generalist Model for Embodied Navigation(…...
CAN201 Introduction to Networking(计算机网络)Pt.2 传输层
文章目录 3. Transport Layer(传输层)3.1 Multiplexing and demultiplexing(多路复用和多路分解)3.2 Connectionless transport:UDP3.3 Principles of reliable data transfer3.4 Pipelined communication3.5 TCP: con…...
git仓库多人协作新建分支 合并到主分支流程详解
在多人协作的 Git 仓库中,新建分支并最终将其合并到主分支的流程是为了实现团队协作、提高代码的可管理性、确保代码质量,并且避免多人同时修改同一部分代码导致冲突。以下是这个流程的目的和具体步骤。 目录 1. 在 master 上新建一个分支 2. 进行功能…...
Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码 【AI辅助开发系列】
🎀🎀🎀【AI辅助编程系列】🎀🎀🎀 Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码Visual Studio 安装和管理 GitHub CopilotVisual Studio 使用 GitHub Copilot 扩展Visual Studio 使用 GitHu…...
【时间之外】IT人求职和创业应知【74】-运维机器人
目录 OpenAI最强推理模型o3发布,AGI测试能力暴涨 英伟达宣布收购以色列AI初创企业Runai 汤姆猫首款AI机器人产品明日发售 心勿贪,贵知足。 感谢所有打开这个页面的朋友。人生不如意,开越野车去撒野,会害了自己,不如…...
高阶:基于Python paddleocr库 提取pdf 文档高亮显示的内容
预览 第1步:理解基本结构和导入必要的库 # 1. 首先导入需要的库 import os # 用于处理文件和路径 import cv2 # 用于图像处理 import numpy as np # 用于数值计算 from paddleocr import PaddleOCR # 用于文字识别 from pdf2image import convert_from_path #…...
STM32项目之环境空气质量检测系统软件设计
目录 前言一、软件需求概述二、需求实现思路1.软件开发工具准备2.温湿度实时监测功能3.空气质量实时监测功能(目前硬件没有买该模块,暂未实现)4.实时时间功能5.视觉、听觉报警功能6.WIFI云平台连接,远程查看数据功能(待…...
重温设计模式--原型模式
文章目录 原型模式定义原型模式UML图优点缺点使用场景C 代码示例深拷贝、浅拷贝 原型模式定义 用原型实例指定创建对象的种类,并且通过拷贝这些原型创建新的对象; 核心中的核心就是 克隆clone ,后面讲 原型模式是一种创建型设计模式,它的主要…...
输变电资质分一级、二级,新办从二级开始,三级已取消
输变电工程专业承包资质分为一级.二级.三级。 一、输变电工程专业承包一级资质标准:1、企业资产净资产5000万元以上。2、企业主要人员(1)机电工程专业一级注册建设师不少于10人。(2)技术负责人…...
浏览器http缓存问题
一、什么是浏览器缓存 浏览器将请求过的资源(html、js、css、img)等,根据缓存机制,拷贝一份副本存储在浏览器的内存或者磁盘上。如果下一次请求的url相同时则根据缓存机制决定是读取内存或者磁盘上的数据还是去服务器请求资源文件…...
结构化Prompt:让大模型更智能的秘诀
一、结构化提示词 1. 什么是结构化? 结构化: 对信息进行组织,使其遵循特定的模式和规则,从而方便有效理解信息。结构化的思想在各类文本中都得到了广泛应用,例如文章、书籍中都使用了标题、子标题、段落等语法结构。结构化 Prompt 的思维方…...
威联通NAS部署openwrt软路由保姆级教程附镜像文件
创作立场:原创不易,拒绝搬运~ hello 大家好,我是你们的老伙伴,稳重的大王~ 本期教程为大家分享,怎么在NAS里面部署软路由,下面是软路由的镜像文件,有两个版本,400M的是定制版~ Sh…...
《计算机网络(第7版)-谢希仁》期末考试复习题和答案(总结整理)
目录 前言: 一、选择题。 二、填空题。 三、名词解释。 四、简答题。 前言: 这个自动标题自己带了序号,一开始想全部选项和题号都改过来的,结果一看一百多个全是,懒得改了 一、选择题。 1、广域网覆盖的地理范围…...
windows和mac共享文件夹访问教程
mac共享文件夹,windows访问: mac上开启文件夹共享,并添加文件夹和用户,然后windows 上 在windows上快捷键 win r 打开运行,按如下格式输入mac设备的IP地址: 就可以访问了: windows共享文件夹…...
【PPTist】网格线、对齐线、标尺
前言:本篇文章介绍辅助我们摆放元素位置的几个功能 一、网格线功能 网格线主要是用来辅助我们对齐元素的,右键可以选择使用哪种网格线,以及关闭和打开 显示效果就是图中的这种效果。但是强迫症有点难受,它底部没对齐啊啊啊 不…...
Leetcode3218. 切蛋糕的最小总开销 I
题目描述: 有一个 m x n 大小的矩形蛋糕,需要切成 1 x 1 的小块。 给你整数 m ,n 和两个数组: horizontalCut 的大小为 m - 1 ,其中 horizontalCut[i] 表示沿着水平线 i 切蛋糕的开销。verticalCut 的大小为 n - 1 …...
ECCV-2024 | 指令不够用、大模型来生成!BEVInstructor:基于BEV感知和大模型的视觉语言导航指令生成
作者:Sheng Fan, Rui Liu, Wenguan Wang, and Yi Yang 单位:浙江大学 原文链接:Navigation Instruction Generation with BEV Perception and Large Language Models (https://link.springer.com/chapter/10.1007/978-3-031-726…...
【UE5.3.2 】引擎中安装RiderLink插件
Rider会提示你安装这个插件选择在引擎中安装 Running AutomationTool... Using bundled DotNet SDK version: 6.0.302 Starting AutomationTool... Parsing command line: BuildPlugin -Unversioned -Plugin=C:\Users\zhangbin\AppData\Local\...
【HarmonyOS 5.0】第十二篇-ArkUI公共属性(一)
一、公共样式类属性 ArkUI框架提供的基础组件直接或者间接的继承自 CommonMethod , CommonMethod 中定义的属性样式属于公共样式。下面就来学习这些样式 1.1.尺寸设置 宽高设置 设置组件的宽高,缺省时使用组件自身内容的宽高,比如充满父布…...
京准电钟解读,NTP网络授时服务器如何提升DCS系统效率
京准电钟解读,NTP网络授时服务器如何提升DCS系统效率 京准电钟解读,NTP网络授时服务器如何提升DCS系统效率 NTP 网络授时服务器为防火墙内的网络设备、终端、服务器提供准确、可靠和安全的高精度卫星时间参考,可为它支持数万台支持标准的网…...
三维GIS开发cesium智慧地铁教程(5)Cesium相机控制
一、环境搭建 <script src"../cesium1.99/Build/Cesium/Cesium.js"></script> <link rel"stylesheet" href"../cesium1.99/Build/Cesium/Widgets/widgets.css"> 关键配置点: 路径验证:确保相对路径.…...
MySQL 隔离级别:脏读、幻读及不可重复读的原理与示例
一、MySQL 隔离级别 MySQL 提供了四种隔离级别,用于控制事务之间的并发访问以及数据的可见性,不同隔离级别对脏读、幻读、不可重复读这几种并发数据问题有着不同的处理方式,具体如下: 隔离级别脏读不可重复读幻读性能特点及锁机制读未提交(READ UNCOMMITTED)允许出现允许…...
DAY 47
三、通道注意力 3.1 通道注意力的定义 # 新增:通道注意力模块(SE模块) class ChannelAttention(nn.Module):"""通道注意力模块(Squeeze-and-Excitation)"""def __init__(self, in_channels, reduction_rat…...
将对透视变换后的图像使用Otsu进行阈值化,来分离黑色和白色像素。这句话中的Otsu是什么意思?
Otsu 是一种自动阈值化方法,用于将图像分割为前景和背景。它通过最小化图像的类内方差或等价地最大化类间方差来选择最佳阈值。这种方法特别适用于图像的二值化处理,能够自动确定一个阈值,将图像中的像素分为黑色和白色两类。 Otsu 方法的原…...
【SQL学习笔记1】增删改查+多表连接全解析(内附SQL免费在线练习工具)
可以使用Sqliteviz这个网站免费编写sql语句,它能够让用户直接在浏览器内练习SQL的语法,不需要安装任何软件。 链接如下: sqliteviz 注意: 在转写SQL语法时,关键字之间有一个特定的顺序,这个顺序会影响到…...
Java-41 深入浅出 Spring - 声明式事务的支持 事务配置 XML模式 XML+注解模式
点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) 目前2025年06月05日更新到: AI炼丹日志-28 - Aud…...
C++ 求圆面积的程序(Program to find area of a circle)
给定半径r,求圆的面积。圆的面积应精确到小数点后5位。 例子: 输入:r 5 输出:78.53982 解释:由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982,因为我们只保留小数点后 5 位数字。 输…...
均衡后的SNRSINR
本文主要摘自参考文献中的前两篇,相关文献中经常会出现MIMO检测后的SINR不过一直没有找到相关数学推到过程,其中文献[1]中给出了相关原理在此仅做记录。 1. 系统模型 复信道模型 n t n_t nt 根发送天线, n r n_r nr 根接收天线的 MIMO 系…...
嵌入式学习笔记DAY33(网络编程——TCP)
一、网络架构 C/S (client/server 客户端/服务器):由客户端和服务器端两个部分组成。客户端通常是用户使用的应用程序,负责提供用户界面和交互逻辑 ,接收用户输入,向服务器发送请求,并展示服务…...
TSN交换机正在重构工业网络,PROFINET和EtherCAT会被取代吗?
在工业自动化持续演进的今天,通信网络的角色正变得愈发关键。 2025年6月6日,为期三天的华南国际工业博览会在深圳国际会展中心(宝安)圆满落幕。作为国内工业通信领域的技术型企业,光路科技(Fiberroad&…...
