当前位置：首页 > news >正文

CVPR-2024 | 具身导航模型大一统！NaviLLM：学习迈向具身导航的通用模型

news 2026/2/11 3:11:41

作者：Duo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong, Liwei Wang
单位：香港中文大学，上海人工智能实验室，感知与交互智能中心
论文链接：Towards Learning a Generalist Model for Embodied Navigation（https://openaccess.thecvf.com/content/CVPR2024/papers/Zheng_Towards_Learning_a_Generalist_Model_for_Embodied_Navigation_CVPR_2024_paper.pdf）
代码链接：https://github.com/LaVi-Lab/NaviLLM

主要贡献

论文提出了首个用于具身导航的通用模型NaviLLM，能够执行多种具身导航任务。
通过引入基于Schema的指令，将各种任务统一为生成问题，从而整合了来自不同数据集的数据源。
在CVDN基准上，NaviLLM相较于之前的最先进方法取得了29%的进步。
模型在具身问答和3D字幕生成等未见任务上同样表现出色。

研究背景

研究问题

具身导航要求智能体根据指令在三维环境中进行导航，并提供基于用户查询的文本响应。

本文主要解决的问题是如何构建一个能够与物理世界互动的通用智能体。

研究难点

该问题的研究难点包括：

以往的研究主要集中在特定任务的智能体上，缺乏对未见场景的泛化能力；
如何将各种任务统一到单个模型中也是一个挑战。

研究方法

论文提出了NaviLLM，第一个用于具身导航的通用模型。

场景编码

使用视觉变换器（ViT）从图像中提取视觉特征，并通过多视图融合过程将这些特征整合为场景表示。公式如下：

其中，是第个视角的视觉特征，是第个视角的场景表示。

基于Schema的指令

为了将所有任务学习转化为生成问题，论文引入了基于Schema的指令。Schema包括任务、观察和历史三个部分。例如，

任务的Schema可以是导航指令，
观察的Schema可以是场景表示，
历史的Schema可以是过去的视觉观测。

多任务学习

将具身导航的关键任务（如视觉语言导航、对象定位、轨迹总结、3D问答和具身问答）转化为生成问题，并使用统一的交叉熵目标进行优化。每个任务的Schema具体如下：

视觉语言导航：任务Schema为导航指令，观察Schema为所有可达视角的场景表示，输出提示为选择移动方向。
对象定位：任务Schema为对象定位命令，观察Schema为当前位置的所有可见对象的表示，输出提示为选择对象。
轨迹总结：任务Schema为总结风格，观察Schema为历史表示和场景表示，输出提示为总结轨迹。
3D问答：任务Schema为室内场景的问题，观察Schema为不同位置的场景表示，输出提示为基于场景回答问题。
具身问答：先执行导航任务，再回答问题。

实验设计

数据收集

训练数据来自多个具身导航任务的数据集，包括CVDN、SOON、R2R、REVERIE、ScanQA和LLaVA-23k。还使用了R2R和REVERIE数据的增强数据。

实现细节

模型采用了两阶段训练策略，预训练阶段使用教师强制训练，多任务微调阶段交替使用教师强制和学生强制。

优化器为Adam，学习率为3e-5，预训练阶段训练10000步，多任务微调阶段训练5000步，批量大小为64。

评估指标

对于视觉语言导航任务，使用成功率（SR）、路径长度加权成功率（SPL）、Oracle成功率（OSR）、轨迹长度（TL）和目标进度（GP）作为评估指标；
对于3D问答任务，使用精确匹配（EM）、METEOR、ROUGE-L、CIDER和BLEU-4作为评估指标；
对于具身问答任务，使用成功率（SR）和路径长度加权成功率（SPL）作为评估指标。

结果与分析

与现有方法的比较

NaviLLM在CVDN、SOON和ScanQA数据集上取得了最新的结果，并在R2R和REVERIE数据集上表现与最新方法相当。特别是在CVDN数据集上，NaviLLM的目标进度（GP）显著提高了29%。

未见任务的泛化能力

在排除CVDN、SOON和REVERIE数据集的训练数据后，NaviLLM在所有任务上均优于基线方法，特别是在SOON数据集上的成功率（SR）提高了136%。此外，NaviLLM在未见任务（如具身问答和3D字幕生成）上也展示了令人印象深刻的能力。

消融实验

多任务学习增强了所有任务的性能，随机初始化的LLM显著降低了性能，而预训练在增强数据上的收益有限。

可视化

轨迹总结：在图(a)中，展示了模型如何根据给定的轨迹生成准确的逐步指令。这些指令可以用于数据增强。
对象导航：图(b)展示了模型在未见过的场景中进行对象导航的能力。
EQA：图(c)展示了模型在EQA任务中的表现，即模型能够先执行导航过程，然后到达目标位置后回答问题。
3D字幕生成：图(d)展示了模型在3D字幕生成任务中的能力，特别是模型能够根据指令生成不同粒度的字幕。

总结

论文提出了NaviLLM，第一个用于具身导航的通用模型。

通过引入基于Schema的指令和多任务学习，NaviLLM成功地将各种任务统一到一个模型中，并在多个基准数据集上取得了最新的结果。

此外，NaviLLM在未见任务上也展示了强大的泛化能力。

CVPR-2024 | 具身导航模型大一统！NaviLLM：学习迈向具身导航的通用模型

作者：Duo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong, Liwei Wang 单位：香港中文大学，上海人工智能实验室，感知与交互智能中心论文链接：Towards Learning a Generalist Model for Embodied Navigation（…...

编程日记 2024/12/26 18:45:09

CAN201 Introduction to Networking（计算机网络）Pt.2 传输层

文章目录 3. Transport Layer（传输层）3.1 Multiplexing and demultiplexing（多路复用和多路分解）3.2 Connectionless transport：UDP3.3 Principles of reliable data transfer3.4 Pipelined communication3.5 TCP: con…...

编程日记 2024/12/26 18:34:59

git仓库多人协作新建分支合并到主分支流程详解

在多人协作的 Git 仓库中，新建分支并最终将其合并到主分支的流程是为了实现团队协作、提高代码的可管理性、确保代码质量，并且避免多人同时修改同一部分代码导致冲突。以下是这个流程的目的和具体步骤。目录 1. 在 master 上新建一个分支 2. 进行功能…...

编程日记 2024/12/26 18:30:54

Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码【AI辅助开发系列】

🎀🎀🎀【AI辅助编程系列】🎀🎀🎀 Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码Visual Studio 安装和管理 GitHub CopilotVisual Studio 使用 GitHub Copilot 扩展Visual Studio 使用 GitHu…...

编程日记 2024/12/26 18:29:53

【时间之外】IT人求职和创业应知【74】-运维机器人

目录 OpenAI最强推理模型o3发布，AGI测试能力暴涨英伟达宣布收购以色列AI初创企业Runai 汤姆猫首款AI机器人产品明日发售心勿贪，贵知足。感谢所有打开这个页面的朋友。人生不如意，开越野车去撒野，会害了自己，不如…...

编程日记 2024/12/26 18:28:52

高阶：基于Python paddleocr库提取pdf 文档高亮显示的内容

预览第1步：理解基本结构和导入必要的库 # 1. 首先导入需要的库 import os # 用于处理文件和路径 import cv2 # 用于图像处理 import numpy as np # 用于数值计算 from paddleocr import PaddleOCR # 用于文字识别 from pdf2image import convert_from_path #…...

编程日记 2024/12/26 18:25:49

STM32项目之环境空气质量检测系统软件设计

目录前言一、软件需求概述二、需求实现思路1.软件开发工具准备2.温湿度实时监测功能3.空气质量实时监测功能（目前硬件没有买该模块，暂未实现）4.实时时间功能5.视觉、听觉报警功能6.WIFI云平台连接，远程查看数据功能（待…...

编程日记 2024/12/26 18:24:48

重温设计模式--原型模式

文章目录原型模式定义原型模式UML图优点缺点使用场景C 代码示例深拷贝、浅拷贝原型模式定义用原型实例指定创建对象的种类，并且通过拷贝这些原型创建新的对象； 核心中的核心就是克隆clone ,后面讲原型模式是一种创建型设计模式，它的主要…...

编程日记 2024/12/26 18:16:39

输变电资质分一级、二级，新办从二级开始，三级已取消

输变电工程专业承包资质分为一级．二级．三级。一、输变电工程专业承包一级资质标准：1、企业资产净资产5000万元以上。2、企业主要人员（1）机电工程专业一级注册建设师不少于10人。（2）技术负责人…...

编程日记 2024/12/26 18:08:30

浏览器http缓存问题

一、什么是浏览器缓存浏览器将请求过的资源（html、js、css、img）等，根据缓存机制，拷贝一份副本存储在浏览器的内存或者磁盘上。如果下一次请求的url相同时则根据缓存机制决定是读取内存或者磁盘上的数据还是去服务器请求资源文件…...

编程日记 2024/12/26 18:07:27

结构化Prompt：让大模型更智能的秘诀

一、结构化提示词 1. 什么是结构化? 结构化: 对信息进行组织，使其遵循特定的模式和规则，从而方便有效理解信息。结构化的思想在各类文本中都得到了广泛应用，例如文章、书籍中都使用了标题、子标题、段落等语法结构。结构化 Prompt 的思维方…...

编程日记 2024/12/26 18:06:25

威联通NAS部署openwrt软路由保姆级教程附镜像文件

创作立场：原创不易，拒绝搬运~ hello 大家好，我是你们的老伙伴，稳重的大王~ 本期教程为大家分享，怎么在NAS里面部署软路由，下面是软路由的镜像文件，有两个版本，400M的是定制版~ Sh…...

编程日记 2024/12/26 17:57:16

《计算机网络(第7版)-谢希仁》期末考试复习题和答案（总结整理）

目录前言： 一、选择题。二、填空题。三、名词解释。四、简答题。前言： 这个自动标题自己带了序号，一开始想全部选项和题号都改过来的，结果一看一百多个全是，懒得改了一、选择题。 1、广域网覆盖的地理范围…...

编程日记 2024/12/26 17:53:12

windows和mac共享文件夹访问教程

mac共享文件夹，windows访问： mac上开启文件夹共享，并添加文件夹和用户，然后windows 上在windows上快捷键 win r 打开运行，按如下格式输入mac设备的IP地址： 就可以访问了： windows共享文件夹…...

编程日记 2024/12/26 17:50:09

【PPTist】网格线、对齐线、标尺

前言：本篇文章介绍辅助我们摆放元素位置的几个功能一、网格线功能网格线主要是用来辅助我们对齐元素的，右键可以选择使用哪种网格线，以及关闭和打开显示效果就是图中的这种效果。但是强迫症有点难受，它底部没对齐啊啊啊不…...

编程日记 2024/12/26 17:48:07

Leetcode3218. 切蛋糕的最小总开销 I

题目描述： 有一个 m x n 大小的矩形蛋糕，需要切成 1 x 1 的小块。给你整数 m ，n 和两个数组： horizontalCut 的大小为 m - 1 ，其中 horizontalCut[i] 表示沿着水平线 i 切蛋糕的开销。verticalCut 的大小为 n - 1 …...

编程日记 2024/12/26 17:43:01

ECCV-2024 | 指令不够用、大模型来生成！BEVInstructor：基于BEV感知和大模型的视觉语言导航指令生成

作者：Sheng Fan, Rui Liu, Wenguan Wang, and Yi Yang 单位：浙江大学原文链接：Navigation Instruction Generation with BEV Perception and Large Language Models （https://link.springer.com/chapter/10.1007/978-3-031-726…...

编程日记 2024/12/26 17:40:59

【UE5.3.2 】引擎中安装RiderLink插件

Rider会提示你安装这个插件选择在引擎中安装 Running AutomationTool... Using bundled DotNet SDK version: 6.0.302 Starting AutomationTool... Parsing command line: BuildPlugin -Unversioned -Plugin=C:\Users\zhangbin\AppData\Local\...

编程日记 2024/12/26 17:39:58

【HarmonyOS 5.0】第十二篇-ArkUI公共属性(一)

一、公共样式类属性 ArkUI框架提供的基础组件直接或者间接的继承自 CommonMethod ， CommonMethod 中定义的属性样式属于公共样式。下面就来学习这些样式 1.1.尺寸设置宽高设置设置组件的宽高，缺省时使用组件自身内容的宽高，比如充满父布…...

编程日记 2024/12/26 17:36:54

京准电钟解读，NTP网络授时服务器如何提升DCS系统效率

京准电钟解读，NTP网络授时服务器如何提升DCS系统效率京准电钟解读，NTP网络授时服务器如何提升DCS系统效率 NTP 网络授时服务器为防火墙内的网络设备、终端、服务器提供准确、可靠和安全的高精度卫星时间参考，可为它支持数万台支持标准的网…...

编程日记 2024/12/26 17:31:49

三维GIS开发cesium智慧地铁教程（5）Cesium相机控制

一、环境搭建 <script src"../cesium1.99/Build/Cesium/Cesium.js"></script> <link rel"stylesheet" href"../cesium1.99/Build/Cesium/Widgets/widgets.css"> 关键配置点： 路径验证：确保相对路径.…...

编程新知 2025/12/1 19:23:04

MySQL 隔离级别：脏读、幻读及不可重复读的原理与示例

一、MySQL 隔离级别 MySQL 提供了四种隔离级别，用于控制事务之间的并发访问以及数据的可见性，不同隔离级别对脏读、幻读、不可重复读这几种并发数据问题有着不同的处理方式，具体如下：隔离级别脏读不可重复读幻读性能特点及锁机制读未提交（READ UNCOMMITTED）允许出现允许…...

编程新知 2025/9/16 21:01:58

DAY 47

三、通道注意力 3.1 通道注意力的定义 # 新增：通道注意力模块（SE模块） class ChannelAttention(nn.Module):"""通道注意力模块(Squeeze-and-Excitation)"""def __init__(self, in_channels, reduction_rat…...

编程新知 2026/2/4 23:29:22