当前位置: 首页 > news >正文

CVPR-2024 | 具身导航模型大一统!NaviLLM:学习迈向具身导航的通用模型

  • 作者:Duo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong, Liwei Wang

  • 单位:香港中文大学,上海人工智能实验室,感知与交互智能中心

  • 论文链接:Towards Learning a Generalist Model for Embodied Navigation(https://openaccess.thecvf.com/content/CVPR2024/papers/Zheng_Towards_Learning_a_Generalist_Model_for_Embodied_Navigation_CVPR_2024_paper.pdf)

  • 代码链接:https://github.com/LaVi-Lab/NaviLLM

主要贡献

  • 论文提出了首个用于具身导航的通用模型NaviLLM,能够执行多种具身导航任务。

  • 通过引入基于Schema的指令,将各种任务统一为生成问题,从而整合了来自不同数据集的数据源。

  • 在CVDN基准上,NaviLLM相较于之前的最先进方法取得了29%的进步。

  • 模型在具身问答和3D字幕生成等未见任务上同样表现出色。

研究背景

研究问题

具身导航要求智能体根据指令在三维环境中进行导航,并提供基于用户查询的文本响应。

本文主要解决的问题是如何构建一个能够与物理世界互动的通用智能体。

研究难点

该问题的研究难点包括:

  • 以往的研究主要集中在特定任务的智能体上,缺乏对未见场景的泛化能力;

  • 如何将各种任务统一到单个模型中也是一个挑战。

相关工作

该问题的研究相关工作有:

  • 利用预训练技术、数据增强和记忆结构等方法的各种模型,但这些模型在特定任务上表现出色,但在跨任务泛化方面存在不足。

  • 最近的研究表明,大语言模型(LLMs)在多个领域展示了显著的能力,但将其应用于具身导航任务仍然是一个未充分探索的领域。

研究方法

论文提出了NaviLLM,第一个用于具身导航的通用模型。

场景编码

使用视觉变换器(ViT)从图像中提取视觉特征,并通过多视图融合过程将这些特征整合为场景表示。公式如下:

其中, 是第个视角的视觉特征, 是第个视角的场景表示。

基于Schema的指令

为了将所有任务学习转化为生成问题,论文引入了基于Schema的指令。Schema包括任务、观察和历史三个部分。例如,

  • 任务的Schema可以是导航指令,

  • 观察的Schema可以是场景表示,

  • 历史的Schema可以是过去的视觉观测。

多任务学习

将具身导航的关键任务(如视觉语言导航、对象定位、轨迹总结、3D问答和具身问答)转化为生成问题,并使用统一的交叉熵目标进行优化。每个任务的Schema具体如下:

  • 视觉语言导航:任务Schema为导航指令,观察Schema为所有可达视角的场景表示,输出提示为选择移动方向。

  • 对象定位:任务Schema为对象定位命令,观察Schema为当前位置的所有可见对象的表示,输出提示为选择对象。

  • 轨迹总结:任务Schema为总结风格,观察Schema为历史表示和场景表示,输出提示为总结轨迹。

  • 3D问答:任务Schema为室内场景的问题,观察Schema为不同位置的场景表示,输出提示为基于场景回答问题。

  • 具身问答:先执行导航任务,再回答问题。

实验设计

数据收集

训练数据来自多个具身导航任务的数据集,包括CVDN、SOON、R2R、REVERIE、ScanQA和LLaVA-23k。还使用了R2R和REVERIE数据的增强数据。

实现细节

模型采用了两阶段训练策略,预训练阶段使用教师强制训练,多任务微调阶段交替使用教师强制和学生强制。

优化器为Adam,学习率为3e-5,预训练阶段训练10000步,多任务微调阶段训练5000步,批量大小为64。

评估指标

  • 对于视觉语言导航任务,使用成功率(SR)、路径长度加权成功率(SPL)、Oracle成功率(OSR)、轨迹长度(TL)和目标进度(GP)作为评估指标;

  • 对于3D问答任务,使用精确匹配(EM)、METEOR、ROUGE-L、CIDER和BLEU-4作为评估指标;

  • 对于具身问答任务,使用成功率(SR)和路径长度加权成功率(SPL)作为评估指标。

结果与分析

与现有方法的比较

NaviLLM在CVDN、SOON和ScanQA数据集上取得了最新的结果,并在R2R和REVERIE数据集上表现与最新方法相当。特别是在CVDN数据集上,NaviLLM的目标进度(GP)显著提高了29%。

未见任务的泛化能力

在排除CVDN、SOON和REVERIE数据集的训练数据后,NaviLLM在所有任务上均优于基线方法,特别是在SOON数据集上的成功率(SR)提高了136%。此外,NaviLLM在未见任务(如具身问答和3D字幕生成)上也展示了令人印象深刻的能力。

消融实验

多任务学习增强了所有任务的性能,随机初始化的LLM显著降低了性能,而预训练在增强数据上的收益有限。

可视化

  • 轨迹总结:在图(a)中,展示了模型如何根据给定的轨迹生成准确的逐步指令。这些指令可以用于数据增强。

  • 对象导航:图(b)展示了模型在未见过的场景中进行对象导航的能力。

  • EQA:图(c)展示了模型在EQA任务中的表现,即模型能够先执行导航过程,然后到达目标位置后回答问题。

  • 3D字幕生成:图(d)展示了模型在3D字幕生成任务中的能力,特别是模型能够根据指令生成不同粒度的字幕。

总结

论文提出了NaviLLM,第一个用于具身导航的通用模型。

通过引入基于Schema的指令和多任务学习,NaviLLM成功地将各种任务统一到一个模型中,并在多个基准数据集上取得了最新的结果。

此外,NaviLLM在未见任务上也展示了强大的泛化能力。

相关文章:

CVPR-2024 | 具身导航模型大一统!NaviLLM:学习迈向具身导航的通用模型

作者:Duo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong, Liwei Wang 单位:香港中文大学,上海人工智能实验室,感知与交互智能中心 论文链接:Towards Learning a Generalist Model for Embodied Navigation(…...

CAN201 Introduction to Networking(计算机网络)Pt.2 传输层

文章目录 3. Transport Layer(传输层)3.1 Multiplexing and demultiplexing(多路复用和多路分解)3.2 Connectionless transport:UDP3.3 Principles of reliable data transfer3.4 Pipelined communication3.5 TCP: con…...

git仓库多人协作新建分支 合并到主分支流程详解

在多人协作的 Git 仓库中,新建分支并最终将其合并到主分支的流程是为了实现团队协作、提高代码的可管理性、确保代码质量,并且避免多人同时修改同一部分代码导致冲突。以下是这个流程的目的和具体步骤。 目录 1. 在 master 上新建一个分支 2. 进行功能…...

Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码 【AI辅助开发系列】

🎀🎀🎀【AI辅助编程系列】🎀🎀🎀 Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码Visual Studio 安装和管理 GitHub CopilotVisual Studio 使用 GitHub Copilot 扩展Visual Studio 使用 GitHu…...

【时间之外】IT人求职和创业应知【74】-运维机器人

目录 OpenAI最强推理模型o3发布,AGI测试能力暴涨 英伟达宣布收购以色列AI初创企业Runai 汤姆猫首款AI机器人产品明日发售 心勿贪,贵知足。 感谢所有打开这个页面的朋友。人生不如意,开越野车去撒野,会害了自己,不如…...

高阶:基于Python paddleocr库 提取pdf 文档高亮显示的内容

预览 第1步:理解基本结构和导入必要的库 # 1. 首先导入需要的库 import os # 用于处理文件和路径 import cv2 # 用于图像处理 import numpy as np # 用于数值计算 from paddleocr import PaddleOCR # 用于文字识别 from pdf2image import convert_from_path #…...

STM32项目之环境空气质量检测系统软件设计

目录 前言一、软件需求概述二、需求实现思路1.软件开发工具准备2.温湿度实时监测功能3.空气质量实时监测功能(目前硬件没有买该模块,暂未实现)4.实时时间功能5.视觉、听觉报警功能6.WIFI云平台连接,远程查看数据功能(待…...

重温设计模式--原型模式

文章目录 原型模式定义原型模式UML图优点缺点使用场景C 代码示例深拷贝、浅拷贝 原型模式定义 用原型实例指定创建对象的种类,并且通过拷贝这些原型创建新的对象; 核心中的核心就是 克隆clone ,后面讲 原型模式是一种创建型设计模式,它的主要…...

输变电资质分一级、二级,新办从二级开始,三级已取消

输变电工程专业承包资质分为一级.二级.三级。 一、输变电工程专业承包一级资质标准:1、企业资产净资产5000万元以上。2、企业主要人员(1)机电工程专业一级注册建设师不少于10人。(2)技术负责人…...

浏览器http缓存问题

一、什么是浏览器缓存 浏览器将请求过的资源(html、js、css、img)等,根据缓存机制,拷贝一份副本存储在浏览器的内存或者磁盘上。如果下一次请求的url相同时则根据缓存机制决定是读取内存或者磁盘上的数据还是去服务器请求资源文件…...

结构化Prompt:让大模型更智能的秘诀

一、结构化提示词 1. 什么是结构化? 结构化: 对信息进行组织,使其遵循特定的模式和规则,从而方便有效理解信息。结构化的思想在各类文本中都得到了广泛应用,例如文章、书籍中都使用了标题、子标题、段落等语法结构。结构化 Prompt 的思维方…...

威联通NAS部署openwrt软路由保姆级教程附镜像文件

创作立场:原创不易,拒绝搬运~ hello 大家好,我是你们的老伙伴,稳重的大王~ 本期教程为大家分享,怎么在NAS里面部署软路由,下面是软路由的镜像文件,有两个版本,400M的是定制版~ Sh…...

《计算机网络(第7版)-谢希仁》期末考试复习题和答案(总结整理)

目录 前言: 一、选择题。 二、填空题。 三、名词解释。 四、简答题。 前言: 这个自动标题自己带了序号,一开始想全部选项和题号都改过来的,结果一看一百多个全是,懒得改了 一、选择题。 1、广域网覆盖的地理范围…...

windows和mac共享文件夹访问教程

mac共享文件夹,windows访问: mac上开启文件夹共享,并添加文件夹和用户,然后windows 上 在windows上快捷键 win r 打开运行,按如下格式输入mac设备的IP地址: 就可以访问了: windows共享文件夹…...

【PPTist】网格线、对齐线、标尺

前言:本篇文章介绍辅助我们摆放元素位置的几个功能 一、网格线功能 网格线主要是用来辅助我们对齐元素的,右键可以选择使用哪种网格线,以及关闭和打开 显示效果就是图中的这种效果。但是强迫症有点难受,它底部没对齐啊啊啊 不…...

Leetcode3218. 切蛋糕的最小总开销 I

题目描述: 有一个 m x n 大小的矩形蛋糕,需要切成 1 x 1 的小块。 给你整数 m ,n 和两个数组: horizontalCut 的大小为 m - 1 ,其中 horizontalCut[i] 表示沿着水平线 i 切蛋糕的开销。verticalCut 的大小为 n - 1 …...

ECCV-2024 | 指令不够用、大模型来生成!BEVInstructor:基于BEV感知和大模型的视觉语言导航指令生成

作者:Sheng Fan, Rui Liu, Wenguan Wang, and Yi Yang 单位:浙江大学 原文链接:Navigation Instruction Generation with BEV Perception and Large Language Models (https://link.springer.com/chapter/10.1007/978-3-031-726…...

【UE5.3.2 】引擎中安装RiderLink插件

Rider会提示你安装这个插件选择在引擎中安装 Running AutomationTool... Using bundled DotNet SDK version: 6.0.302 Starting AutomationTool... Parsing command line: BuildPlugin -Unversioned -Plugin=C:\Users\zhangbin\AppData\Local\...

【HarmonyOS 5.0】第十二篇-ArkUI公共属性(一)

一、公共样式类属性 ArkUI框架提供的基础组件直接或者间接的继承自 CommonMethod , CommonMethod 中定义的属性样式属于公共样式。下面就来学习这些样式 1.1.尺寸设置 宽高设置 设置组件的宽高,缺省时使用组件自身内容的宽高,比如充满父布…...

京准电钟解读,NTP网络授时服务器如何提升DCS系统效率

京准电钟解读,NTP网络授时服务器如何提升DCS系统效率 京准电钟解读,NTP网络授时服务器如何提升DCS系统效率 NTP 网络授时服务器为防火墙内的网络设备、终端、服务器提供准确、可靠和安全的高精度卫星时间参考,可为它支持数万台支持标准的网…...

Spring Boot 实现流式响应(兼容 2.7.x)

在实际开发中,我们可能会遇到一些流式数据处理的场景,比如接收来自上游接口的 Server-Sent Events(SSE) 或 流式 JSON 内容,并将其原样中转给前端页面或客户端。这种情况下,传统的 RestTemplate 缓存机制会…...

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序

一、开发环境准备 ​​工具安装​​: 下载安装DevEco Studio 4.0(支持HarmonyOS 5)配置HarmonyOS SDK 5.0确保Node.js版本≥14 ​​项目初始化​​: ohpm init harmony/hospital-report-app 二、核心功能模块实现 1. 报告列表…...

ServerTrust 并非唯一

NSURLAuthenticationMethodServerTrust 只是 authenticationMethod 的冰山一角 要理解 NSURLAuthenticationMethodServerTrust, 首先要明白它只是 authenticationMethod 的选项之一, 并非唯一 1 先厘清概念 点说明authenticationMethodURLAuthenticationChallenge.protectionS…...

前端开发面试题总结-JavaScript篇(一)

文章目录 JavaScript高频问答一、作用域与闭包1.什么是闭包(Closure)?闭包有什么应用场景和潜在问题?2.解释 JavaScript 的作用域链(Scope Chain) 二、原型与继承3.原型链是什么?如何实现继承&a…...

Unity | AmplifyShaderEditor插件基础(第七集:平面波动shader)

目录 一、👋🏻前言 二、😈sinx波动的基本原理 三、😈波动起来 1.sinx节点介绍 2.vertexPosition 3.集成Vector3 a.节点Append b.连起来 4.波动起来 a.波动的原理 b.时间节点 c.sinx的处理 四、🌊波动优化…...

【Android】Android 开发 ADB 常用指令

查看当前连接的设备 adb devices 连接设备 adb connect 设备IP 断开已连接的设备 adb disconnect 设备IP 安装应用 adb install 安装包的路径 卸载应用 adb uninstall 应用包名 查看已安装的应用包名 adb shell pm list packages 查看已安装的第三方应用包名 adb shell pm list…...

深入浅出Diffusion模型:从原理到实践的全方位教程

I. 引言:生成式AI的黎明 – Diffusion模型是什么? 近年来,生成式人工智能(Generative AI)领域取得了爆炸性的进展,模型能够根据简单的文本提示创作出逼真的图像、连贯的文本,乃至更多令人惊叹的…...

pycharm 设置环境出错

pycharm 设置环境出错 pycharm 新建项目,设置虚拟环境,出错 pycharm 出错 Cannot open Local Failed to start [powershell.exe, -NoExit, -ExecutionPolicy, Bypass, -File, C:\Program Files\JetBrains\PyCharm 2024.1.3\plugins\terminal\shell-int…...

0x-3-Oracle 23 ai-sqlcl 25.1 集成安装-配置和优化

是不是受够了安装了oracle database之后sqlplus的简陋,无法删除无法上下翻页的苦恼。 可以安装readline和rlwrap插件的话,配置.bahs_profile后也能解决上下翻页这些,但是很多生产环境无法安装rpm包。 oracle提供了sqlcl免费许可&#xff0c…...

基于鸿蒙(HarmonyOS5)的打车小程序

1. 开发环境准备 安装DevEco Studio (鸿蒙官方IDE)配置HarmonyOS SDK申请开发者账号和必要的API密钥 2. 项目结构设计 ├── entry │ ├── src │ │ ├── main │ │ │ ├── ets │ │ │ │ ├── pages │ │ │ │ │ ├── H…...