当前位置: 首页 > news >正文

AAAI-2024 | 大语言模型赋能导航决策!NavGPT:基于大模型显式推理的视觉语言导航

  • 作者:Gengze Zhou, Yicong Hong, Qi Wu

  • 单位:阿德莱德大学,澳大利亚国立大学

  • 论文链接: NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models (https://ojs.aaai.org/index.php/AAAI/article/download/28597/29161)

  • 代码链接: https://github.com/GengzeZhou/NavGPT

主要贡献

  • 论文提出了基于大模型(LLM)的视觉语言导航(VLN)模型NavGPT,能够处理多模态输入、不受限制的语言指导、与开放世界环境的交互以及使用导航历史进行进度跟踪。

  • 展示了LLMs在导航中的高层规划能力,包括将指令分解为子目标、整合与导航任务相关的常识知识、从观察到的环境中识别地标、持续监控导航进度以及通过计划调整应对异常情况。

  • 通过观察LLMs的思考过程,使得导航智能体的规划过程变得可访问和可解释。

  • 通过一系列实验,证明了LLMs能够执行复杂的导航规划,并且能够在导航历史的基础上生成高质量的导航指令和准确的俯视度量轨迹。

研究背景

研究问题

论文主要解决的问题是如何利用大模型(LLMs)进行视觉和语言导航(VLN),即LLMs在零样本情况下进行视觉和语言导航的能力。

研究难点

该问题的研究难点包括:

  • 如何将视觉信号转换为自然语言描述,

  • 如何在不依赖监督数据的情况下进行导航决策,

  • 以及如何在不损失信息的情况下处理长历史记录。

相关工作

该问题的研究相关工作有:

  • SayCan和PaLM-E等将LLMs集成到具身机器人任务中,

  • Shah等人使用GPT-3进行地标识别,

  • Zhou等人利用LLMs的常识推理能力进行对象导航。

研究方法

这篇论文提出了NavGPT,用于解决视觉和语言导航问题。

VLN形式化描述

VLN问题被公式化为在给定自然语言指令的情况下,智能体在每个步骤通过模拟器获取观测值,并在导航图中选择可导航的视点。

智能体通过选择相对角度来预测下一步动作,并通过与模拟器的交互来转移到下一个状态。

NavGPT系统

NavGPT将视觉感知结果、语言指令、历史记录和导航系统原则通过Prompt管理器转换为LLM可以理解的Prompt。

  • NavGPT的导航系统原理。定义了VLN任务和NavGPT的基本推理格式,要求NavGPT通过识别唯一视点ID在预定义环境中导航,不得虚构不存在的ID。

  • 视觉基础模型将视觉观察转化为自然语言描述,供LLM理解。

  • 导航历史记录了之前的观察和动作,对评估指令完成进度和更新状态至关重要。

  • 提示管理器M整合。、F和H的结果,形成单一提示,使LLM能做出导航决策。

视觉感知器

NavGPT使用BLIP-2模型将视觉输入转换为自然语言描述,每个视点由24个以自我为中心的视图组成,通过BLIP-2模型生成详细语言描述,同时结合其他视觉模型提取的底层特征,如Fast-RCNN提取的物体边界框和深度信息,以过滤和定位物体。

推理和动作的协同

NavGPT通过在每一步输出推理轨迹来增强其理解当前状态的能力。

推理轨迹不仅有助于复杂的规划和策略创建,还可以通过注入先前的推理轨迹来提高问题解决能力。

Prompt管理器

NavGPT的Prompt管理器将、和解析并重新格式化为LLMs的Prompt。

  • 对于,Prompt管理器传达VLN任务定义和NavGPT的行为限制。

  • 对于,Prompt管理器将方向的解释组合成Prompt。

  • 对于,Prompt管理器使用GPT-3.5总结观察结果,并将其插入到Prompt中,以处理历史记录的长度。

实验设计

数据集

实验基于R2R数据集进行,该数据集包含7189条轨迹,每条轨迹对应三条细粒度的指令。数据集分为训练集、验证未见集、测试未见集,分别包含61、56、11和18个室内场景。

评估指标

评估指标包括:

  • 轨迹长度(TL),

  • 导航误差(NE),

  • 成功率(SR),

  • 命中目标的成功率(OSR),

  • 路径长度加权的成功率(SPL)。

实现细节

实验使用GPT-4和GPT-3.5进行评估,图像转换器使用BLIP-2 ViT-G FlanT5XL,对象检测器使用Fast-RCNN,深度信息从Matterport3D模拟器中提取。

结果与分析

推理能力

NavGPT能够执行各种类型的推理和高层规划,包括分解指令为子目标、整合与导航任务相关的常识知识、从观测场景中识别地标、跟踪导航进度以及处理异常情况。

历史和空间相对关系意识

GPT-4能够有效地从冗余的观测描述中提取地标,并生成包含动作的导航历史描述。此外,GPT-4能够全面理解导航历史,并在导航过程中进行必要的进度跟踪。

与监督方法的比较

NavGPT在某些监督基准上表现优于一些模型,并与一些监督智能体兼容。然而,LLM在解决VLN任务中的性能仍然存在显著差距,主要原因是视觉场景的语言描述精度和对象的跟踪能力。

视觉观察描述的粒度

45度视场角(FoV)的视角在导航任务中最为有效,提升了成功率(SR)和标准化逆路径长度成功率(SPL)。

进一步地,通过在BLIP-2描述中加入对象信息和深度估计,NavGPT的SR提高了4.86%,且深度信息的整合显著增强了智能体对环境的理解,进一步提升了导航性能。

总结

论文探讨了利用LLMs进行具身导航任务的潜力,提出了NavGPT系统。

尽管NavGPT在零样本VLN任务中的性能仍不如训练有素的方法,但GPT-4的推理轨迹揭示了LLMs在具身导航规划中的潜在能力。

相关文章:

AAAI-2024 | 大语言模型赋能导航决策!NavGPT:基于大模型显式推理的视觉语言导航

作者:Gengze Zhou, Yicong Hong, Qi Wu 单位:阿德莱德大学,澳大利亚国立大学 论文链接: NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models (https://ojs.aaai.org/index.p…...

@HeadFontStyle注解属性介绍

HeadFontStyle 是一个自定义的 Java 注解,它用于指定 Excel 单元格字体的样式属性。这个注解可以应用于方法中,用来动态地设置 Excel 文件中单元格的字体样式。下面是 HeadFontStyle 注解中各个属性的详细介绍: 1. fontName (String) 类型:…...

Exchange ProxyLogon 攻击链利用详解

目录 ProxyLogon 攻击链 影响版本 CVE-2021-26855 SSRF 复现 验证是否存在漏洞 详细漏洞利用 CVE-2021–27065 任意文件写入复现 ProxyLogon 一键利用 CVE-2021-26855 与 CVE-2021-27065 是微软在2021年3月2日发布的高危漏洞公告。这套组合拳被称为ProxyLogon,可直接获…...

C++小碗菜之五:关键字static

“一个人的命运啊,当然要靠自我奋斗,但也要考虑到历史的行程。” ——2009年4月23日在视察中国联合工程公司时的讲话 目录 ​编辑 前言 static在局部作用域中的作用 给出例子: 修改上面给出的例子: 为什么不使用全局变量…...

deepstream笔记

创建pipeline pipeline gst_pipeline_new("audio-player");创建filesrc类型元素并命名为file-source; GstElement *source gst_element_factory_make("filesrc", "file-source");通过元素名file-source获取元素对应的指针&#x…...

Pinpoint 是一个开源的分布式追踪系统

pinpointagent2.2.2.tar 是 Pinpoint 的一个版本,Pinpoint 是一个开源的分布式追踪系统,专门用于对 Java 应用程序进行性能监控、日志记录和故障诊断。它可以帮助开发人员和运维人员追踪和分析微服务架构中服务之间的调用链,并进行性能分析。…...

H3C交换机远程登录基本配置

设备信息 H3C Comware Software, Version 7.1.070, Release 6312P02 Copyright (c) 2004-2021 New H3C Technologies Co., Ltd. All rights reserved. H3C S6520X-54QC-EI Telnet登录设备基本配置 1、开启telnet服务 system-view telnet server enable 2、telnet登录设备终…...

python关闭线程池来关闭线程

在 Python 中,使用线程池(如 concurrent.futures.ThreadPoolExecutor 或 multiprocessing.pool.ThreadPool)来管理和执行多个线程是一种常见的并发编程方式。关于关闭线程池以及关闭后线程的状态,以下是详细的解释和指导。 使用 …...

生成式AI:药学科普的新引擎

在信息爆炸的时代,药学知识的普及显得尤为重要。而今,生成式人工智能(Generative AI)正以其强大的内容生成和数据分析能力,悄然改变着传统的药学科普模式。它不仅能加速信息的传递,更能为患者提供个性化、易…...

洛谷 p3392 涂条纹

题目: 思路: 简单的模拟题,模拟题好麻烦,但是思路走好就可以。首先我们可以求出每一行,红,蓝,白的个数。涂蓝色和白色为了涂色更少,所以涂蓝色要选择第i行蓝色个数最多的&#xff0…...

64.基于SpringBoot + Vue实现的前后端分离-新闻资讯系统(项目 + 论文)

项目介绍 传统信息的管理大部分依赖于管理人员的手工登记与管理,然而,随着近些年信息技术的迅猛发展,让许多比较老套的信息管理模式进行了更新迭代,文章信息因为其管理内容繁杂,管理数量繁多导致手工进行处理不能满足广…...

Y3编辑器教程8:资源管理器与存档、防作弊设置

文章目录 一、资源管理器简介1.1 界面介绍1.2 资源商店1.3 AI专区1.3.1 AI文生图1.3.2 AI图生图1.3.3 立绘头像 二、导入导出2.1 文件格式2.2 模型导入2.2.1 模型制作后导出2.2.2 模型文件导入Y3编辑器2.2.3 Y3编辑器角色、装饰物模型要求 2.3 纹理导入2.4 材质贴图2.4.1 材质支…...

智慧社区电子商务系统:实现社区资源的数字化管理

2.1vue技术 Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式JavaScript框架。 [5] 与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用。Vue 的核心库只关注视图层,不仅易于上手,还便于与第三方库或既有项…...

精准提升:从94.5%到99.4%——目标检测调优全纪录

🚀 目标检测模型调优过程记录 在进行目标检测模型的训练过程中,我们面对了许多挑战与迭代。从初始模型的训练结果到最终的调优优化,每一步的实验和调整都有其独特的思路和收获。本文记录了我在优化目标检测模型的过程中进行的几次尝试&#…...

【LLM论文日更】| 训练大型语言模型在连续潜在空间中进行推理

论文:https://arxiv.org/pdf/2412.06769代码:暂未开源机构 :Meta领域:思维链发表:arxiv 研究背景 研究问题:这篇文章要解决的问题是如何在大语言模型(LLMs)中实现一种新的推理范式&…...

智能家居实训室中,STC单片机驱动的“互联网+”智能家居系统设计

一、引言 随着经济的快速发展,人们对家居环境的智能化、网络化需求日益增强,智能家居的研究也因此受到了国内外相关机构的广泛关注。STC单片机凭借其卓越的性能和广泛的应用领域,成为了智能家居系统设计的优选方案。作为一种先进的微控制器&…...

《C++ 赋能强化学习:Q - learning 算法的实现之路》

在当今科技飞速发展的时代,人工智能无疑是最热门的领域之一,而强化学习作为其中的重要分支,正逐渐改变着我们解决复杂问题的方式。Q - learning 算法作为强化学习中的经典算法,在众多领域如游戏、机器人控制、资源管理等有着广泛的…...

三维模型中的UV展开是什么意思?它有什么优势?

UV展开涉及将三维模型的表面展开为一个或多个二维区域,以便将纹理图像正确地映射到模型上。这个过程类似于将一个立体物体的表面切割并平铺开来。UV坐标是用于在二维纹理图像中定位颜色和细节的坐标系统,U和V分别代表纹理图像的水平和垂直轴。 UV展开它…...

怎么在ubuntu系统上安装qt项目的打包工具linuxdeployqt

引言 安装linuxdeployqt方案一方案二 在ubuntu系统上开发的项目最后需要完成打包,qtcreator本身就用一个打包工具,在ubuntu系统上是linuxdeployqt。本文主要记录一下怎么在ubuntu系统上安装qt打包工具linuxdeployqt。 安装linuxdeployqt 前提是已经安装…...

SQL语句整理五-StarRocks

文章目录 查看版本号:SPLIT:insert 和 update 结合 select:报错:1064 - StarRocks planner use long time 3000 ms in memo phase:字段增删改: 查看版本号: select current_version(); current…...

[2025CVPR]DeepVideo-R1:基于难度感知回归GRPO的视频强化微调框架详解

突破视频大语言模型推理瓶颈,在多个视频基准上实现SOTA性能 一、核心问题与创新亮点 1.1 GRPO在视频任务中的两大挑战 ​安全措施依赖问题​ GRPO使用min和clip函数限制策略更新幅度,导致: 梯度抑制:当新旧策略差异过大时梯度消失收敛困难:策略无法充分优化# 传统GRPO的梯…...

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

ASP.NET Core 是一个跨平台的开源框架,用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录,以帮助监视应用程序行为和诊断问题。 可以通过配置不同的记录提供程…...

C++初阶-list的底层

目录 1.std::list实现的所有代码 2.list的简单介绍 2.1实现list的类 2.2_list_iterator的实现 2.2.1_list_iterator实现的原因和好处 2.2.2_list_iterator实现 2.3_list_node的实现 2.3.1. 避免递归的模板依赖 2.3.2. 内存布局一致性 2.3.3. 类型安全的替代方案 2.3.…...

React Native 导航系统实战(React Navigation)

导航系统实战(React Navigation) React Navigation 是 React Native 应用中最常用的导航库之一,它提供了多种导航模式,如堆栈导航(Stack Navigator)、标签导航(Tab Navigator)和抽屉…...

Mac软件卸载指南,简单易懂!

刚和Adobe分手,它却总在Library里给你写"回忆录"?卸载的Final Cut Pro像电子幽灵般阴魂不散?总是会有残留文件,别慌!这份Mac软件卸载指南,将用最硬核的方式教你"数字分手术"&#xff0…...

EtherNet/IP转DeviceNet协议网关详解

一,设备主要功能 疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络,本网关连接到EtherNet/IP总线中做为从站使用,连接到DeviceNet总线中做为从站使用。 在自动…...

稳定币的深度剖析与展望

一、引言 在当今数字化浪潮席卷全球的时代,加密货币作为一种新兴的金融现象,正以前所未有的速度改变着我们对传统货币和金融体系的认知。然而,加密货币市场的高度波动性却成为了其广泛应用和普及的一大障碍。在这样的背景下,稳定…...

使用 SymPy 进行向量和矩阵的高级操作

在科学计算和工程领域,向量和矩阵操作是解决问题的核心技能之一。Python 的 SymPy 库提供了强大的符号计算功能,能够高效地处理向量和矩阵的各种操作。本文将深入探讨如何使用 SymPy 进行向量和矩阵的创建、合并以及维度拓展等操作,并通过具体…...

C/C++ 中附加包含目录、附加库目录与附加依赖项详解

在 C/C 编程的编译和链接过程中,附加包含目录、附加库目录和附加依赖项是三个至关重要的设置,它们相互配合,确保程序能够正确引用外部资源并顺利构建。虽然在学习过程中,这些概念容易让人混淆,但深入理解它们的作用和联…...

android RelativeLayout布局

<?xml version"1.0" encoding"utf-8"?> <RelativeLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_height"match_parent"android:gravity&…...