【VLNs篇】02:NavGPT-在视觉与语言导航中使用大型语言模型进行显式推理
方面 (Aspect) | 内容总结 (Content Summary) |
---|---|
论文标题 | NavGPT: 在视觉与语言导航中使用大型语言模型进行显式推理 (NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models) |
核心问题 | 探究大型语言模型 (LLM) 在复杂具身场景(特别是视觉与语言导航 VLN)中的推理能力,以及如何利用其进行零样本顺序动作预测和高级规划。 |
提出方案 | 引入 NavGPT,一个纯粹基于 LLM 的指令跟随导航智能体。 |
NavGPT核心机制 | 1. 输入: 视觉观察的文本描述、导航历史、未来可探索方向的文本描述。 2. 处理: LLM 推理智能体的当前状态。 3. 输出: 做出接近目标的决策(下一个动作)。 |
主要创新点 | 1. 纯粹LLM驱动: NavGPT 是一个完全基于现有 LLM(如GPT系列)构建的导航智能体,无需针对VLN任务进行额外的模型训练或微调。 2. 零样本顺序动作预测: NavGPT 能够在VLN任务中执行零样本的顺序动作预测,展示了LLM在未见过的导航场景中的泛化潜力。 3. 显式高级推理与规划: NavGPT 能够显式地执行高级导航规划,其推理过程(“思考”)是透明的,这与许多基于学习的黑箱模型不同。具体规划能力包括: * 指令分解为子目标。 * 整合导航相关的常识知识。 * 从观察场景中识别地标。 * 跟踪导航进度。 * 通过计划调整适应异常情况。 4. 揭示LLM的多方面导航相关能力: 证明LLM不仅能做决策,还能: * 根据观察和路径动作生成高质量的导航指令。 * 根据智能体的导航历史绘制准确的俯视度量轨迹。 |
关键能力/发现 | LLM(通过NavGPT)展现出: * 理解复杂导航指令并将其分解的能力。 * 利用常识进行导航决策的能力。 * 识别和利用视觉地标的能力。 * 在导航过程中保持对任务进度的跟踪。 * 在遇到意外情况时调整计划的灵活性。 * 空间感知和历史记忆能力(体现在轨迹绘制和指令生成上)。 |
局限性 | 1. 性能差距: 零样本的NavGPT在R2R等VLN任务上的性能仍不及经过专门训练的监督模型。 2. 信息瓶颈: 性能受限于将视觉信号转换为自然语言描述的准确性,以及在总结导航历史时可能发生的信息损失。 |
未来方向 | 1. 为LLM适配多模态输入,使其能直接处理视觉信息而非仅文本描述。 2. 将LLM的显式推理能力应用于(或集成到)基于学习的模型中,以提升其性能和可解释性。 |
对领域的贡献 | 1. 提出了一个新颖的、纯粹基于LLM的VLN智能体架构 (NavGPT)。 2. 系统地探究并展示了LLM在复杂导航任务中的高级推理和规划能力。 3. 为构建更通用、更具可解释性的具身智能体提供了新的思路和证据。 |
文章目录
- 摘要
- 1 引言
- 2 相关工作
- 3 方法
- 3.1 NavGPT
- 3.2 NavGPT的视觉感知器
- 3.3 在LLM中协同推理和行动
- 3.4 NavGPT提示管理器
- 4 实验
- 4.1 定性结果
- 4.2 与监督方法的比较
- 4.3 视觉组件的效果
- 5 结论
摘要
经过空前规模数据训练的大型语言模型(LLM),如ChatGPT和GPT-4,展现了模型规模扩展带来的显著推理能力。这一趋势凸显了用无限语言数据训练LLM的潜力,推动了通用具身智能体的发展。在这项工作中,我们引入了NavGPT,一个纯粹基于LLM的指令跟随导航智能体,通过在视觉与语言导航(VLN)中执行零样本顺序动作预测,揭示GPT模型在复杂具身场景中的推理能力。在每一步,NavGPT都将视觉观察的文本描述、导航历史和未来可探索方向作为输入,以推断智能体的当前状态,并做出接近目标的决策。通过全面的实验,我们证明NavGPT可以显式地执行高级导航规划,包括将指令分解为子目标、整合与导航任务解决相关的常识知识、从观察到的场景中识别地标、跟踪导航进度以及通过计划调整适应异常情况。此外,我们表明LLM能够根据路径上的观察和动作生成高质量的导航指令,并能根据智能体的导航历史绘制准确的俯视度量轨迹。尽管使用NavGPT进行零样本R2R任务的性能仍不及训练模型,但我们建议为LLM调整多模态输入以用作视觉导航智能体,并应用LLM的显式推理来使基于学习的模型受益。
1 引言
在大型语言模型(LLM)训练取得显著进展的背景下[54, 3, 9, 67, 61, 8, 4, 40],我们注意到一个趋势,即将LLM集成到具身机器人任务中,例如SayCan [1]和PaLM-E [13]。这一趋势源于两个主要考虑:训练数据的规模和模型的规模。首先,处理文本信息的技术发展为学习跨学科和可泛化知识提供了丰富的自然语言训练数据来源。其次,通过访问无限的语言数据,在扩大模型规模时观察到显著的涌现能力[62],从而在解决跨领域问题时显著增强了推理能力。因此,用无限语言数据训练LLM被认为是实现通用具身智能体的可行途径。
这一见解推动了将LLM集成到视觉与语言导航(VLN)[2]中,这是一项旨在实现真实世界指令跟随具身智能体的探索性任务。最新的研究尝试利用GPT模型[40, 3]来辅助导航。例如,使用LLM作为多样化语言输入的解析器[50]——从指令中提取地标以支持视觉匹配和规划,或者利用LLM的常识推理能力[68, 11]来整合对象间相关性的先验知识,以扩展智能体的感知并促进
图1:NavGPT的架构。NavGPT协同LLM中的推理和行动,以执行零样本视觉与语言导航,遵循导航系统原则。它与不同的视觉基础模型交互以适应多模态输入,通过历史缓冲区和GPT-3.5摘要器处理历史长度,并通过提示管理器聚合各种信息源。NavGPT解析从LLM生成的结 (LLM思考和LLM行动) 以移动到下一个视点。
决策制定。然而,我们注意到LLM在导航中的推理能力仍未得到充分探索,即LLM能否以文本形式理解交互世界、行动和后果,并利用所有信息来解决导航任务?
有鉴于此,我们引入了NavGPT,一个专为语言引导视觉导航设计的全自动LLM系统,它能够处理多模态输入、无约束的语言引导、与开放世界环境的交互以及通过导航历史跟踪进度。NavGPT通过读取视觉基础模型(VFM)生成的观察描述来感知视觉世界,并以明确的文本形式协同思考(推理)和行动(决策制定)。在极端情况下,我们使用NavGPT执行零样本VLN¹,以清晰地揭示LLM在导航过程中的推理过程。
通过全面的实验,我们发现LLM具备执行复杂导航规划的能力。这包括将指令分解为不同的子目标,吸收与导航任务相关的常识知识,在观察到的环境背景下识别地标,持续监控导航进展,以及通过修改初始计划来应对异常情况。上述现象反映了在理解和解决导航问题方面惊人的推理能力。此外,我们表明LLM有能力在度量地图中绘制导航轨迹,并根据导航历史重新生成导航指令,揭示了LLM对导航任务的历史和空间感知能力。然而,当前开源LLM在VLN中的零样本性能与微调模型相比仍存在显著差距,其中NavGPT的瓶颈在于将视觉信号转换为自然语言以及将观察总结到历史记录中的信息损失。因此,我们建议未来构建通用VLN智能体的方向是具有多模态输入的LLM,或者利用LLM的高级导航规划、历史和空间感知能力的导航系统。
我们的贡献可以总结如下:(1)我们引入了一种新颖的指令跟随LLM智能体用于视觉导航,该智能体带有一个支持系统以与环境交互并跟踪导航历史。(2)我们研究了当前LLM在导航决策推理方面的能力和局限性。(3)我们揭示了LLM在高级规划方面的能力,通过观察LLM的思考,使导航智能体的规划过程变得可访问和可解释。
2 相关工作
视觉与语言导航 语言驱动的视觉导航受到广泛应用的具身导航智能体的需求。先前的研究表明了实现此类目标的模块要素[2, 46, 29, 30, 22, 19, 60, 72, 23, 25],而大量研究揭示了训练策略的关键作用[59, 53]。重要的是,VLN中的主要问题是智能体在未见环境中的泛化能力。数据增强[36, 58, 32, 53, 41, 15, 56]、记忆机制[6, 57, 42]、预训练[39, 21, 20, 65, 44]已被用于缓解数据稀缺性。然而,这些增强和预训练仅限于从固定数量场景中采样的数据,这不足以反映对象可能超出领域且语言指令更加多样化的现实应用场景。在我们的工作中,我们利用LLM的推理和知识存储,以零样本方式执行VLN,作为揭示LLM在野外VLN中潜在用途的初步尝试。许多研究[5, 10, 7, 57]提出了引人注目的方法,强调了拓扑地图在促进长期规划方面的重要性,特别是在回溯到先前位置方面。此外,Dorbala等人[12]使用CLIP[47]通过将指令分块为关键短语并完全依赖CLIP的文本-图像匹配能力来进行零样本VLN导航。然而,上述智能体的规划和决策过程是隐式的且不可访问的。相反,受益于LLM的内在特性,我们能够访问智能体的推理过程,使其可解释和可控。
大型语言模型 随着大规模语言模型训练的巨大成功[54, 3, 9, 67, 61, 8],新一批大型语言模型(LLM)在实现人工智能(AGI)[4, 40]方面取得了进化性的进展。这类新兴的LLM,以日益复杂的架构和训练方法[8, 48]为基础,有潜力通过提供前所未有的自然语言理解和生成能力来革新各个领域。LLM的主要担忧是其知识在训练完成后是有限和受限的。最新的工作研究如何利用LLM与工具交互以扩展其知识作为插件,包括扩展LLM以处理多模态内容[64, 51],教LLM使用正确的API调用访问互联网[49],以及用本地数据库扩展其知识以完成问答任务[43]。另一类工作研究如何提示LLM在分层系统中促进推理和相应行动的对齐[66, 28],超越了思维链(CoT)[63]。这些工作为直接使用LLM构建具身智能体奠定了基础。
LLM在机器人导航中的应用 大型语言模型(LLM)在机器人领域的应用仍处于初级阶段[55, 4]。然而,一些当代研究已经开始探索利用生成模型进行导航。Shah等人[50]尝试使用GPT-3 [3]来识别“地标”或子目标,而Huang等人[27]则专注于将LLM应用于代码生成。Zhou等人[68]使用LLM提取目标与观察中对象之间关系的常识知识,以执行零样本对象导航(ZSON)[16, 38]。尽管最近取得了这些进展,但我们的研究在将视觉场景语义转换为LLM的输入提示,直接基于LLM的常识知识和推理能力执行VLN方面有所不同。与我们最接近的工作是LGX [11],但他们正在进行对象导航,其中智能体不需要遵循指令,并且在他们的方法中,他们使用GLIP [33]模型来决定停止概率,并且没有考虑导航历史、行动和LLM之间推理的记忆。
3 方法
VLN问题表述 我们将VLN问题表述如下:给定一个由一系列词语{W₁,W₂,W₃,…, wn}组成的自然语言指令W,在每一步st,智能体通过模拟器解释当前位置以获得观察Ot。该观察包括N个备选视点,代表智能体在不同方向上的自我中心视角。
每个唯一的视图观察表示为oi (i < N),其关联的角度方向表示为ai (i < N)。因此,观察可以定义为 Ot ≒ [⟨o₁,a₁⟩, ⟨o₂, a₂⟩, …… ,⟨oN, aN⟩]。在整个导航过程中,智能体的动作空间仅限于导航图 G。智能体必须从 M = |Ct+1| 个可导航视点中进行选择,其中 Ct+1 表示候选视点的集合,通过将观察 [⟨o₁f, a₁f⟩, ⟨o₂f, a₂f⟩, …, ⟨oMf, aMf⟩] 与指令 W 对齐。智能体通过从 Of 中选择相对角度 af 来预测后续动作,然后通过与模拟器的交互来执行此动作,从当前状态 st = ⟨vt, Ot, φt⟩ 转换到 st+1 = ⟨vt+1, Ot+1, φt+1⟩,其中 v, θ 和 φ 分别表示当前视点位置、智能体的当前朝向角和俯仰角。智能体还维护状态历史 ht 的记录,并调整状态之间的条件转移概率 St = T(st+1|atf, st, ht),其中函数 T 表示条件转移概率分布。
总之,由Θ参数化的策略,智能体需要学习的,是基于指令W和当前观察Ot,即 π(atf|W, Ot, Of, St; Θ)。在本研究中,NavGPT以零样本方式执行VLN任务,其中Θ不是从VLN数据集中学习的,而是从LLM训练所用的语言语料库中学习的。
3.1 NavGPT
NavGPT是一个与环境、语言引导和导航历史交互以执行动作预测的系统。令 H<t+1 = [⟨O₁, R₁, A₁⟩, ⟨O₂, R₂, A₂⟩, …, ⟨Ot, Rt, At⟩] 为前t步的观察O、LLM推理R和动作A三元组的导航历史。为了获得导航决策At+1,NavGPT需要借助提示管理器M,协同来自VFM F的视觉感知、语言指令W、历史H和导航系统原则P,定义如下:
导航系统原则P。 导航系统原则将LLM的行为表述为VLN智能体。它清晰地定义了VLN任务以及NavGPT在每个导航步骤中的基本推理格式和规则。例如,NavGPT应该通过识别唯一的视点ID在环境预定义图的静态视点(位置)之间移动。NavGPT不应捏造不存在的ID。详细信息在3.4节中讨论。
视觉基础模型F。 NavGPT作为LLM智能体,需要VFM的视觉感知和表达能力,以将当前环境的视觉观察转换为自然语言描述。这里的VFM扮演翻译者的角色,使用它们自己的语言(例如自然语言、对象的边界框和对象的深度)来翻译视觉观察。通过提示管理过程,视觉感知结果将被重新格式化并转换为纯自然语言,供LLM理解,具体在3.2节中讨论。
导航历史H<t+1。 导航历史对于NavGPT评估指令完成进度、更新当前状态并做出后续决策至关重要。历史由先前观察O<t+1和动作A<t+1的摘要描述以及来自LLM的推理思路R<t+1组成,具体在3.3节中讨论。
提示管理器M。 将LLM用作VLN智能体的关键是将上述所有内容转换为LLM可以理解的自然语言。这个过程由提示管理器完成,它收集来自不同组件的结果并将它们解析为单个提示,供LLM做出导航决策,具体在3.4节中讨论。
3.2 NavGPT的视觉感知器
在本节中,我们介绍NavGPT的视觉感知过程。我们将视觉信号视为一种外语,并使用不同的视觉基础模型处理视觉输入,将其转换为自然语言,如图2所示。
对于站在环境中任何视点的智能体,观察由来自不同方向的自我中心视图组成。总视图数量由每个视图图像的视场角和每个视图的相对角度定义。在我们的工作中,我们将每个视图的视场角设置为45°,并且每个视图的航向角θ从0°到360°旋转45°,总共8个方向。此外,我们
图2:从视觉输入形成自然语言描述的过程。我们使用8个方向来表示一个视点,并展示了形成其中一个方向描述的过程。
将每个视图的俯仰角φ从水平面上方30°转到下方30°,总共3个级别。因此,我们为每个视点获得3 × 8 = 24个自我中心视图。
为了将视觉观察转换为自然语言,我们首先利用BLIP-2 [31]模型作为翻译器。凭借LLM强大的文本生成能力,BLIP-2可以实现令人惊叹的零样本图像到文本生成质量。通过仔细设置视觉观察的粒度(视场角和每个观察中的总视图数量),我们提示BLIP-2为每个视图生成一个不错的语言描述,详细描绘对象的形状和颜色以及它们所在的场景,同时避免对较小视场角(FoV)视图进行无用的描述,因为这些视图只能提供部分观察,即使对人类来说也很难识别。详情请参见附录。
请注意,对于航向方向,旋转间隔等于视场角,因此每个方向之间没有重叠。对于俯仰角,顶部、中部和底部视图之间有15°的重叠。在NavGPT中,我们主要关注导航过程中智能体的航向角,因此,我们提示GPT-3.5将每个方向的顶部、中部和底部视图的场景总结为一个描述句子。
除了来自BLIP-2的场景自然语言描述外,我们还挖掘了其他视觉模型提取的较低级别特征。这些视觉模型充当辅助翻译器,将视觉输入转换为它们自己的“语言”,例如对象的类别和相应的边界框。检测结果将由提示管理器聚合成LLM的提示。在这项工作中,我们利用Fast-RCNN [18]来提取每个自我中心视图中对象的边界框。定位对象后,我们计算每个对象与智能体之间的相对航向角。我们还提取由Matterport3D模拟器[2]提供的对象中心像素的深度信息。根据深度、对象的相对方向和类别,我们通过保留当前视点3米内的对象来过滤检测结果。来自VFM的结果将由提示管理器处理成当前视点的自然语言观察。
3.3 在LLM中协同推理和行动
在VLN任务中,智能体需要学习策略π(at|W, Ot, Of, St; Θ),这很困难,因为行动与观察之间的隐式联系以及领域密集型计算。为了明确访问和增强智能体在导航过程中对当前状态的理解,我们遵循ReAct论文[66]将智能体的行动空间扩展到Ā = A ∪ R,其中R ∈ L是整个语言空间L中的内容,表示智能体的思考或推理轨迹。
智能体的推理轨迹R不会触发与外部环境的任何交互,因此当智能体在每个导航步骤输出推理时,不会返回任何观察。我们通过提示NavGPT在每个步骤输出推理轨迹后做出导航决策,从而协同其行动和思考。引入推理轨迹旨在从两个方面引导LLM:
首先,在选择行动之前提示LLM进行思考,使LLM能够在新观察下执行复杂的推理,以规划和创建策略来遵循指令。例如,如图3所示,NavGPT可以通过分析当前观察和指令来生成长期导航计划,执行更高级别的规划,例如分解指令和规划到达子目标,这在以前的工作中从未明确出现过。
其次,在导航历史H<t中包含推理轨迹R可以增强NavGPT解决问题的能力。通过将推理轨迹注入导航历史,NavGPT继承了先前推理轨迹的成果,以高级别的规划持续地通过多个步骤达到子目标,并且可以跟踪导航进度,具备异常处理能力,例如调整计划。
3.4 NavGPT提示管理器
利用导航系统原则P、来自VFM的翻译结果以及导航历史H<t,提示管理器解析并将它们重新格式化为LLM的提示。提示的详细信息在附录中呈现。
具体来说,对于导航系统原则P,NavGPT提示管理器将创建一个提示,向LLM传达规则,声明VLN任务定义,定义NavGPT的模拟环境,并以给定的推理格式限制LLM的行为。
对于来自VFM F的感知结果,提示管理器收集每个方向的结果,并以NavGPT的当前方向为前方,按顺时针排列8个方向的描述,将它们连接成提示,如图2所示。
对于导航历史H<t+1,观察、推理和行动三元组⟨Oi, Ri, Ai⟩存储在历史缓冲区中,如图1所示。直接提取缓冲区中的所有三元组将为LLM创建一个过长的提示。为了处理历史长度,提示管理器利用GPT-3.5总结轨迹中视点的观察,将总结的观察插入到观察、推理和行动三元组的提示中。
4 实验
实现细节。 我们在R2R-VLN数据集[2]上基于GPT-4 [40]和GPT-3.5评估NavGPT。R2R数据集由7189条轨迹组成,每条轨迹对应三个细粒度指令。数据集分为训练集、验证集(已见场景)、验证集(未见场景)和测试集(未见场景)四个部分,分别包含61、56、11和18个室内场景。我们在所有实验中应用了11个未见验证环境中的783条轨迹,并与先前的监督方法进行比较。我们使用BLIP-2 ViT-G FlanT5XL [31]作为图像翻译器,使用Faster-RCNN [18]作为对象检测器。对象的深度信息通过获取边界框中心像素的深度从Matterport3D模拟器[2]中提取。
评估指标。 NavGPT的评估利用R2R数据集的标准化指标。这些指标包括轨迹长度(TL),表示智能体行进的平均距离;导航错误(NE),表示智能体最终位置与目标位置之间的平均距离;成功率(SR),表示智能体在3米误差范围内成功到达目标位置的导航事件比例;Oracle成功率(OSR),智能体在其轨迹上距离目标最近点停止时的成功率;以及路径长度加权成功率(SPL),这是一个更细致的度量,通过根据最佳路径长度与智能体预测路径长度的比率调整成功率来平衡导航精度和效率。
4.1 定性结果
我们详细研究了NavGPT推理轨迹的定性结果。我们揭示了GPT-4在具身导航任务下潜在的高级规划能力。
GPT-4在语言引导导航中的推理能力 如图3所示,使用GPT-4,NavGPT可以在导航过程中执行各种类型的推理和高级规划。对于简短指令,NavGPT可以通过步骤跟踪导航进度,以完成指令中描述的单个动作,类似于自我监控VLN智能体[37, 70]。对于长
图3:NavGPT的定性结果。NavGPT可以显式地执行顺序动作预测的高级规划,包括将指令分解为子目标、整合常识知识、从观察到的场景中识别地标、跟踪导航进度、通过计划调整处理异常。
指令,NavGPT可以将其分解为子目标,类似于先前关于细化R2R数据的工作[24, 22, 71],并通过有效识别观察中的地标来规划到达目的地,类似于利用对象信息在VLN中执行跨模态匹配的工作[17, 45, 44]。当导航到具有意外观察的视点时,NavGPT可以计划探索环境并使用常识知识来辅助决策,类似于包含外部知识的VLN方法[35, 17, 34]。
图4:我们评估GPT-4在一个案例中的表现,其中NavGPT成功遵循了地面真实路径,仅使用历史动作A<t+1和观察O<t+1来生成指令(不包含推理轨迹R<t+1以避免信息泄露),并使用整个导航历史H<t+1来绘制俯视轨迹。
LLM在导航过程中的历史和空间相对关系感知 我们通过使用GPT-4描绘导航历史中的轨迹并利用pyplot构建已访问视点的地图,来检验NavGPT对历史和空间关系的感知能力。该过程仅涉及提取动作At+1、观察Ot+1和整个导航历史Ht+1。提示的具体细节在附录中呈现。
如图4所示,我们观察到GPT-4可以有效地从冗余的观察描述中提取地标,并生成带有动作的导航历史描述。这可能是为VLN生成新轨迹指令的一种潜在方式。此外,结果表明GPT-4可以全面理解导航历史,因此可以执行必要的进度跟踪。此外,如图4所示,GPT-4可以成功捕捉视点之间的相对位置关系,并绘制已访问视点的轨迹俯视图。通过提供智能体所采取动作的语言描述,包括视点之间的转弯角度和相对距离,GPT-4展示了对空间关系的惊人感知能力。这种令人印象深刻的推理能力支持NavGPT执行图3所示的高级规划,突显了LLM在具身导航任务中具有的巨大潜力。
4.2 与监督方法的比较
我们将使用NavGPT与GPT-4进行零样本顺序导航任务的结果与先前在R2R数据集上训练的模型进行了比较。如表1所示,可以辨别出显著的差异。我们认为,限制LLM在解决VLN问题中性能的因素主要可归因于两个方面:视觉场景的基于语言的描述精度以及对象的跟踪能力。
表1:与先前方法在R2R验证未见分割上的比较。
训练方案 | 方法 | TL | NE↓ | OSR↑ | SR↑ | SPL↑ |
---|---|---|---|---|---|---|
仅训练 | Seq2Seq [2] | 8.39 | 7.81 | 28 | 21 | - |
Speaker Follower [14] | - | 6.62 | 45 | 35 | - | |
EnvDrop [53] | 10.70 | 5.22 | - | 52 | 48 | |
预训练 + 微调 | PREVALENT [21] | 10.19 | 4.71 | - | 58 | 53 |
VLNBERT [26] | 12.01 | 3.93 | 69 | 63 | 57 | |
HAMT [6] | 11.46 | 2.29 | 73 | 66 | 61 | |
DuET [7] | 13.94 | 3.31 | 81 | 72 | 60 | |
无训练 | DuET (Init. LXMERT [52]) | 22.03 | 9.74 | - | 7 | 1 |
NavGPT (Ours) | 11.45 | 6.46 | 42 | 34 | 29 |
NavGPT的功能严重依赖于VFM生成的字幕质量。如果指令中描述的目标对象在观察描述中缺失,NavGPT将被迫探索环境。理想情况是所有目标对象都根据指令可见。然而,语言描述固有的粒度不可避免地会导致信息丢失。此外,NavGPT必须管理导航历史的长度以防止随着步骤的累积,描述变得过于冗长。为此,实现了一个摘要器,尽管这会以进一步的信息损失为代价。这削弱了NavGPT的跟踪能力,阻碍了在轨迹变长时形成对整个环境的无缝感知。
4.3 视觉组件的效果
我们进行了额外的实验来研究NavGPT中视觉组件的有效性,我们使用GPT-3.5构建了一个基线,因为它更易于访问且成本更低。为了评估在各种环境中的零样本能力,我们构建了一个新的验证分割,从原始训练集和验证未见集中采样。训练集和验证未见集的场景分别为61和11个,总共72个场景。我们从72个环境中随机选择了1条轨迹,每条轨迹关联3条指令。总共,我们采样了216个样本进行消融研究。
视觉观察描述中粒度的影响。 图像的视场角(FoV)严重影响BLIP-2的字幕能力,过大的FoV会导致泛化的房间描述,而极小的FoV由于内容有限会阻碍对象识别。如表2所示,我们研究了
表2:视觉观察描述中粒度的影响。
粒度 | # | TL | NE↓ | OSR↑ | SR↑ | SPL↑ |
---|---|---|---|---|---|---|
FoV@60, 12个视图 | 1 | 12.38 | 9.07 | 14.35 | 10.19 | 6.52 |
FoV@30, 36个视图 | 2 | 12.67 | 8.92 | 15.28 | 13.89 | 9.12 |
FoV@45, 24个视图 | 3 | 12.18 | 8.02 | 26.39 | 16.67 | 13.00 |
从一个视点出发的3种视觉表示粒度。具体来说,变体#1使用60 FoV的图像,顺时针旋转航向角30度以从一个视点获得12个视图,而变体#2和#3使用30、45 FoV的图像,从上到下转动俯仰角30度,并顺时针转动航向角30、45度以分别形成36个视图、24个视图。从结果来看,我们发现使用FoV 45和24个视图为一个视点生成最适合BLIP-2模型进行导航的自然语言描述。使用这种粒度下的描述分别比变体#1和#2高出6.48%和2.78%。
语义场景理解和深度估计的影响。 除了环境的自然语言描述的粒度外,NavGPT还与其他视觉基础模型(如对象检测器和深度估计器)协作,以增强对当前环境的感知。我们研究了
表3:语义场景理解和深度估计的影响。
智能体观察 | # | TL | NE↓ | OSR↑ | SR↑ | SPL↑ |
---|---|---|---|---|---|---|
基线 | 1 | 16.11 | 9.83 | 15.28 | 11.11 | 6.92 |
基线 + 对象 | 2 | 11.07 | 8.88 | 23.34 | 15.97 | 11.71 |
基线 + 对象 + 距离 | 3 | 12.18 | 8.02 | 26.39 | 16.67 | 13.00 |
添加对象信息和智能体与检测到的对象之间相对距离的有效性。我们构建了一个基于BLIP-2字幕结果并由GPT-3.5驱动的基线方法。如表3所示,通过添加对象信息,SR比基线增加了4.86%,因为额外的对象信息强调了场景中的显著对象。此外,我们观察到一个现象,即智能体未能到达目的地是因为它们不知道自己离目的地有多近。一旦目标视点在视线范围内可见,它们往往会立即停止。因此,通过添加深度信息,智能体对当前位置有了更好的理解,并进一步将SR提高了0.7%,SPL提高了1.29。
5 结论
在这项工作中,我们探索了在具身导航任务中利用LLM的潜力。我们提出了NavGPT,一个专为语言引导导航设计的自主LLM系统,具备处理多模态输入和无限制语言引导、与开放世界环境互动以及维护导航历史的能力。受限于视觉场景语言描述的质量和对象的跟踪能力,NavGPT在VLN上的零样本性能仍无法与训练方法相媲美。然而,GPT-4的推理轨迹阐明了LLM在具身导航规划中的潜在潜力。LLM与下游专业模型的交互或多模态LLM在导航中的发展,预示着多功能VLN智能体的未来。
相关文章:

【VLNs篇】02:NavGPT-在视觉与语言导航中使用大型语言模型进行显式推理
方面 (Aspect)内容总结 (Content Summary)论文标题NavGPT: 在视觉与语言导航中使用大型语言模型进行显式推理 (NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models)核心问题探究大型语言模型 (LLM) 在复杂具身场景(特别是视…...

(T_T),不小心删掉RabbitMQ配置文件数据库及如何恢复
一、不小心删除 今天是2025年5月15日,非常沉重的一天,就在今早8点左右的时候我打算继续做我的毕业设计,由于开机的过程十分缓慢(之前没有),加上刚开机电脑有卡死的迹象,再加上昨天晚上关电脑前…...
创建react工程并集成tailwindcss
1. 创建工程 npm create vite admin --template react 2.集成tailwndcss 打开官网跟着操作一下就行。 Installing Tailwind CSS with Vite - Tailwind CSS...

TDengine 安全部署配置建议
背景 TDengine 的分布式、多组件特性导致 TDengine 的安全配置是生产系统中比较关注的问题。本文档旨在对 TDengine 各组件及在不同部署方式下的安全问题进行说明,并提供部署和配置建议,为用户的数据安全提供支持。 安全配置涉及组件 TDengine 包含多…...
Axure全链路交互设计:快速提升实现能力(基础交互+高级交互)
想让你的设计稿像真实App一样丝滑?本专栏带你玩转Axure交互,从选中高亮到动态面板骚操作,再到中继器表单花式交互,全程动图教学,一看就会! 本专栏系统讲解多个核心交互效果,是你的Axure交互急救…...
为什么wifi有信号却连接不上?
WiFi有信号,无法连接WiFi网络的可能原因及解决方法: 1.长时间使用路由器,路由器可能会出现假死现象。重启无线路由器即可。 2.认证类型不合适。尝试更改路由器的认证类型,选择安全的 “WPA2-PSK” 类型模式要好,下面…...

蓝桥杯框架-LED蜂鸣器继电器
蓝桥杯框架-LED蜂鸣器继电器 一,新建工程文件二,配置keil三,完善框架 一,新建工程文件 在桌面上新建一个文件夹:用于存放所有工程文件 在文件夹中再建立一个文件夹DEMO_01:这是我们的第一个工程文件 在第…...

uniapp-商城-64-后台 商品列表(商品修改---页面跳转,深浅copy应用,递归调用等)
完成了商品的添加和展示,下面的文字将继续进行商品页面的处理,主要为商品信息的修改的页面以及后天逻辑的处理。 本文主要介绍了商品信息修改页面的实现过程。首先,页面布局包括编辑和删除功能,未来还可添加上架和下架按钮。通过c…...

Dify的大语言模型(LLM) AI 应用开发平台-本地部署
前言 今天闲着,捣鼓一下 Dify 这个开源平台,在 mac 系统上,本地部署并运行 Dify 平台,下面记录个人在本地部署Dify 的过程。 Dify是什么? Dify是一个开源的大语言模型(LLM)应用开发平台&#…...

使用教程:8x16模拟开关阵列可级联XY脚双向导通自动化接线
以下通过点亮LED进行基本使用流程演示,实际可以连接复杂外设(SPI、CAN、ADC等) 单模块使用 RX、TX、5V和GND接到串口模块;X5接5V;Y2接LED;LED-接GND 串口模块插上电脑后,LED没有亮;因为此时模…...
移动端前端调试调研纪实:从痛点出发,到 WebDebugX 的方案落地
这个月我接到一个内部调研任务:为公司的新一代 Hybrid 框架选型合适的前端调试解决方案。初衷其实很简单——以前的调试方式效率太低,影响开发和测试协同,产品问题总是复现难、修复慢。 于是我花了两周时间,试用了包括 Eruda、Re…...

8 种快速易用的Python Matplotlib数据可视化方法
你是否曾经面对一堆复杂的数据,却不知道如何让它们变得直观易懂?别慌,Python 的 Matplotlib 库是你数据可视化的最佳伙伴!它简单易用、功能强大,能将枯燥的数字变成引人入胜的图表。无论是学生、数据分析师还是程序员&…...
【android bluetooth 协议分析 02】【bluetooth hal 层详解 3】【高通蓝牙hal主要流程介绍-上】
1. 背景 本节主要讨论 高通 蓝牙 hal 中,的一些流程。 看看你是否都清楚如下问题: 高通芯片电如何控制?串口是在哪里控制的?固件如何下载?初始化流程是怎么样的? 如果你已经对上述讨论的问题,…...

C# 深入理解类(实例构造函数)
实例构造函数 实例构造函数是一个特殊的方法,它在创建类的每个新实例时执行。 构造函数用于初始化类实例的状态。如果希望能从类的外部创建类的实例,需要将构造函数声明为public。 图7-2阐述了构造函数的语法。除了下面这几点,构造函数看起…...

RabbitMQ——消息确认
一、消息确认机制 生产者发送的消息,可能有以下两种情况: 1> 消息消费成功 2> 消息消费失败 为了保证消息可靠的到达消费者(!!!注意:消息确认机制和前面的工作模式中的publisher confi…...

测试W5500的第2步_使用ioLibrary库创建TCP客户端
ioLibrary库下载地址:文件下载地址:https://gitee.com/wiznet-hk/STM32F10x_W5500_Examples 源文件下载地址:https://gitee.com/wiznet-hk 没有注册的,只能复制粘贴了。 本文介绍了如何初始化STM32的硬件资源,配置W5500的网络参数ÿ…...

深度学习之用CelebA_Spoof数据集搭建一个活体检测-训练好的模型用MNN来推理
一、模型转换准备 首先确保已完成PyTorch到ONNX的转换:深度学习之用CelebA_Spoof数据集搭建活体检测系统:模型验证与测试。这里有将PyTorch到ONNX格式的模型转换。 二、ONNX转MNN 使用MNN转换工具进行格式转换:具体的编译过程可以参考MNN的…...
【Java】泛型在 Java 中是怎样实现的?
先说结论 , Java 的泛型是伪泛型 , 在运行期间不存在泛型的概念 , 泛型在 Java 中是 编译检查 运行强转 实现的 泛型是指 允许在定义类 , 接口和方法时使用的类型参数 , 使得代码可以在不指定具体类型的情况下操作不同的数据类型 , 从而实现类型安全的代码复用 的语言机制 . …...

开源安全大模型Foundation-Sec-8B实操
一、兴奋时刻 此时此刻,晚上22点55分,从今天早上6点左右开始折腾,花费了接近10刀的环境使用费,1天的休息时间,总算是把Foundation-Sec-8B模型跑起来了,中间有两次胜利就在眼前,但却总在远程端口转发环节出问题,让人难受。直到晚上远程Jupyter访问成功那一刻,眉开眼笑,…...

【JavaWeb】MySQL
1 引言 1.1 为什么学? 在学习SpringBootWeb基础知识(IOC、DI等)时,在web开发中,为了应用程序职责单一,方便维护,一般将web应用程序分为三层,即:Controller、Service、Dao 。 之前的案例中&am…...

微信小游戏流量主广告自动化浏览功能案例5
功能需求: 支持APP单行文本框输入1个小程序链接,在“文件传输助手”界面发送小程序链接并进入。 主要有“文章列表首页”和“文章内容”页面。每个页面支持点击弹窗广告、槽位广告、视频广告入口、视频广告内第三方广告。 弹窗广告、槽位广告、视频广…...
【C++ Primer 学习札记】函数传参问题
参考博文: https://blog.csdn.net/weixin_40026739/article/details/121582395 什么是形参(parameter),什么是实参(argument) 1. 形参 在函数定义中出现的参数可以看做是一个占位符,它没有数据…...

软件的技术架构、应用架构、业务架构、数据架构、部署架构
一、各架构定义 1. 技术架构(Technical Architecture) 定义:技术架构关注的是支撑系统运行的底层技术基础设施和软件平台,包括硬件、操作系统、中间件、编程语言、框架、数据库管理系统等技术组件的选择和组合方式。它描述了系统…...

CSS 文字样式全解析:从基础排版到视觉层次设计
CSS 文字样式目录 一、字体家族(font-family) 二、字体大小(font-size) 三、字体粗细(font-weight) 四、字体样式(font-style) 五、文本转换(text-transform…...

【高德开放平台-注册安全分析报告】
前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…...
[特殊字符] React Fiber架构与Vue设计哲学撕逼实录
1. React这逼为什么搞Fiber? 他妈的DOM树太深:16版本前递归遍历组件树就像便秘,卡得页面直接阳痿调度器不给力:老子要打断渲染过程搞优先级调度,旧架构跟智障一样只会死循环增量渲染需求:Fiber链表结构让老…...

RabbitMQ的简介
三个概念 生产者:生产消息的服务消息代理:消息中间件,如RabbitMQ消费者:获取使用消息的服务 消息队列到达消费者的两种形式 队列(queue):点对点消息通信(point-to-point) 消息进入队…...
混合学习:Bagging与Boosting的深度解析与实践指南
引言 在机器学习的世界里,模型的性能优化一直是研究的核心问题。无论是分类任务还是回归任务,我们都希望模型能够在新的数据上表现出色,即具有良好的泛化能力。然而,实际应用中常常遇到模型过拟合(高方差)…...

使用Gemini, LangChain, Gradio打造一个书籍推荐系统 (第一部分)
第一部分:数据处理 import kagglehub# Download latest version path kagglehub.dataset_download("dylanjcastillo/7k-books-with-metadata")print("Path to dataset files:", path)自动下载该数据集的 最新版本 并返回本地保存的路径 impo…...

大语言模型 16 - Manus 超强智能体 Prompt分析 原理分析 包含工具列表分析
写在前面 Manus 是由中国初创公司 Monica.im 于 2025 年 3 月推出的全球首款通用型 AI 智能体(AI Agent),旨在实现“知行合一”,即不仅具备强大的语言理解和推理能力,还能自主执行复杂任务,直接交付完整成…...