当前位置：首页 > news >正文

Learning from Unlabeled 3D Environments forVision-and-Language Navigation

news 2026/2/9 13:29:23

这篇论文是关于高级指令的

摘要

在视觉和语言导航 (VLN) 中，实体代理需要按照自然语言指令在真实的 3D 环境中进行导航。现有 VLN 方法的一个主要瓶颈是缺乏足够的训练数据，导致对未见过的环境的泛化效果不理想。虽然 VLN 数据通常是手动收集的，但这种方法成本高昂并且阻碍了可扩展性。在这项工作中，我们通过建议从 HM3D 的 900 个未标记的 3D 建筑物自动创建大规模 VLN 数据集来解决数据稀缺问题 [45]。我们为每个建筑物生成一个导航图，并从 2D 传输对象预测，通过跨视图一致性生成伪 3D 对象标签。然后，我们使用伪对象标签作为提示来微调预训练的语言模型，以减轻指令生成中的跨模式差距。我们生成的 HM3D-AutoVLN 数据集在导航环境和指令方面比现有 VLN 数据集大一个数量级。我们通过实验证明 HM3D-AutoVLN 显着提高了 VLN 模型的泛化能力。在 SPL 指标上，我们的方法在 REVERIE 和 SOON 数据集的未见验证分割上分别比现有技术提高了 7.1% 和 8.1%。

介绍

让机器人执行各种家务是科幻小说中的常见愿景。这样的长期目标需要一个实体代理来理解我们的人类语言，在物理环境中导航并与物体交互。作为实现这一目标的第一步，视觉和语言导航任务（VLN）[3]已经出现并吸引了越来越多的研究关注。早期的 VLN 方法 [3,28] 为代理提供了到达目标位置的分步导航指令，例如“走出卧室。右转，沿着走廊走。在走廊尽头左转。走到沙发前停下来”。虽然这些详细的指令降低了任务的难度，但它们降低了人们在现实生活中指挥机器人时的实用价值。因此，最近的 VLN 方法 [43,57] 专注于高级指令，并要求代理在目标位置找到特定对象，例如，“到客厅把沙发上最靠近灯的白色靠垫拿给我”。智能体需要自行探索 3D 环境以找到“靠垫”。

与分步instruction相比，遵循这种高级目标驱动的说明更具挑战性。由于没有详细的指导，智能体需要了解环境的结构才能进行有效的探索。然而，大多数现有的 VLN 任务，如 REVERIE [43] 或 SOON [57] 都是基于 Matterport3D (MP3D) 数据集 [4] 的 3D 扫描，并且包含少于 60 个建筑物和大约 10K 训练轨迹。有限的训练数据量使得 VLN 模型过度适应可见环境，从而导致在未见环境中导航策略的通用性较差。然而，手动收集更多 VLN 数据成本高昂且不可扩展。为了解决这个数据稀缺问题，之前的工作研究了各种数据增强方法，例如通过说话者模型在所见环境中合成更多指令和轨迹[16]、环境丢失[49]或编辑[30]，以及混合所见环境[33]。尽管如此，这些方法仍然基于少量的 3D 环境，无法覆盖广泛的对象和场景。为了解决视觉多样性，VLN-BERT [36] 利用来自网络的图像标题对来提高泛化能力，而 Airbert [18] 表明来自室内环境（BnB 数据集）的图像标题对对 VLN 任务更有利。然而，图像标题对很难模仿 3D 环境中代理的真实导航体验，这使得通过动作预测学习导航策略变得具有挑战性。

在这项工作中，我们提出了一种新的数据生成方法，通过学习大规模未标记的 3D 建筑来提高模型对未见过的环境的泛化能力（见图 1）。我们利用最新的 HM3D 数据集 [45]，其中包含 900 座 3D 建筑物。然而，这些数据没有任何标签。为了在各种未见过的环境中生成高质量的指令轨迹对，我们使用大规模预训练的视觉和语言模型。我们首先使用图像分割模型 [10] 来检测环境中图像的 2D 对象，并利用 3D 中的跨视图一致性来提高伪 3D 对象注释的准确性。然后，我们使用伪对象标签作为提示来微调语言模型 GPT-2 [44]，以生成该对象的高级导航指令。通过这种方式，我们构建了 HM3D-AutoVLN 数据集，该数据集使用 900 个 3D 建筑物，由 36,562 个可导航节点、172,000 个 3D 对象和 217,703 个用于训练的对象-指令-轨迹三元组组成，比之前的 VLN 数据集大一个数量级。我们使用生成的 HM3D-AutoVLN 数据训练多个最先进的 VLN 模型 [8,9,22,49]，并显示出显着的收益。具体来说，我们在 REVERIE 和 SOON 数据集上比最先进的 DUET 模型 [9] 分别提高了 7.1% 和 8.1%。总之，我们的贡献如下：

1、我们引入了一种从未标记的 3D 建筑物构建大规模 VLN 数据集 HM3D-AutoVLN 的自动方法。我们依靠 2D 图像模型来获取伪 3D 对象标签，并依靠预训练的语言模型来生成指令。

2、我们对两个具有挑战性的 VLN 任务 REVERIE 和 SOON 进行了广泛的实验。 HM3D-AutoVLN 数据集上的训练显着提高了多个最先进的 VLN 模型的性能。

3、我们提供有关数据收集和利用未标记环境所固有的挑战的见解。这表明环境的多样性比单独的训练样本数量更重要。

Learning from Unlabeled 3D Environments forVision-and-Language Navigation

摘要

介绍

相关工作

vision and language navigation

Data-centric VLN approaches

3D environments

相关文章：

Learning from Unlabeled 3D Environments forVision-and-Language Navigation

【算法分析与设计】组合

数仓模型设计方法论

MySQL 面试题

计算机专业必看的十部电影

数据库之间数据迁移工具datax

uniapp：根据环境（开发、测试、生产）选择服务器接口或者业务

Leetcode—63. 不同路径 II【中等】

Redis 之三：Redis 的发布订阅（pub/sub）

ngx_waf入门教程：保护你的Nginx服务器

视觉Transformers中的位置嵌入 - 研究与应用指南

真香定律！我用这种模式重构了第三方登录

Linux入门到入土

基础真空技术外国文献Fundamentals of Vacuum Technology

LeetCode每日一题【c++版】- 用队列实现栈与用栈实现队列

深入理解快速排序算法：从原理到实现

设计模式----装饰器模式

Golang pprof 分析程序的使用内存和执行时间

C/C++平方和问题（蓝桥杯）

(libusb) usb口自动刷新

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

手游刚开服就被攻击怎么办？如何防御DDoS？

linux之kylin系统nginx的安装

PHP和Node.js哪个更爽?

《用户共鸣指数（E）驱动品牌大模型种草：如何抢占大模型搜索结果情感高地》

Nuxt.js 中的路由配置详解

现代密码学 | 椭圆曲线密码学—附py代码

Rust 异步编程

[Java恶补day16] 238.除自身以外数组的乘积

使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台