CVPR-2025 | 长程视觉语言导航平台与数据集:迈向复杂环境中的智能机器人

-
作者:Xinshuai Song, Weixing Chen, Yang Liu, Weikai Chen, Guanbin Li, Liang Lin
-
单位:中山大学,Independent Researcher,鹏城实验室
-
项目主页:https://hcplab-sysu.github.io/LH-VLN
-
论文地址:https://arxiv.org/pdf/2412.09082
从“拿毛巾到厨房岛台,再取茶壶放到茶几”到“找到客厅的遥控器后去卧室关灯”,现实中的机器人需要完成的往往是包含多个步骤的长链条任务。然而,现有的视觉语言导航(Vision-Language Navigation, VLN)技术大多局限于单一目标、短路径的简单场景,难以应对复杂环境中的多阶段挑战。

近日,中山大学HCP-Lab团队提出复杂长程视觉语言导航(LH-VLN)任务,并配套开发了自动化数据生成平台NavGen、复杂长程导航基准测试LHPR-VLN,以及创新模型MGDM,为智能机器人在动态复杂环境中的自主导航开辟了新路径。目前该论文已被CVPR2025接收。
困境:单阶段导航的“玻璃天花板”
传统VLN任务通常要求机器人根据指令完成单一目标的导航,例如“走到客厅的沙发旁”。这类任务在实验室中表现优异,但面对现实场景时却捉襟见肘——真正的挑战往往需要连续决策和动态调整。例如,家政机器人可能需要先找到浴室中的毛巾,将其送至厨房岛台,再取出茶壶放置在茶几上。这类任务不仅涉及多个子目标,还需要在过程中保持上下文连贯性,避免因环境变化或路径阻塞导致任务中断。
现有研究的短板显而易见:
-
数据局限:主流数据集(如R2R、VLN-CE)任务步骤短(平均<10步),缺乏多阶段交互设计;
-
评估粗放:仅用整体成功率(SR)衡量性能,无法反映子任务执行质量;
-
模型僵化:依赖静态路径规划,缺乏长期记忆和动态调整能力。
“要让机器人真正走进家庭,必须突破单阶段任务的思维定式。” 论文作者在引言中直指问题核心。

图1. 框架总览以及与现有单阶段导航的对比
破局:NavGen——复杂任务数据的“全自动工厂”
为解决数据瓶颈,研究团队开发了NavGen平台,这是一个支持多阶段、多粒度任务生成的自动化系统。其核心创新在于双向生成机制:
-
前向生成:基于GPT-4构建复杂任务指令。例如,输入浴室和厨房的场景信息后,自动生成“将浴室毛巾送至厨房岛台,再取茶壶放到客厅茶几”的多步骤任务;
-
后向分解:通过轨迹分割算法,将长路径拆解为“左转绕过沙发”“直行至餐桌”等原子动作,并反向生成对应的分步指令。

图2. NavGen通过前向生成复杂任务,后向分解为原子动作,形成完整数据闭环
NavGen的三大优势使其成为VLN领域的“数据引擎”:
-
场景多样性:整合HM3D数据集中的216个3D室内场景,涵盖卧室、厨房、办公室等多种环境;
-
机器人适配:支持波士顿动力Spot(四足机器人)和Hello Robot Stretch(轮式机械臂)等不同形态的任务设置;
-
任务复杂度:单个任务可包含4-6个子步骤,平均指令长度达18.17词,远超传统数据集。
“这相当于为模型提供了‘任务炼狱’级别的训练场。” 研究者如此评价NavGen的生成能力。
试金石:LHPR-VLN基准——让模型“原形毕露”
基于NavGen,团队构建了复杂长程VLN基准LHPR-VLN,包含3260个任务,平均每个复杂任务需执行150个动作步骤。与传统基准相比,LHPR-VLN有两大革新:
1. 任务设计:从“线性执行”到“逻辑串联”
每个任务要求机器人按顺序完成对象定位-抓取-转移的链条操作。例如: “在卧室找到台灯,将其搬到书房书桌,再取出桌上的文件放到文件柜。” 这种设计迫使模型必须理解任务间的逻辑依赖——若未能正确放置台灯,后续寻找文件的子任务将直接失败。

表1. 与现有VLN基准的对比
2. 评估体系:从“笼统打分”到“显微镜式诊断”
传统指标如成功率(SR)已无法满足需求,LHPR-VLN引入三大新指标:
-
独立成功率(ISR):衡量每个子任务的单独完成度;
-
条件成功率(CSR):评估任务链条的整体连贯性;
-
基于真实路径加权的CGT:考虑实际路径难度,避免“取巧式”成功。
是任务的数量, 是子任务的数量。
是第个子任务的成功情况。
CSR通过加权计算任务链的连贯性,CGT进一步引入真实路径长度修正偏差
实验显示,传统模型在LHPR-VLN上表现惨淡:在2-3个子任务场景中,所有基线模型的整体成功率(SR)均为0%,凸显现有技术的局限性。

表2. 在LHPR-VLN基准上的性能对比
智慧大脑:MGDM模型——记忆与推理的“双螺旋”
为攻克复杂长程导航难题,团队提出多粒度动态记忆模型(MGDM),其核心架构如同“生物神经系统”:
- 记忆分层:短期模糊与长期强化
-
短期记忆:通过滑动窗口池化动态“遗忘”次要信息;
-
长期记忆:从数据集中检索历史成功案例,为当前决策提供参考。
-
- 链式思维(CoT)反馈:让AI“说出推理过程”
-
模型在一定行动步,会通过GPT-4生成推理链条:“当前位于走廊,需先左转进入浴室;浴室门可能位于左侧视野,需向前移动2步确认...” 这种显式推理机制大幅降低了传统LLM模型的“幻觉”风险,使决策过程可解释、可调整。
-

图3. MGDM通过CoT模块生成推理链条,结合短/长期记忆动态调整决策
实验结果表2验证了MGDM的优越性:在4个子任务场景中,其CGT指标达到5.83,全部模型中最佳。
未来:从虚拟场景到现实世界的“惊险一跃”
尽管LH-VLN框架取得突破,研究者坦言现实落地仍面临三重挑战:
-
跨场景泛化:实验室训练的模型能否适应真实家庭的布局变异?
-
多模态融合:如何整合语音指令、触觉反馈等更丰富的信息源?
-
实时性瓶颈:150步任务的平均决策耗时需从分钟级压缩至秒级。
对此,论文提出两条演进路径:
-
仿真-现实迁移学习:利用Holodeck等工具生成高保真虚拟环境,缩小仿真与现实差距;
-
具身大模型:将VLM(视觉语言模型)与机器人运动控制模块深度耦合,实现端到端优化。
结语:推开智能机器人的“第二扇门”
当实验室的机器人能流畅完成“泡茶-清洁-整理”的连贯操作时,我们离真正的家庭服务机器人便不再遥远。这项研究的意义不仅在于技术指标的提升,更在于重构了VLN任务的范式——从孤立动作到连续决策,从静态环境到动态交互,从人工规则到自主推理。
正如论文结尾的展望:“LH-VLN是一把钥匙,它将打开智能体在复杂物理世界中长期生存的大门。”在这条通向未来的道路上,每一步导航的突破,都是对人类生活方式的重新定义。

相关文章:
CVPR-2025 | 长程视觉语言导航平台与数据集:迈向复杂环境中的智能机器人
作者:Xinshuai Song, Weixing Chen, Yang Liu, Weikai Chen, Guanbin Li, Liang Lin 单位:中山大学,Independent Researcher,鹏城实验室 项目主页:https://hcplab-sysu.github.io/LH-VLN 论文地址:https…...
Apifox Helper 自动生成API接口文档
在我们开发过程中我们在编写请求地址和编写请求参数的时候特别花费时间耗费了我们很多时间,作为一个程序员,更应该把精力时间集中在开发上, Apifox Helper 是 Apifox 团队针对 IntelliJ IDEA 环境所推出的插件,可以在 IDEA 环境中…...
历年云南大学计算机复试上机真题
历年云南大学计算机复试机试真题 在线评测:传送门:pgcode.cn 喝饮料 题目描述 商店里有 n 中饮料,第 i 种饮料有 mi 毫升,价格为 wi。 小明现在手里有 x 元,他想吃尽量多的饮料,于是向你寻求帮助&#x…...
笔记本 Win10 部署阿里通义千问 1.5-0.5B 大模型 mini 版
文章目录 1.环境准备1.1 硬件环境1.2 OS 环境1.3 Python 环境 2.环境安装2.1 CUDA 驱动下载安装2.2 torch 库下载安装2.3 transformers 库安装2.3 accelerate 库安装2.4 验证 CUDA 是否可用2.5 下载 Qwen1.5-0.5B 大模型 3.测试大模型3.1 加载大模型3.2 简单对话3.3 亲测体验感…...
Flutter三棵树是什么,为什么这么设计
目录 1. 三棵树的定义与职责 (1) Widget 树 (2) Element 树 (3) RenderObject 树 2. 三棵树的协同工作流程 3. 为什么设计三棵树? (1) 性能优化 (2) 逻辑解耦 (3) 灵活性 4. 三棵树的设计优势总结 示例:动态列表更新 常见面试追问 Flutter 的「三棵树」是其核心设…...
Postman中Authorization和Headers的区别
案例 笔者在进行token验证的时候碰到的问题 一般如果是进行token验证,大部分是在Headers下面添加token名称及token的值 这样:后端提取请求头的token即可 还有一种是,左侧选择Bearer Token,右侧添加token的值,后端传递的 大概…...
python使用openai的api的时候声明不要走系统代理,默认是走的
配置了以上的方式,还是不行。因为项目默认使用的是国内的大模型服务商,但是接口是和openapi通用的,所以可以直接使用,但是项目中有的链接还是要走系统代理的,所以就需要将两者区分开,配置openapi不走系统代…...
【免费】1949-2020年各省人均GDP数据
1949-2020年各省人均GDP数据 1、时间:1952-2020年 2、来源:国家统计局、统计年鉴 3、指标:各省人均GDP 4、范围:31省 5、指标解释:人均GDP(Gross Domestic Product per capita)是指一个国家…...
C 语言实战:打造字符串加密器及实验要点解析
在 C 语言的学习过程中,通过实际项目来巩固知识、提升编程能力是极为有效的方式。本次我们聚焦于 Imperative Programming in C 课程的实验内容,深入剖析如何用 C 语言实现一个字符串加密器(Scrambler),同时也会涉及实验中相关的 C 语言基础知识点,帮助大家更好地理解和掌…...
ThreadLocal(线程本地存储)
什么是 ThreadLocal? ThreadLocal 是 Java 中用于实现线程本地存储的一个类。它的主要作用是为每个线程提供独立的变量副本,从而避免多线程环境下的数据共享和竞争问题。 ThreadLocal 是一个工具类,允许你为每个线程创建独立的变量副本。每…...
《Python实战进阶》No24: PyAutoGUI 实现桌面自动化
No24: PyAutoGUI 实现桌面自动化 摘要 PyAutoGUI 是一个跨平台的桌面自动化工具,能够模拟鼠标点击、键盘输入、屏幕截图与图像识别,适用于重复性桌面任务(如表单填写、游戏操作、批量文件处理)。本集通过代码截图输出日志的实战形…...
功耗电流和耗电量的获取
1. 实验室环境: 在受控的实验条件下,我们使用 PowerMonitor 精确控制变量(如固定设备型号和系统版本、清理后台应用、设置恒定的亮度与音量、确保稳定的网络连接等),以获取高精度的电流测量数据,从而准确评…...
医疗送药机器人“空间拓扑优化+动态算法决策+多级容错控制”三重链式编程技术解析与应用
一、引言 1.1 研究背景与意义 在医疗体系中,高效精准的药品配送是保障医疗服务质量和患者安全的关键环节。随着医疗技术的不断进步和医疗需求的日益增长,传统的人工送药方式逐渐暴露出诸多弊端,如配送效率低下、易受人为因素干扰导致错误率上升、人力成本高昂等。特别是在…...
C++【类和对象】(结束篇)
C类和对象 1.static成员2.友元3.内部类4.匿名对象5.对象拷贝时的编译器优化 1.static成员 用static修饰的成员变量叫做静态成员变量,静态成员一定要在类外进行初始化。静态成员变量为所有类的共享,放入静态区,不属于某个具体对象,…...
[CISCN 2022 初赛]ezpop(没成功复现)
打开在线环境可以看到: 记得之前做过一个类似的就是有点像照着漏洞去复现。应该可以直接在网上找到链子去打。 www.zip查看路由是 Index/test,然后 post 传参 a: exp(参考了别的大神的wp): <?php //…...
QT编程之QGIS
一、QGIS介绍 Quantum GIS(QGIS)是开源地理信息系统桌面软件,使用GNU(General Public License)授权, 属于 Open Source eospatial Foundation( OSGeo )的官方计划。在 GNU 授权下&am…...
福特售后再添亮点,为烈马模块化车身改装提供专业支持
2024年5月17日,中国上海 2024 年北京国际车展期间,纯血敞篷越野车国产福特烈马正式上市并公布全系厂商指导价,价格区间为29.98万元至43.88万元。作为一台风格鲜明,个性突出的纯血硬核越野车,诞生于1966年的福特烈马&a…...
嵌入式C语言中堆栈管理与数据存储的精髓
在嵌入式开发中,理解C语言的内存管理和数据存储机制是至关重要的。本文将从堆栈管理和数据存储两个方面,深入探讨C语言在嵌入式Linux开发中的应用。 一、堆栈管理 1.1 栈的初始化与作用 栈是C语言运行的基础,主要用于存储函数参数、局部变量、函数返回值和编译器生成的临时…...
003_快乐数
链接:202. 快乐数 - 力扣(LeetCode) 202.快乐数 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为…...
【MySQL数据库】约束
在MySQL数据库中,约束(Constraint)是用于限制表中数据的一种规则,目的是为了确保数据的完整性以及一致性。下面我们就从建表时的约束、建表后如何添加约束等几个方面,讲解MySQL中常用的几种约束。 创建时约束 分类 非空约束 非空…...
SANS 网络安全 网络安全三件套
基本设置篇 一、在线安全的四个误解 Internet实际上是个有来有往的世界,你可以很轻松地连接到你喜爱的站点,而其他人,例如黑客也很方便地连接到你的机器。实际上,很多机器都因为自己很糟糕的在线安全设置无意间在…...
LSTM方法实践——基于LSTM的汽车销量时序建模与预测分析
Hi,大家好,我是半亩花海。本实验基于汽车销量时序数据,使用LSTM网络(长短期记忆网络)构建时间序列预测模型。通过数据预处理、模型训练与评估等完整流程,验证LSTM在短期时序预测中的有效性。 目录 一、实验…...
[Windows] 轻量级景好鼠标录制器 v2.1 单文件版,支持轨迹+鼠标键盘录制复刻
[Windows] 轻量级景好鼠标录制器 链接:https://pan.xunlei.com/s/VOLHz0rPyqdhV4bgyTYuW6W7A1?pwd98uj# 软件特性: 高效播放控制:动作间隔优化至100 ms,进度条可视化,支持随机循环/多次播放。 深度自定义࿱…...
表单 schema 配置化
一、前沿 基于 Ant Design Vue 组件库实现了表单的配置化生成,通过 schema 配置化的方式实现表单的动态渲染、数据绑定和更新等功能,而提交按钮及获取数据逻辑由使用方自行提供。通过 schema 对象来定义表单的结构和属性,modelData 对象存储…...
LINUX --- KVM
什么是 KVM?– 基于内核的虚拟机简介 – AWS (amazon.com) 什么是 KVM? 基于内核的虚拟机(KVM)是一种软件功能,您可以将其安装在物理 Linux 机器上以创建虚拟机。虚拟机是一种软件应用程序,可作为另一台实…...
LabVIEW VI Scripting实现连接器窗格自动化
通过VI Scripting自动化配置连接器窗格,可大幅提升开发效率、统一接口规范,并适配动态需求。以下为真实场景中的典型应用案例,涵盖工业、汽车电子及教育领域,展示其实际价值与实施效果。 特点: 程序化配置:…...
网络安全信息收集[web子目录]:dirsearch子目录爆破全攻略以及爆破字典结合
目录 一、dirsearch 工具详细使用攻略 1. 安装 前提条件 安装步骤 可选:直接下载预编译版本 2. 基本用法 命令格式 参数说明 示例 3. 核心功能与高级用法 3.1 多线程加速 3.2 自定义字典 3.3 递归扫描 3.4 过滤响应 3.5 添加请求头 3.6 代理支持 3…...
【Msq8.0无需登陆进行重置密码】
【Msq8.0无需登陆进行重置密码】 Mysql的正常启动设置Msql的无密码登陆前操作 Mysql的正常启动 我使用的是Mac电脑,电脑上的Mysql8.0是处于运行状态,如果关闭状态也可以。 设置Msql的无密码登陆前操作 我们对Markdown编辑器进行了一些功能拓展与语法支…...
pandas表格内容比较
前阵子来了一个211大学实习生(小男生),要比较2个版本字段的变化,辅助完成系统升级字段替换,要求找出哪些字段是新增的,哪些字段是删除的,哪些字段是属性信息修改的,要求半天时间搞定…...
TMS320F28P550SJ9学习笔记13: 软件I2C_驱动AT24Cxx存储芯片
今日尝试配置软件I2C通信,我的目标通信芯片是AT24C64,相较于AT24C02这样的8位寻址,它是16位寻址的,所以有些不同 文章提供测试代码讲解、完整工程下载、测试效果图 目录 软件I2C引脚初始化: C内联函数改变SCL与SDA的输…...
