【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation
本文汇总了具身导航的论文,供大家参考学习,涵盖2025、2024、2023等
覆盖的会议和期刊:CVPR、IROS、ICRA、RSS、arXiv等等
论文和方法会持续更新的~
一、🏠 中文标题版
2025 😆
- [2025] WMNav:将视觉语言模型集成到世界模型中以实现对象目标导航 [ 论文 ] [ 项目 ] [ GitHub ]
- [2025] UniGoal:迈向通用零样本目标导向导航 [ 论文 ] [ 项目 ] [ GitHub ]
- [2025] CityNavAgent:具有分层语义规划和全局记忆的空中视觉和语言导航 [ 论文 ] [ GitHub ]
- [2025] VL-Nav:基于空间推理的实时视觉语言导航 [ 论文 ]
- [2025] HA-VLN:具有动态多人交互、真实世界验证和开放排行榜的离散-连续环境中人机感知导航基准 [ 论文 ] [ 项目 ] [ GitHub ]
- [2025] FlexVLN:灵活适应多样化视觉和语言导航任务 [ 论文 ]
- [2025] 3D-Mem:用于具身探索和推理的 3D 场景记忆 [ 论文] [ 项目 ] [ GitHub ]
- [2025] EfficientEQA:一种高效的开放词汇具体化问答方法 [ 论文 ]
- [2025] 用于安全和平台感知机器人导航的学习感知前向动力学模型 [ 论文 ] [ GitHub]
- [2025] 室内体现人工智能中的语义映射——全面综述及未来方向 [ 论文 ]
- [2025] TRAVEL:用于视觉和语言导航的免训练检索与对齐 [ 论文 ]
- [2025] VR-Robo:用于视觉机器人导航和运动的真实到模拟到真实的框架 [ 论文 ]
- [2025] NavigateDiff:视觉预测器是零样本导航助手 [ 论文 ]
- [2025] MapNav:一种通过带注释的语义图实现的新型记忆表征,用于基于 VLM 的视觉和语言导航 [ 论文 ]
- [2025] OpenFly:用于空中视觉语言导航的多功能工具链和大规模基准测试 [ 论文 ]
- [2025] 连续环境中的地面视点视觉和语言导航 [ 论文 ]
- [2025] 基于 LLM 推理的运动代理动态路径导航 [ 论文 ]
- [2025] SmartWay:增强型航点预测和回溯,用于零样本视觉和语言导航 [ 论文 ]
- [2025] Vi-LAD:视觉语言注意力蒸馏在动态环境中实现社交感知机器人导航 [ 论文 ]
- [2025] PanoGen++:面向视觉和语言导航的领域自适应文本引导全景环境生成 [ 论文 ]
- [2025] 视觉想象能改善视觉和语言导航代理吗?[ 论文 ] [ 项目 ]
- [2025] P3Nav:集成感知、规划和预测的体现导航统一框架 [ 论文 ]
- [2025] 从所见到未见:使用基础模型重写观察-指令以增强视觉-语言导航 [ 论文 ] [ GitHub]
- [2025] COSMO:结合选择性记忆实现低成本视觉和语言导航 [ 论文 ]
- [2025] ForesightNav:学习场景想象以实现高效探索 [ 论文 ] [ GitHub]
- [2025] NavDP:利用特权信息引导学习模拟到现实的导航扩散策略 [ 论文 ]
- [2025] VISTA:视觉和语言导航的生成视觉想象 [ 论文 ]
- [2025] Dynam3D:动态分层 3D 令牌赋能 VLM 实现视觉和语言导航 [ 论文 ] [ GitHub]
- [2025] Aux-Think:探索数据高效视觉语言导航的推理策略 [ 论文 ]
2024 😄
- [2024] E2Map:基于语言模型的自反思机器人导航体验与情感地图 [论文] [GitHub]
- [2024] 移动机器人对大规模室内环境的自主探索和语义更新 [论文] [GitHub]
- [2024] 通过像素引导导航技能连接零样本目标导航和基础模型 [论文] [GitHub]
- [2024] InstructNav:未探索环境中通用指令导航的零样本系统 [论文] [GitHub]
- [2024] NaVILA:用于导航的腿式机器人视觉 - 语言 - 行动模型 [论文] [GitHub]
- [2024] ReMEmbR:用于机器人导航的长视界时空记忆构建与推理 [[论文] [GitHub]
- [2024] Aim My Robot:对任何物体的精准局部导航 [论文]
- [2024] 标签地图:基于文本的地图用于空间推理和导航与大型语言模型 [论文] [项目页面]
- [2024] MapGPT:用于视觉 - 语言导航的基于地图引导的提示与自适应路径规划 [论文] [GitHub]
- [2024] CANVAS:用于直观人机交互的常识感知导航系统 [论文] [GitHub]
- [2024] VLFM:用于零样本语义导航的视觉 - 语言前沿地图 [论文] [GitHub]
- [2024] 注意错误!检测和定位视觉 - 语言导航中的指令错误 [论文] [GitHub]
- [2024] 从想象中规划:用于视觉 - 语言导航的情景模拟和情景记忆 [论文]
- [2024] MC-GPT:通过记忆地图和推理链增强的视觉 - 语言导航 [论文]
- [2024] 持续的视觉 - 语言导航 [论文]
- [2024] Open-Nav:使用开源大型语言模型在连续环境中探索零样本视觉 - 语言导航 [论文]
- [2024] 查找一切:多目标搜索的通用视觉语言模型方法 [论文] [GitHub]
- [2024] NavGPT:在视觉 - 语言导航中使用大型语言模型进行显式推理 [论文] [GitHub]
- [2024] NavGPT-2:释放大型视觉 - 语言模型的导航推理能力 [论文] [GitHub]
- [2024] 带有神经辐射表示的前瞻探索用于连续视觉 - 语言导航 [论文] [GitHub]
- [2024] 通过 3D 特征场实现视觉 - 语言导航的仿真到现实转移 [论文] [GitHub]
- [2024] LangNav:将语言作为导航的感知表示 [论文] [GitHub]
- [2024] 使用大型语言模型模块化构建协作具身智能体 [论文] [GitHub]
- [2024] Navid:基于视频的 VLM 规划视觉和语言导航的下一步 [ 论文 ]
- [2024] The One RING:机器人室内导航通才 [ 论文 ]
- [2024] Mobility VLA:基于长上下文 VLM 和拓扑图的多模态指令导航 [ 论文 ]
2023 😲
- [2023] 通过像素引导导航技能连接零样本对象导航和基础模型 [ 论文 ]
- [2023] 视觉目标导航的前沿语义探索 [论文] [GitHub]
- [2023] GrASPE:基于图形的多模态融合,用于户外环境中的机器人导航 [论文]
- [2023] LANA:用于指令跟踪和生成的语言导航器 [论文] [GitHub]
- [2023] Dreamwalker: 持续视觉语言导航的心理规划 [论文] [GitHub]
- [2023] A2Nav:利用基础模型的视觉和语言能力实现动作感知零样本机器人导航 [论文]
- [2023] 基于语义前沿的无训练具体化对象目标导航 [论文]
二、🔄 英文原版
2025 🐻
- [2025] 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning [ 论文] [ 项目 ]
- [2025] EfficientEQA: An Efficient Approach for Open Vocabulary Embodied Question Answering [ 论文 ]
- [2025] Learned Perceptive Forward Dynamics Model for Safe and Platform-aware Robotic Navigation [paper] [project]
- [2025] Semantic Mapping in Indoor Embodied AI - A Comprehensive Survey and Future Directions [paper]
- [2025] VL-Nav: Real-time Vision-Language Navigation with Spatial Reasoning [paper]
- [2025] TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation [paper]
- [2025] VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion [paper]
- [2025] NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [paper]
- [2025] MapNav: A Novel Memory Representation via Annotated Semantic Maps for VLM-based Vision-and-Language Navigation [paper]
- [2025] OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation [paper]
- [2025] Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [paper]
- [2025] WMNav: Integrating Vision-Language Models into World Models for Object Goal Navigation [paper] [project]
- [2025] Dynamic Path Navigation for Motion Agents with LLM Reasoning [paper]
- [2025] SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation [paper]
- [2025] Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments [paper]
- [2025] UniGoal: Towards Universal Zero-shot Goal-oriented Navigation [paper] [project]
- [2025] PanoGen++: Domain-Adapted Text-Guided Panoramic Environment Generation for Vision-and-Language Navigation [paper]
- [2025] Do Visual Imaginations Improve Vision-and-Language Navigation Agents? [paper] [project]
- [2025] HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard [paper] [project]
- [2025] FlexVLN: Flexible Adaptation for Diverse Vision-and-Language Navigation Tasks [paper]
- [2025] P3Nav: A Unified Framework for Embodied Navigation Integrating Perception, Planning, and Prediction [paper]
- [2025] Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [paper] [project]
- [2025] COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation [paper]
- [2025] ForesightNav: Learning Scene Imagination for Efficient Exploration [paper] [project]
- [2025] CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [paper] [project]
- [2025] NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance [paper]
- [2025] VISTA: Generative Visual Imagination for Vision-and-Language Navigation [paper]
- [2025] Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation [paper] [project]
- [2025] Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation [paper]
2024 🐵
- [2024] [RSS 24] Navid: Video-based vlm plans the next step for vision-and-language navigation [paper]
- [2024] [RSS 24] NaVILA: Legged Robot Vision-Language-Action Model for Navigation [paper]
- [2024] The One RING: a Robotic Indoor Navigation Generalist [paper]
- [2024] Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [paper]
- E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models [Paper] [GitHub]
- Autonomous Exploration and Semantic Updating of Large-Scale Indoor Environments with Mobile Robots [Paper] [GitHub]
- Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill [Paper] [GitHub]
- InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment [Paper] [GitHub]
- NaVILA: Legged Robot Vision-Language-Action Model for Navigation [Paper] [GitHub]
- ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation [Paper] [GitHub]
- Aim My Robot: Precision Local Navigation to Any Object [Paper]
- Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models [Paper] [Project Page]
- Adaptive Zone-aware Hierarchical Planner for Vision-Language Navigation [Paper] [GitHub]
- MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation [Paper] [GitHub]
- CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction [Paper] [GitHub]
- VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation [Paper] [GitHub]
- Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation [Paper] [GitHub]
- Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation [Paper]
- MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains [Paper]
- Continual Vision-and-Language Navigation [Paper]
- Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs [Paper]
- Find Everything: A General Vision Language Model Approach to Multi-Object Search [Paper] [GitHub]
- NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models [Paper] [GitHub]
- NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models [Paper] [GitHub]
- Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation [Paper] [GitHub]
- Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation [Paper] [GitHub]
- LangNav: Language as a Perceptual Representation for Navigation [Paper] [GitHub]
- Building Cooperative Embodied Agents Modularly with Large Language Models [Paper] [GitHub]
2023 🦆
- [2023] Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill [paper]
- [2023] Frontier semantic exploration for visual target navigation [论文] [GitHub]
- [2023] GrASPE: Graph based Multimodal Fusion for Robot Navigation in Outdoor Environments [论文]
- [2023] LANA: A Language-Capable Navigator for Instruction Following and Generation [论文] [GitHub]
- [2023] Dreamwalker: Mental planning for continuous vision-language navigation [论文] [GitHub]
- [2023] A2Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting Vision-and-Language Ability of Foundation Models [论文]
- [2023] How To Not Train Your Dragon: Training-free Embodied Object Goal Navigation with Semantic Frontiers [论文]
分享完成~
相关文章:
【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation
本文汇总了具身导航的论文,供大家参考学习,涵盖2025、2024、2023等 覆盖的会议和期刊:CVPR、IROS、ICRA、RSS、arXiv等等 论文和方法会持续更新的~ 一、🏠 中文标题版 2025 😆 [2025] WMNav:…...
Windows 安装 WSL2 并运行 Ubuntu 22.04 指南
Windows 安装 WSL2 并运行 Ubuntu 22.04 指南 本文为 Windows 10 和 Windows 11 用户提供从零开始搭建 WSL2 环境的详细指南,涵盖安装 Ubuntu 22.04、自定义存储位置、性能优化以及常见问题排查。无论你是开发者、运维工程师还是 Linux 爱好者,本文将助你…...
AI情感陪伴在医疗领域的核心应用潜力
一、精准情绪监测与干预 多模态情感识别系统 通过整合语音语调分析(降调与语速异常检测抑郁倾向)、微表情捕捉(面部肌肉运动追踪焦虑状态)、生理指标监测(心率变异幅度反映应激水平)等技术,构建…...

【计算机网络】第1章:概述—分组延时、丢失和吞吐量
目录 一、分组延时、丢失 1. 节点处理延时: 2. 排队延时: 3. 传输延时: 4. 传播延时: 5. 节点延时 6. 排队延时 7. 分组丢失 二、吞吐量 三、总结 (一)分组延时 1. 处理延时(Processing Delay) …...
Python Day38
Task: 1.Dataset类的__getitem__和__len__方法(本质是python的特殊方法) 2.Dataloader类 3.minist手写数据集的了解 1. Dataset 类的 __getitem__ 和 __len__ 方法 在 PyTorch (或类似深度学习框架) 中,Dataset 是一个抽象基类&a…...

DeepSeek R1 模型小版本升级,DeepSeek-R1-0528都更新了哪些新特性?
DeepSeek-R1‑0528 技术剖析:思维链再进化,推理性能飙升 目录 版本概览深度思考能力再升级基准测试成绩功能与体验更新API 变动与示例模型开源与下载结语 版本概览 DeepSeek 团队今日发布 DeepSeek‑R1‑0528 —— 基于 DeepSeek V3 Base(2…...
线路板厂家遇到的PCB元件放置的常见问题有哪些?
印刷电路板现在无处不在。尽管大多数人认为这是理所当然的,但工程师和设计师们充分意识到这些电路开发和生产背后的巨大努力。传统的PCB生产涉及复杂的机械和高昂的前期成本,因此必须将制造外包给专业工厂。 说到交货时间,你可能需要几周的时…...
【C/C++】无限长有序数组中查找特定元素
在无限长有序数组中查找特定元素,由于数组长度未知,需先定位搜索范围,再进行二分查找。以下是C实现: #include <iostream> #include <vector> #include <climits> using namespace std;// 假设数组访问函数&am…...

SQL正则表达式总结
这里写目录标题 一、元字符二、正则表达函数1、 regexp_like(x,pattern[,match_option])2、 regexp_instr(x,pattern[,start[,occurrence[,return_option[, match_option]]]]) 3、 REGEXP_SUBSTR(x,pattern[,start[,occurrence[, match_option]]]) 4、 REGEXP_REPLACE(x,patter…...

力扣经典算法篇-13-接雨水(较难,动态规划,加法转减法优化,双指针法)
1、题干 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释:上面是由数组 [0,1,0,2,1,0,1,3…...

STM32 -- USB虚拟串口通信
本篇操作: 通过CubeMX Keil,配置STM32作为USB设备端,与电脑上位机进行通信(CDC);通用带USB功能的 STM32 芯片 (如F1、F4等,系统时钟配置不同,代码通用)。 目录 一、 S…...

uni-app开发特殊社交APP
uni-app开发特殊社交APP 目录 1.展示APP功能 2.展示项目结构 3.关于我的GitHub 引言 博主最近自己在GitHub上面上传了一个关于社交软件的项目(该项目早已开发完毕), 这个社交软件比较特殊, 被称之为blind-date, blind-date 是基于 uni-…...

Linux中Shell脚本的常用命令
一、设置主机名称 1、通过修改系统文件来修改主机名称 [rootsakura1 桌面]# vim /etc/hostname sakura /etc/hostname:Linux 系统中存储主机名的配置文件。修改完文件后,在当前的shell中是不生效的,需要关闭当前shell后重新开启才能看到效…...

RabbitMQ项目实战
先参考文章:(必看) 06-MQ基础_mq服务-CSDN博客 07-MQ高级(幂等性)-CSDN博客 https://cloud.iocoder.cn/message-queue/rabbitmq/#_2-0-%E5%BC%95%E5%85%A5%E4%BE%9D%E8%B5%96%E4%B8%8E%E9%85%8D%E7%BD%AE 1、Rabbi…...

安卓开发用到的设计模式(3)行为型模式
安卓开发用到的设计模式(3)行为型模式 文章目录 安卓开发用到的设计模式(3)行为型模式1. 命令模式(Command Pattern)2. 策略模式(Strategy Pattern)3. 观察者模式(Observ…...
生成模型:从数据学习到创造的 AI 新范式
一、生成模型:定义与核心逻辑 生成模型是一类通过学习数据潜在分布来创造新样本的机器学习模型。其核心目标是构建数据的概率分布模型 P(X),使生成的样本 X^ 与真实数据 X 具有相似的统计特征。 1.1 与判别模型的本质区别 维度生成模型判别模型核心目…...

尚硅谷redis7 90-92 redis集群分片之集群扩容
90 redis集群分片之集群扩容 三主三从不够用了,进行扩容变为4主4从 问题:1.新建两个redis实例,怎么加入原有集群?2.原有的槽位分3段,又加进来一个槽位怎么算? 新建6387、6388两个服务实例配置文件新建后启…...
RabbitMQ性能调优:关键技术、技巧与最佳实践
RabbitMQ作为一款高可靠、高扩展性的消息中间件,其性能表现直接影响到分布式系统的吞吐量和响应延迟。本文基于RabbitMQ官方文档和最佳实践,结合核心性能优化方向,详细探讨RabbitMQ性能调优的关键技术、技巧和策略。 通过以下优化策略&#…...
系统架构中的组织驱动:康威定律在系统设计中的应用
康威定律(Conway’s Law) 是由计算机科学家 Melvin Conway 在1967年提出的理论,其核心观点是:“系统的架构设计会不可避免地反映其开发组织的沟通结构。换句话说,软件系统的结构会与构建它的团队的组织结构高度相似。 …...
TypeScript 中高级类型 keyof 与 typeof的场景剖析。
文章目录 前言一、typeof:从值到类型的映射1. 核心概念2. 类型推导示例3. 常见用途 二、keyof:从类型到键的映射1. 核心概念2. 常见用途 三、typeof keyof:强强联合的实战场景1. 场景一:对象属性的安全访问2. 场景二:…...
Android LiveData 详解
一、LiveData 核心概念与特性 1.1 定义与基本功能 LiveData 是 Android Jetpack 架构组件中的一个可观察数据持有者类,其核心功能是实现数据与 UI 的响应式绑定。与传统观察者模式不同,LiveData 具有生命周期感知能力,能够自动根据观察者…...
为什么共现矩阵是高维稀疏的
为什么共现矩阵是高维稀疏的? 共现矩阵(Co-occurrence Matrix)的高维稀疏性是其固有特性,主要由以下原因导致: 1. 高维性的根本原因 词汇表大小决定维度: 共现矩阵的维度为 ( V \times V ),其…...

离散化算法的二分法应用
我们思考一个问题:其实这里的二分法回归本源也是基于下标映射的原理,只是实现是借助二分的形式。 在排序好的数组中对目标数值进行二分搜索,在 O(logn) 的时间复杂度内找到该数值是整体数据中的第几个。 具体的我们可以如下操作: …...
IntelliJ IDEA 中进行背景设置
🎨 一、全局主题切换 操作路径 File → Settings → Appearance & Behavior → Appearance → Theme可选主题: Darcula:深色模式(默认暗黑主题)IntelliJ Lightÿ…...
Dart语言学习指南「专栏简介」
Dart 是 Google 开发的一款开源通用编程语言,它不仅支持客户端和服务器端的应用开发,还因其与 Flutter 框架的深度集成,在移动端和 Web 开发中广受欢迎。Dart 适用于 Android 应用、iOS 应用、物联网(IoT)项目以及 Web…...
AWS之AI服务
目录 一、AWS AI布局 1. 底层基础设施与芯片 2. AI训练框架与平台 3. 大模型与应用层 4. 超级计算与网络 与竞品对比 AI服务 1. 机器学习平台 2. 预训练AI服务 3. 边缘与物联网AI 4. 数据与AI…...
Docker 部署项目
使用 Docker 部署项目是一个很好的选择,可以避免服务器环境不兼容的问题,并且能够实现一致性和可移植性。我会给你一个详细的步骤,帮你从零开始理解 Docker,最终在服务器上部署 Roop 项目。 1. 安装 Docker 首先,你需…...

半导体厂房设计建造流程、方案和技术要点-江苏泊苏系统集成有限公司
半导体厂房设计建造流程、方案和技术要点-江苏泊苏系统集成有限公司 半导体厂房的设计建造是一项高度复杂、专业性极强的系统工程,涉及洁净室、微振动控制、电磁屏蔽、特殊气体/化学品管理等关键技术。 一、设计建造流程: 1.需求定义与可行性分析 &a…...
(c++)string的模拟实现
目录 1.构造函数 2.析构函数 3.扩容 1.reserve(扩容不初始化) 2.resize(扩容加初始化) 4.push_back 5.append 6. 运算符重载 1.一个字符 2.一个字符串 7 []运算符重载 8.find 1.找一个字符 2.找一个字符串 9.insert 1.插入一个字符 2.插入一个字符串 9.erase 10…...

一种通用图片红色印章去除的工具设计
朋友今天下午需要处理个事情,问我有没有什么好的办法能够去除,核心问题是要去除图片上的印章。记得以前处理过类似的需求,photoshop操作比较简单,本质是做运算。这种处理方式有很多,比如现在流行的大模型,一…...