NaVILA:用于足式机器人导航的VLA模型

论文地址:https://navila-bot.github.io/static/navila_paper.pdf
项目地址:https://navila-bot.github.io/
本文提出了一种名为NaVILA的机器人导航模型,旨在解决视觉语言导航问题,并允许机器人在更具挑战性和杂乱的场景中进行导航。
该模型采用了两层框架,将视觉、语言和行动模型(VLA)与运动技能相结合。通过预先生成具有空间信息的语言中间动作(例如,“向前移动75厘米”),然后将其作为输入传递给视觉运动强化学习策略以执行任务。
实验结果表明,NaVILA在现有基准测试上取得了显著改进,并且在新的IsaacLab基准测试中也表现出了相同的优势,这些基准测试包括更真实的场景、低级控制和真实世界中的机器人实验。
NaVILA:用于足式机器人导航的VLA模型本文提出了一种名为NaVILA的机器人导航模型,旨在解决视觉语言导航问题,并允许机器人在更具挑战性和杂乱的场景中进行导航。该模型采用了两层框架,将视觉、语言和行动模型(VLA)与运动技能相结合。
https://mp.weixin.qq.com/s/7addMzPoZOp9AeKjkviviA
01 论文方法
1.1 方法描述
本文提出的NaVILA模型是一种结合了视觉语言理解和低级运动控制的系统,用于实现在现实世界中的导航任务。该模型采用了高效的预训练视觉语言模型(VLM)来处理视频输入,并将其与低级运动控制器相结合,以实现精确的关节运动控制。这种模型设计的优势在于其能够适应不同的环境并具有较强的泛化能力。
1.2 方法改进
在本文中,作者通过以下方式改进了传统的视觉语言导航模型:
1)使用图像编码器:传统的视觉语言导航模型通常使用图像编码器来处理视频输入。然而,由于缺乏大规模、高质量的视频文本数据集,这些模型的性能受到了限制。因此,本文采用了基于图像的语言模型(如VILA),它们在理解连续视频序列方面表现出色。
2)基于历史观察的导航指令:本文提出了一个基于历史观察的导航指令,将当前观察和历史观察分别表示为不同类型的标记。这样可以更准确地捕捉到导航任务中不同类型信息的重要性。
3)数据融合:为了提高模型的泛化能力和避免过拟合,本文利用多种来源的数据进行了融合,包括真实人类行为视频、仿真数据以及辅助导航数据等。
1.3 解决的问题
本文主要解决了以下几个问题:
1)提高视觉语言导航模型的泛化能力:通过引入基于历史观察的导航指令和多源数据融合策略,使得模型在不同场景下表现更加出色。
2)实现连续动作的预测:通过将连续动作分解成多个离散的动作,降低了模型的复杂度,提高了实际应用的效果。
3)提高模型的效率:通过单阶段训练策略,减少了训练时间,并且可以直接在环境中探索新的策略,从而提高了模型的效率。




02 论文实验
本文介绍了NaVILA在虚拟和真实环境中的导航性能的三个实验,并与现有方法进行了比较。
第一个实验是在虚拟环境中评估NaVILA的导航性能。
作者使用了两个广泛使用的基准数据集:R2R和RxR。他们使用了常用的评价指标来评估NaVILA的表现,包括导航误差(NE)、成功率(SR)、路径长度加权成功率(SPL)等。
结果表明,NaVILA在单个模型下显著优于所有基线方法,在两个基准测试中都取得了更好的表现。此外,该实验还展示了NaVILA的泛化能力,即使仅使用单个RGB视图输入,也可以实现与使用全景视图、机器人位姿或仿真预训练的路标预测器相当甚至更好的效果。
第二个实验是在模拟器中评估NaVILA的足式机器人导航性能。
由于现有的足式机器人导航基准不适用于足式机器人,因此作者创建了一个新的高保真度基准,名为VLN-CE-Isaac。该基准使用Isaac Sim模拟器捕捉了详细的机器人关节运动和与环境的交互,可以全面评估整个导航Pipeline,从高级规划到精确的机器人执行。作者在Isaac Sim上部署了相同场景,并选择了高质量的可通行轨迹以确保现实的导航场景。他们使用相同的指标对性能进行评估,并将NaVILA模型应用于Unitree Go2和H1机器人。
结果表明,NaVILA的视觉策略比盲策略具有更高的成功率,这归因于其优越的障碍物避免能力。此外,与Oracle低级策略相比,NaVILA的成功率也有所下降,这突显了基准的挑战和现实性增加。
第三个实验是在真实世界中评估NaVILA的导航性能。
作者在一个真实的环境中进行了25个指令的实验,每个指令重复三次,涵盖了简单和复杂的任务,并覆盖了三种类型的环境:工作区、家庭和户外开放环境。他们使用标准指标(成功率和导航误差)并将其与GPT-4o进行了比较,后者是一种著名的VLM,以其强大的泛化能力而闻名。
结果表明,NaVILA在所有环境下都显著优于GPT-4o,并且通过添加人类视频的帮助,NaVILA可以在户外场景中更好地泛化并实现更高的成功率。他们的定性结果也在文中展示。
综上所述,本文展示了NaVILA在虚拟和真实环境中的导航性能,并证明了它在不同场景下的优势。



03 方法创新点
本文的方法创新点在于提出了NaVILA这一两层框架,它能够将视觉语言动作模型(VLAs)与行走技能相结合,用于通用导航任务。
具体来说,NaVILA使用了以下三个方面的创新:
1)分离低级执行:通过将低级执行从VLAs中分离出来,同一组VLAs可以应用于不同的机器人,只需更换低级策略即可。
2)中级语言指令:将动作表示为中级语言指令,使得训练数据来源更加丰富,包括真实人类视频和推理问答任务等,从而增强了推理能力并促进了泛化。
3)双频率设计:NaVILA采用了双频率设计,其中VLAs是一个大型且计算密集型的模型,在较低的频率下运行;而实时的低级行走策略则负责处理复杂的障碍避免问题,增加了整体的鲁棒性。
此外,本文还提出了一些策略来训练VLAs,例如整合历史上下文和当前观察到的信息、创建专门的导航提示以及引入精心挑选的数据集组合等,这些策略有助于将通用的图像基VLM细调为专门用于导航的代理,并同时在通用的视觉语言数据集上进行训练,保持其广泛的一般化能力。
04 未来展望
本文提出的方法具有很高的实用性和可扩展性,但仍有一些未来的研究方向值得探索。例如,可以进一步研究如何提高NaVILA的效率和速度,以适应更多的应用场景。此外,还可以探索如何将NaVILA与其他技术结合,如强化学习或深度强化学习,以实现更高水平的自主导航。最后,可以考虑将NaVILA扩展到其他类型的机器人,如四足机器人或人形机器人,以满足更多实际应用的需求。
相关文章:
NaVILA:用于足式机器人导航的VLA模型
论文地址:https://navila-bot.github.io/static/navila_paper.pdf 项目地址:https://navila-bot.github.io/ 本文提出了一种名为NaVILA的机器人导航模型,旨在解决视觉语言导航问题,并允许机器人在更具挑战性和杂乱的场景中进行导…...
大语言模型提示技巧(七)-扩展
扩展是将较短的文本,例如一组提示或主题列表,输入到大型语言模型中,让模型生成更长的文本。我们可以利用这个特性让大语言模型生成基于某个主题的电子邮件或小论文。通过这种方式使用大语言模型,可以为工作与生活提供诸多便利&…...
基类指针指向派生类对象,基类指针的首地址永远指向子类从基类继承的基类首地址
文章目录 基类指针指向派生类对象,基类指针的首地址永远指向子类从基类继承的基类起始地址。代码代码2 基类指针指向派生类对象,基类指针的首地址永远指向子类从基类继承的基类起始地址。 代码 #include <iostream> using namespace std;class b…...
25年01月HarmonyOS应用基础认证最新题库
判断题 “一次开发,多端部署”指的是一个工程,一次开发上架,多端按需部署。为了实现这一目的,HarmonyOS提供了多端开发环境,多端开发能力以及多端分发机制。 答案:正确 《鸿蒙生态应用开发白皮书》全面阐释…...
wps宏js接入AI功能和接入翻译功能
wps的js越来越强大了,很实用的功能,爱了 表格wps js接入AI 表格wps js接入翻译功能,自定义翻译语言和目标语言...
【Logstash03】企业级日志分析系统ELK之Logstash 过滤 Filter 插件
Logstash 过滤 Filter 插件 数据从源传输到存储库的过程中,Logstash 过滤器能够解析各个事件,识别已命名的字段以构建结构, 并将它们转换成通用格式,以便进行更强大的分析和实现商业价值。 Logstash 能够动态地转换和解析数据&a…...
深度学习:Java DL4J基于RNN构建智能停车管理模型
### 深度学习:Java DL4J基于RNN构建智能停车管理模型 #### 引言 随着城市化进程的加速,停车问题日益成为城市管理的难点和痛点。传统的停车场管理方式效率低下,导致停车场资源无法得到充分利用,车主停车体验差。为了解决这些痛点…...
花生好坏缺陷识别数据集,7262张图片,支持yolo,coco json,pasical voc xml格式的标注,识别准确率在95.7%
花生好坏缺陷识别数据集,7262张图片,支持yolo,coco json,pasical voc xml格式的标注,识别准确率在95.7% 数据集分割 训练组87% 6353图片 有效集8% 606图片 测试集4% 303图片 预处理 自动定…...
2025年:AI化浪潮中的社会变迁与商业革新
随着人工智能(AI)技术的迅猛发展,2025年将成为一个转折点。这一年,AI不仅将深入到日常生活和商业运营的各个角落,还将引发一系列深刻的社会、经济和技术变革。以下是对未来一年可能出现的“AI化”现象的预测与展望。 AI进入主流文化的标志 超级碗广告:在2025年的超级碗上…...
filebeat、kafka
elk的架构 es数据库:非关系型数据库,json格式 logstash:收集日志 kibana:图形化的工具 ↓ 以上三种结合起来即为日志收集系统 filebeat 作用:filebeat是一款轻量级的日志收集工具,不依赖java环境&…...
js单例模式
保证一个类只有一个实例,并提供一个访问它的全局访问点 实现 静态方法实现 class SingleTon{//全局的访问点static getInstance(){// 保证一个类只有一个实例if(!this.instance){this.instancenew SingleTon()}return this.instance}}let aSingleTon.getInstance()let bSing…...
【设计模式】装饰器与代理模式的对比
文章目录 装饰器模式(Decorator Pattern)代理模式(Proxy Pattern)两者之间的区别 装饰器模式(Decorator Pattern) 装饰器模式是一种结构型设计模式,它允许你动态地将责任附加到对象上ÿ…...
Proteus-8086调试汇编格式的一点心得
这阵子开始做汇编的微机实验(微机原理与接口技术题解及实验指导,吴宁版本13章),中间出了挺多问题,解决后记录下。 先上电路图 用子电路来仿真发现仿真的时候子电路这块根本没有高低电平输出,只好把子电路拿…...
什么是Kafka?有什么主要用途?
大家好,我是锋哥。今天分享关于【什么是Kafka?有什么主要用途?】面试题。希望对大家有帮助; 什么是Kafka?有什么主要用途? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 Kafka 是一个分布式流…...
SpringBoot插件
SpringBoot的插件机制是其强大灵活性的重要体现,它允许开发人员将应用程序的不同功能模块打包为独立的插件,并可以动态地加载和卸载这些插件。以下是对SpringBoot插件机制的详细解析: 一、插件机制的概念 插件机制是一种软件开发方法&#…...
UE 5.3 C++ 管理POI 如何对WidgetComponent 屏幕模式进行点击
一.首先对很多对 World 模式下的点击,选择接受 硬件输入,就可以实现点击。 二。Screen 模式下,的POI。如果想要点击, 设置好 Layers。 在Widget下,加个Button。 即使上面有其他,但也能点击到。 。 如果相…...
Nginx实现接口复制
目录 1、前言 2、接口流复制 2.1、方式一:使用mirror指令 2.1.1、nginx配置 2.1.2、配置说明 2.1.3、测试结果 2.1.4、注意事项 2.2、方式二:使用Lua 2.2.1、安装Openresty 2.2.2、nginx配置 2.2.3、配置说明 2.2.4、测试结果 3、小结 1、前…...
Selenium 八大元素定位方法及场景扩展
Selenium 提供了八种常见的元素定位方法,用于在网页中准确找到需要操作的元素。以下是详细介绍以及一些特殊场景的解决方案。 1. ID 定位 用法: 通过元素的唯一 id 属性进行定位。 element driver.find_element(By.ID, "element_id")使用场…...
WebRTC 的优缺点详细解析
在当今数字化浪潮中,WebRTC技术凭借其独特优势,在众多联网平台中得以广泛应用,为实时通信带来了革命性变化。然而,如同任何技术一样,它也并非十全十美,存在着一些有待攻克的短板。 一、WebRTC的优点 卓越…...
B树及其Java实现详解
文章目录 B树及其Java实现详解一、引言二、B树基础1、B树定义2、B树约束 三、B树Java实现1、B树节点实现2、B树操作2.1、搜索2.2、插入2.3、删除 3、B树的Java代码实现 四、总结 B树及其Java实现详解 一、引言 B树是一种多路平衡查找树,广泛应用于数据库和文件系统…...
Go 语言接口详解
Go 语言接口详解 核心概念 接口定义 在 Go 语言中,接口是一种抽象类型,它定义了一组方法的集合: // 定义接口 type Shape interface {Area() float64Perimeter() float64 } 接口实现 Go 接口的实现是隐式的: // 矩形结构体…...
Robots.txt 文件
什么是robots.txt? robots.txt 是一个位于网站根目录下的文本文件(如:https://example.com/robots.txt),它用于指导网络爬虫(如搜索引擎的蜘蛛程序)如何抓取该网站的内容。这个文件遵循 Robots…...
LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf
FTP 客服管理系统 实现kefu123登录,不允许匿名访问,kefu只能访问/data/kefu目录,不能查看其他目录 创建账号密码 useradd kefu echo 123|passwd -stdin kefu [rootcode caozx26420]# echo 123|passwd --stdin kefu 更改用户 kefu 的密码…...
【JVM】Java虚拟机(二)——垃圾回收
目录 一、如何判断对象可以回收 (一)引用计数法 (二)可达性分析算法 二、垃圾回收算法 (一)标记清除 (二)标记整理 (三)复制 (四ÿ…...
tomcat指定使用的jdk版本
说明 有时候需要对tomcat配置指定的jdk版本号,此时,我们可以通过以下方式进行配置 设置方式 找到tomcat的bin目录中的setclasspath.bat。如果是linux系统则是setclasspath.sh set JAVA_HOMEC:\Program Files\Java\jdk8 set JRE_HOMEC:\Program Files…...
深入浅出Diffusion模型:从原理到实践的全方位教程
I. 引言:生成式AI的黎明 – Diffusion模型是什么? 近年来,生成式人工智能(Generative AI)领域取得了爆炸性的进展,模型能够根据简单的文本提示创作出逼真的图像、连贯的文本,乃至更多令人惊叹的…...
拟合问题处理
在机器学习中,核心任务通常围绕模型训练和性能提升展开,但你提到的 “优化训练数据解决过拟合” 和 “提升泛化性能解决欠拟合” 需要结合更准确的概念进行梳理。以下是对机器学习核心任务的系统复习和修正: 一、机器学习的核心任务框架 机…...
Tauri2学习笔记
教程地址:https://www.bilibili.com/video/BV1Ca411N7mF?spm_id_from333.788.player.switch&vd_source707ec8983cc32e6e065d5496a7f79ee6 官方指引:https://tauri.app/zh-cn/start/ 目前Tauri2的教程视频不多,我按照Tauri1的教程来学习&…...
__VUE_PROD_HYDRATION_MISMATCH_DETAILS__ is not explicitly defined.
这个警告表明您在使用Vue的esm-bundler构建版本时,未明确定义编译时特性标志。以下是详细解释和解决方案: 问题原因: 该标志是Vue 3.4引入的编译时特性标志,用于控制生产环境下SSR水合不匹配错误的详细报告1使用esm-bundler…...
解决MybatisPlus使用Druid1.2.11连接池查询PG数据库报Merge sql error的一种办法
目录 前言 一、问题重现 1、环境说明 2、重现步骤 3、错误信息 二、关于LATERAL 1、Lateral作用场景 2、在四至场景中使用 三、问题解决之道 1、源码追踪 2、关闭sql合并 3、改写处理SQL 四、总结 前言 在博客:【写在创作纪念日】基于SpringBoot和PostG…...
