NaVILA:用于足式机器人导航的VLA模型
论文地址:https://navila-bot.github.io/static/navila_paper.pdf
项目地址:https://navila-bot.github.io/
本文提出了一种名为NaVILA的机器人导航模型,旨在解决视觉语言导航问题,并允许机器人在更具挑战性和杂乱的场景中进行导航。
该模型采用了两层框架,将视觉、语言和行动模型(VLA)与运动技能相结合。通过预先生成具有空间信息的语言中间动作(例如,“向前移动75厘米”),然后将其作为输入传递给视觉运动强化学习策略以执行任务。
实验结果表明,NaVILA在现有基准测试上取得了显著改进,并且在新的IsaacLab基准测试中也表现出了相同的优势,这些基准测试包括更真实的场景、低级控制和真实世界中的机器人实验。
NaVILA:用于足式机器人导航的VLA模型本文提出了一种名为NaVILA的机器人导航模型,旨在解决视觉语言导航问题,并允许机器人在更具挑战性和杂乱的场景中进行导航。该模型采用了两层框架,将视觉、语言和行动模型(VLA)与运动技能相结合。https://mp.weixin.qq.com/s/7addMzPoZOp9AeKjkviviA
01 论文方法
1.1 方法描述
本文提出的NaVILA模型是一种结合了视觉语言理解和低级运动控制的系统,用于实现在现实世界中的导航任务。该模型采用了高效的预训练视觉语言模型(VLM)来处理视频输入,并将其与低级运动控制器相结合,以实现精确的关节运动控制。这种模型设计的优势在于其能够适应不同的环境并具有较强的泛化能力。
1.2 方法改进
在本文中,作者通过以下方式改进了传统的视觉语言导航模型:
1)使用图像编码器:传统的视觉语言导航模型通常使用图像编码器来处理视频输入。然而,由于缺乏大规模、高质量的视频文本数据集,这些模型的性能受到了限制。因此,本文采用了基于图像的语言模型(如VILA),它们在理解连续视频序列方面表现出色。
2)基于历史观察的导航指令:本文提出了一个基于历史观察的导航指令,将当前观察和历史观察分别表示为不同类型的标记。这样可以更准确地捕捉到导航任务中不同类型信息的重要性。
3)数据融合:为了提高模型的泛化能力和避免过拟合,本文利用多种来源的数据进行了融合,包括真实人类行为视频、仿真数据以及辅助导航数据等。
1.3 解决的问题
本文主要解决了以下几个问题:
1)提高视觉语言导航模型的泛化能力:通过引入基于历史观察的导航指令和多源数据融合策略,使得模型在不同场景下表现更加出色。
2)实现连续动作的预测:通过将连续动作分解成多个离散的动作,降低了模型的复杂度,提高了实际应用的效果。
3)提高模型的效率:通过单阶段训练策略,减少了训练时间,并且可以直接在环境中探索新的策略,从而提高了模型的效率。
02 论文实验
本文介绍了NaVILA在虚拟和真实环境中的导航性能的三个实验,并与现有方法进行了比较。
第一个实验是在虚拟环境中评估NaVILA的导航性能。
作者使用了两个广泛使用的基准数据集:R2R和RxR。他们使用了常用的评价指标来评估NaVILA的表现,包括导航误差(NE)、成功率(SR)、路径长度加权成功率(SPL)等。
结果表明,NaVILA在单个模型下显著优于所有基线方法,在两个基准测试中都取得了更好的表现。此外,该实验还展示了NaVILA的泛化能力,即使仅使用单个RGB视图输入,也可以实现与使用全景视图、机器人位姿或仿真预训练的路标预测器相当甚至更好的效果。
第二个实验是在模拟器中评估NaVILA的足式机器人导航性能。
由于现有的足式机器人导航基准不适用于足式机器人,因此作者创建了一个新的高保真度基准,名为VLN-CE-Isaac。该基准使用Isaac Sim模拟器捕捉了详细的机器人关节运动和与环境的交互,可以全面评估整个导航Pipeline,从高级规划到精确的机器人执行。作者在Isaac Sim上部署了相同场景,并选择了高质量的可通行轨迹以确保现实的导航场景。他们使用相同的指标对性能进行评估,并将NaVILA模型应用于Unitree Go2和H1机器人。
结果表明,NaVILA的视觉策略比盲策略具有更高的成功率,这归因于其优越的障碍物避免能力。此外,与Oracle低级策略相比,NaVILA的成功率也有所下降,这突显了基准的挑战和现实性增加。
第三个实验是在真实世界中评估NaVILA的导航性能。
作者在一个真实的环境中进行了25个指令的实验,每个指令重复三次,涵盖了简单和复杂的任务,并覆盖了三种类型的环境:工作区、家庭和户外开放环境。他们使用标准指标(成功率和导航误差)并将其与GPT-4o进行了比较,后者是一种著名的VLM,以其强大的泛化能力而闻名。
结果表明,NaVILA在所有环境下都显著优于GPT-4o,并且通过添加人类视频的帮助,NaVILA可以在户外场景中更好地泛化并实现更高的成功率。他们的定性结果也在文中展示。
综上所述,本文展示了NaVILA在虚拟和真实环境中的导航性能,并证明了它在不同场景下的优势。
03 方法创新点
本文的方法创新点在于提出了NaVILA这一两层框架,它能够将视觉语言动作模型(VLAs)与行走技能相结合,用于通用导航任务。
具体来说,NaVILA使用了以下三个方面的创新:
1)分离低级执行:通过将低级执行从VLAs中分离出来,同一组VLAs可以应用于不同的机器人,只需更换低级策略即可。
2)中级语言指令:将动作表示为中级语言指令,使得训练数据来源更加丰富,包括真实人类视频和推理问答任务等,从而增强了推理能力并促进了泛化。
3)双频率设计:NaVILA采用了双频率设计,其中VLAs是一个大型且计算密集型的模型,在较低的频率下运行;而实时的低级行走策略则负责处理复杂的障碍避免问题,增加了整体的鲁棒性。
此外,本文还提出了一些策略来训练VLAs,例如整合历史上下文和当前观察到的信息、创建专门的导航提示以及引入精心挑选的数据集组合等,这些策略有助于将通用的图像基VLM细调为专门用于导航的代理,并同时在通用的视觉语言数据集上进行训练,保持其广泛的一般化能力。
04 未来展望
本文提出的方法具有很高的实用性和可扩展性,但仍有一些未来的研究方向值得探索。例如,可以进一步研究如何提高NaVILA的效率和速度,以适应更多的应用场景。此外,还可以探索如何将NaVILA与其他技术结合,如强化学习或深度强化学习,以实现更高水平的自主导航。最后,可以考虑将NaVILA扩展到其他类型的机器人,如四足机器人或人形机器人,以满足更多实际应用的需求。
相关文章:

NaVILA:用于足式机器人导航的VLA模型
论文地址:https://navila-bot.github.io/static/navila_paper.pdf 项目地址:https://navila-bot.github.io/ 本文提出了一种名为NaVILA的机器人导航模型,旨在解决视觉语言导航问题,并允许机器人在更具挑战性和杂乱的场景中进行导…...

大语言模型提示技巧(七)-扩展
扩展是将较短的文本,例如一组提示或主题列表,输入到大型语言模型中,让模型生成更长的文本。我们可以利用这个特性让大语言模型生成基于某个主题的电子邮件或小论文。通过这种方式使用大语言模型,可以为工作与生活提供诸多便利&…...

基类指针指向派生类对象,基类指针的首地址永远指向子类从基类继承的基类首地址
文章目录 基类指针指向派生类对象,基类指针的首地址永远指向子类从基类继承的基类起始地址。代码代码2 基类指针指向派生类对象,基类指针的首地址永远指向子类从基类继承的基类起始地址。 代码 #include <iostream> using namespace std;class b…...

25年01月HarmonyOS应用基础认证最新题库
判断题 “一次开发,多端部署”指的是一个工程,一次开发上架,多端按需部署。为了实现这一目的,HarmonyOS提供了多端开发环境,多端开发能力以及多端分发机制。 答案:正确 《鸿蒙生态应用开发白皮书》全面阐释…...

wps宏js接入AI功能和接入翻译功能
wps的js越来越强大了,很实用的功能,爱了 表格wps js接入AI 表格wps js接入翻译功能,自定义翻译语言和目标语言...

【Logstash03】企业级日志分析系统ELK之Logstash 过滤 Filter 插件
Logstash 过滤 Filter 插件 数据从源传输到存储库的过程中,Logstash 过滤器能够解析各个事件,识别已命名的字段以构建结构, 并将它们转换成通用格式,以便进行更强大的分析和实现商业价值。 Logstash 能够动态地转换和解析数据&a…...
深度学习:Java DL4J基于RNN构建智能停车管理模型
### 深度学习:Java DL4J基于RNN构建智能停车管理模型 #### 引言 随着城市化进程的加速,停车问题日益成为城市管理的难点和痛点。传统的停车场管理方式效率低下,导致停车场资源无法得到充分利用,车主停车体验差。为了解决这些痛点…...

花生好坏缺陷识别数据集,7262张图片,支持yolo,coco json,pasical voc xml格式的标注,识别准确率在95.7%
花生好坏缺陷识别数据集,7262张图片,支持yolo,coco json,pasical voc xml格式的标注,识别准确率在95.7% 数据集分割 训练组87% 6353图片 有效集8% 606图片 测试集4% 303图片 预处理 自动定…...
2025年:AI化浪潮中的社会变迁与商业革新
随着人工智能(AI)技术的迅猛发展,2025年将成为一个转折点。这一年,AI不仅将深入到日常生活和商业运营的各个角落,还将引发一系列深刻的社会、经济和技术变革。以下是对未来一年可能出现的“AI化”现象的预测与展望。 AI进入主流文化的标志 超级碗广告:在2025年的超级碗上…...

filebeat、kafka
elk的架构 es数据库:非关系型数据库,json格式 logstash:收集日志 kibana:图形化的工具 ↓ 以上三种结合起来即为日志收集系统 filebeat 作用:filebeat是一款轻量级的日志收集工具,不依赖java环境&…...

js单例模式
保证一个类只有一个实例,并提供一个访问它的全局访问点 实现 静态方法实现 class SingleTon{//全局的访问点static getInstance(){// 保证一个类只有一个实例if(!this.instance){this.instancenew SingleTon()}return this.instance}}let aSingleTon.getInstance()let bSing…...
【设计模式】装饰器与代理模式的对比
文章目录 装饰器模式(Decorator Pattern)代理模式(Proxy Pattern)两者之间的区别 装饰器模式(Decorator Pattern) 装饰器模式是一种结构型设计模式,它允许你动态地将责任附加到对象上ÿ…...

Proteus-8086调试汇编格式的一点心得
这阵子开始做汇编的微机实验(微机原理与接口技术题解及实验指导,吴宁版本13章),中间出了挺多问题,解决后记录下。 先上电路图 用子电路来仿真发现仿真的时候子电路这块根本没有高低电平输出,只好把子电路拿…...

什么是Kafka?有什么主要用途?
大家好,我是锋哥。今天分享关于【什么是Kafka?有什么主要用途?】面试题。希望对大家有帮助; 什么是Kafka?有什么主要用途? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 Kafka 是一个分布式流…...
SpringBoot插件
SpringBoot的插件机制是其强大灵活性的重要体现,它允许开发人员将应用程序的不同功能模块打包为独立的插件,并可以动态地加载和卸载这些插件。以下是对SpringBoot插件机制的详细解析: 一、插件机制的概念 插件机制是一种软件开发方法&#…...

UE 5.3 C++ 管理POI 如何对WidgetComponent 屏幕模式进行点击
一.首先对很多对 World 模式下的点击,选择接受 硬件输入,就可以实现点击。 二。Screen 模式下,的POI。如果想要点击, 设置好 Layers。 在Widget下,加个Button。 即使上面有其他,但也能点击到。 。 如果相…...

Nginx实现接口复制
目录 1、前言 2、接口流复制 2.1、方式一:使用mirror指令 2.1.1、nginx配置 2.1.2、配置说明 2.1.3、测试结果 2.1.4、注意事项 2.2、方式二:使用Lua 2.2.1、安装Openresty 2.2.2、nginx配置 2.2.3、配置说明 2.2.4、测试结果 3、小结 1、前…...
Selenium 八大元素定位方法及场景扩展
Selenium 提供了八种常见的元素定位方法,用于在网页中准确找到需要操作的元素。以下是详细介绍以及一些特殊场景的解决方案。 1. ID 定位 用法: 通过元素的唯一 id 属性进行定位。 element driver.find_element(By.ID, "element_id")使用场…...
WebRTC 的优缺点详细解析
在当今数字化浪潮中,WebRTC技术凭借其独特优势,在众多联网平台中得以广泛应用,为实时通信带来了革命性变化。然而,如同任何技术一样,它也并非十全十美,存在着一些有待攻克的短板。 一、WebRTC的优点 卓越…...
B树及其Java实现详解
文章目录 B树及其Java实现详解一、引言二、B树基础1、B树定义2、B树约束 三、B树Java实现1、B树节点实现2、B树操作2.1、搜索2.2、插入2.3、删除 3、B树的Java代码实现 四、总结 B树及其Java实现详解 一、引言 B树是一种多路平衡查找树,广泛应用于数据库和文件系统…...

大数据学习栈记——Neo4j的安装与使用
本文介绍图数据库Neofj的安装与使用,操作系统:Ubuntu24.04,Neofj版本:2025.04.0。 Apt安装 Neofj可以进行官网安装:Neo4j Deployment Center - Graph Database & Analytics 我这里安装是添加软件源的方法 最新版…...

阿里云ACP云计算备考笔记 (5)——弹性伸缩
目录 第一章 概述 第二章 弹性伸缩简介 1、弹性伸缩 2、垂直伸缩 3、优势 4、应用场景 ① 无规律的业务量波动 ② 有规律的业务量波动 ③ 无明显业务量波动 ④ 混合型业务 ⑤ 消息通知 ⑥ 生命周期挂钩 ⑦ 自定义方式 ⑧ 滚的升级 5、使用限制 第三章 主要定义 …...

React19源码系列之 事件插件系统
事件类别 事件类型 定义 文档 Event Event 接口表示在 EventTarget 上出现的事件。 Event - Web API | MDN UIEvent UIEvent 接口表示简单的用户界面事件。 UIEvent - Web API | MDN KeyboardEvent KeyboardEvent 对象描述了用户与键盘的交互。 KeyboardEvent - Web…...

现代密码学 | 椭圆曲线密码学—附py代码
Elliptic Curve Cryptography 椭圆曲线密码学(ECC)是一种基于有限域上椭圆曲线数学特性的公钥加密技术。其核心原理涉及椭圆曲线的代数性质、离散对数问题以及有限域上的运算。 椭圆曲线密码学是多种数字签名算法的基础,例如椭圆曲线数字签…...
C++中string流知识详解和示例
一、概览与类体系 C 提供三种基于内存字符串的流,定义在 <sstream> 中: std::istringstream:输入流,从已有字符串中读取并解析。std::ostringstream:输出流,向内部缓冲区写入内容,最终取…...
Python如何给视频添加音频和字幕
在Python中,给视频添加音频和字幕可以使用电影文件处理库MoviePy和字幕处理库Subtitles。下面将详细介绍如何使用这些库来实现视频的音频和字幕添加,包括必要的代码示例和详细解释。 环境准备 在开始之前,需要安装以下Python库:…...
关于 WASM:1. WASM 基础原理
一、WASM 简介 1.1 WebAssembly 是什么? WebAssembly(WASM) 是一种能在现代浏览器中高效运行的二进制指令格式,它不是传统的编程语言,而是一种 低级字节码格式,可由高级语言(如 C、C、Rust&am…...

JUC笔记(上)-复习 涉及死锁 volatile synchronized CAS 原子操作
一、上下文切换 即使单核CPU也可以进行多线程执行代码,CPU会给每个线程分配CPU时间片来实现这个机制。时间片非常短,所以CPU会不断地切换线程执行,从而让我们感觉多个线程是同时执行的。时间片一般是十几毫秒(ms)。通过时间片分配算法执行。…...
C++.OpenGL (14/64)多光源(Multiple Lights)
多光源(Multiple Lights) 多光源渲染技术概览 #mermaid-svg-3L5e5gGn76TNh7Lq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-3L5e5gGn76TNh7Lq .error-icon{fill:#552222;}#mermaid-svg-3L5e5gGn76TNh7Lq .erro…...
【无标题】路径问题的革命性重构:基于二维拓扑收缩色动力学模型的零点隧穿理论
路径问题的革命性重构:基于二维拓扑收缩色动力学模型的零点隧穿理论 一、传统路径模型的根本缺陷 在经典正方形路径问题中(图1): mermaid graph LR A((A)) --- B((B)) B --- C((C)) C --- D((D)) D --- A A -.- C[无直接路径] B -…...