当前位置: 首页 > news >正文

北航现实场景无人机VLN新基准! OpenUAV:面向真实环境的无人机视觉语言导航,平台、基准与方法

  • 作者:Xiangyu Wang, Donglin Yang, Ziqin Wang, Hohin Kwan, Jinyu Chen, Wenjun Wu1, Hongsheng Li, Yue Liao, Si Liu

  • 单位:北京航空航天大学人工智能学院,香港中文大学多媒体实验室,感知与交互智能中心

  • 原文链接:TOWARDS REALISTIC UAV VISION-LANGUAGE NAVIGATION: PLATFORM, BENCHMARK, AND METHODOLOGY (https://arxiv.org/pdf/2410.07087)

  • 项目主页:https://prince687028.github.io/OpenUAV

主要贡献

  1. OpenUAV平台

    • 提出了OpenUAV开源平台,专注于实现真实的无人机VLN任务。

    • 该平台集成了多样化的环境、真实的飞行模拟和广泛的算法支持,提供了用于开发和评估复杂的无人机导航系统的基础。

  2. 目标导向的真实无人机VLN数据集

    • 构建了UAV-Need-Help的目标导向真实无人机VLN数据集,这是首个专门为无人机VLN任务设计的真实数据集。

    • 数据集包含了约12,000个轨迹,每个轨迹都精确捕捉了无人机的6自由度(DoF)运动,反映了无人机飞行的复杂性。

  3. UAV-Need-Help基准测试

    • 引入了UAV-Need-Help测试基准,是一个辅助引导的无人机对象搜索任务,旨在通过提供不同级别的指导信息来帮助无人机更好地完成复杂的VLN任务。

    • 基准定义了三种不同的辅助级别,从高频指导到仅在遇到困难时提供低频修正,以及仅在危险情况下提供避障协助。

  4. 无人机导航LLM

    • 提出了一种无人机导航大语言模型(LLM),该模型能够处理多视图图像、任务描述和辅助指令。

    • LLM利用多模态理解能力,通过分层轨迹生成模型来处理长距离和细粒度的轨迹规划。

    • 引入了基于回溯采样的数据聚合策略,以增强模型在复杂场景中的障碍物避障能力。

研究背景

研究问题

现有的大多数视觉语言导航研究集中在地面机器人上,而基于无人机的VLN相对较少被探索。

因此,本文主要解决基于语言指令和视觉信息的无人机导航问题。

研究难点

该问题的研究难点包括:

  • 地面机器人与无人机在运动动态和导航任务复杂性上的显著差异;

  • 现有研究通常采用预定义的离散动作空间,未能充分捕捉无人机的真实飞行动态;

  • 无人机在复杂环境中的导航路径通常较长且复杂,难以仅依靠目标描述进行精确定位和导航。

相关工作

  • 仿真平台:地面仿真平台如Habitat、Matterport3D和Google Street View对室内和室外场景的模拟研究至关重要,而无人机仿真平台仍在早期发展阶段,现有平台在真实性、可扩展性和多场景支持方面存在局限。

  • 视觉语言导航数据集:无人机视觉语言导航(UVLN)是从户外视觉语言导航任务中衍生出的新兴任务。现有数据集主要针对地面导航,最近的研究开始收集包含人类对话的空中导航轨迹,但这些数据集的轨迹收集方法与真实无人机飞行相差甚远。

  • 基于大语言模型的导航智能体:大语言模型(LLM)在导航智能体中的应用取得了显著进展,如LM-Nav和LMDrive等方法。一些研究利用LLMs的零样本能力生成无人机导航代码,而Lee等人结合LLMs优化无人机目标点的坐标,验证了LLMs在无人机导航任务中的基本能力。

OpenUAV仿真平台

OpenUAV仿真平台是专门为真实无人机视觉语言导航(VLN)任务设计的开源平台。

该平台整合了环境构建、飞行模拟和算法支持三个模块,以提供全面的功能。

环境构建

  • OpenUAV提供了多样化的场景资源,通过UE4的高级图形渲染能力实现高保真度视觉效果。

  • 平台集成了22个不同的场景,包括城市、乡村和自然景观,并支持动态环境的模拟,如植被摇摆和光照变化。

  • 平台还提供了丰富的独立对象资产,用户可以根据任务需求使用不同的方法放置物体。

飞行模拟

  • 平台集成了AirSim插件以实现真实的无人机飞行控制,支持6自由度(DoF)轨迹表示和精确的飞行控制。

  • OpenUAV支持多种传感器负载的模拟,包括IMU、RGB和深度相机、激光雷达和GPS,并提供了人类控制接口,支持遥控器操作和两种操作API。

算法支持

  • 平台包含了数据收集框架,用于解决有限的无人机训练数据问题,并实现了异步采集方法和闭环仿真。

  • 平台还提供了并行化策略,允许多个模拟环境同时运行以提高数据收集和闭环评估的效率。

目标导向的真实无人机VLN数据集

数据集构建

使用OpenUAV平台进行数据收集,包括目标描述和异步轨迹收集。

目标描述由目标方向、对象描述和环境信息组成,使用GPT-4生成并经过人工审核以确保质量。

轨迹分析

数据集包含12,149条轨迹,根据轨迹长度分为简单和困难两类,目标距离从50米到400米不等,涵盖不同的空间规模。

描述分析

最常见的描述包括建筑、树木和汽车等,这些描述提供了上下文信息,帮助无人机通过视觉线索估计对象位置。

数据集划分

为了全面评估模型性能,数据集被划分为Train, Test Seen, Test Unseen Map, and Test Unseen Object,每个test子集又分为简单和困难类别。

UAV-NEED-HELP基准

论文提出UAV-Need-Help辅助引导无人机目标搜索任务,要求无人机根据目标描述、环境信息和来自助手的指导来导航至目标对象。

任务定义

  • 无人机从初始位置和姿态开始,接收一个目标描述,该描述指定了目标的方向、对象特征及其周围环境。

  • 在每个时间步骤,无人机获取其状态(位置、姿态、速度),以及来自五个视角(前、左、右、后、下)的RGB图像和深度图像。

  • 一个助手监控无人机的状态,并在需要时提供额外的指令,建议飞行策略。

  • 无人机导航模型预测一个6自由度(DoF)的轨迹序列,并使用OpenUAV平台的飞行API导航至预测的每个位置。

  • 任务成功当无人机在目标20米半径范围内着陆。

助手机制

引入了三种不同层次的助手设置,提供不同程度的指导:

  • L1助手提供与地面真实轨迹紧密对齐的高频指导。

  • L2助手在无人机遇到困难时提供低频纠正,引导其回到真实轨迹。

  • L3助手仅在无人机处于危险场景时提供避障协助。

挑战与复杂性

  • 由于空中环境的复杂性和动态性,仅依靠基本的目标描述不足以完成无人机对象搜索任务。

  • 助手的引入旨在通过提供额外信息来增强无人机的导航能力,特别是在复杂环境中。

UAV导航大模型

该模型能够处理包括图像和文本在内的多种输入类型,并通过层次化轨迹生成模型来解决对象搜索任务。

多模态信息符号化

模型首先对任务描述和助手指令进行符号化,使用预训练的语言标记器和视觉特征提取结构(如EVA-CLIP和Q-former)来处理多视图图像。然后将这些标记连接起来,形成多模态输入序列。

层次化轨迹解码器

解码器分为两个层次:一个基于LLM的高层轨迹解码器和一个细粒度路径解码器。

  • 高层解码器使用特殊的学习轨迹标记来提取轨迹特定特征,并通过多层感知器(MLP)解码目标位姿。

  • 细粒度路径解码器则结合前视图视觉标记和处理后的位姿特征,生成详细的轨迹。

回溯采样数据聚合

为了增强模型在复杂场景中的障碍物避障能力,论文实现了一个基于DAgger的模块,采用回溯采样机制。

当无人机在模拟中发生碰撞时,它会回退到两帧前的状态,并遵循教师模型提供的轨迹,从而避免碰撞并保持在正确路径上。

实验

实验设置

  • 评估指标:包括成功率(SR)、最优成功率(OSR)、按路径长度加权的成功率(SPL)和导航误差(NE)。

  • 基线模型:包括随机选择轨迹、固定动作映射和跨模态注意力(CMA)模型。

定量结果

  • 实验结果表明,所提出的方法在不同难度级别上的测试已见集中均优于基线模型。

  • 特别是在L1助手的连续指导下,所提方法的成功率显著提高。

  • 此外,通过基于回溯采样的数据聚合策略训练的模型在成功率上也有所提升。

  • 实验还考察了训练数据量对模型性能的影响,结果显示随着数据量的增加,模型性能得到提升。

定性结果

第一个示例中,无人机成功地遵循了指令,穿越建筑物并最终定位到了一辆黄色车辆。在这个过程中,无人机由于姿态变化经历了摄像头视角的变化,这突出了平台在模拟真实环境方面的真实性。

尽管如此,第三个示例展示了一个失败的情况,无人机在穿越森林区域时由于高度不足而发生了碰撞。这个例子突显了复杂环境给无人机导航带来的挑战。

总结

论文通过提出OpenUAV平台、UAV-Need-Help基准和无人机导航LLM,解决了真实无人机VLN任务的挑战。

提出的方法在多个指标上显著优于现有方法,并在新场景中表现出良好的泛化能力。

相关文章:

北航现实场景无人机VLN新基准! OpenUAV:面向真实环境的无人机视觉语言导航,平台、基准与方法

作者:Xiangyu Wang, Donglin Yang, Ziqin Wang, Hohin Kwan, Jinyu Chen, Wenjun Wu1, Hongsheng Li, Yue Liao, Si Liu 单位:北京航空航天大学人工智能学院,香港中文大学多媒体实验室,感知与交互智能中心 原文链接:…...

OpenCV计算机视觉 08 图像的旋转

图像的旋转 下面是一张小猪佩奇的照片,请进行顺时针90度,逆时针90度,180度旋转 方法一:使用了 NumPy 库的 np.rot90() 函数来实现图像的旋转 np.rot90(img, k-1) 表示将输入的图像 img 顺时针旋转 90 度, np.rot90(…...

C++感受15-Hello STL 泛型启蒙

生鱼片和STL的关系,你听过吗?泛型编程和面向对象编程,它们打架吗?行为泛型和数据泛型,各自的目的是? 0 楔 俄罗斯生鱼片,号称俄罗斯版的中国烤鸭,闻名于世。其鱼肉,源于…...

【Java 学习】对象赋值的艺术:Java中clone方法的浅拷贝与深拷贝解析,教你如何在Java中实现完美复制

💬 欢迎讨论:如对文章内容有疑问或见解,欢迎在评论区留言,我需要您的帮助! 👍 点赞、收藏与分享:如果这篇文章对您有所帮助,请不吝点赞、收藏或分享,谢谢您的支持&#x…...

基于高斯混合模型的数据分析及其延伸应用(具体代码分析)

一、代码分析 (一)清除工作区和命令行窗口 clear; clc;clear;:该命令用于清除 MATLAB 工作区中的所有变量,确保代码运行环境的清洁,避免之前遗留的变量对当前代码运行产生干扰。例如,如果之前运行的代码中…...

无人机+Ai应用场景!

军事领域 无人机AI制导技术在军事领域的应用尤为突出。通过AI技术,无人机可以自主执行侦察、监视、打击等多种任务,极大地提高了军事行动的效率和准确性。 侦察与监视:AI无人机能够利用先进的传感器和摄像头,对目标区域进行大范…...

操作手册:集成钉钉审批实例消息监听配置

此文档将记录在慧集通平台怎么实现钉钉审批实例结束或发起或取消时,能够实时的将对应的实例数据抓取出来送入第三方系统 集成平台配置 1、配置中心库,存储钉钉发送的消息,可以忽略,若不配置,则钉钉的消息将不再记录到…...

AI大模型-提示工程学习笔记4

卷首语:我所知的是我自己非常无知,所以我要不断学习。 写给AI入行比较晚的小白们(比如我自己)看的,大神可以直接路过无视了。 不同主题提示词可以完成不同基本任务,常见的提示主题有: 文本概…...

Vue3.5 企业级管理系统实战(一):项目初始搭建与配置

本文详细介绍了如何使用 Vite 构建一个高效的 Vue 3.5 项目框架,并整合了 ESLint、Prettier、EditorConfig、Husky、lint-staged 和 commitlint 等现代化开发工具。通过这些工具的集成,我们能够确保代码质量、格式化和提交规范的一致性,从而提…...

缓存-Redis-缓存更新策略-主动更新策略-Cache Aside Pattern(全面 易理解)

**Cache-Aside Pattern(旁路缓存模式)**是一种广泛应用于缓存管理的设计模式,尤其在使用 Redis 作为缓存层时尤为常见。该模式通过在应用程序与缓存之间引入一个旁路,确保数据的一致性和高效性。本文将在之前讨论的 Redis 主动更新…...

杭州市有哪些大学能够出具论文检索报告?

杭州市具有查收查引服务的学校有浙江大学、杭州电子科技大学、浙江工业大学、杭州师范大学等高校。 1、浙江大学图书馆 浙江大学图书馆提供文献查收查引服务,包括查询学术论文被SCIE、SSCI、A&HCI、EI、CPCI-S、CPCI-SSH、CSSCI、CSCD等国内外权威数据库收录和…...

SpringBootWeb 登录认证(day12)

登录功能 基本信息 请求参数 参数格式:application/json 请求数据样例: 响应数据 参数格式:application/json 响应数据样例: Slf4j RestController public class LoginController {Autowiredpriva…...

使用AOP在切面逻辑中无法获取到requesetBody

使用场景:在接口处理之前,我们需要拿到请求参数,对参数进行校验。注意,这里需要拿到的是原始的请求信息! 一般的获取方式 ServletInputStream inputStream request.getInputStream(); StringBuilder stringBuilder …...

生成模型:变分自编码器-VAE

1.基本概念 1.1 概率 这里有: x为真实图像,开源为数据集, 编码器将其编码为分布参数 x ^ \hat{x} x^为生成图像, 通过解码器获得 p ( x ) ^ \hat{p(x)} p(x)^​: 观测数据的分布, 即数据集所构成的经验分布 p r e a l ( x ) p_{real}(x) preal​(x): …...

Hive sql执行文件合并配置参数

HIVE自动合并输出的小文件的主要优化手段为:HIVE将会启动一个独立的map-reduce任务进行输出文件的merge。 set hive.merge.mapfiles true: 在只有map的作业结束时合并小文件, set hive.merge.mapredfiles true: 在Map-Reduce的任…...

鸿蒙 ArkUI实现地图找房效果

常用的地图找房功能,是在地图上添加区域、商圈、房源等一些自定义 marker,然后配上自己应用的一些筛选逻辑构成,在这里使用鸿蒙 ArkUI 简单实现下怎么添加区域/商圈、房源等 Marker. 1、开启地图服务 在华为开发者官网,注册应用&…...

一套极简易的直流无刷电机(Deng FOC)开发套件介绍

目录 概述 1. 硬件组成介绍 1.1 主要硬件 1.2 电机驱动板介绍 1.3 2208电机模块 1.3.1 参数介绍 1.3.2 认识2208电机 2 驱动板接口介绍 2.1 PCB接口(MCU)定义 2.2 功能描述 2.2.1 电机驱动接口 2.2.2 编码器接口 2.2.3 电流输入引脚接口 2.…...

Inception模型详解及代码分析

模型背景 Inception系列模型由Google团队提出,旨在解决CNN分类模型面临的两大挑战: 如何在增加网络深度的同时提升分类性能 如何在保证分类准确率的同时降低计算和内存开销 Inception V1通过引入 并行卷积结构 和 1x1卷积 ,巧妙地解决了这两个问题,在保证模型质量的前提下…...

Springboot AOP 每个接口运行前 修改入参

控制台log输出为何频频失踪?   wxss代码为何频频失效?   wxml布局为何乱作一团?   究竟是道德的沦丧?还是人性的缺失?   让我们一起来 走 跑进科学 前言 麻蛋被这个功能恶心好久 终于解决了 特此记录一下 正文 Before("authCut()")public void cutProc…...

课题推荐——基于GPS的无人机自主着陆系统设计

关于“基于GPS的无人机自主着陆系统设计”的详细展开,包括项目背景、具体内容、实施步骤和创新点。如需帮助,或有导航、定位滤波相关的代码定制需求,请点击文末卡片联系作者 文章目录 项目背景具体内容实施步骤相关例程MATLAB例程python例程 …...

生成xcframework

打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式,可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。 使用 Xcode 命令行工具打包 通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...

对WWDC 2025 Keynote 内容的预测

借助我们以往对苹果公司发展路径的深入研究经验,以及大语言模型的分析能力,我们系统梳理了多年来苹果 WWDC 主题演讲的规律。在 WWDC 2025 即将揭幕之际,我们让 ChatGPT 对今年的 Keynote 内容进行了一个初步预测,聊作存档。等到明…...

剑指offer20_链表中环的入口节点

链表中环的入口节点 给定一个链表,若其中包含环,则输出环的入口节点。 若其中不包含环,则输出null。 数据范围 节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。 节点 val 值各不相同。 链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...

2021-03-15 iview一些问题

1.iview 在使用tree组件时,发现没有set类的方法,只有get,那么要改变tree值,只能遍历treeData,递归修改treeData的checked,发现无法更改,原因在于check模式下,子元素的勾选状态跟父节…...

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

1. BluetoothProperties介绍 libsysprop/srcs/android/sysprop/BluetoothProperties.sysprop BluetoothProperties.sysprop 是 Android AOSP 中的一种 系统属性定义文件(System Property Definition File),用于声明和管理 Bluetooth 模块相…...

如何在最短时间内提升打ctf(web)的水平?

刚刚刷完2遍 bugku 的 web 题,前来答题。 每个人对刷题理解是不同,有的人是看了writeup就等于刷了,有的人是收藏了writeup就等于刷了,有的人是跟着writeup做了一遍就等于刷了,还有的人是独立思考做了一遍就等于刷了。…...

Xela矩阵三轴触觉传感器的工作原理解析与应用场景

Xela矩阵三轴触觉传感器通过先进技术模拟人类触觉感知,帮助设备实现精确的力测量与位移监测。其核心功能基于磁性三维力测量与空间位移测量,能够捕捉多维触觉信息。该传感器的设计不仅提升了触觉感知的精度,还为机器人、医疗设备和制造业的智…...

Linux安全加固:从攻防视角构建系统免疫

Linux安全加固:从攻防视角构建系统免疫 构建坚不可摧的数字堡垒 引言:攻防对抗的新纪元 在日益复杂的网络威胁环境中,Linux系统安全已从被动防御转向主动免疫。2023年全球网络安全报告显示,高级持续性威胁(APT)攻击同比增长65%,平均入侵停留时间缩短至48小时。本章将从…...

flow_controllers

关键点: 流控制器类型: 同步(Sync):发布操作会阻塞,直到数据被确认发送。异步(Async):发布操作非阻塞,数据发送由后台线程处理。纯同步(PureSync…...

GAN模式奔溃的探讨论文综述(一)

简介 简介:今天带来一篇关于GAN的,对于模式奔溃的一个探讨的一个问题,帮助大家更好的解决训练中遇到的一个难题。 论文题目:An in-depth review and analysis of mode collapse in GAN 期刊:Machine Learning 链接:...