当前位置: 首页 > news >正文

中科院空天院无人机视觉语言导航新基准!AeroVerse:模拟、预训练、微调和评估空中无人机具身世界模型的测试基准

  • 作者: Fanglong Yao, Yuanchang Yue, Youzhi Liu, Xian Sun, Kun Fu

  • 单位:中国科学院空天信息创新研究院网络信息系统技术重点实验室,中国科学院大学电子电气与通信工程学院

  • 原文链接: AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models (https://arxiv.org/pdf/2408.15511)

主要贡献

  1. 构建了首个大规模的真实世界图像-文本预训练数据集AerialAgent-Ego10k

    • 该数据集利用无人机从第一人称视角拍摄的高分辨率城市图像,涵盖了广泛的城市场景。

    • 数据集包含10,000张图像,用于增强无人机智能体在理解和描述真实城市环境中的能力。

  2. 开发了虚拟图像-文本-姿态对齐数据集CyberAgent-Ego500k

    • 该数据集包括500,000张从四个虚拟城市景观(深圳、学校、住宅区和上海)中采集的第一人称视角图像。

    • 每张图像都配有详细的文本描述和无人机的姿态信息,用于虚拟环境中的预训练,以提高无人机在实际环境中的适应能力。

  3. 定义了五个航空航天具身下游任务并构建了相应的指令数据集

    • 这些任务包括场景感知、空间推理、导航探索、任务规划和运动决策。

    • 为了支持这些任务的微调,论文构建了五个指令数据集:SkyAgent-Scene3k、SkyAgent-Reason3k、SkyAgent-Nav3k、SkyAgent-Plan3k和SkyAgent-Act3k。

  4. 开发了基于GPT-4的自动化评估方法SkyAgent-Eval

    • 该方法利用GPT-4的多方面能力,通过设计不同的提示模板,对下游任务进行定制化评估。

    • 评估方法包括LLM-Judge-Scene、LLM-Judge-Reason&Nav和LLM-Judge-Plan,分别针对场景感知、空间推理与导航探索以及路径规划任务。

研究背景

研究问题

现有的具身世界模型主要关注室内场景中的地面智能体,而对UAV智能体的研究尚未充分探索。

论文主要解决的问题是如何增强无人航空飞行器(UAV)和其他航天平台的自主感知、认知和行动能力,从而实现与人类和环境之间的以自我为中心的活动交互。

研究难点

该问题的研究难点包括:

  • UAV具身任务的定义不明确:现有的具身任务定义主要集中在室内外导航、命令跟随和具身问答等方面,而UAV智能体需要在四维时空中进行感知和行动,涉及环境意识、认知、规划和决策等多个方面。

  • UAV 3D数据获取困难:获取室外3D数据需要专业设备和技能,成本较高。

  • UAV具身数据收集成本高:UAV在大范围内操作,需要广泛的训练数据来标注。

相关工作

该问题的研究相关工作包括:

  • 3D视觉语言数据集:如ScanQA、ScanRefer和ScanNet等,这些数据集主要关注室内环境。

  • 具身智能数据集:如Abhishek等人提出的EQA数据集、Mohit等人提出的ALFRED数据集和Anderson等人提出的R2R数据集,这些数据集主要关注室内机器人。

本文首次为无人机智能体明确定义了五种具身下游任务,并构建了相应的指令数据集,以支持无人机在复杂城市环境中的导航和任务执行。

任务描述

论文介绍了无人机智能体在航空航天领域中实现闭环训练的五个下游任务,并对每个任务的概念进行了清晰的定义,对输入输出格式进行标准化:

  1. 场景感知:无人机智能体根据其在三维空间中的位置,从四个方向(前、后、左、右)描述周围的环境元素,增强认知过程和行动能力。

  2. 空间推理:基于无人机收集的数据,智能体理解3D空间场景图中的对象关系、意图、反事实等维度,进行推理。

  3. 导航探索:无人机智能体根据长距离多阶段导航指令,自主探索大都市环境,并回答与物体特征相关的问题。

  4. 任务规划:智能体整合3D环境,生成详细的步骤路径规划,识别每个阶段的显著地标,提高路径规划的准确性。

  5. 运动决策:无人机智能体实时操作,动态调整策略,直至到达目的地,实现感知、推理、规划和行动的闭环。

仿真平台

论文开发了AeroSimulator模拟平台,用于模拟无人机在城市环境中的飞行场景。

模拟器的开发

使用Unreal Engine 4加载城市环境,并选择AirSim来构建无人机模型,从而开发出AeroSimulator。

多动作空间支持

模拟器支持无人机执行多种动作,如改变位置、方向和速度,以及通过加速度调整和力向量应用进行更复杂的机动。

场景选择

从UrbanScene3D数据集中选择了四个具有代表性的场景:深圳、上海、学校和住宅区,这些场景基于实际物理位置的3D重建。

环境多样性

模拟器能够模拟不同的光照条件和天气情况,并生成视觉输出,包括RGB图像、深度图和分割数据,减少模拟环境与现实世界的差异。

数据采集

无人机在虚拟城市环境中飞行,记录下密集采样区域的无人机姿态,生成大量第一人称视角图像。

数据对齐

除了图像和文本描述外,数据集还包括无人机在3D空间中的姿态,以增强无人机自我中心的场景理解能力。

统计信息

CyberAgent-Ego500k数据集的统计结果显示,图像描述的最大长度为865词,平均长度为127词,包含4,725,682句和63,539,302词,以及94,823个词汇。

这在规模、文本长度、句子数和对齐的无人机姿态方面超越了大多数现有的视觉-语言数据集。

数据集

为了弥补无人机智能体在大规模训练数据上的不足,促进航空航天具身模型的训练,并推进航空航天具身智能研究,论文开发了综合数据集套装,包括两个预训练数据集和五个下游任务指令微调数据集。

AerialAgent-Ego10k

多分辨率无人机第一人称视角的城市图像数据集,从UrbanBIS数据集中获取了多个实际地点的航拍照片,包含来自六个实际地点的0.5TB航拍照片和15,094张图像。

使用LLaVA-1.5-13B生成高质量的环境描述,并注重多样性和准确性。

CyberAgent-Ego500k

图像-文本-姿态对齐数据集,包含在四个虚拟城市环境中由专业无人机飞行员操作的无人机姿态记录。

数据集通过多属性的第一人称文本描述和图像-文本-姿态对齐来增强无人机的空间推理能力。

SkyAgent-Scene3k

场景描述数据集,要求标注者控制无人机在3D虚拟城市场景中导航,并从四个方向描述周围环境。

数据集具有多样化的对象类型和指令,以及多视角和多属性的环境描述。

SkyAgent-Reason3k

推理数据集,旨在增强无人机智能体在三维城市环境中的认知推理能力。

数据集包含六种推理模式,并通过专业标注者创建问题和答案对。

SkyAgent-Nav3k

导航数据集,要求标注者控制无人机在城市环境中飞行特定距离,记录飞行路径的文本描述,并设计问答对。

数据集强调对象属性描述的精确性和基于多个连续空间推理的长距离导航路径。

SkyAgent-Plan3k

路径规划数据集,要求无人机飞行员识别起点和终点,并在飞行指定时间后选择一个中途点,提供路线描述。

数据集注重自我中心对象的详细描述和多视角对象定位。

SkyAgent-Act3k

动作决策数据集,记录无人机的运动序列和姿态,要求无人机选择起点和终点,并提供详细的分路描述。

数据集强调起始点和终点超出视线范围的能力,以及专业的路径选择和平滑的动作序列。

实验设置

基线模型

  1. 模型选择

    • 选择了包括LLaMA、MiniGPT4、BLIP2在内的几种主流2D视觉-语言模型。

    • 由于开源的3D视觉-语言模型较少,仅选择了3D-LLM作为3D模型的代表。

  2. 模型调整

    • 由于现有视觉-语言模型的输入格式与定义的下游任务不匹配,作者对这些模型进行了修改以适应任务需求。

    • 例如,在航空航天具身场景感知任务中,2D视觉-语言模型需要从无人机的四个视角(前、后、左、右)获取图像,并生成环境观察的输出。

  3. 调整示例

  • 在场景感知任务中,修改后的2D视觉-语言模型通过提供四个视角的图像生成环境观察的输出。

  • 在空间推理任务中,调整输入以包括观察图像和直接在无人机位置前方的问题,并基于此生成空间推理答案。

  • 在导航探索任务中,输入包括无人机飞行路径上的图像和问题,生成导航探索的解决方案。

  • 在任务规划任务中,输入包括多个图像描绘的飞行路径和终点图像,生成路径规划的答案。

评估指标

  1. 传统指标
    • BLEU:BLEU分数通过比较参考翻译和候选翻译之间的n-gram重叠程度来评估翻译质量。它被广泛应用于机器翻译任务的评价。

    • CIDEr:CIDEr是一种用于图像描述任务的评估指标,通过计算每个句子的n-gram TF-IDF向量,并使用余弦相似度来衡量候选句子与参考句子之间的语义一致性。

    • SPICE:SPICE利用基于图的语义表示来编码描述中的对象、属性和关系。它通过解析描述和参考描述为语法依赖树,并使用概率上下文无关文法(PCFG)依赖解析器来进行评估。

  2. 基于GPT-4的指标
    • LLM-Judge-Scene:用于评估场景感知任务。该指标设计了特定的提示模板,分别评分描述的细节水平和每个方向响应的准确性。

    • LLM-Judge-Reason&Nav:用于评估空间推理和导航探索任务。该指标通过分析AI助手响应与正确答案之间的相关性和实用性,客观识别和纠正错误,并提供解释。

    • LLM-Judge-Plan:用于评估任务规划任务。该指标关注关键动作序列与参考答案的对齐程度,以及路径上建筑物的描述准确性,包括顺序和方向。

结果与分析

SkyAgent-Scene3k 任务结果

  • 使用BLEU、SPICE和LLM-JUDGE-SCENE评估模型的词汇丰富度、语义准确性和人类偏好。

  • Qwen-lv-7b模型在BLEU上表现最强,而gpt-4o在SPICE上表现最佳。

  • LLM-JUDGE-SCENE结果显示gpt-4-vision-review和gpt-4o与人类偏好一致。

SkyAgent-Reason3k 任务结果

  • 使用LLM-JUDGE-REASON评估人类偏好。

  • llama-adapter-v2-7B、qwen-lv-7b和gpt-4o在空间推理和问答任务中表现突出。

  • gpt-4o在第一人称空间推理和问答任务中表现出色。

SkyAgent-Nav3k 任务结果

  • 使用LLM-JUDGE-NAV评估人类偏好。

  • gpt-4o在大多数城市场景和评估指标中排名第一,表现出色。

  • llama-adapter-v2-7B在住宅区场景中表现出色。

SkyAgent-Plan3k 任务结果

  • 使用LLM-JUDGE-PLAN评估人类偏好。

  • 许多模型在该任务中表现不佳,得分较低。

  • gpt-4o在所有城市中排名第一,表现出色。

定性分析

  • 3D-LLM在室外3D城市场景中表现出泛化能力不足,输出类似于室内环境的描述。

  • 2D视觉-语言模型在描述基于第一人称视角的城市设置时表现更好,但仍有幻觉现象。

  • 3D视觉-语言模型在短期空间推理上表现出色,但在复杂城市环境中仍需改进。

讨论

  • 场景泛化能力:在校园场景中,所有模型表现有所提升,qwen-lv-7b和gpt-4o表现最佳。

  • 任务泛化能力:Instruct-BLIP和BLIP2在任务1中表现优异,而Llama、MiniGPT和MPLUG系列在任务4中表现更好。

  • 规模效应:模型大小对性能的影响不大,增加参数数量并不一定带来性能提升。

总结

论文通过开发AeroVerse基准套件,解决了UAV具身世界模型的研究空白,提升了UAV智能体的端到端自主感知、认知和行动能力。

  • 构建了第一个大规模的真实世界图像-文本预训练数据集AerialAgent-Ego10k和虚拟图像-文本-姿态对齐数据集CyberAgent-Ego500k。

  • 首次明确了五个航天具身下游任务,并构建了相应的指令数据集。

  • 开发了基于GPT-4的自动化评估方法SkyAgent-Eval。

  • 通过广泛的实验分析了十个主要基线的性能,揭示了2D/3D视觉语言模型在UAV智能体任务中的潜力和局限性。

  • 未来工作将扩展仿真城市范围,包括纽约等地点,并将场景扩展到森林、山脉等户外环境,继续积累训练数据并优化下游任务,以促进航天具身智能的应用。

相关文章:

中科院空天院无人机视觉语言导航新基准!AeroVerse:模拟、预训练、微调和评估空中无人机具身世界模型的测试基准

作者: Fanglong Yao, Yuanchang Yue, Youzhi Liu, Xian Sun, Kun Fu 单位:中国科学院空天信息创新研究院网络信息系统技术重点实验室,中国科学院大学电子电气与通信工程学院 原文链接: AeroVerse: UAV-Agent Benchmark Suite fo…...

Python安装(新手详细版)

前言 第一次接触Python,可能是爬虫或者是信息AI开发的小朋友,都说Python 语言简单,那么多学一些总是有好处的,下面从一个完全不懂的Python 的小白来安装Python 等一系列工作的记录,并且遇到的问题也会写出&#xff0c…...

Oracle DG备库数据文件损坏修复方法(ORA-01578/ORA-01110)

今天负责报表的同事反馈在DG库查询时出现如下报错 ORA-01578:ORACLE数据块损坏(文件号6,块号 2494856)ORA-01110:数据文件6: /oradata/PMSDG/o1 mf users_molczgmn_.dbfORA-26040:数据块是使用 NOLOGGING 选项加载的 可以看到报错是数据文件损坏,提示了file id和b…...

安装Linux

在Linux系统上安装MySQL数据库,可以根据服务器是否有网络连接选择不同的安装方式。以下分别介绍在线安装(通过yum)和离线安装(手动下载.tar包)的详细步骤: 一、在线安装(通过yum) 检…...

【文献精读笔记】Explainability for Large Language Models: A Survey (大语言模型的可解释性综述)(四)

****非斜体正文为原文献内容(也包含笔者的补充),灰色块中是对文章细节的进一步详细解释! 四、提示范式(Explanation for Prompting Paradigm) 随着语言模型规模的扩大,基于提示(prom…...

【OpenCV】使用Python和OpenCV实现火焰检测

1、 项目源码和结构(转) https://github.com/mushfiq1998/fire-detection-python-opencv 2、 运行环境 # 安装playsound:用于播放报警声音 pip install playsound # 安装opencv-python:cv2用于图像和视频处理,特别是…...

SpringCloud(二)--SpringCloud服务注册与发现

一. 引言 ​ 前文简单介绍了SpringCloud的基本简介与特征,接下来介绍每个组成部分的功能以及经常使用的中间件。本文仅为学习所用,联系侵删。 二. SpringCloud概述 2.1 定义 ​ Spring Cloud是一系列框架的有序集合,它巧妙地利用了Spring…...

国内Ubuntu环境Docker部署CosyVoice

国内Ubuntu环境Docker部署CosyVoice 本文旨在记录在 国内 CosyVoice项目在 Ubuntu 环境下如何使用 dockermin-conda进行一键部署。 源项目地址: https://github.com/FunAudioLLM/CosyVoice 如果想要使用 dockerpython 进行部署,可以参考我另一篇博客中的…...

嵌入式linux系统中QT信号与槽实现

第一:Qt中信号与槽简介 信号与槽是Qt编程的基础。因为有了信号与槽的编程机制,在Qt中处理界面各个组件的交互操作时变得更加直观和简单。 槽函数与一般的函数不同的是:槽函数可以与一个信号关联,当信号被发射时,关联的槽函数被自动执行。 案例操作与实现: #ifndef …...

科研绘图系列:R语言单细胞数据常见的可视化图形

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍加载R包数据下载导入数据数据预处理图1图2图3图4图5图6系统信息参考介绍 单细胞数据常见的可视化图形 因为本教程是单细胞数据,因此运行本画图脚本需要电脑的内存最少32Gb 加载…...

使用 C++ 和函数式编程构建高效的 AI 模型

引言 现代 AI 开发常常使用 Python,但在底层实现中,C 仍是不可或缺的语言,尤其是在性能敏感的场景下。将 C 与函数式编程结合,可以打造高效、模块化的 AI 模型,同时提高代码的可读性和可维护性。本文将深入探讨如何利用…...

guestfish/libguestfs镜像管理工具简介

文章目录 简介guestfishlibguestfs项目 例子原理代码libguestfs架构参考 简介 guestfish Guestfish 是libguestfs项目中的一个工具软件,提供修改虚机镜像内部配置的功能。它不需要把虚机镜像挂接到本地,而是为你提供一个shell接口,你可以查…...

如何在centos中进行有效的网络管理

如何在centos中进行有效的网络管理? 在CentOS中,网络管理是系统管理员日常工作的重要组成部分,本文将详细介绍CentOS中的两种主要网络管理工具:传统的network服务和新一代的NetworkManager,帮助读者更好地配置和管理C…...

Oracle清空表后如何恢复数据

有时候忘记备份数据,把数据清空了,或者删除了,这时候怎么恢复数据呢,使用下面sql即可,替换对应的table和column INSERT INTO table1(column1,column2,column3 ) SELECTcolumn1,column2,column3 FROMtable1 AS OF time…...

ElasticSearch基础-文章目录

ElasticSearch学习总结1(环境安装) ElasticSearch学习总结2(基础查询) ElasticSearch学习总结3(.NetCore操作ES) ElasticSearch学习总结4(sql操作ES) ElasticSearch学习总结5&am…...

SpringMVC(二)原理

目录 一、配置Maven(为了提升速度) 二、流程&&原理 SpringMVC中心控制器 完整流程: 一、配置Maven(为了提升速度) 在SpringMVC(一)配置-CSDN博客的配置中,导入Maven会非…...

Selenium 自动化,如何下载正确的 ChromeDriver

在 Python 的 Selenium 自动化操作中,chromedriver 是不可或缺的驱动程序。没有正确安装对应版本的驱动,运行代码时常常会遇到报错问题,比如 “session not created: This version of ChromeDriver only supports Chrome version XX”。 今天…...

[Linux]redis5.0.x升级至7.x完整操作流程

1. 从官网下载最新版redis: 官网地址:https://redis.io/download 注:下载需要的登录,如果选择使用github账号登录,那么需要提前在github账号中取消勾选“Keep my email addresses private”(隐藏我的邮箱…...

Java字符编码与正则表达式深度解析

Java字符编码与正则表达式深度解析 1. 字符编码发展 1.1 ASCII 码 在计算机最初发明时,主要用于数值计算,但随着计算需求的增加,人们发现计算机可以用来处理文本信息。因此,将字符映射为数字来表示。 字母 ‘A’ 映射为 65&am…...

【C++】B2099 矩阵交换行

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 💯前言💯题目描述题目描述输入格式输出格式输入输出样例输入 #1输出 #1 💯题目分析💯不同解法分析我的做法实现步骤:优点:不足&#…...

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

一、变量声明设计:let 与 mut 的哲学解析 Rust 采用 let 声明变量并通过 mut 显式标记可变性,这种设计体现了语言的核心哲学。以下是深度解析: 1.1 设计理念剖析 安全优先原则:默认不可变强制开发者明确声明意图 let x 5; …...

rknn优化教程(二)

文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK,开始写第二篇的内容了。这篇博客主要能写一下: 如何给一些三方库按照xmake方式进行封装,供调用如何按…...

《用户共鸣指数(E)驱动品牌大模型种草:如何抢占大模型搜索结果情感高地》

在注意力分散、内容高度同质化的时代,情感连接已成为品牌破圈的关键通道。我们在服务大量品牌客户的过程中发现,消费者对内容的“有感”程度,正日益成为影响品牌传播效率与转化率的核心变量。在生成式AI驱动的内容生成与推荐环境中&#xff0…...

【2025年】解决Burpsuite抓不到https包的问题

环境:windows11 burpsuite:2025.5 在抓取https网站时,burpsuite抓取不到https数据包,只显示: 解决该问题只需如下三个步骤: 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

【OSG学习笔记】Day 16: 骨骼动画与蒙皮(osgAnimation)

骨骼动画基础 骨骼动画是 3D 计算机图形中常用的技术,它通过以下两个主要组件实现角色动画。 骨骼系统 (Skeleton):由层级结构的骨头组成,类似于人体骨骼蒙皮 (Mesh Skinning):将模型网格顶点绑定到骨骼上,使骨骼移动…...

k8s业务程序联调工具-KtConnect

概述 原理 工具作用是建立了一个从本地到集群的单向VPN,根据VPN原理,打通两个内网必然需要借助一个公共中继节点,ktconnect工具巧妙的利用k8s原生的portforward能力,简化了建立连接的过程,apiserver间接起到了中继节…...

爬虫基础学习day2

# 爬虫设计领域 工商:企查查、天眼查短视频:抖音、快手、西瓜 ---> 飞瓜电商:京东、淘宝、聚美优品、亚马逊 ---> 分析店铺经营决策标题、排名航空:抓取所有航空公司价格 ---> 去哪儿自媒体:采集自媒体数据进…...

QT: `long long` 类型转换为 `QString` 2025.6.5

在 Qt 中,将 long long 类型转换为 QString 可以通过以下两种常用方法实现: 方法 1:使用 QString::number() 直接调用 QString 的静态方法 number(),将数值转换为字符串: long long value 1234567890123456789LL; …...

Maven 概述、安装、配置、仓库、私服详解

目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...

Redis的发布订阅模式与专业的 MQ(如 Kafka, RabbitMQ)相比,优缺点是什么?适用于哪些场景?

Redis 的发布订阅(Pub/Sub)模式与专业的 MQ(Message Queue)如 Kafka、RabbitMQ 进行比较,核心的权衡点在于:简单与速度 vs. 可靠与功能。 下面我们详细展开对比。 Redis Pub/Sub 的核心特点 它是一个发后…...