当前位置：首页 > news >正文

中科院空天院无人机视觉语言导航新基准！AeroVerse：模拟、预训练、微调和评估空中无人机具身世界模型的测试基准

news 2026/2/11 1:02:28

作者： Fanglong Yao, Yuanchang Yue, Youzhi Liu, Xian Sun, Kun Fu
单位：中国科学院空天信息创新研究院网络信息系统技术重点实验室，中国科学院大学电子电气与通信工程学院
原文链接： AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models (https://arxiv.org/pdf/2408.15511)

主要贡献

构建了首个大规模的真实世界图像-文本预训练数据集AerialAgent-Ego10k：
- 该数据集利用无人机从第一人称视角拍摄的高分辨率城市图像，涵盖了广泛的城市场景。
- 数据集包含10,000张图像，用于增强无人机智能体在理解和描述真实城市环境中的能力。
开发了虚拟图像-文本-姿态对齐数据集CyberAgent-Ego500k：
- 该数据集包括500,000张从四个虚拟城市景观（深圳、学校、住宅区和上海）中采集的第一人称视角图像。
- 每张图像都配有详细的文本描述和无人机的姿态信息，用于虚拟环境中的预训练，以提高无人机在实际环境中的适应能力。
定义了五个航空航天具身下游任务并构建了相应的指令数据集：
- 这些任务包括场景感知、空间推理、导航探索、任务规划和运动决策。
- 为了支持这些任务的微调，论文构建了五个指令数据集：SkyAgent-Scene3k、SkyAgent-Reason3k、SkyAgent-Nav3k、SkyAgent-Plan3k和SkyAgent-Act3k。
开发了基于GPT-4的自动化评估方法SkyAgent-Eval：
- 该方法利用GPT-4的多方面能力，通过设计不同的提示模板，对下游任务进行定制化评估。
- 评估方法包括LLM-Judge-Scene、LLM-Judge-Reason&Nav和LLM-Judge-Plan，分别针对场景感知、空间推理与导航探索以及路径规划任务。

研究背景

研究问题

现有的具身世界模型主要关注室内场景中的地面智能体，而对UAV智能体的研究尚未充分探索。

论文主要解决的问题是如何增强无人航空飞行器（UAV）和其他航天平台的自主感知、认知和行动能力，从而实现与人类和环境之间的以自我为中心的活动交互。

研究难点

该问题的研究难点包括：

UAV具身任务的定义不明确：现有的具身任务定义主要集中在室内外导航、命令跟随和具身问答等方面，而UAV智能体需要在四维时空中进行感知和行动，涉及环境意识、认知、规划和决策等多个方面。
UAV 3D数据获取困难：获取室外3D数据需要专业设备和技能，成本较高。
UAV具身数据收集成本高：UAV在大范围内操作，需要广泛的训练数据来标注。

任务描述

论文介绍了无人机智能体在航空航天领域中实现闭环训练的五个下游任务，并对每个任务的概念进行了清晰的定义，对输入输出格式进行标准化：

场景感知：无人机智能体根据其在三维空间中的位置，从四个方向（前、后、左、右）描述周围的环境元素，增强认知过程和行动能力。
空间推理：基于无人机收集的数据，智能体理解3D空间场景图中的对象关系、意图、反事实等维度，进行推理。
导航探索：无人机智能体根据长距离多阶段导航指令，自主探索大都市环境，并回答与物体特征相关的问题。
任务规划：智能体整合3D环境，生成详细的步骤路径规划，识别每个阶段的显著地标，提高路径规划的准确性。
运动决策：无人机智能体实时操作，动态调整策略，直至到达目的地，实现感知、推理、规划和行动的闭环。

仿真平台

论文开发了AeroSimulator模拟平台，用于模拟无人机在城市环境中的飞行场景。

模拟器的开发

使用Unreal Engine 4加载城市环境，并选择AirSim来构建无人机模型，从而开发出AeroSimulator。

多动作空间支持

模拟器支持无人机执行多种动作，如改变位置、方向和速度，以及通过加速度调整和力向量应用进行更复杂的机动。

场景选择

从UrbanScene3D数据集中选择了四个具有代表性的场景：深圳、上海、学校和住宅区，这些场景基于实际物理位置的3D重建。

环境多样性

模拟器能够模拟不同的光照条件和天气情况，并生成视觉输出，包括RGB图像、深度图和分割数据，减少模拟环境与现实世界的差异。

数据采集

无人机在虚拟城市环境中飞行，记录下密集采样区域的无人机姿态，生成大量第一人称视角图像。

数据对齐

除了图像和文本描述外，数据集还包括无人机在3D空间中的姿态，以增强无人机自我中心的场景理解能力。

统计信息

CyberAgent-Ego500k数据集的统计结果显示，图像描述的最大长度为865词，平均长度为127词，包含4,725,682句和63,539,302词，以及94,823个词汇。

这在规模、文本长度、句子数和对齐的无人机姿态方面超越了大多数现有的视觉-语言数据集。

数据集

为了弥补无人机智能体在大规模训练数据上的不足，促进航空航天具身模型的训练，并推进航空航天具身智能研究，论文开发了综合数据集套装，包括两个预训练数据集和五个下游任务指令微调数据集。

AerialAgent-Ego10k

多分辨率无人机第一人称视角的城市图像数据集，从UrbanBIS数据集中获取了多个实际地点的航拍照片，包含来自六个实际地点的0.5TB航拍照片和15,094张图像。

使用LLaVA-1.5-13B生成高质量的环境描述，并注重多样性和准确性。

CyberAgent-Ego500k

图像-文本-姿态对齐数据集，包含在四个虚拟城市环境中由专业无人机飞行员操作的无人机姿态记录。

数据集通过多属性的第一人称文本描述和图像-文本-姿态对齐来增强无人机的空间推理能力。

SkyAgent-Scene3k

场景描述数据集，要求标注者控制无人机在3D虚拟城市场景中导航，并从四个方向描述周围环境。

数据集具有多样化的对象类型和指令，以及多视角和多属性的环境描述。

SkyAgent-Reason3k

推理数据集，旨在增强无人机智能体在三维城市环境中的认知推理能力。

数据集包含六种推理模式，并通过专业标注者创建问题和答案对。

SkyAgent-Nav3k

导航数据集，要求标注者控制无人机在城市环境中飞行特定距离，记录飞行路径的文本描述，并设计问答对。

数据集强调对象属性描述的精确性和基于多个连续空间推理的长距离导航路径。

SkyAgent-Plan3k

路径规划数据集，要求无人机飞行员识别起点和终点，并在飞行指定时间后选择一个中途点，提供路线描述。

数据集注重自我中心对象的详细描述和多视角对象定位。

SkyAgent-Act3k

动作决策数据集，记录无人机的运动序列和姿态，要求无人机选择起点和终点，并提供详细的分路描述。

数据集强调起始点和终点超出视线范围的能力，以及专业的路径选择和平滑的动作序列。

实验设置

基线模型

模型选择：
- 选择了包括LLaMA、MiniGPT4、BLIP2在内的几种主流2D视觉-语言模型。
- 由于开源的3D视觉-语言模型较少，仅选择了3D-LLM作为3D模型的代表。
模型调整：
- 由于现有视觉-语言模型的输入格式与定义的下游任务不匹配，作者对这些模型进行了修改以适应任务需求。
- 例如，在航空航天具身场景感知任务中，2D视觉-语言模型需要从无人机的四个视角（前、后、左、右）获取图像，并生成环境观察的输出。
调整示例：

在场景感知任务中，修改后的2D视觉-语言模型通过提供四个视角的图像生成环境观察的输出。
在空间推理任务中，调整输入以包括观察图像和直接在无人机位置前方的问题，并基于此生成空间推理答案。
在导航探索任务中，输入包括无人机飞行路径上的图像和问题，生成导航探索的解决方案。
在任务规划任务中，输入包括多个图像描绘的飞行路径和终点图像，生成路径规划的答案。

评估指标

传统指标
- BLEU：BLEU分数通过比较参考翻译和候选翻译之间的n-gram重叠程度来评估翻译质量。它被广泛应用于机器翻译任务的评价。
- CIDEr：CIDEr是一种用于图像描述任务的评估指标，通过计算每个句子的n-gram TF-IDF向量，并使用余弦相似度来衡量候选句子与参考句子之间的语义一致性。
- SPICE：SPICE利用基于图的语义表示来编码描述中的对象、属性和关系。它通过解析描述和参考描述为语法依赖树，并使用概率上下文无关文法(PCFG)依赖解析器来进行评估。
基于GPT-4的指标
- LLM-Judge-Scene：用于评估场景感知任务。该指标设计了特定的提示模板，分别评分描述的细节水平和每个方向响应的准确性。
- LLM-Judge-Reason&Nav：用于评估空间推理和导航探索任务。该指标通过分析AI助手响应与正确答案之间的相关性和实用性，客观识别和纠正错误，并提供解释。
- LLM-Judge-Plan：用于评估任务规划任务。该指标关注关键动作序列与参考答案的对齐程度，以及路径上建筑物的描述准确性，包括顺序和方向。

结果与分析

SkyAgent-Scene3k 任务结果

使用BLEU、SPICE和LLM-JUDGE-SCENE评估模型的词汇丰富度、语义准确性和人类偏好。
Qwen-lv-7b模型在BLEU上表现最强，而gpt-4o在SPICE上表现最佳。
LLM-JUDGE-SCENE结果显示gpt-4-vision-review和gpt-4o与人类偏好一致。

SkyAgent-Reason3k 任务结果

使用LLM-JUDGE-REASON评估人类偏好。
llama-adapter-v2-7B、qwen-lv-7b和gpt-4o在空间推理和问答任务中表现突出。
gpt-4o在第一人称空间推理和问答任务中表现出色。

SkyAgent-Nav3k 任务结果

使用LLM-JUDGE-NAV评估人类偏好。
gpt-4o在大多数城市场景和评估指标中排名第一，表现出色。
llama-adapter-v2-7B在住宅区场景中表现出色。

SkyAgent-Plan3k 任务结果

使用LLM-JUDGE-PLAN评估人类偏好。
许多模型在该任务中表现不佳，得分较低。
gpt-4o在所有城市中排名第一，表现出色。

定性分析

3D-LLM在室外3D城市场景中表现出泛化能力不足，输出类似于室内环境的描述。
2D视觉-语言模型在描述基于第一人称视角的城市设置时表现更好，但仍有幻觉现象。
3D视觉-语言模型在短期空间推理上表现出色，但在复杂城市环境中仍需改进。

讨论

场景泛化能力：在校园场景中，所有模型表现有所提升，qwen-lv-7b和gpt-4o表现最佳。
任务泛化能力：Instruct-BLIP和BLIP2在任务1中表现优异，而Llama、MiniGPT和MPLUG系列在任务4中表现更好。
规模效应：模型大小对性能的影响不大，增加参数数量并不一定带来性能提升。

总结

论文通过开发AeroVerse基准套件，解决了UAV具身世界模型的研究空白，提升了UAV智能体的端到端自主感知、认知和行动能力。

构建了第一个大规模的真实世界图像-文本预训练数据集AerialAgent-Ego10k和虚拟图像-文本-姿态对齐数据集CyberAgent-Ego500k。
首次明确了五个航天具身下游任务，并构建了相应的指令数据集。
开发了基于GPT-4的自动化评估方法SkyAgent-Eval。
通过广泛的实验分析了十个主要基线的性能，揭示了2D/3D视觉语言模型在UAV智能体任务中的潜力和局限性。
未来工作将扩展仿真城市范围，包括纽约等地点，并将场景扩展到森林、山脉等户外环境，继续积累训练数据并优化下游任务，以促进航天具身智能的应用。

中科院空天院无人机视觉语言导航新基准！AeroVerse：模拟、预训练、微调和评估空中无人机具身世界模型的测试基准

作者： Fanglong Yao, Yuanchang Yue, Youzhi Liu, Xian Sun, Kun Fu 单位：中国科学院空天信息创新研究院网络信息系统技术重点实验室，中国科学院大学电子电气与通信工程学院原文链接： AeroVerse: UAV-Agent Benchmark Suite fo…...

编程日记 2025/1/7 2:50:49

Python安装（新手详细版）

前言第一次接触Python，可能是爬虫或者是信息AI开发的小朋友，都说Python 语言简单，那么多学一些总是有好处的，下面从一个完全不懂的Python 的小白来安装Python 等一系列工作的记录，并且遇到的问题也会写出&#xff0c…...

编程日记 2025/1/7 2:48:46

Oracle DG备库数据文件损坏修复方法(ORA-01578/ORA-01110)

今天负责报表的同事反馈在DG库查询时出现如下报错 ORA-01578:ORACLE数据块损坏(文件号6,块号 2494856)ORA-01110:数据文件6: /oradata/PMSDG/o1 mf users_molczgmn_.dbfORA-26040:数据块是使用 NOLOGGING 选项加载的可以看到报错是数据文件损坏，提示了file id和b…...

编程日记 2025/1/7 2:46:44

安装Linux

在Linux系统上安装MySQL数据库，可以根据服务器是否有网络连接选择不同的安装方式。以下分别介绍在线安装（通过yum）和离线安装（手动下载.tar包）的详细步骤： 一、在线安装（通过yum） 检…...

编程日记 2025/1/7 2:42:36

【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（四）

****非斜体正文为原文献内容（也包含笔者的补充），灰色块中是对文章细节的进一步详细解释！ 四、提示范式（Explanation for Prompting Paradigm） 随着语言模型规模的扩大，基于提示（prom…...

编程日记 2025/1/7 2:40:32

【OpenCV】使用Python和OpenCV实现火焰检测

1、项目源码和结构（转） https://github.com/mushfiq1998/fire-detection-python-opencv 2、运行环境 # 安装playsound：用于播放报警声音 pip install playsound # 安装opencv-python：cv2用于图像和视频处理，特别是…...

编程日记 2025/1/7 2:38:27

SpringCloud(二)--SpringCloud服务注册与发现

一. 引言前文简单介绍了SpringCloud的基本简介与特征，接下来介绍每个组成部分的功能以及经常使用的中间件。本文仅为学习所用，联系侵删。二. SpringCloud概述 2.1 定义 Spring Cloud是一系列框架的有序集合，它巧妙地利用了Spring…...

编程日记 2025/1/7 2:36:23

国内Ubuntu环境Docker部署CosyVoice

国内Ubuntu环境Docker部署CosyVoice 本文旨在记录在国内 CosyVoice项目在 Ubuntu 环境下如何使用 dockermin-conda进行一键部署。源项目地址： https://github.com/FunAudioLLM/CosyVoice 如果想要使用 dockerpython 进行部署，可以参考我另一篇博客中的…...

编程日记 2025/1/7 2:32:19

嵌入式linux系统中QT信号与槽实现

第一：Qt中信号与槽简介信号与槽是Qt编程的基础。因为有了信号与槽的编程机制，在Qt中处理界面各个组件的交互操作时变得更加直观和简单。槽函数与一般的函数不同的是：槽函数可以与一个信号关联，当信号被发射时，关联的槽函数被自动执行。案例操作与实现： #ifndef …...

编程日记 2025/1/7 2:20:09

科研绘图系列：R语言单细胞数据常见的可视化图形

禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者! 文章目录介绍加载R包数据下载导入数据数据预处理图1图2图3图4图5图6系统信息参考介绍单细胞数据常见的可视化图形因为本教程是单细胞数据，因此运行本画图脚本需要电脑的内存最少32Gb 加载…...

编程日记 2025/1/7 2:18:06

使用 C++ 和函数式编程构建高效的 AI 模型

引言现代 AI 开发常常使用 Python，但在底层实现中，C 仍是不可或缺的语言，尤其是在性能敏感的场景下。将 C 与函数式编程结合，可以打造高效、模块化的 AI 模型，同时提高代码的可读性和可维护性。本文将深入探讨如何利用…...

编程日记 2025/1/7 2:16:04

guestfish/libguestfs镜像管理工具简介

文章目录简介guestfishlibguestfs项目例子原理代码libguestfs架构参考简介 guestfish Guestfish 是libguestfs项目中的一个工具软件，提供修改虚机镜像内部配置的功能。它不需要把虚机镜像挂接到本地，而是为你提供一个shell接口，你可以查…...

编程日记 2025/1/7 2:13:02

如何在centos中进行有效的网络管理

如何在centos中进行有效的网络管理？ 在CentOS中，网络管理是系统管理员日常工作的重要组成部分，本文将详细介绍CentOS中的两种主要网络管理工具：传统的network服务和新一代的NetworkManager，帮助读者更好地配置和管理C…...

编程日记 2025/1/7 2:11:00

Oracle清空表后如何恢复数据

有时候忘记备份数据，把数据清空了，或者删除了，这时候怎么恢复数据呢，使用下面sql即可，替换对应的table和column INSERT INTO table1(column1,column2,column3 ) SELECTcolumn1,column2,column3 FROMtable1 AS OF time…...

编程日记 2025/1/7 2:05:56

ElasticSearch基础-文章目录

ElasticSearch学习总结1（环境安装） ElasticSearch学习总结2（基础查询） ElasticSearch学习总结3（.NetCore操作ES） ElasticSearch学习总结4（sql操作ES） ElasticSearch学习总结5&am…...

编程日记 2025/1/7 1:49:40

SpringMVC（二）原理

目录一、配置Maven（为了提升速度） 二、流程&&原理 SpringMVC中心控制器完整流程： 一、配置Maven（为了提升速度） 在SpringMVC（一）配置-CSDN博客的配置中，导入Maven会非…...

编程日记 2025/1/7 1:45:36

Selenium 自动化，如何下载正确的 ChromeDriver

在 Python 的 Selenium 自动化操作中，chromedriver 是不可或缺的驱动程序。没有正确安装对应版本的驱动，运行代码时常常会遇到报错问题，比如 “session not created: This version of ChromeDriver only supports Chrome version XX”。今天…...

编程日记 2025/1/7 1:43:34

[Linux]redis5.0.x升级至7.x完整操作流程

1. 从官网下载最新版redis： 官网地址：https://redis.io/download 注：下载需要的登录，如果选择使用github账号登录，那么需要提前在github账号中取消勾选“Keep my email addresses private”（隐藏我的邮箱…...

编程日记 2025/1/7 1:42:34

Java字符编码与正则表达式深度解析

Java字符编码与正则表达式深度解析 1. 字符编码发展 1.1 ASCII 码在计算机最初发明时，主要用于数值计算，但随着计算需求的增加，人们发现计算机可以用来处理文本信息。因此，将字符映射为数字来表示。字母 ‘A’ 映射为 65&am…...

编程日记 2025/1/7 1:40:32

【C++】B2099 矩阵交换行

博客主页： [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 💯前言💯题目描述题目描述输入格式输出格式输入输出样例输入 #1输出 #1 💯题目分析💯不同解法分析我的做法实现步骤：优点：不足&#…...

编程日记 2025/1/7 1:38:30

谷歌浏览器插件

项目中有时候会用到插件 sync-cookie-extension1.0.0：开发环境同步测试 cookie 至 localhost，便于本地请求服务携带 cookie 参考地址：https://juejin.cn/post/7139354571712757767 里面有源码下载下来，加在到扩展即可使用FeHelp…...

编程新知 2025/8/16 3:55:30

java 实现excel文件转pdf | 无水印 | 无限制

文章目录目录文章目录前言 1.项目远程仓库配置 2.pom文件引入相关依赖 3.代码破解二、Excel转PDF 1.代码实现 2.Aspose.License.xml 授权文件总结前言 java处理excel转pdf一直没找到什么好用的免费jar包工具，自己手写的难度，恐怕高级程序员花费一年的事件，也…...

编程新知 2025/11/5 4:10:42

【位运算】消失的两个数字（hard）

消失的两个数字（hard） 题⽬描述：解法（位运算）：Java 算法代码：更简便代码题⽬链接：⾯试题 17.19. 消失的两个数字题⽬描述： 给定⼀个数组，包含从 1 到 N 所有…...

编程新知 2025/11/15 16:18:24

【JVM】- 内存结构

引言 JVM：Java Virtual Machine 定义：Java虚拟机，Java二进制字节码的运行环境好处： 一次编写，到处运行自动内存管理，垃圾回收的功能数组下标越界检查（会抛异常，不会覆盖到其他代码…...

编程新知 2026/1/30 13:40:43

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?

论文网址：pdf 英文是纯手打的！论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误，若有发现欢迎评论指正！文章偏向于笔记，谨慎食用目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2…...

编程新知 2026/2/6 14:42:11

Linux云原生安全：零信任架构与机密计算

Linux云原生安全：零信任架构与机密计算构建坚不可摧的云原生防御体系引言：云原生安全的范式革命随着云原生技术的普及，安全边界正在从传统的网络边界向工作负载内部转移。Gartner预测，到2025年，零信任架构将成为超…...

编程新知 2025/8/17 17:11:47

爬虫基础学习day2

# 爬虫设计领域工商：企查查、天眼查短视频：抖音、快手、西瓜 ---> 飞瓜电商：京东、淘宝、聚美优品、亚马逊 ---> 分析店铺经营决策标题、排名航空：抓取所有航空公司价格 ---> 去哪儿自媒体：采集自媒体数据进…...

编程新知 2025/12/5 3:38:11

均衡后的SNRSINR

本文主要摘自参考文献中的前两篇，相关文献中经常会出现MIMO检测后的SINR不过一直没有找到相关数学推到过程，其中文献[1]中给出了相关原理在此仅做记录。 1. 系统模型复信道模型 n t n_t nt 根发送天线， n r n_r nr 根接收天线的 MIMO 系…...

编程新知 2026/1/30 4:47:24

Spring是如何解决Bean的循环依赖：三级缓存机制

1、什么是 Bean 的循环依赖在 Spring框架中，Bean 的循环依赖是指多个 Bean 之间‌互相持有对方引用‌，形成闭环依赖关系的现象。多个 Bean 的依赖关系构成环形链路，例如：双向依赖：Bean A 依赖 Bean B，同时 Bean B 也依赖 Bean A（A↔B）。链条循环： Bean A → Bean…...

编程新知 2025/7/25 1:21:53

RSS 2025｜从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

视觉语言模型（Vision-Language Models, VLMs），为真实环境中的机器人操作任务提供了极具潜力的解决方案。尽管 VLMs 取得了显著进展，机器人仍难以胜任复杂的长时程任务（如家具装配），主要受限于人…...

编程新知 2026/1/31 5:30:51