当前位置: 首页 > news >正文

中科院空天院无人机视觉语言导航新基准!AeroVerse:模拟、预训练、微调和评估空中无人机具身世界模型的测试基准

  • 作者: Fanglong Yao, Yuanchang Yue, Youzhi Liu, Xian Sun, Kun Fu

  • 单位:中国科学院空天信息创新研究院网络信息系统技术重点实验室,中国科学院大学电子电气与通信工程学院

  • 原文链接: AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models (https://arxiv.org/pdf/2408.15511)

主要贡献

  1. 构建了首个大规模的真实世界图像-文本预训练数据集AerialAgent-Ego10k

    • 该数据集利用无人机从第一人称视角拍摄的高分辨率城市图像,涵盖了广泛的城市场景。

    • 数据集包含10,000张图像,用于增强无人机智能体在理解和描述真实城市环境中的能力。

  2. 开发了虚拟图像-文本-姿态对齐数据集CyberAgent-Ego500k

    • 该数据集包括500,000张从四个虚拟城市景观(深圳、学校、住宅区和上海)中采集的第一人称视角图像。

    • 每张图像都配有详细的文本描述和无人机的姿态信息,用于虚拟环境中的预训练,以提高无人机在实际环境中的适应能力。

  3. 定义了五个航空航天具身下游任务并构建了相应的指令数据集

    • 这些任务包括场景感知、空间推理、导航探索、任务规划和运动决策。

    • 为了支持这些任务的微调,论文构建了五个指令数据集:SkyAgent-Scene3k、SkyAgent-Reason3k、SkyAgent-Nav3k、SkyAgent-Plan3k和SkyAgent-Act3k。

  4. 开发了基于GPT-4的自动化评估方法SkyAgent-Eval

    • 该方法利用GPT-4的多方面能力,通过设计不同的提示模板,对下游任务进行定制化评估。

    • 评估方法包括LLM-Judge-Scene、LLM-Judge-Reason&Nav和LLM-Judge-Plan,分别针对场景感知、空间推理与导航探索以及路径规划任务。

研究背景

研究问题

现有的具身世界模型主要关注室内场景中的地面智能体,而对UAV智能体的研究尚未充分探索。

论文主要解决的问题是如何增强无人航空飞行器(UAV)和其他航天平台的自主感知、认知和行动能力,从而实现与人类和环境之间的以自我为中心的活动交互。

研究难点

该问题的研究难点包括:

  • UAV具身任务的定义不明确:现有的具身任务定义主要集中在室内外导航、命令跟随和具身问答等方面,而UAV智能体需要在四维时空中进行感知和行动,涉及环境意识、认知、规划和决策等多个方面。

  • UAV 3D数据获取困难:获取室外3D数据需要专业设备和技能,成本较高。

  • UAV具身数据收集成本高:UAV在大范围内操作,需要广泛的训练数据来标注。

相关工作

该问题的研究相关工作包括:

  • 3D视觉语言数据集:如ScanQA、ScanRefer和ScanNet等,这些数据集主要关注室内环境。

  • 具身智能数据集:如Abhishek等人提出的EQA数据集、Mohit等人提出的ALFRED数据集和Anderson等人提出的R2R数据集,这些数据集主要关注室内机器人。

本文首次为无人机智能体明确定义了五种具身下游任务,并构建了相应的指令数据集,以支持无人机在复杂城市环境中的导航和任务执行。

任务描述

论文介绍了无人机智能体在航空航天领域中实现闭环训练的五个下游任务,并对每个任务的概念进行了清晰的定义,对输入输出格式进行标准化:

  1. 场景感知:无人机智能体根据其在三维空间中的位置,从四个方向(前、后、左、右)描述周围的环境元素,增强认知过程和行动能力。

  2. 空间推理:基于无人机收集的数据,智能体理解3D空间场景图中的对象关系、意图、反事实等维度,进行推理。

  3. 导航探索:无人机智能体根据长距离多阶段导航指令,自主探索大都市环境,并回答与物体特征相关的问题。

  4. 任务规划:智能体整合3D环境,生成详细的步骤路径规划,识别每个阶段的显著地标,提高路径规划的准确性。

  5. 运动决策:无人机智能体实时操作,动态调整策略,直至到达目的地,实现感知、推理、规划和行动的闭环。

仿真平台

论文开发了AeroSimulator模拟平台,用于模拟无人机在城市环境中的飞行场景。

模拟器的开发

使用Unreal Engine 4加载城市环境,并选择AirSim来构建无人机模型,从而开发出AeroSimulator。

多动作空间支持

模拟器支持无人机执行多种动作,如改变位置、方向和速度,以及通过加速度调整和力向量应用进行更复杂的机动。

场景选择

从UrbanScene3D数据集中选择了四个具有代表性的场景:深圳、上海、学校和住宅区,这些场景基于实际物理位置的3D重建。

环境多样性

模拟器能够模拟不同的光照条件和天气情况,并生成视觉输出,包括RGB图像、深度图和分割数据,减少模拟环境与现实世界的差异。

数据采集

无人机在虚拟城市环境中飞行,记录下密集采样区域的无人机姿态,生成大量第一人称视角图像。

数据对齐

除了图像和文本描述外,数据集还包括无人机在3D空间中的姿态,以增强无人机自我中心的场景理解能力。

统计信息

CyberAgent-Ego500k数据集的统计结果显示,图像描述的最大长度为865词,平均长度为127词,包含4,725,682句和63,539,302词,以及94,823个词汇。

这在规模、文本长度、句子数和对齐的无人机姿态方面超越了大多数现有的视觉-语言数据集。

数据集

为了弥补无人机智能体在大规模训练数据上的不足,促进航空航天具身模型的训练,并推进航空航天具身智能研究,论文开发了综合数据集套装,包括两个预训练数据集和五个下游任务指令微调数据集。

AerialAgent-Ego10k

多分辨率无人机第一人称视角的城市图像数据集,从UrbanBIS数据集中获取了多个实际地点的航拍照片,包含来自六个实际地点的0.5TB航拍照片和15,094张图像。

使用LLaVA-1.5-13B生成高质量的环境描述,并注重多样性和准确性。

CyberAgent-Ego500k

图像-文本-姿态对齐数据集,包含在四个虚拟城市环境中由专业无人机飞行员操作的无人机姿态记录。

数据集通过多属性的第一人称文本描述和图像-文本-姿态对齐来增强无人机的空间推理能力。

SkyAgent-Scene3k

场景描述数据集,要求标注者控制无人机在3D虚拟城市场景中导航,并从四个方向描述周围环境。

数据集具有多样化的对象类型和指令,以及多视角和多属性的环境描述。

SkyAgent-Reason3k

推理数据集,旨在增强无人机智能体在三维城市环境中的认知推理能力。

数据集包含六种推理模式,并通过专业标注者创建问题和答案对。

SkyAgent-Nav3k

导航数据集,要求标注者控制无人机在城市环境中飞行特定距离,记录飞行路径的文本描述,并设计问答对。

数据集强调对象属性描述的精确性和基于多个连续空间推理的长距离导航路径。

SkyAgent-Plan3k

路径规划数据集,要求无人机飞行员识别起点和终点,并在飞行指定时间后选择一个中途点,提供路线描述。

数据集注重自我中心对象的详细描述和多视角对象定位。

SkyAgent-Act3k

动作决策数据集,记录无人机的运动序列和姿态,要求无人机选择起点和终点,并提供详细的分路描述。

数据集强调起始点和终点超出视线范围的能力,以及专业的路径选择和平滑的动作序列。

实验设置

基线模型

  1. 模型选择

    • 选择了包括LLaMA、MiniGPT4、BLIP2在内的几种主流2D视觉-语言模型。

    • 由于开源的3D视觉-语言模型较少,仅选择了3D-LLM作为3D模型的代表。

  2. 模型调整

    • 由于现有视觉-语言模型的输入格式与定义的下游任务不匹配,作者对这些模型进行了修改以适应任务需求。

    • 例如,在航空航天具身场景感知任务中,2D视觉-语言模型需要从无人机的四个视角(前、后、左、右)获取图像,并生成环境观察的输出。

  3. 调整示例

  • 在场景感知任务中,修改后的2D视觉-语言模型通过提供四个视角的图像生成环境观察的输出。

  • 在空间推理任务中,调整输入以包括观察图像和直接在无人机位置前方的问题,并基于此生成空间推理答案。

  • 在导航探索任务中,输入包括无人机飞行路径上的图像和问题,生成导航探索的解决方案。

  • 在任务规划任务中,输入包括多个图像描绘的飞行路径和终点图像,生成路径规划的答案。

评估指标

  1. 传统指标
    • BLEU:BLEU分数通过比较参考翻译和候选翻译之间的n-gram重叠程度来评估翻译质量。它被广泛应用于机器翻译任务的评价。

    • CIDEr:CIDEr是一种用于图像描述任务的评估指标,通过计算每个句子的n-gram TF-IDF向量,并使用余弦相似度来衡量候选句子与参考句子之间的语义一致性。

    • SPICE:SPICE利用基于图的语义表示来编码描述中的对象、属性和关系。它通过解析描述和参考描述为语法依赖树,并使用概率上下文无关文法(PCFG)依赖解析器来进行评估。

  2. 基于GPT-4的指标
    • LLM-Judge-Scene:用于评估场景感知任务。该指标设计了特定的提示模板,分别评分描述的细节水平和每个方向响应的准确性。

    • LLM-Judge-Reason&Nav:用于评估空间推理和导航探索任务。该指标通过分析AI助手响应与正确答案之间的相关性和实用性,客观识别和纠正错误,并提供解释。

    • LLM-Judge-Plan:用于评估任务规划任务。该指标关注关键动作序列与参考答案的对齐程度,以及路径上建筑物的描述准确性,包括顺序和方向。

结果与分析

SkyAgent-Scene3k 任务结果

  • 使用BLEU、SPICE和LLM-JUDGE-SCENE评估模型的词汇丰富度、语义准确性和人类偏好。

  • Qwen-lv-7b模型在BLEU上表现最强,而gpt-4o在SPICE上表现最佳。

  • LLM-JUDGE-SCENE结果显示gpt-4-vision-review和gpt-4o与人类偏好一致。

SkyAgent-Reason3k 任务结果

  • 使用LLM-JUDGE-REASON评估人类偏好。

  • llama-adapter-v2-7B、qwen-lv-7b和gpt-4o在空间推理和问答任务中表现突出。

  • gpt-4o在第一人称空间推理和问答任务中表现出色。

SkyAgent-Nav3k 任务结果

  • 使用LLM-JUDGE-NAV评估人类偏好。

  • gpt-4o在大多数城市场景和评估指标中排名第一,表现出色。

  • llama-adapter-v2-7B在住宅区场景中表现出色。

SkyAgent-Plan3k 任务结果

  • 使用LLM-JUDGE-PLAN评估人类偏好。

  • 许多模型在该任务中表现不佳,得分较低。

  • gpt-4o在所有城市中排名第一,表现出色。

定性分析

  • 3D-LLM在室外3D城市场景中表现出泛化能力不足,输出类似于室内环境的描述。

  • 2D视觉-语言模型在描述基于第一人称视角的城市设置时表现更好,但仍有幻觉现象。

  • 3D视觉-语言模型在短期空间推理上表现出色,但在复杂城市环境中仍需改进。

讨论

  • 场景泛化能力:在校园场景中,所有模型表现有所提升,qwen-lv-7b和gpt-4o表现最佳。

  • 任务泛化能力:Instruct-BLIP和BLIP2在任务1中表现优异,而Llama、MiniGPT和MPLUG系列在任务4中表现更好。

  • 规模效应:模型大小对性能的影响不大,增加参数数量并不一定带来性能提升。

总结

论文通过开发AeroVerse基准套件,解决了UAV具身世界模型的研究空白,提升了UAV智能体的端到端自主感知、认知和行动能力。

  • 构建了第一个大规模的真实世界图像-文本预训练数据集AerialAgent-Ego10k和虚拟图像-文本-姿态对齐数据集CyberAgent-Ego500k。

  • 首次明确了五个航天具身下游任务,并构建了相应的指令数据集。

  • 开发了基于GPT-4的自动化评估方法SkyAgent-Eval。

  • 通过广泛的实验分析了十个主要基线的性能,揭示了2D/3D视觉语言模型在UAV智能体任务中的潜力和局限性。

  • 未来工作将扩展仿真城市范围,包括纽约等地点,并将场景扩展到森林、山脉等户外环境,继续积累训练数据并优化下游任务,以促进航天具身智能的应用。

相关文章:

中科院空天院无人机视觉语言导航新基准!AeroVerse:模拟、预训练、微调和评估空中无人机具身世界模型的测试基准

作者: Fanglong Yao, Yuanchang Yue, Youzhi Liu, Xian Sun, Kun Fu 单位:中国科学院空天信息创新研究院网络信息系统技术重点实验室,中国科学院大学电子电气与通信工程学院 原文链接: AeroVerse: UAV-Agent Benchmark Suite fo…...

Python安装(新手详细版)

前言 第一次接触Python,可能是爬虫或者是信息AI开发的小朋友,都说Python 语言简单,那么多学一些总是有好处的,下面从一个完全不懂的Python 的小白来安装Python 等一系列工作的记录,并且遇到的问题也会写出&#xff0c…...

Oracle DG备库数据文件损坏修复方法(ORA-01578/ORA-01110)

今天负责报表的同事反馈在DG库查询时出现如下报错 ORA-01578:ORACLE数据块损坏(文件号6,块号 2494856)ORA-01110:数据文件6: /oradata/PMSDG/o1 mf users_molczgmn_.dbfORA-26040:数据块是使用 NOLOGGING 选项加载的 可以看到报错是数据文件损坏,提示了file id和b…...

安装Linux

在Linux系统上安装MySQL数据库,可以根据服务器是否有网络连接选择不同的安装方式。以下分别介绍在线安装(通过yum)和离线安装(手动下载.tar包)的详细步骤: 一、在线安装(通过yum) 检…...

【文献精读笔记】Explainability for Large Language Models: A Survey (大语言模型的可解释性综述)(四)

****非斜体正文为原文献内容(也包含笔者的补充),灰色块中是对文章细节的进一步详细解释! 四、提示范式(Explanation for Prompting Paradigm) 随着语言模型规模的扩大,基于提示(prom…...

【OpenCV】使用Python和OpenCV实现火焰检测

1、 项目源码和结构(转) https://github.com/mushfiq1998/fire-detection-python-opencv 2、 运行环境 # 安装playsound:用于播放报警声音 pip install playsound # 安装opencv-python:cv2用于图像和视频处理,特别是…...

SpringCloud(二)--SpringCloud服务注册与发现

一. 引言 ​ 前文简单介绍了SpringCloud的基本简介与特征,接下来介绍每个组成部分的功能以及经常使用的中间件。本文仅为学习所用,联系侵删。 二. SpringCloud概述 2.1 定义 ​ Spring Cloud是一系列框架的有序集合,它巧妙地利用了Spring…...

国内Ubuntu环境Docker部署CosyVoice

国内Ubuntu环境Docker部署CosyVoice 本文旨在记录在 国内 CosyVoice项目在 Ubuntu 环境下如何使用 dockermin-conda进行一键部署。 源项目地址: https://github.com/FunAudioLLM/CosyVoice 如果想要使用 dockerpython 进行部署,可以参考我另一篇博客中的…...

嵌入式linux系统中QT信号与槽实现

第一:Qt中信号与槽简介 信号与槽是Qt编程的基础。因为有了信号与槽的编程机制,在Qt中处理界面各个组件的交互操作时变得更加直观和简单。 槽函数与一般的函数不同的是:槽函数可以与一个信号关联,当信号被发射时,关联的槽函数被自动执行。 案例操作与实现: #ifndef …...

科研绘图系列:R语言单细胞数据常见的可视化图形

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍加载R包数据下载导入数据数据预处理图1图2图3图4图5图6系统信息参考介绍 单细胞数据常见的可视化图形 因为本教程是单细胞数据,因此运行本画图脚本需要电脑的内存最少32Gb 加载…...

使用 C++ 和函数式编程构建高效的 AI 模型

引言 现代 AI 开发常常使用 Python,但在底层实现中,C 仍是不可或缺的语言,尤其是在性能敏感的场景下。将 C 与函数式编程结合,可以打造高效、模块化的 AI 模型,同时提高代码的可读性和可维护性。本文将深入探讨如何利用…...

guestfish/libguestfs镜像管理工具简介

文章目录 简介guestfishlibguestfs项目 例子原理代码libguestfs架构参考 简介 guestfish Guestfish 是libguestfs项目中的一个工具软件,提供修改虚机镜像内部配置的功能。它不需要把虚机镜像挂接到本地,而是为你提供一个shell接口,你可以查…...

如何在centos中进行有效的网络管理

如何在centos中进行有效的网络管理? 在CentOS中,网络管理是系统管理员日常工作的重要组成部分,本文将详细介绍CentOS中的两种主要网络管理工具:传统的network服务和新一代的NetworkManager,帮助读者更好地配置和管理C…...

Oracle清空表后如何恢复数据

有时候忘记备份数据,把数据清空了,或者删除了,这时候怎么恢复数据呢,使用下面sql即可,替换对应的table和column INSERT INTO table1(column1,column2,column3 ) SELECTcolumn1,column2,column3 FROMtable1 AS OF time…...

ElasticSearch基础-文章目录

ElasticSearch学习总结1(环境安装) ElasticSearch学习总结2(基础查询) ElasticSearch学习总结3(.NetCore操作ES) ElasticSearch学习总结4(sql操作ES) ElasticSearch学习总结5&am…...

SpringMVC(二)原理

目录 一、配置Maven(为了提升速度) 二、流程&&原理 SpringMVC中心控制器 完整流程: 一、配置Maven(为了提升速度) 在SpringMVC(一)配置-CSDN博客的配置中,导入Maven会非…...

Selenium 自动化,如何下载正确的 ChromeDriver

在 Python 的 Selenium 自动化操作中,chromedriver 是不可或缺的驱动程序。没有正确安装对应版本的驱动,运行代码时常常会遇到报错问题,比如 “session not created: This version of ChromeDriver only supports Chrome version XX”。 今天…...

[Linux]redis5.0.x升级至7.x完整操作流程

1. 从官网下载最新版redis: 官网地址:https://redis.io/download 注:下载需要的登录,如果选择使用github账号登录,那么需要提前在github账号中取消勾选“Keep my email addresses private”(隐藏我的邮箱…...

Java字符编码与正则表达式深度解析

Java字符编码与正则表达式深度解析 1. 字符编码发展 1.1 ASCII 码 在计算机最初发明时,主要用于数值计算,但随着计算需求的增加,人们发现计算机可以用来处理文本信息。因此,将字符映射为数字来表示。 字母 ‘A’ 映射为 65&am…...

【C++】B2099 矩阵交换行

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 💯前言💯题目描述题目描述输入格式输出格式输入输出样例输入 #1输出 #1 💯题目分析💯不同解法分析我的做法实现步骤:优点:不足&#…...

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子,用于处理异步操作(如数据加载)中的错误。下面我将详细解释其用途并提供代码示例。 一、useAsyncError 用途 处理异步错误:捕获在 loader 或 action 中发生的异步错误替…...

微信小程序之bind和catch

这两个呢,都是绑定事件用的,具体使用有些小区别。 官方文档: 事件冒泡处理不同 bind:绑定的事件会向上冒泡,即触发当前组件的事件后,还会继续触发父组件的相同事件。例如,有一个子视图绑定了b…...

中南大学无人机智能体的全面评估!BEDI:用于评估无人机上具身智能体的综合性基准测试

作者:Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位:中南大学地球科学与信息物理学院论文标题:BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接:https://arxiv.…...

深入理解JavaScript设计模式之单例模式

目录 什么是单例模式为什么需要单例模式常见应用场景包括 单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量 惰性单例通用的惰性单例 结语 什么是单例模式 单例模式(Singleton Pattern&#…...

高等数学(下)题型笔记(八)空间解析几何与向量代数

目录 0 前言 1 向量的点乘 1.1 基本公式 1.2 例题 2 向量的叉乘 2.1 基础知识 2.2 例题 3 空间平面方程 3.1 基础知识 3.2 例题 4 空间直线方程 4.1 基础知识 4.2 例题 5 旋转曲面及其方程 5.1 基础知识 5.2 例题 6 空间曲面的法线与切平面 6.1 基础知识 6.2…...

今日科技热点速览

🔥 今日科技热点速览 🎮 任天堂Switch 2 正式发售 任天堂新一代游戏主机 Switch 2 今日正式上线发售,主打更强图形性能与沉浸式体验,支持多模态交互,受到全球玩家热捧 。 🤖 人工智能持续突破 DeepSeek-R1&…...

关于 WASM:1. WASM 基础原理

一、WASM 简介 1.1 WebAssembly 是什么? WebAssembly(WASM) 是一种能在现代浏览器中高效运行的二进制指令格式,它不是传统的编程语言,而是一种 低级字节码格式,可由高级语言(如 C、C、Rust&am…...

4. TypeScript 类型推断与类型组合

一、类型推断 (一) 什么是类型推断 TypeScript 的类型推断会根据变量、函数返回值、对象和数组的赋值和使用方式,自动确定它们的类型。 这一特性减少了显式类型注解的需要,在保持类型安全的同时简化了代码。通过分析上下文和初始值,TypeSc…...

华为OD机试-最短木板长度-二分法(A卷,100分)

此题是一个最大化最小值的典型例题, 因为搜索范围是有界的,上界最大木板长度补充的全部木料长度,下界最小木板长度; 即left0,right10^6; 我们可以设置一个候选值x(mid),将木板的长度全部都补充到x,如果成功…...

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement 1. LAB环境2. L2公告策略2.1 部署Death Star2.2 访问服务2.3 部署L2公告策略2.4 服务宣告 3. 可视化 ARP 流量3.1 部署新服务3.2 准备可视化3.3 再次请求 4. 自动IPAM4.1 IPAM Pool4.2 …...