当前位置: 首页 > article >正文

兼顾长、短视频任务的无人机具身理解!AirVista-II:面向动态场景语义理解的无人机具身智能体系统

  • 作者:Fei Lin 1 ^{1} 1, Yonglin Tian 2 ^{2} 2, Tengchao Zhang 1 ^{1} 1, Jun Huang 1 ^{1} 1, Sangtian Guan 1 ^{1} 1, and Fei-Yue Wang 2 , 1 ^{2,1} 2,1
  • 单位: 1 ^{1} 1澳门科技大学创新工程学院工程科学系, 2 ^{2} 2中科院自动化研究所复杂系统管理与控制国家重点实验室
  • 论文标题:AirVista-II: An Agentic System for Embodied UAVs Toward Dynamic Scene Semantic Understanding
  • 论文链接:https://arxiv.org/pdf/2504.09583

主要贡献

  • 提出AirVista-II系统:这是一个端到端的代理系统,用于使无人机(UAV)从被动的数据采集平台向主动的语义交互范式转变,实现了无人机在动态场景中的通用语义理解和推理。
  • 设计自适应关键帧提取策略:针对长视频场景,提出了一种结合运动感知采样、聚类分析和模型引导选择的自适应关键帧提取策略。该策略能够有效地捕捉语义显著的帧,增强无人机对复杂动态场景的理解能力。
  • 在多个公共航拍视频数据集上验证:在零样本(zero-shot)设置下,展示了系统在多样化无人机动态场景中的高准确性和描述质量,证明了其在实际应用中的潜力。

研究背景

  • 无人机在动态环境中的重要性
    • 无人机在物流运输、灾难响应等动态环境中扮演着越来越重要的角色。
    • 然而,目前的任务通常依赖于人类操作员监控航拍视频并做出决策,这种人机协作模式在效率和适应性方面存在显著限制。
  • 语义理解任务的需求
    • 为了实现更高效的自主操作,无人机需要具备语义理解能力,不仅作为数据采集平台,还要能够进行环境的语义建模和自然语言交互,从而根据感知信息生成对人类操作指令的高级语义响应。
  • 现有方法的局限性
    • 近年来,以大型语言模型(LLM)为代表的基础模型(FM)在具身智能领域展现了强大的自主性和领域适应性。
    • 然而,现有方法通常缺乏显式的任务规划机制,导致响应可控性不稳定。此外,由于缺乏外部工具调用能力和协调多模块框架,在处理结构复杂和开放性任务时泛化能力有限。

研究方法

系统架构

AirVista-II系统由规划模块和执行模块组成。根据输入场景的时间长度,将动态场景分为三种类型:即时场景(单帧图像)、短视频(小于60秒)和长视频(大于等于60秒),分别对应不同的任务形式和执行策略。

规划模块

  • 核心功能:基于LLaVA或GPT-4o的规划代理,将自然语言指令转化为结构化任务,并分派给下游执行代理。
  • 处理流程
    • 如果查询缺乏明确的时间信息,则通过交互式细化模块更新查询。
    • 对于语义模糊的查询,应用链式思考(CoT)模板将其分解为更具体的子问题。
    • 根据提取的时间信息,使用FFmpeg工具从输入视频中检索图像帧或视频片段。
    • 根据持续时间确定数据的模态标签(图像、短视频或长视频)。

执行模块

即时图像任务
  • 处理方式:图像代理接收图像和用户查询,并调用AirVista工具生成答案。AirVista是一个专门针对无人机的多模态问答模型,能够进行细粒度的语义理解和3D空间推理。
短视频任务
  • 关键帧提取:短视频代理首先使用OpenCV从短视频中提取6个均匀间隔的关键帧,形成一个3×2的时间网格图像。
  • 推理过程:在网格提示的引导下,代理对网格和查询进行自我推理以产生答案。这种策略显著减少了计算开销,同时保留了时间上下文。
长视频任务
  • 自适应关键帧提取策略
    • 运动感知采样:计算采样步长 s = ⌊ f ⋅ λ v ⌋ s = \left\lfloor \frac{f \cdot \lambda}{v} \right\rfloor s=vfλ,其中 f f f 是帧率, v v v 是无人机的平均速度, λ \lambda λ 是期望的语义分辨率。这确保了无人机在采样帧之间至少移动 λ \lambda λ 米,平衡了覆盖范围和效率。
    • 聚类分析:使用CLIP ViT-B/16提取高维语义嵌入,对不同数量的聚类进行评估,选择最优聚类数量。
    • 模型引导选择:从每个聚类中选择最早时间戳的帧形成最终关键帧集,构建近方形网格图像。
    • 推理过程:在网格提示的引导下,代理对网格和查询进行推理以生成答案。

实验

短视视频场景实验

CapERA-QA任务

  • 任务描述:基于CapERA数据集构建内容总结问答任务,随机选择一个人类标注的字幕作为参考答案,并手动构建相应的问题。
  • 评估方法:采用基于GPT的语义评估方法,结果显示准确率为75.6%,平均得分为3.703。这表明系统能够准确捕捉大多数航拍视频中的主要事件和动态语义。

  • 可读性评估:采用多种主流英语可读性指标(如Gunning Fog Index、Dale–Chall Readability Formula等),统计结果显示生成答案的可读性较好。

ERA-QA任务
  • 任务描述:基于ERA数据集构建开放性问答任务,包含运动理解、空间关系、时间关系和自由形式问题四种类型。
  • 评估方法:比较基于LLaVA-1.6-34B和GPT-4o的短视频代理的性能,结果显示LLaVA-1.6-34B的准确率为66.5%,平均得分为3.715;GPT-4o的准确率为53.0%,平均得分为3.140。

长视频场景实验

  • 任务描述:基于SynDrone数据集构建长视频问答任务,手动设计开放性问题以评估系统在长时间、多事件动态场景中的综合问答能力。
  • 聚类评估:通过视觉分析聚类评估结果,选择最优聚类数量。实验结果表明,自适应关键帧提取策略能够根据场景复杂性动态选择不同数量的关键帧。
  • 性能对比:与固定帧采样策略(如均匀采样6帧)相比,自适应关键帧提取策略更有效地捕捉长视频的关键语义内容,使代理能够生成完整准确的响应。

结论与未来工作

  • 结论
    • AirVista-II系统通过自适应关键帧提取方法,有效提高了无人机对复杂动态内容的感知和推理性能,增强了无人机在动态环境中的通用语义理解和推理能力。
    • 该系统在多个公共航拍视频数据集上的实验结果表明,其在零样本设置下具有高准确性和描述质量,展示了良好的实际应用潜力。
  • 未来工作
    • 优化流程:将专注于优化流程以减少计算开销,特别是在长视频处理中,进一步提高系统的实时性和效率。
    • 增强鲁棒性:通过更多的实验和测试,增强整个系统在复杂环境下的鲁棒性,确保其在实际应用中的稳定性和可靠性。

相关文章:

兼顾长、短视频任务的无人机具身理解!AirVista-II:面向动态场景语义理解的无人机具身智能体系统

作者:Fei Lin 1 ^{1} 1, Yonglin Tian 2 ^{2} 2, Tengchao Zhang 1 ^{1} 1, Jun Huang 1 ^{1} 1, Sangtian Guan 1 ^{1} 1, and Fei-Yue Wang 2 , 1 ^{2,1} 2,1单位: 1 ^{1} 1澳门科技大学创新工程学院工程科学系, 2 ^{2} 2中科院自动化研究所…...

springboot踩坑记录

之前运行好端端的项目,今天下午打开只是添加了一个文件之后 再运行都报Failed to configure a DataSource: url attribute is not specified and no embedded datasource could be configured.Reason: Failed to determine a suitable driver class Action: Conside…...

SparkSQL基本操作

以下是 Spark SQL 的基本操作总结,涵盖数据读取、转换、查询、写入等核心功能: 一、初始化 SparkSession scala import org.apache.spark.sql.SparkSession val spark SparkSession.builder() .appName("Spark SQL Demo") .master("…...

Web 架构之动静分离

文章目录 一、引言二、动静分离的原理2.1 什么是动静分离2.2 为什么要进行动静分离 三、动静分离的实现方式3.1 基于 Nginx 的动静分离3.2 基于 CDN 的动静分离 四、常见问题及解决方法4.1 缓存问题4.2 跨域问题4.3 性能监控问题 五、思维导图六、总结 一、引言 在当今的 Web 应…...

20250515配置联想笔记本电脑IdeaPad总是使用独立显卡的步骤

20250515配置联想笔记本电脑IdeaPad总是使用独立显卡的步骤 2025/5/15 19:55 百度:intel 集成显卡 NVIDIA 配置成为 总是用独立显卡 百度为您找到以下结果 ?要将Intel集成显卡和NVIDIA独立显卡配置为总是使用独立显卡,可以通过以下步骤实现?&#xff…...

sparkSQL读入csv文件写入mysql

思路 示例 (年龄>18改成>20) mysql的字符集问题 把user改成person “让字符集认识中文”...

大涡模拟实战:从区域尺度到街区尺度的大气环境模拟

前言: 随着低空经济的蓬勃发展,无人机、空中出租车等新型交通工具正在重塑我们的城市空间。这场静默的革命不仅带来了经济机遇,更对城市大气环境提出了全新挑战。在距离地面200米以下的城市冠层中,建筑物与大气的复杂相互作用、人…...

centos安装方式的aarch64架构下的kylinv10安装docker23.0.0

以下通过压缩包方式安装docker 因为yum方式配置各种依赖仓库太麻烦了,如果你不想执行 yum repolist yum clean all yum makecache那可以按照以下压缩包的方式安装任何版本的docker 1.查看glibc版本 ldd --version我这里显示2.28,安装docker23.0.0没问…...

单目测距和双目测距 bev 3D车道线

单目视觉测距原理 单目视觉测距有两种方式。 第一种,是通过深度神经网络来预测深度,这需要大量的训练数据。训练后的单目视觉摄像头可以认识道路上最典型的参与者——人、汽车、卡车、摩托车,或是其他障碍物(雪糕桶之类&#xf…...

鸿蒙OSUniApp 实现一个精致的日历组件#三方框架 #Uniapp

使用 UniApp 实现一个精致的日历组件 前言 最近在开发一个约会小程序时,需要实现一个既美观又实用的日历组件。市面上虽然有不少现成的组件库,但都不太符合我们的设计需求。于是,我决定从零开始,基于 UniApp 自己实现一个功能完…...

【爬虫】DrissionPage-3

安装:4.1最新版本 pip install drissionpage --upgrade 官方文档:🛰️ 连接浏览器 | DrissionPage官网 1 Chromium对象 Chromium对象用于连接和管理浏览器。标签页的开关和获取、整体运行参数配置、浏览器信息获取等都由它进行。 1.1 默认…...

Web开发-JavaEE应用SpringBoot栈SnakeYaml反序列化链JARWAR构建打包

知识点: 1、安全开发-JavaEE-WAR&JAR打包&反编译 2、安全开发-JavaEE-SnakeYaml反序列化&链 一、演示案例-WEB开发-JavaEE-项目-SnakeYaml序列化 常见的创建的序列化和反序列化协议 • (已讲)JAVA内置的writeObject()/readObje…...

项目复习(2)

第四天 高并发优化 前端每隔15秒就发起一次请求,将播放记录写入数据库。 但问题是,提交播放记录的业务太复杂了,其中涉及到大量的数据库操作:在并发较高的情况下,会给数据库带来非常大的压力 使用Redis合并写请求 一…...

UE 材质基础 第一天

课程:虚幻引擎【UE5】材质宝典【初学者材质基础入门系列】-北冥没有鱼啊_-稍后再看-哔哩哔哩视频 随便记录一些 黑色是0到负无穷,白色是1到无穷 各向异性 有点类似于高光,可以配合切线来使用,R G B 相当于 X Y Z轴,切…...

短剧小程序系统开发源码上架,短剧项目市场分析

引言 随着短视频内容消费的爆发式增长,短剧小程序凭借其碎片化、强互动、低成本的特点,成为内容创业与资本布局的新风口。2024年以来,行业规模突破500亿元,预计2027年将超千亿17。本文将深度解析短剧小程序系统开发的技术优势、市…...

学习FineBI

FineBI 第一章 FineBI 介绍 1.1. FineBI 概述 FineBI 是帆软软件有限公司推出的一款商业智能 (Business Intelligence) 产品 。 FineBI 是新一代大数据分析的 BI 工具 , 旨在帮助企业的业务人员充分了解和利用他们的数据 。FineBI 凭借强…...

Oracle日期计算跟Mysql计算日期差距问题-导致两边计算不一致

Oracle数据库对日期做加法时,得到的时间是某天的12:00:00 例: Oracle计算 select (TO_DATE(2025-04-14, YYYY-MM-DD)1.5*365) from dual; 结果:2026/10/13 12:00:00Mysql计算 select DATE_ADD( str_to_date( 2025-04-14, %Y-%m-%d ), INTER…...

深入剖析某App视频详情逆向:聚焦sig3参数攻克

深入剖析某手App视频详情逆向:聚焦sig3参数攻克 一、引言 在当今互联网信息爆炸的时代,短视频平台如某手,已成为人们获取信息、娱乐消遣的重要渠道。对于技术爱好者和研究人员而言,深入探索其内部机制,特别是视频详情…...

Java求职面试揭秘:从Spring到微服务的技术挑战

文章简述 在这篇文章中,我们将通过一个幽默的面试场景,揭秘互联网大厂Java求职者在面试中面对的技术挑战。面试官将从Spring框架、微服务架构到大数据处理等多个维度进行提问,并详细讲解这些技术点的应用场景和解决方案,帮助小白…...

【Linux】Linux安装并配置MongoDB

目录 1.添加仓库 2.安装 MongoDB 包 3.启动 MongoDB 服务 4. 验证安装 5.配置 5.1.进入无认证模式 5.2.1创建用户 5.2.2.开启认证 5.2.3重启 5.2.4.登录 6.端口变更 7.卸载 7.1.停止 MongoDB 服务 7.2.禁用 MongoDB 开机自启动 7.3.卸载 MongoDB 包 7.4.删除数…...

HANA数据库死锁

死锁是两个或多个事务相互交叉锁定的情况,因此任何事务都无法继续进行。 通常死锁是由应用程序设计缺陷引起的,但在主键约束的上下文中也可能存在更多的技术死锁(这种情况请参考 SAP note 2429521)。 当 HANA 数据库出现死锁时&am…...

STC32G12K128实战:串口通信

STC32G12K128芯片写一个按键通过串口1发送字符串的程序。首先,确认芯片的串口1配置。STC32G系列通常使用UART1,相关的寄存器是P_SW1来选择引脚。默认情况下,UART1的TX是P3.1。 接下来是设置定时器作为波特率发生器。通常用定时器2&#xff0c…...

Kotlin Multiplatform与Flutter、Compose共存:构建高效跨平台应用的完整指南

简介 在移动开发领域,跨平台技术正在重塑开发范式。Kotlin Multiplatform (KMP) 作为 JetBrains 推出的多平台开发框架,结合了 Kotlin 的简洁性与原生性能优势,使开发者能够高效共享业务逻辑。而 Flutter 凭借其高性能渲染引擎(Skia)和丰富的组件库,成为混合开发的首选方…...

ElasticSearch深入解析(十二):聚合——分桶聚合、指标聚合、管道子聚合

文章目录 一、分桶聚合1. 分桶聚合的核心逻辑与核心类型2. 分桶聚合的高级特性 二、指标聚合1. 指标聚合的核心逻辑与基础类型(1)基础统计指标(单值输出)(2)复合统计指标(多值输出) …...

spark小任务

import org.apache.spark.{Partitioner, SparkConf, SparkContext}object PartitionCustom {// 分区器决定哪一个元素进入某一个分区// 目标: 把10个分区器,偶数分在第一个分区,奇数分在第二个分区// 自定义分区器// 1. 创建一个类继承Partitioner// 2. …...

Ubuntu 20.04 报错记录: Matplotlib 无法使用 OpenCV 的 libqxcb.so

网上查了一下这个报错,有很多解决方案,但是都不是针对 OpenCV 触发的这种 qt.qpa.plugin: Could not load the Qt platform plugin "xcb" in " */lib/*/site-packages/cv2/qt/plugins" even though it was found. 本文的方案是牺牲 …...

JS 高级程序设计 设计模式

设计模式是提升代码可维护性、可扩展性和可复用的重要工具 创建型模式 工厂模式 封装对象的创建过程,通过函数或类统一生成实例,避免直接使用 new 关键字简单工厂:通过函数返回不同对象实例 function createButton(type) {if (type prim…...

新电脑软件配置二:安装python,git, pycharm

安装python 地址 https://www.python.org/downloads/ 不是很懂为什么这么多版本 安装windows64位的 这里我是凭自己感觉装的了 然后cmd输入命令没有生效,先重启下? 重启之后再次验证 环境是成功的 之前是输入的python -version 命令输入错误 安装pyc…...

数据仓库:企业数据管理的核心引擎

一、数据仓库的由来 数据仓库(Data Warehouse, DW)概念的诞生源于企业对数据价值的深度挖掘需求。在1980年代,随着OLTP(联机事务处理)系统在企业中的普及,传统关系型数据库在处理海量数据分析时显露出明显瓶…...

MCU开发学习记录17* - RTC学习与实践(HAL库) - 日历、闹钟、RTC备份寄存器 -STM32CubeMX

名词解释: RTC:Real-Time Clock​ 统一文章结构(数字后加*): 第一部分: 阐述外设工作原理;第二部分:芯片参考手册对应外设的学习;第三部分:使用STM32CubeMX进…...