AAAI-2025 | 中科院无人机导航新突破!FELA:基于细粒度对齐的无人机视觉对话导航
-
作者:Yifei Su, Dong An, Kehan Chen, Weichen Yu, Baiyang Ning, Yonggen Ling, Yan Huang, Liang Wang
-
单位:中国科学院大学人工智能学院,中科院自动化研究所模式识别与智能系统实验室,穆罕默德·本·扎耶德人工智能大学,卡内基梅隆大学电气与计算机工程系,腾讯 Robotics X
-
论文标题:Learning Fine-Grained Alignment for Aerial Vision-Dialog Navigation
-
论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/32758/34913
-
代码链接:https://github.com/yifeisu/FELA
主要贡献
-
数据集构建:开发了一种半自动标注流程,构建了第一个大规模细粒度空中视觉对话导航(FG-AVDN)数据集,提供了实体与地标之间的细粒度跨模态对齐。
-
方法提出:提出了一种新颖的细粒度实体-地标对齐(FELA)方法,通过精确的语义网格表示和三个辅助任务(地标旋转边界框预测、地标语义预测、实体-地标对比学习),显式地学习实体与地标之间的对齐。
-
性能提升:通过大量实验验证了显式实体-地标对齐学习对空中视觉对话导航(ANDH)任务的有效性,FELA在成功率(SR)上比现有技术提高了3.2%,在目标进展(GP)上提高了4.9%。
研究背景
-
语言引导导航的重要性:语言引导导航是机器人通过与人类交流完成任务的一个基础且具有挑战性的问题。近年来,虽然在该领域取得了一定进展,但大多数研究集中在地面机器人上,而无人机(空中机器人)在该领域的研究相对较少。
-
空中视觉对话导航(AVDN)任务:AVDN任务要求无人机根据与人类的对话历史导航到目标位置,为无人机的应用(如食品配送和野外搜索救援)提供了新的机会。然而,该任务存在两个独特挑战:一是俯视图中的地标具有几何多样性,难以感知小或窄的物体;二是俯视图包含更多地标,容易分散无人机对目标实体的注意力。
-
现有方法的局限性:现有方法在处理ANDH任务中的细粒度跨模态对齐方面存在不足,主要原因是缺乏实体-地标对齐监督和粗糙的视觉表示。
研究方法
- FG-AVDN数据集构建:
-
半自动实体-地标提取:利用GPT3.5从对话中提取实体,使用SAM生成视觉观察中的地标掩码提议,并通过RemoteCLIP建立实体与地标之间的初始关联,最后进行人工检查和修正。
-
伪实体-地标生成:为了使无人机能够理解开放词汇指令,使用LHRS-Bot为提取的地标生成额外的详细描述,包括地标及其周围环境的详细属性。
-
- FELA方法:
-
语义网格表示:构建一个语义网格表示来增强无人机的视觉感知,该表示能够同时捕捉环境的语义和空间结构。具体来说,通过将视觉编码器的最后一层特征、对象编码和位置编码进行合并来获得语义网格表示。
- 实体-地标对齐学习:设计了三个辅助任务来显式地学习实体与地标之间的对齐。
-
地标旋转边界框预测(LRBP):预测基于实体的地标紧凑旋转边界框,以实现更精细的对齐。
-
地标语义预测(LSP):根据视觉图像描述地标,将其建模为区域级的描述任务。
-
实体-地标对比学习(ELCL):在公共特征空间中对齐匹配的实体-地标对,以实现更好的细粒度对齐。
-
-
导航模型:采用周期变换器作为导航器,将指令文本、视觉历史、轨迹历史和语义网格表示输入导航器进行模态融合,然后预测动作。
-
实验
- 实验设置:
-
在ANDH任务上评估所提出的方法,该任务将AVDN数据集划分为6269个子轨迹,并根据场景类型分为训练集、验证集和测试集。
-
评价指标包括成功率(SR)、按路径长度加权的成功率(SPL)和目标进展(GP)。
-
- 与现有技术的比较:
-
FELA在未见验证集和测试集上均取得了领先性能。
-
具体来说,FELA在未见验证集上的SR为23.9%,SPL为19.2%,GP为64.1;在未见测试集上的SR为21.9%,SPL为17.6%,GP为61.4。
-
此外,FELA的参数量和计算量仅比之前的最佳方法TG-GAT略有增加,且推理速度为11.7Hz,具有在现实世界中应用的潜力。
-
- 消融研究:
-
不同网格表示构建选项:实验结果表明,仅使用视觉编码或语义编码构建网格表示的性能都不理想,而将两者结合并引入位置编码时,性能达到最佳。
-
不同辅助任务的效果:单独使用每个辅助任务或它们的组合都能对性能产生不同程度的提升。当三个辅助任务同时使用时,性能达到最高,这表明这些任务是互补的,且实体-地标对齐学习对导航泛化能力的提升是有效的。
-
不同语义网格表示尺度的影响:当网格尺度N增加到7时,性能达到最佳;进一步增大N,性能保持不变甚至略有下降。因此,选择N=7作为默认设置。
-
不同实体-地标数据对齐的影响:仅使用从对话中提取的实体-地标对进行对齐学习,就能取得一定的性能提升;进一步引入由LHRS-Bot生成的详细地标描述,性能进一步提高。
-
- 定性结果:
-
通过比较FELA和TG-GAT在未见验证集上的预测路径,可以看出FELA在识别和定位目标地标方面表现更好,尤其是在处理具有复杂修饰语的实体短语时。
-
然而,FELA在处理与距离相关的指令时可能会失败,因为缺乏绝对空间感知能力。
-
结论与未来工作
- 结论:
-
本文解决了ANDH任务中一个关键但尚未被充分研究的问题——实体-地标对齐。
-
通过构建FG-AVDN数据集和提出FELA方法,显式地学习实体与地标之间的对齐,实验结果证明了该方法的有效性。
-
- 未来工作:
-
现有导航器的性能仍不令人满意,且在无人机上进行真实世界实验可能存在安全问题。
-
计划继续提高导航器的鲁棒性,然后在未来进行从仿真到现实的部署。
-
相关文章:

AAAI-2025 | 中科院无人机导航新突破!FELA:基于细粒度对齐的无人机视觉对话导航
作者:Yifei Su, Dong An, Kehan Chen, Weichen Yu, Baiyang Ning, Yonggen Ling, Yan Huang, Liang Wang 单位:中国科学院大学人工智能学院,中科院自动化研究所模式识别与智能系统实验室,穆罕默德本扎耶德人工智能大学࿰…...

排序算法之基础排序:冒泡,选择,插入排序详解
排序算法之基础排序:冒泡、选择、插入排序详解 前言一、冒泡排序(Bubble Sort)1.1 算法原理1.2 代码实现(Python)1.3 性能分析 二、选择排序(Selection Sort)2.1 算法原理2.2 代码实现ÿ…...

Linux常用命令42——tar压缩和解压缩文件
在使用Linux或macOS日常开发中,熟悉一些基本的命令有助于提高工作效率,tar 是 Linux 和 Unix 系统中用于归档文件和目录的强大命令行工具。tar 名字来自 "tape archive"(磁带归档),最初用于将文件打包到磁带…...

网络协议分析 实验七 FTP、HTTP、DHCP
文章目录 实验7.1 FTP协议练习二 使用浏览器登入FTP练习三 在窗口模式下,上传/下传数据文件实验7.2 HTTP(Hyper Text Transfer Protocol)练习二 页面提交练习三 访问比较复杂的主页实验7.3 DHCP(Dynamic Host Configuration Protocol) 实验7.1 FTP协议 dir LIST&…...

HTML 表格与div深度解析区别及常见误区
一、HTML<div>元素详解 <div>是HTML中最基本的块级容器元素,本身没有语义,主要用于组织和布局页面内容。以下是其核心用法: 1. 基础结构与特性 <div><!-内部可包含任意HTML元素 --><h2>标题</h2><p…...
Linux 系统中设置开机启动脚本
Linux 系统中设置开机启动脚本有多种方法,适用于不同的场景和需求。以下是几种最常用且详细的方法: 核心理念: 无论哪种方法,核心都是让系统在启动过程中的某个阶段执行你的脚本。 1. 使用 systemd (推荐,现代 Linux 发行版的标准) systemd 是目前大多数主流 Linux 发行…...

linux-进程信号的产生
Linux中的进程信号(signal)是一种用于进程间通信或向进程传递异步事件通知的机制。信号是一种软中断,用于通知进程某个事件的发生,如错误、终止请求、计时器到期等。 1. 信号的基本概念 - 信号(Signal)&am…...

内容中台重构企业知识管理路径
智能元数据驱动知识治理 现代企业知识管理的核心挑战在于海量非结构化数据的有效治理。通过智能元数据分类引擎,系统可自动识别文档属性并生成多维标签体系,例如将技术手册按产品版本、功能模块、适用场景进行动态标注。这种动态元数据框架不仅支持跨部…...
ubuntu22.04卸载vscode
方法 1:通过 Snap 卸载 VSCode 如果你是通过 Snap 安装的 VSCode(Ubuntu 22.04 默认推荐方式),按照以下步骤卸载: 检查是否通过 Snap 安装: bash snap list | grep code如果输出显示 code,说明…...
AGI大模型(19):下载模型到本地之ModelScope(魔搭社区)
1 安装模块 魔塔社区提供了下载的模块,如下: pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple 2 模型下载 from modelscope import snapshot_download model_dirsnapshot_download(LLM-Research/Meta-Llama-3-8B,cache_dirrD:\…...

基于Spring Boot+Layui构建企业级电子招投标系统实战指南
一、引言:重塑招投标管理新范式 在数字经济浪潮下,传统招投标模式面临效率低、透明度不足、流程冗长等痛点。本文将以Spring Boot技术生态为核心,融合Mybatis持久层框架、Redis高性能缓存及Layui前端解决方案,构建一个覆盖招标代理…...

Kali安装详细图文安装教程(文章内附有镜像文件连接提供下载)
Kali镜像文件百度网盘:通过网盘分享的文件:kali-linux-2024.2-installer-amd64.iso 链接: https://pan.baidu.com/s/1MfCXi9KrFDqfyYPqK5nbKQ?pwdSTOP 提取码: STOP --来自百度网盘超级会员v5的分享 1.下载好镜像文件后,我们打开我们的VMwa…...

2.4GHz无线芯片核心技术解析与典型应用
2.4G芯片作为工作在2.4GHz ISM频段的无线通信集成电路,主要面向短距离数据传输应用。这类芯片具有以下技术特点: 多协议支持 兼容蓝牙、Wi-Fi和ZigBee等主流协议 采用SDR技术实现协议灵活切换 适用于智能家居和物联网设备 低功耗特性 采用休眠唤醒和动态…...
ai agent(智能体)开发 python高级应用4:什么是代理,如何设置squid代理服务器,让crawl4ai 0.6.3 用上代理,获取到数据平权
crawl4ai 0.6.3为啥用代理,什么情况下需要用到代理 在 crawl4ai 中设置代理服务器的好处: 一、设置代理的好处 避免IP封禁 高频请求同一网站时,目标服务器可能封禁真实IP。代理通过轮换IP分散请求,降低封禁风险。 绕过地理限制 …...
技术融资:概念与形式、步骤与案例、挑战与应对、发展趋势
一、技术融资概述 技术融资是指通过外部资金支持技术研发、产品开发或市场扩展的过程。它通常涉及风险投资、天使投资、私募股权、众筹等多种形式。技术融资的核心目标是为技术创新提供资金保障,推动技术从概念到市场的转化。 技术融资的主要形式包括以下几种&…...

Chrome代理IP配置教程常见方式附问题解答
在网络隐私保护和跨境业务场景中,为浏览器配置代理IP已成为刚需。无论是访问地域限制内容、保障数据安全,还是管理多账号业务,掌握Chrome代理配置技巧都至关重要。本文详解三种主流代理设置方式,助你快速实现精准流量管控。 方式一…...
微信小程序 密码框改为text后不可见,需要点击一下
这个问题是做项目的时候碰到的。 密码框常规写法: <view class"inputBox"><view class"input-container"><input type"{{inputType}}" placeholder"请输入密码" data-id"passwordValue" bindin…...
LLM笔记(六)线性代数
公式速查表 1. 向量与矩阵:表示、转换与知识存储的基础 向量表示 (Vectors): 语义的载体 在LLM中,向量 x ∈ R d \mathbf{x}\in\mathbb{R}^d x∈Rd 是信息的基本单元,承载着丰富的语义信息: 词嵌入向量 (Word Embeddings)&am…...

Linux——UDP/TCP协议理论
1. UDP协议 1.1 UDP协议格式 系统内的UDP协议结构体: 注1:UDP协议的报头大小是确定的,为8字节 注2:可以通过报头中,UDP长度将UDP协议的报头和有效载荷分离,有效载荷将存储到接收缓冲区中等待上层解析。 注…...

Go语言爬虫系列教程(一) 爬虫基础入门
Go爬虫基础入门 1. 网络爬虫概念介绍 1.1 什么是网络爬虫 网络爬虫(Web Crawler),又称网页蜘蛛、网络机器人,是一种按照一定规则自动抓取互联网信息的程序或脚本。其核心功能是模拟人类浏览网页的行为,通过发送网络…...

PromptIDE提示词开发工具支持定向优化啦
老粉们都知道,PromptIDE 是一款专门解决 AI 提示词生成和优化的工具,让 AI 真正听懂你在说什么,生成更符合预期的结果! 我们这次更新主要争对提示词优化这一块,推出了不同提示词优化方向,贴近用户需求。 举…...
多返回值(Multiple Return Values)- 《Go语言实战指南》
Go 语言支持函数返回多个值,这一特性在实际开发中非常常见,尤其用于错误处理。 一、函数返回多个值的基本语法 func 函数名(参数列表) (返回值1类型, 返回值2类型, ...) {// 函数体return 值1, 值2, ... } 示例:计算商和余数 func divide(…...

致远OA人事标准模块功能简介【附应用包百度网盘下载地址,官方售价4W】
人事管理应用,围绕岗位配置、招聘管理、员工档案、入转调离、员工自助申报、数据信息管理等人力资源管理关键业务,构建全员可参与的人事工作协同平台,让人事从繁杂琐碎的事务中解脱出来,高质高效工作,让管理层清楚掌握…...

Python-简单网络编程 I
目录 一、UDP 网络程序1. 通信结构图2. Python 代码实现1)服务器端2)客户端 3. 注意 二、TCP 网络程序1. 通信结构图2. Python 代码实现1)服务器端2)客户端 3. 注意 三、文件下载1. PyCharm 程序传参1)图形化界面传参2…...

鸿蒙北向应用开发: deveco5.0 创建开源鸿蒙项目
本地已经安装deveco5.0 使用5.0创建开源鸿蒙项目 文件->新建->新建项目 直接创建空项目,一路默认 next 直接编译项目 直接连接开源鸿蒙5.0开发板编译会提示 compatibleSdkVersion and releaseType of the app do not match the apiVersion and releaseType on the dev…...
数据库故障排查指南:从入门到精通
1. 常见数据库故障类型 1.1 连接故障 数据库连接超时连接池耗尽网络连接中断认证失败1.2 性能故障 查询执行缓慢内存使用过高CPU使用率异常磁盘I/O瓶颈1.3 数据故障 数据不一致数据丢失数据损坏事务失败2. 故障排查流程 2.1 初步诊断 -- 检查数据库状态SHOW STATUS;SHOW PRO…...

国产linux系统(银河麒麟,统信uos)使用 PageOffice自定义Word模版中的数据区域
PageOffice 国产版 :支持信创系统,支持银河麒麟V10和统信UOS,支持X86(intel、兆芯、海光等)、ARM(飞腾、鲲鹏、麒麟等)、龙芯(Mips、LoogArch)芯片架构。 在实际的Wor…...

基于基金净值百分位的交易策略
策略来源:睿思量化小程序 基金净值百分位,是衡量当前基金净值在过去一段时间内的相对位置。以近一年为例,若某基金净值百分位为30%,意味着过去一年中有30%的时间基金净值低于当前值,70%的时间高于当前值。这一指标犹如…...

2025蓝桥杯JAVA编程题练习Day8
1. 路径 题目描述 小蓝学习了最短路径之后特别高兴,他定义了一个特别的图,希望找到图 中的最短路径。 小蓝的图由 2021 个结点组成,依次编号 1 至 2021。 对于两个不同的结点 a, b,如果 a 和 b 的差的绝对值大于 21࿰…...

通信安全堡垒:profinet转ethernet ip主网关提升冶炼安全与连接
作为钢铁冶炼生产线的安全检查员,我在此提交关于使用profinet转ethernetip网关前后对生产线连接及安全影响的检查报告。 使用profinet转ethernetip网关前的情况: 在未使用profinet转ethernetip网关之前,我们的EtherNet/IP测温仪和流量计与PR…...