论文速读《UAV-Flow Colosseo: 自然语言控制无人机系统》
- 论文链接:https://arxiv.org/abs/2505.15725
- 项目主页:https://prince687028.github.io/UAV-Flow/
0. 简介
近年来,无人机技术蓬勃发展,但如何让无人机像智能助手一样理解并执行人类语言指令,仍是一个前沿挑战。现有研究主要关注基于语言指令的长距离导航和目标搜索等高层级任务,而对于语言引导的精细化、短距离控制——即无人机的"基本功"——却缺乏深入研究。
北航团队创新性地将研究重点从传统的"飞得远"转向"飞得好",通过模仿学习框架使无人机能够精确执行短距离、反应式的飞行行为,首次在开放场景中实现了基于自然语言对话的无人机飞行控制。
图1:UAV-Flow基准概览。该基准包含一个大规模的真实世界数据集,用于基于语言条件的无人机模仿学习,具有以下特点:多个无人机平台、多样化的环境以及广泛的细粒度飞行技能任务。为了在Flow任务设置下进行系统性的实验分析,我们还提供了基于仿真的评估协议,并将VLA模型部署到真实无人机上。据我们所知,这是首次在开放环境中将VLA模型用于语言引导的无人机控制的真实世界部署。
1. 主要贡献
首创"Flying-on-a-Word"任务范式:研究团队将语言引导的无人机控制问题正式化为短距离、反应式飞行行为的精细轨迹控制任务。这一创新范式填补了现有研究在无人机低层次语言交互控制方面的空白,为无人机智能化发展开辟了新方向。
构建真实世界大规模数据集:团队创建了首个真实世界的UAV-Flow数据集,包含超过3万条真实飞行轨迹,覆盖多种运动类型和环境条件。数据采集工作在三所高校校园内展开,总覆盖面积达5.02平方公里,为模型训练和评估提供了坚实基础。
提出地面-无人机协作部署框架:针对无人机机载计算资源受限的实际挑战,研究团队设计了创新的地面-无人机协作策略。通过在地面站进行推理并实时反馈控制指令,成功实现了大模型在真实无人机平台的部署。
开发完整评估体系:设计了用于Flow任务性能评估的闭环仿真测试环境和评估指标,包括成功率(SR)和归一化动态时间规整(NDTW),为系统比较不同模型性能提供了标准化工具。
图2:传统无人机VLN与我们的Flow分析。左图:VLN任务旨在通过规划长时间跨度的路径,根据指令到达远距离目标。右图:Flow专注于在当前场景中,执行短距离的、基于语言引导的轨迹,朝向视觉锚定的目标。
图3:Flow任务的可视化。在相同的指令下,人类飞行员执行了多样化的真实世界飞行轨迹。我们展示了航拍场景中的二维飞行路径以及重建的三维轨迹。
2. 相关工作分析
2.1 传统视觉语言导航的局限性
现有的无人机语言控制研究主要借鉴地面机器人的视觉语言导航(VLN)技术。这些方法通常关注长距离路径规划和目标搜索等高层级推理任务,采用离散化的动作空间和简化的控制模式。然而,这种方法存在明显局限:
控制粒度粗糙:传统VLN方法通常采用离散的动作指令(如"前进"、“左转”),无法满足无人机精细化控制的需求。无人机作为六自由度的空中平台,需要连续、平滑的控制输入来实现稳定飞行。
缺乏动力学约束:地面机器人的运动相对简单,而无人机必须在三维空间中保持稳定,需要考虑空气动力学特性和飞行动力学约束。
任务场景单一:现有研究多聚焦于长距离导航任务,对于日常使用中更常见的短距离、精细化操作缺乏关注。
2.2 模仿学习在机器人控制中的应用
模仿学习作为一种重要的机器学习范式,在机器人控制领域展现出巨大潜力。通过学习专家行为模式,模仿学习能够:
捕获复杂策略:专家飞行员的操作包含丰富的隐式知识,如对环境的感知、风险评估和轨迹优化等,这些都难以用传统规则明确表达。
适应动态环境:真实飞行环境复杂多变,模仿学习能够帮助模型学会在不确定环境中做出合理决策。
提高安全性:通过学习专家的安全飞行策略,可以有效降低无人机操作风险。
图4:真实世界无人机数据采集流程
2.3 多模态感知技术的发展
随着深度学习技术的进步,多模态感知在机器人领域取得显著发展:
视觉-语言理解:大型视觉语言模型的出现为实现真正的视觉-语言-动作(VLA)系统奠定了基础。
跨模态对齐:如何有效地将语言指令、视觉观测和运动控制进行对齐,是实现智能无人机控制的关键挑战。
图5:UAV-Flow和UAV-Flow-Sim的数据集统计。我们展示了两个数据集中任务类型的分布(按百分比)以及轨迹距离的分布情况。
3. 核心算法深度解析
3.1 Flow任务的数学建模
研究团队将Flying-on-a-Word任务形式化为一个多模态决策问题。在每个时间步,无人机代理需要整合三种输入模态:
自然语言指令:描述期望的飞行行为,如"绕着建筑物飞行"或"向左平移5米"。
六自由度状态信息:包括位置坐标(x, y, z)和姿态角度(roll, pitch, yaw),提供无人机当前的精确空间状态。
第一视角视觉观测:来自无人机前置摄像头的实时图像,提供环境感知信息。
策略函数的设计需要将这三种异构信息有效融合,生成符合动力学约束的连续控制动作。
3.2 指令类型分类与处理策略
3.2.1 原始运动指令
这类指令涉及基础的飞行动作,包括:
- 起降控制:垂直起飞、降落、悬停等
- 平移运动:前后左右的位移控制
- 旋转动作:偏航、俯仰、翻滚调整
- 高度变化:上升、下降、保持高度
对于原始运动指令,算法主要关注运动意图理解,将语言描述映射到对应的控制参数。
3.2.2 目标交互指令
这类指令要求无人机与环境中的特定对象进行交互:
- 接近行为:飞向指定目标
- 环绕动作:围绕目标做圆周或椭圆轨迹
- 穿越行为:从目标的特定方向通过
- 跟随模式:保持与移动目标的相对位置
目标交互指令的处理更加复杂,需要结合视觉感知进行空间推理,实现感知驱动的轨迹规划。
3.3 多模态数据融合架构
3.3.1 语言编码模块
采用预训练的语言模型对自然语言指令进行编码,提取语义特征。为了处理指令的多样性,研究团队构建了固定命令集和开放词汇命令集两套标准:
固定命令集:标准化的指令表达,如所有"侧向穿越"任务统一标记为"从物体右侧飞过"。
开放词汇命令集:利用大语言模型生成多样化的表达方式,增强模型对自然语言变化的适应能力。
3.3.2 视觉感知模块
基于卷积神经网络或视觉Transformer的视觉编码器,从第一视角图像中提取环境特征。视觉模块需要识别关键的环境元素,如建筑物、车辆、行人等,为空间推理提供支持。
3.3.3 状态融合与动作生成
将语言特征、视觉特征和状态信息进行深度融合,通过注意力机制实现跨模态对齐。最终的动作生成器输出连续的控制指令,包括速度、角速度等底层控制参数。
3.4 地面-无人机协作框架
3.4.1 通信延迟处理策略
实际部署中,地面站与无人机之间的通信存在不可避免的延迟。传统的处理方法包括:
停止推理模式:无人机在推理期间暂停飞行,但这会破坏任务的连续性。
连续运动模式:无人机持续飞行,但可能因延迟响应导致控制失配。
研究团队创新性地提出了全局对齐连续运动方案,具有前瞻机制的分块动作预测能力。
3.4.2 前瞻预测机制
该机制的核心思想是提前预测多个时间步的目标点,形成一个目标轨迹序列。在每次推理时:
- 批量预测:一次性预测未来多个时间步的目标位置
- 全局融合:将预测目标点与当前无人机状态进行融合,生成全局坐标系下的目标姿态
- 延迟过滤:根据无人机运动延迟,过滤掉已经经过的目标点
- 平滑插值:对剩余目标点进行插值,生成平滑的控制轨迹
这种设计有效缓解了通信延迟对控制精度的影响,确保了飞行动作的连续性和稳定性。
3.5 轨迹质量评估算法
3.5.1 成功率评估
成功率(SR)评估基于人工检查预测轨迹是否在语义上满足指令要求。评估过程包括:
- 轨迹记录:完整记录预测轨迹和目标点
- 可视化渲染:生成2D和3D轨迹可视化
- 语义匹配:人工判断轨迹是否符合指令语义
3.5.2 归一化动态时间规整
针对某些轨迹虽然语义正确但路径次优的情况,引入归一化动态时间规整(NDTW)评估轨迹质量。
NDTW能够评估预测轨迹与参考轨迹之间的相似性,考虑了位置和方向的综合影响。在实现中,每个轨迹点被表示为6维向量,包含位置坐标(x, y, z)和方向余弦值(roll, yaw, pitch),全面捕获飞行状态的影响。
图6:大规模模型的真实世界无人机部署。无人机将视觉输入和状态数据流传输到地面站进行推理,并接收控制指令以实现实时飞行执行。
4. 实验结果与分析
4.1 仿真环境评估
研究团队构建了基于UnrealEngine的UAV-Flow-Sim仿真数据集,包含10,109条轨迹数据。仿真环境高度还原真实校园场景,支持多种可交互对象的部署。
数据分布特征:
- 轨迹长度主要集中在20米以内,符合短距离精细控制的任务特点
- 覆盖8种主要运动类型,包括平移、旋转、环绕、穿越等
- 包含原地旋转等近零位移轨迹,体现了任务的多样性
基准模型对比:
实验对比了多个基线模型在Flow任务上的表现,包括传统的强化学习方法、模仿学习方法以及最新的视觉语言模型。结果显示:
- 成功率方面:基于模仿学习的方法显著优于传统强化学习方法,证明了专家演示的重要性
- 轨迹质量方面:多模态融合模型在NDTW指标上表现最佳,验证了综合考虑语言、视觉和状态信息的必要性
- 泛化能力方面:在开放词汇指令上训练的模型展现出更强的泛化能力
图7:UAV-Flow-Sim数据集的综合评估我们在10种Flow任务类型上对代表性的VLN方法和来自机器人操作领域的VLA方法进行了基准测试,并使用成功率(SR)指标报告了性能表现。
4.2 真实世界部署验证
部署环境:在北京航空航天大学国际学院的开放场景中进行真机测试,环境包含建筑物、车辆、行人等多样化元素。
技术验证:
- 成功实现了视觉语言动作(VLA)系统的真机部署
- 验证了地面-无人机协作框架的有效性
- 实现了基于自然语言对话的实时无人机控制
性能表现:
- 控制延迟控制在可接受范围内(<500ms)
- 飞行轨迹与指令语义高度一致
- 系统运行稳定,未出现安全事故
挑战与解决:
- 通信稳定性:通过多重备份通信链路确保连接可靠性
- 环境适应性:利用真实世界数据训练的模型展现出良好的环境适应能力
- 安全保障:集成多层安全机制,包括紧急停止、自动返航等功能
图8:基于NDTW指标的UAV-FlowSim数据集综合评估。雷达图中外侧的浅绿色区域表示与物体交互的任务,而橙色区域表示基本运动任务。
5. 结论与展望
北航团队的UAV-Flow研究为无人机智能控制领域带来了革命性突破。通过提出Flying-on-a-Word任务范式,该工作成功将无人机控制从传统的"飞得远"升级为"飞得好",实现了语言指令与精细飞行控制的深度融合。
相关文章:

论文速读《UAV-Flow Colosseo: 自然语言控制无人机系统》
论文链接:https://arxiv.org/abs/2505.15725项目主页:https://prince687028.github.io/UAV-Flow/ 0. 简介 近年来,无人机技术蓬勃发展,但如何让无人机像智能助手一样理解并执行人类语言指令,仍是一个前沿挑战。现有研…...

ES6+中Promise 中错误捕捉详解——链式调用catch()或者async/await+try/catch
通过 unhandledrejection 捕捉未处理的 Promise 异常,手动将其抛出,最终让 window.onerror 捕捉,从而统一所有异常的处理逻辑 规范代码:catch(onRejected)、async...awaittry...catch 在 JavaScript 的 Pro…...
CDN安全加速:HTTPS加密最佳配置方案
CDN安全加速的HTTPS加密最佳配置方案需从证书管理、协议优化、安全策略到性能调优进行全链路设计,以下是核心实施步骤与注意事项: 一、证书配置与管理 证书选择与格式 证书类型:优先使用受信任CA机构颁发的DV/OV/EV证…...

解常微分方程组
Euler法 function euler_method % 参数设置 v_missile 450; % 导弹速度 km/h v_enemy 90; % 敌艇速度 km/h % 初始条件 x0 0; % 导弹初始位置 x y0 0; % 导弹初始位置 y xe0 120; % 敌艇初始位置 y t0 0; % 初始时间 % 时间步长和总时间 dt 0.01; % 时间步长 t_final …...

C++实现汉诺塔游戏自动完成
目录 一、汉诺塔的规则二、数学递归推导式三、步骤实现(一)汉诺塔模型(二)递归实现(三)显示1.命令行显示2.SDL图形显示 四、处理用户输入及SDL环境配置五、总结六、源码下载 一、汉诺塔的规则 游戏由3根柱子和若干大小不一的圆盘组成,初始状态下,所有的…...
在 ABP VNext 中集成 Serilog:打造可观测、结构化日志系统
🚀 在 ABP VNext 中集成 Serilog:打造可观测、结构化日志系统 📚 目录 🚀 在 ABP VNext 中集成 Serilog:打造可观测、结构化日志系统1. 为什么要使用结构化日志? 🤔2. 核心集成步骤 Ὦ…...

pikachu靶场通关笔记07 XSS关卡03-存储型XSS
目录 一、XSS 二、存储型XSS 三、源码分析 四、渗透实战 1、输入mooyuan试一试 2、注入Payload 3、查看数据库 4、再次进入留言板页面 本系列为通过《pikachu靶场通关笔记》的XSS关卡(共10关)渗透集合,通过对XSS关卡源码的代码审计找到XSS风险的…...
GitLab CI、GitHub Actions和Jenkins进行比较
特性/工具JenkinsGitLab CIGitHub Actions架构设计哲学Master/Agent分布式架构,通过插件扩展功能代码与CI/CD强耦合,内置Git仓库,基于Runner注册机制事件驱动,与GitHub深度集成,基于虚拟机的Job执行单元核心运行机制支…...
strcat及其模拟实现
#define _CRT_SECURE_NO_WARNINGS strcat 追加字符串 str "string"(字符串) cat "concatenate"(连接 / 追加) char* strcat(char* destination, const char* source); strcat的应用 方法一ÿ…...

OpenCV CUDA模块直方图计算------用于在 GPU 上执行对比度受限的自适应直方图均衡类cv::cuda::CLAHE
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cv::cuda::CLAHE 是 OpenCV 的 CUDA 模块中提供的一个类,用于在 GPU 上执行对比度受限的自适应直方图均衡(Contrast Limi…...

华为OD机试真题——矩形绘制(2025A卷:200分)Java/python/JavaScript/C/C++/GO最佳实现
2025 A卷 200分 题型 本专栏内全部题目均提供Java、python、JavaScript、C、C++、GO六种语言的最佳实现方式; 并且每种语言均涵盖详细的问题分析、解题思路、代码实现、代码详解、3个测试用例以及综合分析; 本文收录于专栏:《2025华为OD真题目录+全流程解析+备考攻略+经验分…...
通义开源视觉感知多模态 RAG 推理框架 VRAG-RL:开启多模态推理新时代
通义实验室的自然语言智能团队,凭借深厚的技术积累与创新精神,成功研发并开源了视觉感知多模态 RAG 推理框架 VRAG-RL,为 AI 在复杂视觉信息处理领域带来了重大突破。 传统 RAG 方法的局限 传统的检索增强型生成(RAG࿰…...
爬虫入门:从基础到实战全攻略
🧠 一、爬虫基础概念 1.1 爬虫定义 爬虫(Web Crawler)是模拟浏览器行为,自动向服务器发送请求并获取响应数据的一种程序。主要用于从网页中提取结构化数据,供后续分析、展示或存储使用。 1.2 爬虫特点 数据碎片化&…...
qemu安装risc-V 64
参考这篇文章https://developer.aliyun.com/article/1323996,其中在wsl下面安装可能会报错环境变量中有空格。 # clean_path.sh#!/bin/bash# 备份旧 PATH OLD_PATH"$PATH"# 过滤掉包含空格、制表符、换行的路径 CLEAN_PATH"" IFS: read -ra PA…...

JDBC连不上mysql:Unable to load authentication plugin ‘caching_sha2_password‘.
最近为一个spring-boot项目下了mysql-9.3.0,结果因为mysql版本太新一直报错连不上。 错误如下: 2025-06-01 16:19:43.516 ERROR 22088 --- [http-nio-8080-exec-2] o.a.c.c.C.[.[.[/].[dispatcherServlet] : Servlet.service() for servlet [dispat…...
AsyncIOScheduler与BackgroundScheduler的线程模型对比
1. BackgroundScheduler的线程机制 多线程模型:BackgroundScheduler基于线程池执行任务,默认通过ThreadPoolExecutor创建独立线程处理任务,每个任务运行在单独的线程中,主线程不会被阻塞。适用场景:适合同步…...
Python+MongoDb使用手册(精简)
这里是学了下面链接的内容,加上一些自己学习的内容综合的,大家也可以去看看这篇文章,写的特别好 【python】在Python中操作MongoDB的详细用法教程与实战案例分享_python轻松入门,基础语法到高阶实战教学-CSDN专栏 1 库࿱…...
前端面经 协商缓存和强缓存
HHTTPTTP缓存 协商缓存和强缓存 核心区别是否向服务器发起请求验证资源过期 强缓存 浏览器直接读取本地缓存,不发请求 HTTP响应头 Cache-Control:max-age3600资源有效期 Expires优先级低 如果有效浏览器返回200(浏览器换伪造的200) 应用静态资源 协商缓存 OK如果 1强缓…...

MacOS安装Docker Desktop并汉化
1. 安装Docker Desktop 到Docker Desktop For Mac下载对应系统的Docker Desktop 安装包,下载后安装,没有账号需要注册,然后登陆即可。 2. 汉化 前往汉化包下载链接下载对应系统的.asar文件 然后将安装好的文件覆盖原先的文件app.asar文件…...

Centos系统搭建主备DNS服务
目录 一、主DNS服务器配置 1.安装 BIND 软件包 2.配置主配置文件 3.创建正向区域文件 4.创建区域数据文件 5.检查配置语法并重启服务 二、从DNS服务配置 1.安装 BIND 软件包 2.配置主配置文件 3.创建缓存目录 4.启动并设置开机自启 一、主DNS服务器配置 1.安装 BIN…...
VUE项目部署IIS服务器手册
IIS部署Vue项目完整手册 📋 目录 基础概念准备工作Vue项目构建web.config详解IIS部署步骤不同场景配置常见问题实用配置模板 基础概念 Vue单页应用(SPA)工作原理 重要理解:Vue项目是单页应用,这意味着:…...

使用 HTML + JavaScript 实现在线考试系统
在现代的在线教育平台中,在线考试系统是不可或缺的一部分。本文将通过一个完整的示例,演示如何使用 HTML、CSS 和 JavaScript 构建一个支持多种题型的在线考试系统。 效果演示 项目概述 本项目主要包含以下核心功能: 支持4种常见题型&…...

谷歌工作自动化——仙盟大衍灵机——仙盟创梦IDE
下载地址 https://chromewebstore.google.com/detail/selenium-ide/mooikfkahbdckldjjndioackbalphokd https://chrome.zzzmh.cn/info/mooikfkahbdckldjjndioackbalphokd...
嵌入式(C语言篇)Day13
嵌入式Day13 一段话总结 文档主要介绍带有头指针和尾指针的单链表的实现及操作,涵盖创建、销毁、头插、尾插、按索引/数据增删查、遍历等核心操作,强调头插/尾插时间复杂度为O(1),按索引/数据操作需遍历链表、时间复杂度为O(n),并…...
Oracle 的V$LOCK 视图详解
Oracle 的V$LOCK 视图详解 V$LOCK 是 Oracle 数据库中最重要的动态性能视图之一,用于显示当前数据库中锁的持有和等待情况。 一、V$LOCK 视图结构 列名数据类型描述SIDNUMBER持有或等待锁的会话标识符TYPEVARCHAR2(2)锁类型标识符ID1NUMBER锁标识符1(…...

秒杀系统—1.架构设计和方案简介
大纲 1.秒杀系统的方案设计要点 2.秒杀系统的数据 页面 接口的处理方案 3.秒杀系统的负载均衡方案底层相关 4.秒杀系统的限流机制和超卖问题处理 5.秒杀系统的异步下单和高可用方案 1.秒杀系统的方案设计要点 (1)秒杀促销活动的数据处理 (2)秒杀促销活动的页面处理 (…...

基于FashionMnist数据集的自监督学习(生成式自监督学习AE算法)
目录 一,生成式自监督学习 1.1 简介 1.2 核心思想 1.3 常见算法 1.3.1 自动编码器(Autoencoder) 1.3.2 生成对抗网络(GANs) 1.3.3 变分自编码器(VAE) 1.3.4 Transformer-based 模型&…...

从监控到告警:Prometheus+Grafana+Alertmanager+告警通知服务全链路落地实践
文章目录 一、引言1.1 监控告警的必要性1.2 监控告警的基本原理1.2.1 指标采集与存储1.2.2 告警规则与触发机制1.2.3 多渠道通知与闭环 二、技术选型与架构设计2.1 为什么选择 Prometheus 及其生态2.1.1 Prometheus 优势分析2.1.2 Grafana 可视化能力2.1.3 Alertmanager 灵活告…...
AUTOSAR图解==>AUTOSAR_EXP_AIADASAndVMC
AUTOSAR高级驾驶辅助系统与车辆运动控制接口详解 基于AUTOSAR R22-11标准的ADAS与VMC接口规范解析 目录 1. 引言2. 术语和概念说明 2.1 坐标系统2.2 定义 2.2.1 乘用车重心2.2.2 极坐标系统2.2.3 车辆加速度/推进力方向2.2.4 倾斜方向2.2.5 方向盘角度2.2.6 道路变量2.2.7 曲率…...

WPF【09】WPF基础入门 (三层架构与MVC架构)
9-2 【操作】WPF 基础入门 新建一项目 Create a new project - WPF Application (A project for creating a .NET Core WPF Application) - Next - .NET 5.0 (Current) - Create 项目创建完成,VS自动打开 GUI用户界面,格式是 .xaml文件,跟xm…...