当前位置: 首页 > article >正文

CVPR2025 | 首个多光谱无人机单目标跟踪大规模数据集与统一框架, 数据可直接下载

论文介绍

题目:MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking

期刊:IEEE/CVF Computer Vision and Pattern Recognition Conference

论文:https://arxiv.org/abs/2503.17699

数据:https://github.com/q2479036243/MUST-Multispectral-UAV-Single-Object-Tracking

年份:2025

单位:北京理工大学

【遥感图像分类实战视频教程】 

这才是科研人该学的!基于深度学习的遥感图像分类实战,一口气学完图像处理、特征提取、分类算法、变化检测、图像配准、辐射校正等7大算法!通俗易懂,新手也能学会!https://www.bilibili.com/video/BV1SPExznEHe/?spm_id_from=333.337.search-card.all.click&vd_source=75de451a527a341260671f8dfa953400

创新点

提出了首个面向无人机多光谱单目标跟踪的大规模数据集(MUST),包含250个视频序列,涵盖12类真实挑战情境,填补了该领域的空白。

构建了统一融合光谱、空间和时间特征的跟踪框架(UNTrack),综合利用历史光谱提示、初始模板和连续帧信息,提高在复杂场景中的鲁棒性。

引入非对称注意力机制和光谱背景抑制模块,有效降低计算量,提升了目标定位的精度和效率。

设计了光谱提示编码器并结合参数迁移策略,使RGB预训练模型能有效适用于多光谱任务,大幅提升模型性能。

数据

MUST 数据集

  • 基本信息
    包含 250 个多光谱视频序列,共 42671 帧,分辨率为 1200×900,帧率 5 fps。

  • 光谱特征
    每帧图像具有 8 个波段,覆盖 390–950 nm,涵盖可见光与近红外,增强目标与背景的光谱可分性。

  • 挑战属性
    每个序列标注了 12 类跟踪挑战,如遮挡、快速运动、相似颜色、背景杂乱、出视野等,全面模拟真实无人机跟踪环境。

  • 采集与标注
    数据由无人机搭载多光谱相机采集,飞行高度 20–250 米。所有图像经几何与辐射校正,并由人工精确标注目标框和遮挡状态。

方法

本文提出了一种名为 UNTrack 的多光谱无人机目标跟踪框架。该方法通过统一建模光谱、空间和时间特征,提升在复杂场景下的跟踪鲁棒性与效率。整体结构包括三个主要模块:统一非对称Transformer、光谱提示编码器,以及预测头。

该模块的目标是从多个维度提取目标的判别特征,具体包括:

  • 输入信息:将历史帧的光谱提示、初始模板图像和连续搜索帧作为统一输入,构建一个融合的特征序列。

  • 非对称注意力机制:与标准Transformer不同,UNTrack只保留与目标定位密切相关的注意力路径,例如模板与搜索帧之间的交互,历史提示与搜索帧之间的交互等;而剪除掉冗余或干扰性的部分(如模板与提示之间的相互作用),以降低计算开销并减少噪声干扰。

  • 搜索序列输入:不同于只用当前帧进行搜索,UNTrack引入连续帧作为序列输入,从而更好地建模目标在时间上的连续性和运动轨迹。

2. 光谱背景消除机制

为减少背景干扰和计算成本,UNTrack在Transformer中嵌入了一个背景消除模块,流程如下:

  • 基于注意力结果判断图像中各区域与目标的相关性。

  • 只保留与目标高度相关的区域作为候选,其余区域视为背景并剔除。

  • 候选区域比例会在训练中动态调整,以适应不同场景下的目标显著性。

该机制利用多光谱信息增强了目标与背景的光谱差异感知,能够有效过滤外部干扰。

3. 光谱提示编码器

该模块用于生成并更新代表目标材料特征的光谱提示,具体做法如下:

  • 首先,将历史光谱提示与当前模板信息进行特征融合,提取目标的稳定光谱特征。

  • 使用 compression-excitation机制(通过轻量卷积和多层感知机)聚焦关键光谱通道,抑制冗余信息。

  • 最终输出一个紧凑的光谱向量,用作下一个时间点的跟踪输入,从而增强跨帧一致性。

该设计确保了模型能持续感知目标的“材料本质”,即使目标在颜色或外形上发生变化,也能维持准确跟踪。

4. 预测头与损失设计

UNTrack采用双分支预测头来同时进行目标定位与分类:

  • 一条分支用于输出目标位置的边界框。

  • 另一条分支用于输出每个候选区域是否为目标的置信度。

训练阶段使用了常见的分类损失与边界框回归损失,保证定位精度和分类准确性。

结果与分析

本文方法在多光谱无人机跟踪数据集上全面优于现有主流方法,表现出更强的鲁棒性和适应性。同时在多光谱和RGB通用数据集上也展现出良好的迁移能力,证明了其结构的通用性与效率。

【遥感图像分类实战视频教程】 

这才是科研人该学的!基于深度学习的遥感图像分类实战,一口气学完图像处理、特征提取、分类算法、变化检测、图像配准、辐射校正等7大算法!通俗易懂,新手也能学会!https://www.bilibili.com/video/BV1qYvaePEoE/?spm_id_from=333.337.search-card.all.click&vd_source=75de451a527a341260671f8dfa953400

相关文章:

CVPR2025 | 首个多光谱无人机单目标跟踪大规模数据集与统一框架, 数据可直接下载

论文介绍 题目:MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking 期刊:IEEE/CVF Computer Vision and Pattern Recognition Conference 论文:https://arxiv.org/abs/2503.17699 数据&#x…...

Docker实现MySQL数据库主从复制

一、拉取数据库镜像 docker pull mysql:5.7二、创建两个数据库(一主一从模式) mysql01(主) 1.docker run -d -p 3310:3306 -v /root/mysql/node-1/init:/docker-entrypoinit-initdb.d -v /root/mysql/node-1/config:/etc/mysql/conf.d -v /root/mysq…...

PTN中的L2VPN与L3VPN技术详解

文章目录 一、PTN网络中的VPN技术概述二、L2VPN(二层虚拟专用网络)技术解析1. 核心技术原理2. 主要类型3. 应用场景4. 技术优缺点 三、L3VPN(三层虚拟专用网络)技术解析1. 核心技术原理2. 主要类型3. 应用场景4. 技术优缺点 四、L…...

2025长三角杯数学建模B题教学思路分析:空气源热泵供暖的温度预测

2025长三角杯数学建模B题教学思路模型代码,详细内容见文末名片 一、问题背景 在当今“电供暖”日益普及的大背景下,空气源热泵凭借其独特优势,在楼宇供暖领域崭露头角,成为缓解电网调峰压力的得力助手。然而,供暖过程…...

告别传统的防抖机制,提交按钮的新时代来临

目录 背景 目标 核心代码 样式定义:让图标居中、响应父级颜色 SVG 图标:轻量、无依赖的 loading 图标 指令注册:全局注册 v-bLoading DOM 操作:添加与清除 loading 图标 1. 添加 loading 图标 2. 清除 loading 图标 动画…...

InternVL3: 利用AI处理文本、图像、视频、OCR和数据分析

InternVL3推动了视觉-语言理解、推理和感知的边界。 在其前身InternVL 2.5的基础上,这个新版本引入了工具使用、GUI代理操作、3D视觉和工业图像分析方面的突破性能力。 让我们来分析一下是什么让InternVL3成为游戏规则的改变者 — 以及今天你如何开始尝试使用它。 InternVL…...

关于 Web安全:1. Web 安全基础知识

一、HTTP/HTTPS 协议详解 1. HTTP协议基础 什么是 HTTP? HTTP(HyperText Transfer Protocol)是互联网中浏览器和服务器之间传输数据的协议,基于请求-响应模式。它是一个无状态协议,意思是每次请求都是独立的&#x…...

西门子 S1500 PLC 通过 Profinet 对 6 台施耐德 ATV304 变频器的控制,用于 6 台升降台的位置控制。

西门子 S1500 PLC 通过 Profinet 对 6 台施耐德 ATV304 变频器的控制,用于 6 台升降台的位置控制。程序主要特点: 模块化设计:采用功能块数组结构,实现对多台设备的统一控制循环控制:使用 FOR 循环遍历每台升降台&…...

重构金融数智化产业版图:中电金信“链主”之道

近日,《商学院》杂志独家专访了中电金信常务副总经理(主持经营工作)冯明刚,围绕“金融科技”“数字底座”“架构转型”“AI驱动”等议题,展开了一场关于未来架构、技术变革与系统创新的深入对话。 当下,数字…...

高光谱遥感图像处理之数据分类的fcm算法

基于模糊C均值聚类(FCM)的高光谱遥感图像分类MATLAB实现示例 %% FCM高光谱图像分类示例 clc; clear; close all;%% 数据加载与预处理 % 加载示例数据(此处使用公开数据集Indian Pines的简化版) load(indian_pines.mat); % 包含变…...

2025年PMP 学习十六 第11章 项目风险管理 (总章)

2025年PMP 学习十六 第11章 项目风险管理 (总章) 第11章 项目风险管理 序号过程过程组1规划风险管理规划2识别风险规划3实施定性风险分析规划4实施定量风险分析规划5规划风险应对执行6实施风险应对执行7监控风险监控 目标: 提高项目中积极事件的概率和…...

IEEE 列表会议第五届机器人、自动化与智能控制国际会议

会议地点:中国 成都 会议官网:ICRAIC 主办单位:成都理工大学 协办单位:成都大学 早鸟截稿:2025年7月15日 截稿时间:2025年8月20日 出版信息:IEEE出版&EI数据库 会议时间&#xff1a…...

基于 React Hook 封装 Store 的三种方案

基于 React Hook 封装 Store 的三种方案 方案一&#xff1a;基于 useSyncExternalStore 的轻量级 Store&#xff08;推荐&#xff09; import { useSyncExternalStore } from react;type Store<T> {state: T;listeners: Set<() > void>; };function createSt…...

Gmsh 读取自定义轮廓并划分网格:深入解析与实践指南

一、Gmsh 简介 (一)Gmsh 是什么 Gmsh 是一款功能强大的开源有限元网格生成器,广泛应用于工程仿真、数值模拟以及计算机图形学等领域。它为用户提供了从几何建模到网格划分的一整套解决方案,能够有效处理复杂几何形状,生成高质量的二维和三维网格,满足多种数值方法的需求…...

bili.png

import pygame as pg import sys import time import randompg.init() screen pg.display.set_mode((800,500)) pg.display.set_caption(runcool) screen.fill((135, 206, 235)) bili pg.image.load(bili.png)#得分 coin 0 game_font pg.font.Font(None, 50)#人物大小…...

【设计模式】- 行为型模式1

模板方法模式 定义了一个操作中的算法骨架&#xff0c;将算法的一些步骤推迟到子类&#xff0c;使得子类可以不改变该算法结构的情况下重定义该算法的某些步骤 【主要角色】&#xff1a; 抽象类&#xff1a;给出一个算法的轮廓和骨架&#xff08;包括一个模板方法 和 若干基…...

GMT之Bash语言使用

GMT的操作有自己的逻辑和“命令”&#xff0c;但GMT是可以用Bash语言控制的&#xff0c;所以常常以.sh为后缀写GMT程序。 GMT程序运行步骤如下&#xff1a; 采用cd &#xff0c;定位到指定文件夹&#xff1b;以sh ***.sh运行GMT&#xff0c;得到结果。 另外&#xff0c;遇到…...

AI神经网络降噪算法在语音通话产品中的应用优势与前景分析

采用AI降噪的语言通话环境抑制模组性能效果测试 一、引言 随着人工智能技术的快速发展&#xff0c;AI神经网络降噪算法在语音通话产品中的应用正逐步取代传统降噪技术&#xff0c;成为提升语音质量的关键解决方案。相比传统DSP&#xff08;数字信号处理&#xff09;降噪&#…...

ISBI 2012 EM 神经元结构分割数据集复现UNet

一些笔记在代码的注释中 因为使用的数据集比较简单&#xff0c;所以没有使用模型可视化和调试的内容&#xff0c;只是简单的数据集预处理和模型的搭建以及训练。 # 1. PyTorch 基础模块 import torch # 张量操作 import torch.nn as nn # 构建神经网…...

Java视频流RTMP/RTSP协议解析与实战代码

在Java中实现视频直播的输入流处理&#xff0c;通常需要结合网络编程、多媒体处理库以及流媒体协议&#xff08;如RTMP、HLS、RTSP等&#xff09;。以下是实现视频直播输入流的关键步骤和技术要点&#xff1a; 1. 视频直播输入流的核心组件 网络输入流&#xff1a;通过Socket或…...

springboot连接高斯数据库(GaussDB)踩坑指南

1. 用户密码加密类型与gsjdbc4版本不兼容问题 我的数据库&#xff0c;设置的加密类型(password_encryption_type)是2&#xff0c; 直接使用gsjdbc4.jar连接数据库报错。 org.postgresql.util.PSQLException: Invalid or unsupported by client SCRAM mechanisms 后使用gsjdb…...

c++20引入的三路比较操作符<=>

目录 一、简介 二、三向比较的返回类型 2.1 std::strong_ordering 2.2 std::weak_ordering 2.3 std::partial_ordering 三、对基础类型的支持 四、自动生成的比较运算符函数 4.1 std::rel_ops的作用 4.2 使用<> 五、兼容他旧代码 一、简介 c20引入了三路比较操…...

Cursor开发酒店管理系统

目录&#xff1a; 1、后端代码初始化2、使用Cursor打开spingboot项目3、前端代码初始化4、切换其他大模型5、Curosr无限续杯 1、后端代码初始化 找一个目录&#xff0c;使用idea在这个目录下新建springboot的项目。 2、使用Cursor打开spingboot项目 在根目录下新建.cursor文件…...

nosqlbooster pojie NoSQLBooster for MongoDB

测过可用&#xff0c;注意 asar的安装使用报错改用 npx asar extract app.asar app 路径 C:\Users{computerName}\AppData\Local\Programs\nosqlbooster4mongo\resources npm install asar -g asar extract app.asar app 打开shared\lmCore.js 修改MAX_TRIAL_DAYS3000 修改…...

基于 Flink 的实时推荐系统:从协同过滤到多模态语义理解

基于 Flink 的实时推荐系统&#xff1a;从协同过滤到多模态语义理解 嘿&#xff0c;各位技术小伙伴们&#xff01;在这个信息爆炸的时代&#xff0c;你是不是常常惊叹于各大平台仿佛能 “读懂你的心”&#xff0c;精准推送你感兴趣的内容呢&#xff1f;今天&#xff0c;小编就…...

【HBase整合Hive】HBase-1.4.8整合Hive-2.3.3过程

HBase-1.4.8整合Hive-2.3.3过程 一、摘要二、整合过程三、注意事项 一、摘要 HBase集成Hive&#xff0c;由Hive来编写SQL语句操作HBase有以下好处&#xff1a; 简化操作&#xff1a;Hive提供了类SQL的查询语言HiveQL&#xff0c;对于熟悉SQL的用户来说&#xff0c;无需学习HBas…...

图像对比度调整(局域拉普拉斯滤波)

一、背景介绍 之前刷对比度相关调整算法&#xff0c;找到效果不错&#xff0c;使用局域拉普拉斯做图像对比度调整&#xff0c;尝试复现和整理了下相关代码。 二、实现流程 1、基本原理 对输入图像进行高斯金字塔拆分&#xff0c;对每层的每个像素都针对性处理&#xff0c;生产…...

如何在本地打包 StarRocks 发行版

字数 615&#xff0c;阅读大约需 4 分钟 最近我们在使用 StarRocks 的时候碰到了一些小问题&#xff1a; • 重启物化视图的时候会导致视图全量刷新&#xff0c;大量消耗资源。- 修复 PR&#xff1a;https://github.com/StarRocks/starrocks/pull/57371• excluded_refresh_tab…...

git使用的DLL错误

安装好git windows客户端打开git bash提示 Error: Could not fork child process: Resource temporarily unavailable (-1). DLL rebasing may be required; see ‘rebaseall / rebase –help’. 提示 MINGW64的DLL链接有问题&#xff0c;其实是Windows的安全中心限制了&…...

Elasticsearch倒排索引核心原理面试题

倒排索引核心原理面试题 🚀 目录 基础概念性能优化应用场景数据结构设计问题排查扩展思考基础概念 🔍 面试题1:基础概念 题目:Elasticsearch/Lucene的倒排索引(Inverted Index)是如何工作的?请描述从关键词搜索到返回文档的完整流程。 👉 查看参考答案 倒排索引…...