当前位置: 首页 > news >正文

Single-Model and Any-Modality for Video Object Tracking——2024——cvpr-阅读笔记

Single-Model and Any-Modality for Video Object Tracking

  • 摘要
  • 相关工作
  • 创新处
  • Method
    • Shared embedding
    • Modal prompting
    • RGB Tracker based on Transformer
    • Overall
  • Experiiment
    • Dataset
      • RGB-D samples are sourced from DepthTrack
      • RGB-T samples are extracted from LasHeR
      • RGB-E samples are obtained from VisEven
    • 对比试验
    • 模型泛化
    • 主成分分析
    • Ablation Studies
  • 结论与未来工作

这是一篇2024年发表在cvpr的文章,研究领域是利用辅助模态目标跟踪
模型用一句话来概述就是:

Our primary focus is on multimodal tracking, with the constraint that only one modality is available at a time

论文地址
阅读笔记

摘要

在视频对象跟踪领域,深度、热成像或事件数据等辅助模态已成为补充RGB跟踪器的宝贵资产。在实践中,大多数现有的RGB跟踪器学习单一的参数集,以便在各种数据集和应用中使用它们。然而,对于多模态跟踪,类似的单一模型统一性面临着几个挑战。这些挑战源于输入的固有异质性——每个输入都有特定模态的表示,多模态数据集的稀缺性,以及并非所有模态在任何时候都存在。在本研究中,我们引入了Un-Track,这是一种针对任何模态的单一参数集的统一跟踪器。为了处理任何模态,我们的方法通过
低秩分解和重构技术学习它们的共同潜在空间。更重要的是,我们仅使用RGB-X对来学习共同潜在空间。这种独特的共享表示无缝地将所有模态绑定在一起,实现有效的统一,并适应任何缺失的模态,所有这些都在单个基于transfor mer的架构中实现。在 DepthTrack 数据集上,我们的 Un-Track 实现了 +8.1 的绝对 F 分数增益,仅增加了 +2.14(超过 21.50)千兆浮点运算次数和 +6.6M(超过 93M)个参数,通过一种简单而高效的提示策略。在五个具有不同模态的基准数据集上进行的大量比较表明,Un-Track 超越了最先进的统一跟踪器和特定模态的对应跟踪器,验证了我们的有效性和实用性。源代码可在 https://github.com/
Zongwei97/UnTrack 公开获取。

相关工作

现有模型已经实现了多模态跟踪,但是要不就是依赖于modality-specifc blocks,要不就是还需要 modality-specifc fine-tuning -----于是提出了一种单一参数集下单多模态跟踪模型

现有模型已经实现了如何处理缺失的模态,但是要不就是受制于多模态数据匹配的缺失,要不就是 substantial computational resources , -----于是提出了一种每次只需要relies solely on RGB-X pairs for training 而 without the need for all modalities to co-occur 的模型,因为有了提前训练融合的edge priors就不需要所有模态同时出现

创新处

通过factorization prior 使得 from the low-rank latent space learn common(shared) embedding,从而将异构模态表示转换为统一表示
多种模态学习一个低维的潜在空间,尽管可以提取部分的共同语义,但可能会损失每种模态的独特性,为了充分利用辅助输入,就利用了外部模态提示
同时这种简单高效 light weight的提示策略,使得参数和计算量增加的很少

Method

Shared embedding

在这里插入图片描述
3类7个----看代码都是通过一线性层定义MLP
在这里插入图片描述

Modal prompting

在这里插入图片描述

  • 为什么要feature分开这样画了,因为整个RGB Tracker是基于Transformer的,其实就是vit 然后外部模态提示输入进来的图像就是分成patch了然后根据评分函数把转化后的token再分类
  • 和第一个模块一样都是,先进行通道融合再通过MLP投影到低秩空间
  • 主要对不确定标记的进行处理,主要是token fusion 通过相邻可靠的,还有不确定的融合 然后那些可靠的token同时就进行了保留

RGB Tracker based on Transformer

在这里插入图片描述
为了缓解在稀疏下游多模态数据集上的过拟合问题,我们采用了一种基于 Transformer 的 RGB 跟踪器, 其参数被冻结, 并针对多模态跟踪进行了微调。
This leads to the replacement of the frozen attention mechanism h =W0x with the new LoRA attention:
在这里插入图片描述

Overall

在这里插入图片描述
During training, our model learns the shared embedding from samples in the mixed dataset M, effectively binding all modalities together.
As for inference, our model can accommodate any modal input X, thanks to the emergent alignment.

Experiiment

Dataset

RGB-D samples are sourced from DepthTrack

DepthTrack: Unveiling the Power of RGBD Tracking(ICCV 2021)
在这里插入图片描述

RGB-T samples are extracted from LasHeR

LasHeR: A Large-scale High-diversity Benchmark for RGBT Tracking(TIP 2021)
出自安徽大学李成龙课题组
在这里插入图片描述
In addition, we release the unalignedversion of LasHeR to attract the research interest for alignmentfree RGBT tracking

RGB-E samples are obtained from VisEven

VisEvent: Reliable Object Tracking viaCollaboration of Frame and Event Flows(IEEE TRANSACTIONS ON CYBERNETICS 2021)
这是第一个从真实世界收集的用于单目标跟踪的大规模可视事件基准数据集
Propose a cross-modality transformer to achieve more effective feature fusion between visible and event data
Construct more than 30 baseline methods by extending current single-modality trackers into dualmodality versions

对比试验

在这里插入图片描述

模型泛化

Assess the versatility by evaluating performance on datasets that differ from the training ones
在这里插入图片描述

此外,还在缺少D的情况,在DepthTrack上训练
在这里插入图片描述
In practical scenarios, challenges arise when there are no modal clues available, a typical case is when the auxiliary sensor fails to work properly
对此
We address this demanding case in our study by substituting the modal input with dummy values 文章中也没有说具体方法,可能就是之前训练阶段的先验了

主成分分析

在这里插入图片描述
We perform all experiments on the DepthTrack testing set under a single parameter set setting
然后对比原先:
在这里插入图片描述

Ablation Studies

在这里插入图片描述
从而可以说明,Low-rank approximation plays a vital role in our model
这些low-rank variants 比SOTA在单一参数集下都表现好,可以看出模型的resilience
对于第四个图
Modal Prompting
Score function based on their confdence scores. So we exploredifferent percentiles for the number of positive, which is the same as the number of negative tokens, leaving the rest as uncertain tokens

结论与未来工作

实现了将所有模态绑定在一起的共享嵌入, 克服了它们异构的表示。
这种统一是通过轻量级的模态提示和内部微调实现的 继承了大规模预训练跟踪器的优点, 而没有引入大量的计算负担。
Surpasses both SOTA unifed trackers and modality-specifc counterparts
Introduce only +2.14 (over 21.50) GFLOPs with +6.6M (over 93M) parameters
Model with a single set of parameters already achieves very competitive performance compared to the thermal-specifc ViPT version.
Ensure a training-friendly pipeline that can be effciently employed end-to-end on a single 24G GPU

相关文章:

Single-Model and Any-Modality for Video Object Tracking——2024——cvpr-阅读笔记

Single-Model and Any-Modality for Video Object Tracking 摘要相关工作创新处MethodShared embeddingModal promptingRGB Tracker based on TransformerOverall ExperiimentDatasetRGB-D samples are sourced from DepthTrackRGB-T samples are extracted from LasHeRRGB-E s…...

阳振坤:AI 大模型的基础是数据,AI越发达,数据库价值越大

2024年1月12日,第四届OceanBase数据库大赛决赛在北京圆满落幕。在大赛的颁奖典礼上,OceanBase 首席科学家阳振坤老师为同学们献上了一场主题为“爱上数据库”的公开课,他不仅分享了个人的成长历程,还阐述了对数据库行业现状与未来…...

Linux磁盘空间不足,12个详细的排查方法

在Linux系统运维过程中,磁盘空间不足是一个常见且棘手的问题。当磁盘空间被占满时,系统的正常运行会受到影响,甚至可能导致服务中断。因此,迅速有效地排查和解决磁盘空间问题显得尤为重要。本文将详细介绍16个排查Linux磁盘空间问…...

Spring Web MVC综合案例

承接上篇文章——Spring Web MVC探秘,在了解Spring Web MVC背后的工作机制之后,我们接下来通过三个实战项目,来进一步巩固一下前面的知识。 一、计算器 效果展示:访问路径:http://127.0.0.1:8080/calc.html 前端代码&a…...

微软预测 AI 2025,AI Agents 重塑工作形式

1月初,微软在官网发布了2025年6大AI预测,分别是:AI模型将变得更加强大和有用、AI Agents将彻底改变工作方式、AI伴侣将支持日常生活、AI资源的利用将更高效、测试与定制是开发AI的关键以及AI将加速科学研究突破。 值得一提的是,微…...

lvgl性能调优

LV_USE_PERFORMANCE lvgl_performance 是 LVGL 提供的性能分析工具,可以帮助开发者评估和优化图形库的性能。在一些特定的版本中,lvgl_performance 是一个宏或者工具,用来分析性能瓶颈,特别是图形渲染的效率。 下面是如何使用 l…...

CSS实现实现票据效果 mask与切图方式

一、“切图”的局限性 传统的“切图”简单暴力,但往往缺少适应性。 适应性一般有两种,一是尺寸自适应,二是颜色可以自定义。 举个例子,有这样一个优惠券样式 关于这类样式实现技巧,之前在这篇文章中有详细介绍: CSS 实现优惠券的技巧 不过这里略微不一样的地方是,两个…...

STL--list(双向链表)

目录 一、list 对象创建 1、默认构造函数 2、初始化列表 3、迭代器 4、全0初始化 5、全值初始化 6、拷贝构造函数 二、list 赋值操作 1、赋值 2、assign(迭代器1,迭代器2) 3、assign(初始化列表) 4、assig…...

ZooKeeper 中的 ZAB 一致性协议与 Zookeeper 设计目的、使用场景、相关概念(数据模型、myid、事务 ID、版本、监听器、ACL、角色)

参考Zookeeper 介绍——设计目的、使用场景、相关概念(数据模型、myid、事务 ID、版本、监听器、ACL、角色) ZooKeeper 设计目的、特性、使用场景 ZooKeeper 的四个设计目标ZooKeeper 可以保证如下分布式一致性特性ZooKeeper 是一个典型的分布式数据一致…...

“深入浅出”系列之C++:(11)推荐一些C++的开源项目

1. SQLiteCpp - 简单易用的Sqlite C封装库 仓库地址:https://github.com/SRombauts/SQLiteCpp 简介:SQLiteCpp是一个对Sqlite数据库进行C封装的开源库,代码行数约2,500行。它提供了简洁易用的接口,使得在C项目中操作Sqlite数据库…...

《重生到现代之从零开始的C++生活》—— 类和对象2

类的默认成员函数 默认成员函数就是用户没有显示实现,编译器会自动生成的成员函数,一个类会默认生成6个成员函数 构造函数 构造函数时特殊的成员函数,构造函数的初始化对象 函数名与类名相同 没有返回值 对象实例化的时候胡自动调用构造…...

“UniApp的音频播放——点击视频进入空白+解决视频播放器切换视频时一直加载的问题”——video.js、video-js.css

今天,又解决了一个单子“UniApp的音频播放——点击视频进入空白解决视频播放器切换视频时一直加载的问题” 一、问题描述 在开发一个基于 video.js 的视频播放器时,用户通过上下滑动切换视频时,视频一直处于加载状态,无法正常播放…...

【Pandas】pandas Series transform

Pandas2.2 Series Function application, GroupBy & window 方法描述Series.apply()用于将一个函数应用到 Series 的每个元素或整个 SeriesSeries.agg()用于对 Series 数据进行聚合操作Series.aggregate()用于对 Series 数据进行聚合操作Series.transform()用于对 Series…...

【博客之星2024年度总评选】年度回望:我的博客之路与星光熠熠

【个人主页】Francek Chen 【人生格言】征途漫漫,惟有奋斗! 【热门专栏】大数据技术基础 | 数据仓库与数据挖掘 | Python机器学习 文章目录 前言一、个人成长与盘点(一)机缘与开端(二)收获与分享 二、年度创…...

飞牛 使用docker部署Watchtower 自动更新 Docker 容器

Watchtower是一款开源的Docker容器管理工具,其主要功能在于自动更新运行中的Docker容器 Watchtower 支持以下功能: 自动拉取镜像并更新容器。 配置邮件通知。 定时执行容器更新任务。 compose搭建Watchtower 1、新建文件夹 先在任意位置创建一个 w…...

【Block总结】TAdaConv时序自适应卷积,轻量高效的时间建模卷积|即插即用

论文解读:Temporally-Adaptive Models for Efficient Video Understanding 论文信息 标题:Temporally-Adaptive Models for Efficient Video Understanding 发表时间:2023年 作者:黄子渊等 论文链接:arXiv 论文 代…...

Spring Boot 项目启动报错 “找不到或无法加载主类” 解决笔记

一、问题描述 在使用 IntelliJ IDEA 开发基于 Spring Boot 框架的 Java 程序时,原本项目能够正常启动。但在后续编写代码并重建项目后,再次尝试运行却出现了 “错误:找不到或无法加载主类 com.example.springboot.SpringbootApplication” 的…...

CSS 网络安全字体

适用于 HTML 和 CSS 的最佳 Web 安全字体 下面列出了适用于 HTM L和 CSS 的最佳 Web 安全字体: Arial (sans-serif)Verdana (sans-serif)Helvetica (sans-serif)Tahoma (sans-serif)Trebuchet MS (sans-serif)Times New Roman (serif)Georgia (serif)Garamond (se…...

Linux高并发服务器开发 第十五天(fork函数)

目录 1.fork 函数 1.1创建子进程 1.2getpid 函数 1.3getppid 函数 1.4getgid函数 1.5循环创建 n 个子进程 1.6fork后父子进程异同 1.6.1读时共享,写时复制 1.6.2fork后父子进程共享 1.6.3gdb调试父子进程 1.fork 函数 pid_t fork(void); 成功:…...

【人工智能】Python中的自动化机器学习(AutoML):如何使用TPOT优化模型选择

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门! 解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 随着机器学习在各行业的广泛应用,模型选择和优化成为了数据科学家面临的主要挑战之一。自动化机器学习&am…...

【网络】每天掌握一个Linux命令 - iftop

在Linux系统中,iftop是网络管理的得力助手,能实时监控网络流量、连接情况等,帮助排查网络异常。接下来从多方面详细介绍它。 目录 【网络】每天掌握一个Linux命令 - iftop工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景…...

Vue记事本应用实现教程

文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展:显示创建时间8. 功能扩展:记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...

PPT|230页| 制造集团企业供应链端到端的数字化解决方案:从需求到结算的全链路业务闭环构建

制造业采购供应链管理是企业运营的核心环节,供应链协同管理在供应链上下游企业之间建立紧密的合作关系,通过信息共享、资源整合、业务协同等方式,实现供应链的全面管理和优化,提高供应链的效率和透明度,降低供应链的成…...

从零实现STL哈希容器:unordered_map/unordered_set封装详解

本篇文章是对C学习的STL哈希容器自主实现部分的学习分享 希望也能为你带来些帮助~ 那咱们废话不多说&#xff0c;直接开始吧&#xff01; 一、源码结构分析 1. SGISTL30实现剖析 // hash_set核心结构 template <class Value, class HashFcn, ...> class hash_set {ty…...

【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)

🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...

关于 WASM:1. WASM 基础原理

一、WASM 简介 1.1 WebAssembly 是什么&#xff1f; WebAssembly&#xff08;WASM&#xff09; 是一种能在现代浏览器中高效运行的二进制指令格式&#xff0c;它不是传统的编程语言&#xff0c;而是一种 低级字节码格式&#xff0c;可由高级语言&#xff08;如 C、C、Rust&am…...

Element Plus 表单(el-form)中关于正整数输入的校验规则

目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入&#xff08;联动&#xff09;2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...

腾讯云V3签名

想要接入腾讯云的Api&#xff0c;必然先按其文档计算出所要求的签名。 之前也调用过腾讯云的接口&#xff0c;但总是卡在签名这一步&#xff0c;最后放弃选择SDK&#xff0c;这次终于自己代码实现。 可能腾讯云翻新了接口文档&#xff0c;现在阅读起来&#xff0c;清晰了很多&…...

C++课设:简易日历程序(支持传统节假日 + 二十四节气 + 个人纪念日管理)

名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 专栏介绍:《编程项目实战》 目录 一、为什么要开发一个日历程序?1. 深入理解时间算法2. 练习面向对象设计3. 学习数据结构应用二、核心算法深度解析…...

【无标题】湖北理元理律师事务所:债务优化中的生活保障与法律平衡之道

文/法律实务观察组 在债务重组领域&#xff0c;专业机构的核心价值不仅在于减轻债务数字&#xff0c;更在于帮助债务人在履行义务的同时维持基本生活尊严。湖北理元理律师事务所的服务实践表明&#xff0c;合法债务优化需同步实现三重平衡&#xff1a; 法律刚性&#xff08;债…...