当前位置：首页 > news >正文

基于孪生网络的目标跟踪

news 2026/5/24 21:59:06

一、目标跟踪

目标跟踪是计算机视觉领域研究的一个热点问题，其利用视频或图像序列的上下文信息，对目标的外观和运动信息进行建模，从而对目标运动状态进行预测并标定目标的位置。具体而言，视觉目标（单目标）跟踪任务就是在给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的大小与位置。

目标跟踪算法从构建模型的角度可以分为生成式(generative)模型和判别式(discrimination)模型两类；从跟踪目标数量可分为单目标跟踪和多目标跟踪。目标跟踪融合了图像处理、机器学习、最优化等多个领域的理论和算法，是完成更高层级的图像理解( 如目标行为识别) 任务的前提和基础。

二、孪生网络

孪生神经网络是一种包含两个或多个相同子结构的神经网络架构，各子网络共享权重。孪生神经网络的目标是通过多层卷积获取特征图后，比较两个对象的相似程度，在人脸认证、手写字体识别等任务中常被使用。其网络结构如下图所示，两个输入分别进入两个神经网络，将输入映射到新的空间，形成输入在新空间中的表示，通过损失的计算，评价两个输入的相似度。

孪生网络

此外,该网络的特点是可以充分利用有限的数据进行训练，这一点对目标跟踪来说至关重要，因为在跟踪时能够提供的训练数据与目标检测相比较少。

若子网络之间不共享权重，则称为伪孪生神经网络。对于伪孪生神经网络，其子网络的结构可以相同，也可不同。与孪生神经网络不同，伪孪生神经网络适用于处理两个输入有一定差别的情况，如验证标题与正文内容是否一致、文字描述与图片内容是否相符等。要根据具体应用进行网络结构的选择。

四、基于孪生网络的目标跟踪、

在这里插入图片描述

SiamFC

论文：Fully-Convolutional Siamese Networks for Object Tracking（ECCV 2016）
链接：https://link.springer.com/chapter/10.1007/978-3-319-48881-3_56
方法：
将目标的跟踪方式从在线执行随机梯度下降以适应网络的权重进行跟踪转变为前后帧目标对的形式进行匹配。通过同一网络AlexNet作为backbone，输出模板图像和待查询图像的特征图，并进行互卷积（相关滤波）操作，得到目标响应结果，反向映射到原图，计算当前帧目标位置。
在这里插入图片描述

SiamFC-tri

论文：Triplet Loss in Siamese Network for Object Tracking（ECCV 2018）
链接：https://openaccess.thecvf.com/content_ECCV_2018/html/Xingping_Dong_Triplet_Loss_with_ECCV_2018_paper.html
在这里插入图片描述

方法：提出了一种新的训练策略，通过训练时在Siamese Network中加入triplet loss提取出目标跟踪的深度表达特征。图中φ \varphiφ表示特征提取网络，当 $φ = φ^{'}$ 时，遵循SiamFC范式，当 $\varphi\neq\varphi^{'}$ 时，遵循CFNet范式。

Siam-BM

论文：Towards a Better Match in Siamese Network Based Visual Object Tracker（ECCV 2018 workshop）
链接：https://openaccess.thecvf.com/content_eccv_2018_workshops/w1/html/He_Towards_a_Better_Match_in_Siamese_Network_Based_Visual_Object_ECCVW_2018_paper.html
在这里插入图片描述

方法：
跟踪阶段由于目标会不断变化，网络直接在跟踪阶段自设置不同变换的待跟踪图像。SiamFC在跟踪阶段使用图像金字塔，但仅仅是crop不同大小的图像区域。Siam-BM则在跟踪阶段，不仅是图像金字塔，同时对每层图片加入了旋转操作。让网络在跟踪时更鲁棒。

CFNet

论文：End-to-end representation learning for Correlation Filter based tracking（CVPR 2017）
在这里插入图片描述
方法：最初的SiamFC只是将每一帧与对象的初始外观进行比较。相比之下，这篇文章在每一帧中计算一个新的模板，然后与之前帧的模板进行融合。

每一帧计算时，SiamFC公式如下：

${f(z,x)=\gamma\varphi(z)*{\varphi(x)}+b\mathbb{1}}$

CFNet公式如下：

${f(z,x)=\gamma{w(\varphi(z))*{\varphi(x)}+b\mathbb{1}}}$

CFNet的模板图像输入也是255 *255 *3，这样的话， $\varphi(z)$ 和 $\varphi(x)$ 的输出特征图都是一样大小，为49*49 *32 。之后利用相关滤波模块(Correlation Filter)CF Block $w = w (x)$ 提取在每一帧中的模板。输出 $* 17 * 32$ 的模板特征。与待查询图像互卷积。

CFNet和SiamFC一样，有必要引入标量参数 $\gamma$ 和 $b$ ，使分数范围适合逻辑回归。

RASNet

论文：Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking（CVPR 2018）
链接：https://openaccess.thecvf.com/content_cvpr_2018/html/Wang_Learning_Attentions_Residual_CVPR_2018_paper.html
方法：
在这里插入图片描述
以SiamFC为基础，在backbone提取模板图像和待跟踪图像的特征后，模板特征后加入了残差注意力(Residual Attention)、通道注意力(Channel Attention)和通用注意力(General Attention)，同时将互卷积更改为加权互相关层(WXCorr)。

当一张模板和一张待搜索图像流入网络时，通过backbone生成特征图。基于模板特征，使用三种注意力机制提取了模板信息。模板、待搜索特征、作为权重的attention输出，被输入到WXCorr，并最终转换为响应图。

SASiam

论文：A Twofold Siamese Network for Real-Time Object Tracking （CVPR 2018）
链接：https://openaccess.thecvf.com/content_cvpr_2018/html/He_A_Twofold_Siamese_CVPR_2018_paper.html
方法：
在这里插入图片描述
观察到在图像分类任务中学习到的语义特征和在相似性匹配任务中学习到的外观特征相辅相成，构建了一个双分支网络。SASiam由Semantic branch语义分支和Appearance branch外观分支两部分构成，语义分支中还加入了通道注意力机制SEBlock。分别训练这两个网络，将特征图加权输出。

外观特征网络：加入了SEBlock的SiamFC

语义特征网络：Alexnet在ImageNet上训练的权重，并不再跟踪数据集上fine-tune，直接拿过来用。

外观特征更像对于同一个目标外观的相似程度，而语义特征更像是对于同一类目标的相似程度，两者相辅相成。

实际上是将图像解耦为语义和外观。

MBST

论文：Multi-Branch Siamese Networks with Online Selection for Object Tracking（ISVC 2018）
链接：https://link.springer.com/chapter/10.1007/978-3-030-03801-4_28
方法：
在这里插入图片描述

MBST中有两个分支，其中一条是AlexNet分支，另外一条有很多结构一模一样的Context Dependent分支，通过一个分支选择结构，选择输出结果更好的一个Context Dependent。

DSiam

论文：Learning Dynamic Siamese Network for Visual Object Tracking （ICCV 2017）
链接：https://openaccess.thecvf.com/content_iccv_2017/html/Guo_Learning_Dynamic_Siamese_ICCV_2017_paper.html
方法：
在这里插入图片描述
如何1)有效地学习目标外观的时间变化，2)在保持实时响应的同时排除杂波背景的干扰，是视觉目标跟踪的一个基本问题。文章围绕这个问题提出了目标外观变换层和背景抑制层，名字为动态孪生神经网络(Dynamic Siamese Network， DSiam)，即对template image使用目标外观变换层，让其更趋进于当前帧的目标外观，对current image使用背景抑制层，抑制背景带来的跟踪干扰。

UpdateNet

论文：Learning the Model Update for Siamese Trackers（ICCV 2019）
链接：https://openaccess.thecvf.com/content_ICCV_2019/html/Zhang_Learning_the_Model_Update_for_Siamese_Trackers_ICCV_2019_paper.html
方法：
Siamese方法通过从当前帧中提取一个外观模板来解决视觉跟踪问题，该模板用于在下一帧中定位目标。通常，此模板与前一帧中累积的模板线性组合（最初的SiamFC有且仅使用第一帧目标外观作为模板），导致信息随时间呈指数衰减。虽然这种更新方法已经带来了更好的结果，但它的简单性限制了通过学习更新可能获得的潜在收益。因此，文章用一种学习更新的方法来取代线性加权。我们使用卷积神经网络，称为UpdateNet，它给出初始模板、累积预测模板和当前帧的模板，目的是估计下一帧的最佳模板。

SiamFC++

论文：SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines （AAAI 2020）
链接：https://ojs.aaai.org/index.php/AAAI/article/view/6944
方法：
在这里插入图片描述
整体结构和SiamRPN类似，都是先提取特征，再互卷积，再添加卷积层输出回归和类别结果，但增加了quality assessment分支，强化回归效果(目标检测中的anchor free算法的FCOS中也有类似结构)

Ranking-Based Siamese Visual Tracking

论文：Ranking-Based Siamese Visual Tracking（CVPR 2022）
链接：https://openaccess.thecvf.com/content/CVPR2022/html/Tang_Ranking-Based_Siamese_Visual_Tracking_CVPR_2022_paper.html
方法：
在这里插入图片描述
目前基于孪生网络的跟踪器主要将视觉跟踪分为两个子任务，包括分类和定位。他们通过分别处理每个样本来学习分类子网络，忽略了正样本和负样本之间的关系。此外，这种跟踪范式只对最终预测的建议进行分类置信度，这可能会导致分类和定位之间的错位。为了解决这些问题，文章提出了一种基于排序的优化算法来探索不同方案之间的关系。为此，引入了两种排名损失，包括分类损失和IoU引导损失，作为优化约束。分类排名损失可以确保正样本的排名高于硬负样本，即干扰物，这样跟踪器就可以成功地选择前景样本，而不会被干扰物欺骗。IoUguided排名损失旨在将分类置信度得分与正样本的相应定位预测的并集交集（IoU）对齐，从而使定位良好的预测能够用高分类置信度来表示。具体而言，所提出的两种排名损失与大多数暹罗跟踪器兼容，并且不需要额外的推理计算。

参考：https://blog.csdn.net/weixin_43913124/article/details/123545157

基于孪生网络的目标跟踪

一、目标跟踪目标跟踪是计算机视觉领域研究的一个热点问题，其利用视频或图像序列的上下文信息，对目标的外观和运动信息进行建模，从而对目标运动状态进行预测并标定目标的位置。具体而言，视觉目标（单目标）…...

编程日记 2023/5/31 8:01:35

苏州狮山广场能耗管理系统

摘要：随着社会生活水平的提高，经济的繁荣发展，人们对能源的需求逐渐增长，由此带来的能源危机日益严重。商场如何实时的了解、分析和控制商场的能源消耗已成为需要解决的迫在眉睫的难题。传统的能源消耗智能以月/季度/年为周期进行…...

编程日记 2023/5/30 13:32:20

Jupyter Notebook 10个提升体验的高级技巧

Jupyter 笔记本是数据科学家和分析师用于交互式计算、数据可视化和协作的工具。Jupyter 笔记本的基本功能大家都已经很熟悉了，但还有一些鲜为人知的技巧可以大大提高生产力和效率。在这篇文章中，我将介绍10个可以提升体验的高级技巧。改变注释的颜色颜…...

编程日记 2023/5/25 8:25:03

CF 751 --B. Divine Array

Black is gifted with a Divine array a consisting of n (1≤n≤2000) integers. Each position in a has an initial value. After shouting a curse over the array, it becomes angry and starts an unstoppable transformation. The transformation consists of infinite…...

编程日记 2023/5/25 8:20:02

Springcloud1---＞Eureka注册中心

目录 Eureka原理Eureka入门案例编写EurekaServer将user-service注册到Eureka消费者从Eureka获取服务 Eureka详解基础架构高可用的Eureka Server失效剔除和自我保护 Eureka原理 Eureka：就是服务注册中心（可以是一个集群），对外暴露自…...

编程日记 2023/5/29 15:05:28

面试阿里、字节全都一面挂，被面试官说我的水平还不如应届生

测试员可以先在大厂镀金，以后去中小厂毫无压力，基本不会被卡，事实果真如此吗？但是在我身上却是给了我很大一巴掌... 所谓大厂镀金只是不卡简历而已，如果面试答得稀烂，人家根本不会要你。况且要不是大厂出来…...

编程日记 2023/5/25 8:10:00

JAVA开发（记一次删除完全相同pgSQL数据库记录只保留一条）

进行数据管理时，无效数据可能会对生产力和决策质量造成严重的影响。如何发现和处理无效数据变得愈发重要。一起来唠唠你会如何处理无效数据吧~ 方向一：介绍无效数据的概念最近遇到了pg数据库表中的大量数据重复了，需要删除其中的一条。一条…...

编程日记 2023/5/25 8:04:58

音视频八股文（7）-- 音频aac adts三层结构

AAC介绍 AAC（Advanced Audio Coding）是一种现代的音频编码技术，用于数字音频的传输和存储领域。AAC是MPEG-2和MPEG-4标准中的一部分，可提供更高质量的音频数据，并且相比于MP3等旧有音频格式，AAC需要更少的…...

编程日记 2023/6/1 7:10:59

Docker代码环境打包进阶 - DockerHub分享镜像

1. Docker Hub介绍 Docker Hub是一个广泛使用的容器镜像注册中心，为开发人员提供了方便的平台来存储、共享和分发Docker容器镜像。它支持版本控制、访问控制和自动化构建，并提供了丰富的公共镜像库，方便开发人员快速获取和使用各种开源应用和…...

编程日记 2023/5/25 7:54:57

SQL进阶-having子句的力量

SQL进阶-having子句的力量 having子句是理解SQL面向集合这一本质的关键。在以前的SQL标准里面，having子句必须和group by子句一起使用，但是按照现在的SQL标准，having子句是可以单独使用的可以与case 表达式或者自连接等结合使用。表不是文件…...

编程日记 2023/5/30 13:33:44

Electron 如何创建模态窗口？

目录前言一、模态窗口1.Web页面模态框2.Electron中的模态窗口3.区分父子窗口与模态窗口二、实际案例使用总结前言模态框是一种常用的交互元素，无论是在 Web 网站、桌面应用还是移动 APP 中，都有其应用场景。模态框指的是一种弹出窗口，它…...

编程日记 2023/5/31 19:02:45

诺贝尔化学奖：酶分子“定向进化”

2018年，诺贝尔化学奖迎来了历史上第五位女性得主——加州理工学院的Frances H. Arnold教授，以表彰她在“酶的定向进化”这一领域的贡献。 1、“酶的定向进化”到底是什么？ 这里有三个点，“酶”、“进化”还有“定向”&#xff1a…...

编程日记 2023/5/25 7:39:53

Centos8下源码编译安装运行Primihub

参考文献 PrimiHub 本地编译启动How to install Bazel on CentOS 8 Linux or Redhat 8/7 编译启动步骤由于历史原因，服务器是Centos8操作系统，所以源码编译异常的麻烦。特此记录如下。采用源码编译方式可以在一步步的运行过程中对整个流程进行深刻…...

编程日记 2023/5/25 7:34:52

嘉兴桐乡考证培训-23年教资认定注意事项你知道吗？

又到了新的一年了，去年错过认定的同学们可以竖起耳朵啦~ 每年认定机会有两次，大部分省份一般上半年下半年各一次。问：在校生可以认定么？ 答：可以，但有年级限制：本科生大四最后一学期&#xf…...

编程日记 2023/5/30 13:35:13

oracle客户端的安装教程

文章目录一、安装前的准备工作 1.1、百度网盘安装包的连接 1.2、百度网盘oracle11g软件包二、oracle数据库客户端的安装与数据的准备安装步骤前言本文主要讲解oracle客户端的安装与简单使用过程一、安装前的准备工作 1.1、百度网盘安装包的连接客户端的软件包 …...

编程日记 2023/5/25 7:24:50

python 文件操作 , 异常处理 , 模块和包

文件操作 1.写数据 # open(name, mode) # name：是要打开的目标文件名的字符串(可以包含文件所在的具体路径)。 # mode：设置打开文件的模式(访问模式)：只读、写入、追加等。 #1.打开文件---通道建立--申请资源 # w 模式会清空之前的内…...

编程日记 2023/5/25 7:19:47

AIGC技术研究与应用 ---- 下一代人工智能：新范式！新生产力！（1-简介）

文章大纲 AI GC简介决策式/分析式AI（Discriminant/Analytical AI）和生成式AI （Generative AI）参考文献与学习路径模型进化券商研报陆奇演讲AI GC 《我，机器人》中所演绎的一样，主角曾与机器人展开了激烈的辩论，面对“机器人能写出交响乐吗？”“机器人能把画布变成美丽…...

编程日记 2023/5/25 7:14:45

Flask restful分页接口实现

1.先定义一个工作信息表: 指定一些相关的字段:工作名称、年限、级别等 class Work(db.Model):__tablename__ = workid = db.Column(db.Integer, primary_key=True)workName = db.Column(db.String(5),nullable=False)year = db.Column(db.String(20), nullable=False)level = …...

编程日记 2023/5/25 7:09:44

27事务管理AOP

一、MySQL事务回顾二、Spring事务管理 Spring框架的第一大核心：IOC控制反转在DeptServiceImpl下删除部门方法下新加一个删除员工信息的操作，注意：此时的id是部门id。 1、问题分析 2、Transactional-Spring事务管理一般是在Service实现类的…...

编程日记 2023/5/25 7:04:42

煤矿电子封条实施方案 yolov7

煤矿电子封条实施方案采用YOLOv7网络模型算法技术，煤矿电子封条实施算法模型过将全国各省矿山实时监测数据，实现对全国各矿山及时有效的处理及分析。YOLOv7 的发展方向与当前主流的实时目标检测器不同，研究团队希望它能够同时支持移动 GPU 和…...

编程日记 2023/5/25 6:59:41

微信M4A文件打不开怎么办？m4a转MP3只需一招，小白也能操作

很多人会遇到这种情况：别人通过微信发来一段录音、会议音频、课程音频或者采访素材，文件后缀是.m4a，在微信里可能能播放，但保存到手机本地、发到电脑、导入剪辑软件或者复制到U盘后，就可能出现打不开、无法识别、格式不…...

编程新知 2026/5/24 21:08:49

诈骗分子利用微软内部账户发垃圾链接，微软能否解决安全漏洞？

诈骗事件曝光几个月来，诈骗分子利用漏洞，从微软内部通常用于发送合法账户提醒的电子邮件地址发送垃圾邮件。目前不清楚他们如何利用系统，但能像新客户一样创建新微软账户，并以微软名义发邮件，易让人们误以为邮件真实。…...

编程新知 2026/5/24 19:37:13

2026中国AI应用全景图谱报告

这份《2026 中国 AI 应用全景图谱报告》由量子位智库发布，全景式呈现中国 AI 应用的生态格局、规模数据、发展趋势与标杆方案，揭示行业从工具化走向任务化、商业化与垂直深耕的关键跃迁。关注公众号：【互联互通社区】，回复【AI999…...

编程新知 2026/5/24 19:27:08

不变性假设下的PAC学习：从VC维到不变性VC维的样本效率提升

1. 项目概述：不变性假设下的PAC学习理论在机器学习领域，我们经常希望模型不仅能拟合训练数据，更能捕捉数据背后的本质规律，从而对未见过的数据做出可靠预测。PAC（Probably Approximately Correct）学习理论为…...

编程新知 2026/5/24 19:23:06

如何用一款免费工具，让20+平台直播内容成为你的数字资产？

如何用一款免费工具，让20平台直播内容成为你的数字资产？ 【免费下载链接】fideo-live-record A convenient live broadcast recording software! Supports Tiktok, Youtube, Twitch, Bilibili, Bigo!(一款方便的直播录制软件! 支持tiktok, youtube, twit…...

编程新知 2026/5/24 19:19:03

从0到1构建DeepSeek企业级隔离体系：4类租户场景×3种SLA等级×2套审计回溯机制

更多请点击： https://intelliparadigm.com 第一章：DeepSeek资源隔离方案的总体架构设计 DeepSeek资源隔离方案以“多租户安全边界动态资源契约”为核心设计理念，构建覆盖计算、内存、存储与网络四维资源的统一隔离层。该架构采用分层解耦结…...

编程新知 2026/5/24 16:33:55

QQ空间数据备份：3步完成永久保存青春记忆的终极指南

QQ空间数据备份：3步完成永久保存青春记忆的终极指南【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否曾担心QQ空间里那些珍贵的青春记忆会随着时间流逝而消失&#xff…...

编程新知 2026/5/24 14:42:05

【2024B站算法白皮书级洞察】：ChatGPT如何精准预测“推荐池准入阈值”？3个被官方文档隐去的关键信号

更多请点击： https://intelliparadigm.com 第一章：【2024B站算法白皮书级洞察】：ChatGPT如何精准预测“推荐池准入阈值”？3个被官方文档隐去的关键信号 Bilibili 2024年Q2推荐系统升级后，“推荐池准入阈值”&#xff…...

编程新知 2026/5/24 13:50:46

BiliBiliCCSubtitle架构解析：C++实现的B站CC字幕高效下载与转换技术方案

BiliBiliCCSubtitle架构解析：C实现的B站CC字幕高效下载与转换技术方案【免费下载链接】BiliBiliCCSubtitle 一个用于下载B站(哔哩哔哩)CC字幕及转换的工具; 项目地址: https://gitcode.com/gh_mirrors/bi/BiliBiliCCSubtitle BiliBiliCCSubtitle是一款基于C…...

编程新知 2026/5/24 12:51:02

小样本下分位数估计与置信区间构建实战指南

1. 项目概述：为什么小样本下的分位数估计如此重要？在机器学习项目的日常工作中，我们常常会面临一个尴尬的局面：模型训练好了，也跑出了几轮评估结果，比如准确率是92%，93%，91%&#xf…...

编程新知 2026/5/24 11:54:15