当前位置：首页 > news >正文

从零开始学习deepsort目标追踪算法----原理和代码详解

news 2026/2/11 4:34:57

1.目标追踪的主要步骤

2、传统sort算法的流程

3.Deepsort算法流程

4、目标追踪整体代码

4.1 Configs文件目录下：

4.2 deep_sort/deep_sort/deep目录下：

4.3 deep_sort/deep_sort/sort目录下：

运行demo：

DeepSORT（Deep learning based SORT）是一种基于深度学习的视觉目标跟踪算法，它结合了深度学习和传统的目标跟踪算法SORT（Simple Online and Realtime Tracking）。

DeepSORT基于目标检测器（如YOLO、Faster R-CNN等）检测每一帧图像中的目标，并使用多特征融合（Muti-feature Fusion）技术对目标进行表示和描述，然后使用SORT算法对目标进行跟踪。在SORT算法的基础上，DeepSORT引入了Re-IDentification（Re-ID）模型来解决目标ID的确定问题，Re-ID模型通过计算目标在多个帧图像中的相似度来确定目标的唯一ID。

DeepSORT算法的优点是：精度高，鲁棒性强，对于目标的遮挡、形变等情况具有很好的适应性。它已经被广泛应用于行人、车辆等目标的跟踪和智能视频监控等领域。

1.目标追踪的主要步骤

获取原始视频帧
利用目标检测器对视频帧中的目标进行检测
将检测到的目标的框中的特征提取出来，该特征包括表观特征（方便特征对比避免ID switch）和运动特征（运动特征方便卡尔曼滤波对其进行预测）
计算前后两帧目标之前的匹配程度（利用匈牙利算法和级联匹配），为每个追踪到的目标分配ID。

2、传统sort算法的流程

Deepsort的前身是sort算法，sort算法的核心是卡尔曼滤波算法和匈牙利算法。

卡尔曼滤波算法作用：该算法的主要作用就是当前的一系列运动变量去预测下一时刻的运动变量，但是第一次的检测结果用来初始化卡尔曼滤波的运动变量。

匈牙利算法的作用：简单来讲就是解决分配问题，就是把一群检测框和卡尔曼预测的框做分配，让卡尔曼预测的框找到和自己最匹配的检测框，达到追踪的效果。

sort工作流程如下图所示：

Detections是通过目标检测到的框框。Tracks是轨迹信息。

（1）将第一帧检测到的结果创建其对应的Tracks。将卡尔曼滤波的运动变量初始化，通过卡尔曼滤波预测其对应的框框。

（2）将该帧目标检测的框框和上一帧通过Tracks预测的框框一一进行IOU匹配，再通过IOU匹配的结果计算其代价矩阵（cost matrix，其计算方式是1-IOU）。

（3）将（2）中得到的所有的代价矩阵作为匈牙利算法的输入，得到线性的匹配的结果，这时候我们得到的结果有三种，第一种是Tracks失配（Unmatched Tracks），我们直接将失配的Tracks删除；第二种是Detections失配（Unmatched Detections），我们将这样的Detections初始化为一个新的Tracks（new Tracks）；第三种是检测框和预测的框框配对成功，这说明我们前一帧和后一帧追踪成功，将其对应的Detections通过卡尔曼滤波更新其对应的Tracks变量。

（4）反复循环（2）-（3）步骤，直到视频帧结束。

3.Deepsort算法流程

由于sort算法还是比较粗糙的追踪算法，当物体发生遮挡的时候，特别容易丢失自己的ID。而Deepsort算法在sort算法的基础上增加了级联匹配（Matching Cascade）和新轨迹的确认（confirmed）。Tracks分为确认态（confirmed），和不确认态（unconfirmed），新产生的Tracks是不确认态的；不确认态的Tracks必须要和Detections连续匹配一定的次数（默认是3）才可以转化成确认态。确认态的Tracks必须和Detections连续失配一定次数（默认30次），才会被删除。

Deepsort算法的工作流程如下图所示：

整个算法的工作流程如下：

（1）将第一帧次检测到的结果创建其对应的Tracks。将卡尔曼滤波的运动变量初始化，通过卡尔曼滤波预测其对应的框框。这时候的Tracks一定是unconfirmed的。

（2）将该帧目标检测的框框和第上一帧通过Tracks预测的框框一一进行IOU匹配，再通过IOU匹配的结果计算其代价矩阵（cost matrix，其计算方式是1-IOU）。

（3）将（2）中得到的所有的代价矩阵作为匈牙利算法的输入，得到线性的匹配的结果，这时候我们得到的结果有三种，第一种是Tracks失配（Unmatched Tracks），我们直接将失配的Tracks（因为这个Tracks是不确定态了，如果是确定态的话则要连续达到一定的次数（默认30次）才可以删除）删除；第二种是Detections失配（Unmatched Detections），我们将这样的Detections初始化为一个新的Tracks（new Tracks）；第三种是检测框和预测的框框配对成功，这说明我们前一帧和后一帧追踪成功，将其对应的Detections通过卡尔曼滤波更新其对应的Tracks变量。

（4）反复循环（2）-（3）步骤，直到出现确认态（confirmed）的Tracks或者视频帧结束。

（5）通过卡尔曼滤波预测其确认态的Tracks和不确认态的Tracks对应的框框。将确认态的Tracks的框框和是Detections进行级联匹配（之前每次只要Tracks匹配上都会保存Detections其的外观特征和运动信息，默认保存前100帧，利用外观特征和运动信息和Detections进行级联匹配,这么做是因为确认态（confirmed）的Tracks和Detections匹配的可能性更大）。

（6）进行级联匹配后有三种可能的结果。第一种，Tracks匹配，这样的Tracks通过卡尔曼滤波更新其对应的Tracks变量。第二第三种是Detections和Tracks失配，这时将之前的不确认状态的Tracks和失配的Tracks一起和Unmatched Detections一一进行IOU匹配，再通过IOU匹配的结果计算其代价矩阵（cost matrix，其计算方式是1-IOU）。

（7）将（6）中得到的所有的代价矩阵作为匈牙利算法的输入，得到线性的匹配的结果，这时候我们得到的结果有三种，第一种是Tracks失配（Unmatched Tracks），我们直接将失配的Tracks（因为这个Tracks是不确定态了，如果是确定态的话则要连续达到一定的次数（默认30次）才可以删除）删除；第二种是Detections失配（Unmatched Detections），我们将这样的Detections初始化为一个新的Tracks（new Tracks）；第三种是检测框和预测的框框配对成功，这说明我们前一帧和后一帧追踪成功，将其对应的Detections通过卡尔曼滤波更新其对应的Tracks变量。

（8）反复循环（5）-（7）步骤，直到视频帧结束。

4、目标追踪整体代码

下面对目标追踪的重要代码的功能进行一个讲解

首先代码分为三个部分：

目标追踪的相关代码和权重
目标检测相关代码和权重，这里用的是yolov5.5目标检测算法
调用检测和追踪代码相关py文件

目标检测的内容可以看其他文章

这里主要讲解目标追踪相关代码部分。主要的py文件如下图所示：下面将逐个讲解每个py文件的主要功能。

主要功能

4.1 Configs文件目录下：

deep_sort.yaml：这个yaml文件主要是保存一些参数。

（1）里面有特征提取权重的目录路径；

（2）最大余弦距离，用于级联匹配，如果大于该阈值，则忽略。

（3）检测结果置信度阈值

（4）非极大抑制阈值，设置为1代表不进行抑制

（5）最大IOU阈值

（6）最大寿命，也就是经过MAX_AGE帧没有追踪到该物体，就将该轨迹变为删除态。

（7）最高击中次数，如果击中该次数，就由不确定态转为确定态。

（8）最大保存特征帧数，如果超过该帧数，将进行滚动保存。

4.2 deep_sort/deep_sort/deep目录下：

ckpt.t7：这是一个特征提取网络的权重文件，特征提取网络训练好了以后会生成这个权重文件，方便在目标追踪的时候提取目标框中的特征，在目标追踪的时候避免ID switch。
evaluate.py：计算特征提取模型精确度。

feature_extractor.py：提取对应bounding box中的特征, 得到一个固定维度的特征，作为该bounding box的代表，供计算相似度时使用。

model.py：特征提取网络模型，该模型用来提取训练特征提取网络权重。

train.py：训练特征提取网络的python文件

test.py：测试训练好的特征提取网络的性能

4.3 deep_sort/deep_sort/sort目录下：

detection.py：保存通过目标检测的一个检测框框，以及该框的置信度和获取的特征；同时还提供了框框的各种格式的转化方法。

iou_matching.py：计算两个框框之间的IOU。

kalman_filter.py：卡尔曼滤波器的相关代码，主要是利用卡尔曼滤波来预测检测框的轨迹信息。

linear_assignment.py：利用匈牙利算法匹配预测的轨迹框和检测框最佳匹配效果。

nn_matching.py：通过计算欧氏距离、余弦距离等距离来计算最近领距离。

preprocessing.py：非极大抑制代码，利用非极大抑制算法将最优的检测框输出。

track.py：主要储存的是轨迹信息，其中包括轨迹框的位置和速度信息，轨迹框的ID和状态，其中状态包括三种，一种是确定态、不确定态、删除态三种状态。

tracker.py：保存了所有的轨迹信息，负责初始化第一帧，卡尔曼滤波的预测和更新，负责级联匹配,IOU匹配。

deep_sort/deep_sort/deep_sort.py：deepsort的整体封装，实现一个deepsort追踪的一个整体效果。

deep_sort/utils：这里最主要有一些各种各样的工具python代码，例如画框工具，日志保存工具等等。

链接：https://pan.baidu.com/s/1uORzJIav2z2SXMqaBfJ5pQ
提取码：ztaw

运行demo：

result

下一章讲解怎么训练自己的特征提取网络

从零开始学习deepsort目标追踪算法----原理和代码详解

1.目标追踪的主要步骤

2、传统sort算法的流程

3.Deepsort算法流程

4、目标追踪整体代码

4.1 Configs文件目录下：

4.2 deep_sort/deep_sort/deep目录下：

4.3 deep_sort/deep_sort/sort目录下：

运行demo：

相关文章：

从零开始学习deepsort目标追踪算法----原理和代码详解

第三章 LInux多线程开发 3.1-3.5线程创建终止分离

空间曲线的参数方程

非华为机型如何体验HarmonyOS鸿蒙系统刷写HarmonyOS鸿蒙GSI系统以及一些初步的bug修复

Flutter 生成小程序的混合 App 实践

利用 Python-user-agents 解析 User_Agent

Java版企业电子招标采购系统源码Spring Cloud + Spring Boot +二次开发+ MybatisPlus + Redis

Mybatis如何给字段起别名？

php对接AWS S3云存储，上传S3及访问权限问题

java 实现单例模式

minio文件服务器开启https

每日刷题（回溯法经典问题之子集）

PostgreSQL在进行除法时要注意

开开心心带你学习MySQL数据库之第五篇

Geotools对geojson的解析

【博客701】shell实现保留网络现场：ping失败时执行mtr

放弃手写代码吧！用低代码你能生成各种源码

什么程度才算精通 Linux？

jmeter中的__setProperty用法

vue基础知识六：v-show和v-if有什么区别？使用场景分别是什么？

Linux应用开发之网络套接字编程(实例篇)

在rocky linux 9.5上在线安装 docker

抖音增长新引擎：品融电商，一站式全案代运营领跑者

【CSS position 属性】static、relative、fixed、absolute 、sticky详细介绍，多层嵌套定位示例

（二）原型模式

vue3 定时器-定义全局方法 vue+ts

相机Camera日志分析之三十一：高通Camx HAL十种流程基础分析关键字汇总（后续持续更新中）

在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的？

C++：多态机制详解

【笔记】WSL 中 Rust 安装与测试完整记录