当前位置：首页 > article >正文

保姆级教程：用YOLOv5+DeepSORT+SlowFast打造你的第一个视频行为检测Demo（附完整代码）

article 2026/5/3 4:30:42

从零构建智能视频行为分析系统YOLOv5DeepSORTSlowFast实战指南在智能安防、运动分析等场景中视频行为检测技术正成为关键基础设施。本文将手把手带您实现一个融合目标检测YOLOv5、目标追踪DeepSORT和行为识别SlowFast的完整解决方案。不同于传统教程的理论堆砌我们聚焦工程化落地特别针对这些常见痛点环境配置复杂导致的依赖冲突模型推理速度不满足实时要求多模块协同时的参数传递问题实际部署中的显存管理技巧1. 环境配置与工具选型1.1 基础环境搭建推荐使用conda创建隔离的Python环境3.8版本最佳避免与其他项目产生依赖冲突conda create -n video_analysis python3.8 conda activate video_analysis核心依赖安装清单注意版本匹配包名称推荐版本作用说明torch1.10.0PyTorch深度学习框架torchvision0.11.1计算机视觉工具库opencv-python4.5.4视频处理核心库numpy1.21.2数值计算基础库pip install torch1.10.0cu113 torchvision0.11.1cu113 -f https://download.pytorch.org/whl/torch_stable.html pip install opencv-python4.5.4 numpy1.21.2提示CUDA版本需与显卡驱动匹配可通过nvidia-smi查看支持的CUDA最高版本1.2 模型仓库克隆与准备三大核心组件的官方实现git clone https://github.com/ultralytics/yolov5 # 目标检测 git clone https://github.com/nwojke/deep_sort # 目标追踪 git clone https://github.com/facebookresearch/SlowFast # 行为识别安装各项目特有依赖时常见问题解决YOLOv5可能需要的额外包pip install -r yolov5/requirements.txtDeepSORT的torchreid安装pip install githttps://github.com/KaiyangZhou/deep-person-reid.gitSlowFast的FAIRScale依赖pip install githttps://github.com/facebookresearch/fairscale2. 核心模块配置实战2.1 YOLOv5目标检测调优修改yolov5/models/yolov5s.yaml中的检测类别示例保留person类# Parameters nc: 1 # 仅检测人员 names: [person]加载预训练模型时的显存优化技巧import torch from models.experimental import attempt_load # 半精度推理节省显存 device torch.device(cuda:0 if torch.cuda.is_available() else cpu) model attempt_load(yolov5s.pt, map_locationdevice).half()实时检测中的帧处理优化方案使用多线程预处理视频帧开启torch.jit.trace加速模型推理对连续帧采用动态置信度阈值2.2 DeepSORT目标追踪集成配置追踪器参数deep_sort/configs/deep_sort.yamlREID_CKPT: mars-small128.pb MAX_DIST: 0.3 # 特征匹配阈值 MIN_CONFIDENCE: 0.6 # 检测置信度下限 MAX_IOU_DISTANCE: 0.7 # IOU匹配阈值追踪结果可视化代码片段from deep_sort import DeepSort tracker DeepSort( model_pathdeep_sort/mars-small128.pb, max_dist0.3, min_confidence0.6, nms_max_overlap0.7 ) for track in tracker.tracks: if not track.is_confirmed() or track.time_since_update 1: continue bbox track.to_tlbr() cv2.rectangle(frame, (int(bbox[0]), int(bbox[1])), (int(bbox[2]), int(bbox[3])), (0,255,0), 2) cv2.putText(frame, fID:{track.track_id}, (int(bbox[0]), int(bbox[1]-10)), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0,255,0), 2)2.3 SlowFast行为识别接入修改SlowFast配置SlowFast/configs/Kinetics/SLOWFAST_4x16_R50.yamlMODEL: NUM_CLASSES: 6 # 根据实际行为类别调整 DROPOUT_RATE: 0.5 TEST: ENABLE: True CHECKPOINT_FILE_PATH: path/to/checkpoint行为识别结果融合示例from slowfast.utils.parser import load_config, parse_args from slowfast.models import build_model args parse_args() args.cfg_file configs/Kinetics/SLOWFAST_4x16_R50.yaml cfg load_config(args) model build_model(cfg) # 对追踪目标裁剪区域进行行为识别 for track in active_tracks: crop_img frame[bbox[1]:bbox[3], bbox[0]:bbox[2]] inputs transform(crop_img) # 需自定义预处理 preds model(inputs) action cfg.MODEL.ACTION_CLASSES[preds.argmax()] cv2.putText(frame, action, (bbox[0], bbox[3]15), cv2.FONT_HERSHEY_SIMPLEX, 0.6, (255,0,0), 2)3. 系统联调与性能优化3.1 多模块协同工作流完整处理流水线设计视频输入层OpenCV视频捕获cap cv2.VideoCapture(input.mp4) fps cap.get(cv2.CAP_PROP_FPS)检测追踪层YOLOv5每帧检测DeepSORT跨帧追踪行为分析层对稳定追踪目标采样SlowFast时序分析输出展示层实时可视化结果保存3.2 性能瓶颈诊断典型性能指标参考值RTX 3060模块处理耗时(ms)显存占用(MB)YOLOv5s15-201200DeepSORT8-12500SlowFast30-402500优化策略对比表优化手段效果提升实现难度适用场景多线程流水线30-50%★★★多核CPU环境TensorRT加速2-3倍★★★★NVIDIA显卡分辨率降采样线性提升★对精度要求不高模型量化(int8)1.5-2倍★★边缘设备部署3.3 常见报错解决方案CUDA out of memory降低检测输入分辨率640→480使用torch.cuda.empty_cache()启用--half半精度推理目标ID跳变问题调整DeepSORT的MAX_DIST参数增加ReID模型的特征维度添加运动一致性校验行为识别误判增加SlowFast的时序窗口长度添加结果平滑滤波优化行为类别定义4. 进阶应用与扩展4.1 自定义行为识别训练SlowFast微调步骤准备自定义数据集建议每类≥500视频片段修改类别配置文件cfg.MODEL.NUM_CLASSES 5 # 新行为类别数 cfg.TRAIN.DATASET custom启动分布式训练python tools/run_net.py --cfg configs/Custom/SLOWFAST_8x8_R50.yaml4.2 多摄像头部署方案基于Flask的实时流处理APIfrom flask import Flask, Response import threading app Flask(__name__) def gen_frames(camera_id): while True: frame get_processed_frame(camera_id) ret, buffer cv2.imencode(.jpg, frame) yield (b--frame\r\n bContent-Type: image/jpeg\r\n\r\n buffer.tobytes() b\r\n) app.route(/video_feed/int:camera_id) def video_feed(camera_id): return Response(gen_frames(camera_id), mimetypemultipart/x-mixed-replace; boundaryframe) if __name__ __main__: for i in range(4): # 启动4个处理线程 threading.Thread(targetprocess_stream, args(i,)).start() app.run(host0.0.0.0, port5000)4.3 边缘设备部署技巧使用TensorRT加速YOLOv5的典型流程# 导出ONNX模型 python export.py --weights yolov5s.pt --include onnx # 转换TensorRT引擎 trtexec --onnxyolov5s.onnx \ --saveEngineyolov5s.engine \ --fp16 --workspace2048树莓派4B上的优化参数# 在边缘设备上的推荐配置 model attempt_load(yolov5n.pt, map_locationcpu) # 使用nano版本 model.float() model.eval()实际部署中发现对640x480分辨率的视频流整套系统在Jetson Xavier NX上能达到15-20FPS的处理速度。关键点在于合理分配各模块的计算资源——将YOLOv5和SlowFast分别运行在不同的CUDA流上可以提升约30%的吞吐量。

保姆级教程：用YOLOv5+DeepSORT+SlowFast打造你的第一个视频行为检测Demo（附完整代码）

相关文章：

保姆级教程：用YOLOv5+DeepSORT+SlowFast打造你的第一个视频行为检测Demo（附完整代码）

别再手动传文件了！用Vue2+Element-UI+OnlyOffice打造企业级文档预览中心（附完整Docker部署指南）

从‘I am good at’到‘I‘m interested in’：我是如何用ChatGPT和DeepL纠正中式英语的

保姆级教程：用Vue3 + Vuedraggable + Naive UI 快速搭建一个可拖拽任务看板（带动画效果）

项目案例学习： AI 服务业务真实路径

Gitlantis：用Three.js与React构建沉浸式3D代码库导航工具

AI Agent 生产落地的隐形杀手模型对企业专有数据的认知盲区

Emacs集成GDScript开发：Godot游戏引擎的终极编辑器配置指南

基于安卓的账号密码安全强度评估系统毕业设计源码

高斯分布气体光学遥感监测的重建算法【附代码】

苹果设计资源库实战指南：提升UI/UX设计效率与一致性

面向精密测量实验的智能控制系统虚拟仪器软件架构【附代码】

基于eBPF的云原生数据平面监控：cldpm实现无侵入可观测性

智能家居传感器数据特征提取与DomusFM框架解析

从ResNet到MobileNetV2：我是如何把Deeplabv3+模型‘瘦身’并提速的（附TensorFlow代码）

从Swish到Mish：我们为什么需要‘平滑’的激活函数？一次通俗的数学图解

别再硬调参数了！Halcon OCR自定义训练中的图像预处理黄金法则与避坑指南

构建AI记忆体技能框架：从向量检索到智能体上下文感知

终极指南：5分钟快速上手Unity卡通渲染神器LilToon

Degrees of Lewdity中文汉化完整指南：从零开始畅玩中文版游戏

猫抓浏览器资源嗅探扩展：三步搞定网页视频音频下载的终极指南

多模态大模型MING：如何让AI看懂图表并智能问答

构建智能体技能库：从函数库到可编排AI能力的标准化实践

并行潜在推理技术优化序列推荐系统性能

PyTorch新手必踩的坑：为什么你的numpy数组喂不进nn.Linear？一个例子讲透

多模态AI安全：视觉语义注入攻击与防御策略

ADSP-21565脱机运行避坑指南：手把手教你搞定Flash驱动和CLDP烧写命令

RISC-V超低功耗芯片技术解析与应用

别再死记硬背Sinusoidal公式了！用Python手动画出Transformer位置编码的‘时钟指针’

工业HMI终端ED-HMI3020：树莓派5驱动的工业级解决方案