当前位置：首页 > news >正文

Deepmotion技术浅析（三）：特征提取

news 2026/2/11 4:37:41

DeepMotion 的特征提取模块是整个动作捕捉和 3D 追踪流程的基础，负责从输入的视频帧中提取出具有代表性的视觉特征。这些特征将被用于人体姿态估计、动作识别、3D 重建等后续任务。

包括：

1.图像特征提取

卷积神经网络（CNN）
- 卷积层
- 池化层
- 激活函数
经典 CNN 模型详解（ResNet, HRNet）
- 模型结构
- 公式推导
- 训练过程

2.深度特征提取

多层特征融合
- 逐元素相加
- 通道拼接
注意力机制
- 通道注意力
- 空间注意力
Transformer 模型
- 自注意力机制
- 多头注意力

3.模型优化与加速

模型压缩
- 量化
- 剪枝
模型加速
- GPU 加速
- 并行计算

1. 图像特征提取

图像特征提取是从输入的图像帧中提取出具有代表性的视觉特征，如边缘、纹理、颜色、形状等。这些特征可以用于人体检测、关键点定位、动作识别等任务。

1.1 卷积神经网络（CNN）

1.1.1 工作原理

CNN 是一种专门用于处理图像数据的深度学习模型，通过卷积层、池化层和激活函数等结构，能够有效地提取图像的局部和全局特征。

1.1.2 实现细节

卷积层（Convolutional Layer）：
- 卷积层是 CNN 的核心，负责提取图像的局部特征。
- 卷积操作通过卷积核对图像进行局部感知，公式如下：
  - 其中， $y_{i,j}$ 是输出特征图在 $\left ( i,j \right )$ 处的值， $w_{m,n}$ 是卷积核的权重， $x_{i+m,j+n}$ 是输入图像在 $\left ( i+m,j+n \right )$ 处的像素值， $b$ 是偏置项。
- 卷积核的大小、步幅（stride）和填充（padding）参数决定了特征图的尺寸和感受野（receptive field）。
池化层（Pooling Layer）：
- 池化层用于降低特征图的分辨率，减少计算量，并提高特征的鲁棒性。
- 常用的池化方法有最大池化（max pooling）和平均池化（average pooling）。
  - 其中， $\texttt{R}$ 是池化窗口。
激活函数（Activation Function）：
- 激活函数用于引入非线性因素，使网络能够学习到更复杂的特征。
- 常用的激活函数有 ReLU（Rectified Linear Unit）：

1.1.3 模型详解

ResNet（Residual Network）：
- 模型结构：
  - ResNet 引入残差连接（residual connection），解决了深层网络训练过程中的梯度消失问题。
  - 基本单元是残差块（residual block）：
    - 其中， $\textbf{x}$ 是输入， $\textbf{y}$ 是输出， $F$ 是残差函数， $W_{i}$ 是权重参数。
  - ResNet 由多个残差块组成，每个残差块包含两个卷积层和一个跳跃连接。
- 训练过程：
  - ResNet 使用随机梯度下降（SGD）进行训练，优化目标是最小化损失函数（如交叉熵损失）。
  - 训练过程中使用批量归一化（Batch Normalization）和 Dropout 等正则化技术，防止过拟合。
HRNet（High-Resolution Network）：
- 模型结构：
  - HRNet 是一种高分辨率网络，能够在保持高分辨率特征图的同时，融合多分辨率特征。
  - HRNet 包含多个并行的卷积分支，每个分支处理不同分辨率的特征图，并通过融合模块（fusion module）将不同分辨率的特征图融合在一起。
  - 例如，HRNet 可以包含 4 个分支，分辨率分别为 1/4, 1/8, 1/16, 1/32。
- 训练过程：
  - HRNet 的训练过程与 ResNet 类似，使用 SGD 优化器，并结合批量归一化、Dropout 等技术。
  - HRNet 在多个数据集上进行预训练，并在目标数据集上进行微调，以提高模型的泛化能力。

1.1.4 公式推导

ResNet 残差块：
- 其中， $F$ 可以是多个卷积层和非线性激活函数的组合。
HRNet 融合模块：
- 其中， $\textbf{f}_{1},\textbf{f}_{2},...,\textbf{f}_{\textbf{n}}$ 是不同分辨率的特征图，ConcatConcat 表示通道拼接。

1.2 深度特征提取

1.2.1 工作原理

深度特征提取的目的是从图像中提取出更深层次的语义信息，用于更复杂的任务，如人体姿态估计、动作识别等。

1.2.2 实现细节

多层特征融合：
- DeepMotion 使用多层特征融合技术，将不同层的特征图进行融合，以提取出更丰富的语义信息。
- 常用的融合方法有逐元素相加（element-wise addition）和通道拼接（channel-wise concatenation）。
注意力机制（Attention Mechanism）：
- 注意力机制用于增强模型对重要特征的关注，提高模型的性能。
- 常用的注意力机制有通道注意力（channel attention）和空间注意力（spatial attention）。
Transformer 模型：
- Transformer 模型通过自注意力机制（self-attention mechanism）可以捕获图像中长距离的依赖关系。
- DeepMotion 可能使用 Transformer 模型进行深度特征提取。

1.2.3 模型详解

通道注意力：
- 其中， $\textbf{M}_{\textbf{c}}$ 是通道注意力掩码， $\textbf{W}_{\textbf{0}}$ 和 $\textbf{W}_{\textbf{1}}$ 是权重参数， $\sigma$ 是 sigmoid 激活函数。
空间注意力：
- 其中， $\textbf{M}_{\textbf{s}}$ 是空间注意力掩码， $\textbf{W}_{\textbf{2}}$ 和 $\textbf{W}_{\textbf{3}}$ 是权重参数。
Transformer 模型：
- 自注意力机制：
  - 其中， $\textbf{Q},\textbf{K},\textbf{V}$ 分别是查询（query）、键（key）和值（value）矩阵， $d_{k}$ 是键向量的维度。
- 多头注意力：
  - 其中，是权重矩阵。

2. 模型优化与加速

为了提高特征提取模块的运行效率，DeepMotion 采用多种模型优化和加速技术。

2.1 模型压缩

2.1.1 量化（Quantization）

工作原理：
- 量化是指将模型参数从高精度（如 32 位浮点数）转换为低精度（如 8 位整数），从而减少模型的存储空间和计算量。
实现细节：
- 量化可以分为训练后量化（post-training quantization）和量化感知训练（quantization-aware training）。

2.1.2 剪枝（Pruning）

工作原理：
- 剪枝是指删除模型中冗余的权重或神经元，从而减少模型的参数量和计算量。
实现细节：
- 剪枝方法包括权重剪枝（weight pruning）、神经元剪枝（neuron pruning）等。

2.2 模型加速

2.2.1 GPU 加速

DeepMotion 利用 GPU 强大的并行计算能力来加速模型推理。
使用深度学习框架（如 TensorFlow, PyTorch）自带的 GPU 加速功能。

2.2.2 并行计算

DeepMotion 使用并行计算技术，将模型的不同部分分配到不同的计算节点上，进行并行处理。
例如，可以使用数据并行（data parallelism）和模型并行（model parallelism）技术。

Deepmotion技术浅析（三）：特征提取

DeepMotion 的特征提取模块是整个动作捕捉和 3D 追踪流程的基础，负责从输入的视频帧中提取出具有代表性的视觉特征。这些特征将被用于人体姿态估计、动作识别、3D 重建等后续任务。包括： 1.图像特征提取卷积神经网络（CNN） 卷…...

编程日记 2024/12/16 6:10:49

国内CentOS使用yum安装docker和docker-compose

安装docker 安装需要的软件包， yum-util 提供yum-config-manager功能，另两个是devicemapper驱动依赖 yum install -y yum-utils device-mapper-persistent-data lvm2下载yum源采用阿里云的镜像源 wget -O /etc/yum.repos.d/docker-ce.repo https://mi…...

编程日记 2024/12/16 6:09:47

python学opencv|读取图像（十三）BGR图像和HSV图像互相转换深入

【1】引言前序学习过程中，我们偶然发现：如果原始图像是png格式，将其从BGR转向HSV，再从HSV转回BGR后，图像的效果要好于JPG格式。文章链接为： python学opencv|读取图像（十二）BGR图…...

编程日记 2024/12/16 6:08:46

【鸿蒙实战开发】数据的下拉刷新与上拉加载

本章介绍本章主要介绍 ArkUI 开发中最常用的场景下拉刷新, 上拉加载，在本章中介绍的内容在实际开发过程当中会高频的使用,所以同学们要牢记本章的内容。下面就让我们开始今天的讲解吧！ List 组件在 ArkUI 中List容器组件也可以实现数据滚动的效果&a…...

编程日记 2024/12/16 6:07:43

面向对象设计规则和各类设计模式

面向对象设计（Object-Oriented Design, OOD）是一种软件设计方法论，它使用对象、类、继承、封装、多态等概念来组织代码。面向对象设计的核心目标是提高软件的可维护性、可扩展性和复用性。在面向对象设计中，遵循一定的设计原则和模…...

编程日记 2024/12/16 6:06:42

《拉依达的嵌入式\驱动面试宝典》—C/CPP基础篇(六)

《拉依达的嵌入式\驱动面试宝典》—C/CPP基础篇(六) 你好，我是拉依达。感谢所有阅读关注我的同学支持，目前博客累计阅读 27w，关注1.5w人。其中博客《最全Linux驱动开发全流程详细解析（持续更新）-CSDN博客》已经是 Linux驱动相关内容搜索的推荐首位，感谢大家支持。《拉…...

编程日记 2024/12/16 6:03:39

利用Docker分层构建优化镜像大小

合适docker镜像文件大小不仅影响容器启动效率，也影响资源占用效率。本文介绍如何利用分层方式构建docker镜像，采用多种方式避免镜像文件太大而影响性能。 Docker 镜像大小优化的重要性资源利用效率较小的镜像文件在存储和传输过程中占用更少的空间和带…...

编程日记 2024/12/16 6:02:37

Spring 魔法探秘：从 Bean 线程安全到事务魔法全解析

1.Spring 框架中的单例 Bean 是线程安全的么？ Spring 框架中的单例 Bean 本身并不保证线程安全性。单例模式意味着在整个应用程序的生命周期中，只会创建该 Bean 的一个实例，并且所有对该 Bean 的请求都将共享这个实例。线程安全与否取决于…...

编程日记 2024/12/16 6:00:36

[Maven]IDEA父工程创建子工程后父工程不可运行

IDEA在使用maven构建项目时，如果你在当前工程下创建一个子工程，那么原有的工程(变为父工程的工程)原有的代码通常会变得不可运行。这是因为，使用maven创建父子工程关系后，IDEA会自动变更项目的模块相关配置。比如这是我maven工程…...

编程日记 2024/12/16 5:59:35

【系统移植】在开发板上加载内核和根文件系统的三种方法

实现环境：ubuntu24.04和FS4412实验平台。要在开发板上运行linux操作系统，首先要将linux内核镜像（uImage）、设备树（dexynos4412-fs4412.dtb）和根文件系统镜像（ramdisk.img）加载到开发板内存。有以下几种方式加载：一、通过tftp加载内核和根文件系统二、通过EMMC加…...

编程日记 2024/12/16 5:58:33

#渗透测试#漏洞挖掘#红蓝攻防#护网#sql注入介绍02-基于错误消息的SQL注入（Error-Based SQL Injection）

免责声明本教程仅为合法的教学目的而准备，严禁用于任何形式的违法犯罪活动及其他商业行为，在使用本教程前，您应确保该行为符合当地的法律法规，继续阅读即表示您需自行承担所有操作的后果，如有异议，请立即停…...

编程日记 2024/12/16 5:57:32

数据结构-排序（来自于王道）

排序的基本概念插入排序在这个算法中，除了输入的数组本身，没有使用额外的数据结构来存储数据，所有的操作都是在原数组上进行的。因此，无论输入数组的大小 n 是多少，算法执行过程中所占用的额外空间是固定的&#xff…...

编程日记 2024/12/16 5:54:26

【蓝桥杯选拔赛真题93】Scratch青蛙过河第十五届蓝桥杯scratch图形化编程少儿编程创意编程选拔赛真题解析

目录 Scratch青蛙过河一、题目要求编程实现二、案例分析 1、角色分析 2、背景分析 3、前期准备三、解题思路 1、思路分析 2、详细过程四、程序编写五、考点分析六、推荐资料 1、入门基础 2、蓝桥杯比赛 3、考级资料 4、视频课程 5、python资料 Scr…...

编程日记 2024/12/16 5:52:23

ReactPress最佳实践—搭建导航网站实战

Github项目地址：https://github.com/fecommunity/easy-blog 欢迎Star。近期，阮一峰在科技爱好者周刊第 325 期中推荐了一款开源工具——ReactPress，ReactPress一个基于 Next.js 的博客和 CMS 系统，可查看 demo站点。（…...

编程日记 2024/12/16 5:51:20

Hive-4.0.1数据库搭建（可选配置用户名密码远程连接）

1.官网下载tar包上传到服务器并解压（我这里解压到了hive目录): 2.进入到conf目录，并复制模板配置文件进行修改： cd /apache-hive-4.0.1-bin/conf cp hive-default.xml.template hive-site.xml3.编写内容如下： <property>&…...

编程日记 2024/12/16 5:49:17

P8772 求和 P8716 回文日期

文章目录 [蓝桥杯 2022 省 A] 求和[蓝桥杯 2020 省 AB2] 回文日期 [蓝桥杯 2022 省 A] 求和题目描述给定 n n n 个整数 a 1 , a 2 , ⋯ , a n a_{1}, a_{2}, \cdots, a_{n} a1,a2,⋯,an, 求它们两两相乘再相加的和，即 S a 1 ⋅ a 2 a 1 ⋅ a 3 ⋯ a…...

编程日记 2024/12/16 5:48:16

MySQL迁移SQLite

将 MySQL 的表结构和数据迁移到 SQLite，可以通过以下步骤实现。这个过程主要包括导出 MySQL 数据库到 SQL 文件，然后将其导入到 SQLite 数据库中。步骤 1: 导出 MySQL 数据库首先，需要将 MySQL 数据库导出为一个 SQL 文件。可以使用 mysq…...

编程日记 2024/12/16 5:47:15

RocketMQ中的顺序消息和乱序消息详解

内容编辑中… 1.背景顺序消息是消息队列 RocketMQ 提供的一种高级消息类型。对于一个指定的Topic，消息严格按照先进先出（FIFO）的原则进行消息发布和消费。即先发送的消息先消费，后发送的消息后消费。顺序消息在发送、存储和投递的处理过程中，强调多条消息间的先后…...

编程日记 2024/12/16 5:45:12

Unity UGUI图片循环列表插件

效果展示： 下载链接：https://gf.bilibili.com/item/detail/1111843026 概述： LoopListView2 是一个与 UGUI ScrollRect 相同的游戏对象的组件。它可以帮助 UGUI ScrollRect 以高效率和节省内存的方式支持任意数量的项目。对于具有10,000个…...

编程日记 2024/12/16 5:44:11

Kafka系列教程 - Kafka 生产者 -2

1. 生产者简介不管是把 Kafka 作为消息队列系统、还是数据存储平台，总是需要一个可以向 Kafka 写入数据的生产者和一个可以从 Kafka 读取数据的消费者，或者是一个兼具两种角色的应用程序。使用 Kafka 的场景很多，诉求也各有不同&#xff…...

编程日记 2024/12/16 5:42:08

1688商品列表API与其他数据源的对接思路

将1688商品列表API与其他数据源对接时，需结合业务场景设计数据流转链路，重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点： 一、核心对接场景与目标商品数据同步场景：将1688商品信息…...

编程新知 2025/11/30 16:55:32

高等数学（下）题型笔记（八）空间解析几何与向量代数

目录 0 前言 1 向量的点乘 1.1 基本公式 1.2 例题 2 向量的叉乘 2.1 基础知识 2.2 例题 3 空间平面方程 3.1 基础知识 3.2 例题 4 空间直线方程 4.1 基础知识 4.2 例题 5 旋转曲面及其方程 5.1 基础知识 5.2 例题 6 空间曲面的法线与切平面 6.1 基础知识 6.2…...

编程新知 2026/1/28 9:04:29

【C语言练习】080. 使用C语言实现简单的数据库操作

080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码：使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出：5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作在…...

编程新知 2025/9/22 21:37:01

Java面试专项一-准备篇

一、企业简历筛选规则一般企业的简历筛选流程：首先由HR先筛选一部分简历后，在将简历给到对应的项目负责人后再进行下一步的操作。 HR如何筛选简历例如：Boss直聘（招聘方平台） 直接按照条件进行筛选例如&#xff1a…...

编程新知 2026/1/26 19:10:48

有限自动机到正规文法转换器v1.0

1 项目简介这是一个功能强大的有限自动机（Finite Automaton, FA）到正规文法（Regular Grammar）转换器，它配备了一个直观且完整的图形用户界面，使用户能够轻松地进行操作和观察。该程序基于编译原理中的经典…...

编程新知 2026/1/31 13:13:32

视频行为标注工具BehaviLabel（源码+使用介绍+Windows.Exe版本）

前言： 最近在做行为检测相关的模型，用的是时空图卷积网络（STGCN），但原有kinetic-400数据集数据质量较低，需要进行细粒度的标注，同时粗略搜了下已有开源工具基本都集中于图像分割这块&#xff0c…...

编程新知 2026/2/6 5:04:18

Java数值运算常见陷阱与规避方法

整数除法中的舍入问题问题现象当开发者预期进行浮点除法却误用整数除法时，会出现小数部分被截断的情况。典型错误模式如下： void process(int value) {double half = value / 2; // 整数除法导致截断// 使用half变量 }此时...

编程新知 2026/2/4 13:10:38

GitHub 趋势日报 (2025年06月06日)

📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图今日获星趋势图 590 cognee 551 onlook 399 project-based-learning 348 build-your-own-x 320 ne…...

编程新知 2026/1/29 5:21:31

leetcode73-矩阵置零

leetcode 73 思路记录 0 元素的位置：遍历整个矩阵，找出所有值为 0 的元素，并将它们的坐标记录在数组zeroPosition中置零操作：遍历记录的所有 0 元素位置，将每个位置对应的行和列的所有元素置为 0 具体步骤初始化…...

编程新知 2026/2/1 11:11:34

CVE-2023-25194源码分析与漏洞复现(Kafka JNDI注入)

漏洞概述漏洞名称：Apache Kafka Connect JNDI注入导致的远程代码执行漏洞 CVE编号：CVE-2023-25194 CVSS评分：8.8 影响版本：Apache Kafka 2.3.0 - 3.3.2 修复版本：≥ 3.4.0 漏洞类型：反序列化导致的远程代…...

编程新知 2026/2/8 21:48:54