当前位置：首页 > news >正文

Hi-TRS：骨架点视频序列的层级式建模及层级式自监督学习

news 2025/7/12 12:57:17

论文题目：Hierarchically Self-Supervised Transformer for Human Skeleton Representation Learning

论文下载地址：https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136860181.pdf

代码地址：https://github.com/yuxiaochen1103/Hi-TRS/tree/main

层级式建模

整个建模骨架点视频序列的网络架构由三个 Transformer 组成：

对关节点建模空间信息的 Frame-level Transformer (F-TRS)
对序列片段建模短期时序信息的 Clip-leve Transformer (C-TRS)
对整段骨架点视频序列建模长期时序信息的 Video-leve Transformer (V-TRS)

数据在其中是串行流动，即 F-TRS 的输出作为 C-TRS 的输入，以此类推。

Frame-level Transformer (F-TRS)

大家可能更加熟悉对图片进行建模的 Transformer：以 patch 为单位进行 Attention。

在这里，每个 joint 就相当于一个 patch，所以该 Transformer 做的是 joint 和 joint 之间的 Attention。

同时，该 Transformer 还为每个 joint 加上了可学习的位置编码（1D learnable positional embedding）。

Clip-leve Transformer (C-TRS)

在这个 Transformer 里，clip 里的每一帧的每个 joint 都相当于一个 patch。注意和上面的区别，这里 clip 里第 1 帧的左手节点和第 2 帧的左手节点会被认为是不同的 patch。

所以，该 Transformer 的可学习位置编码是二维的（2D learnable positional embedding）。

同时，作者为每个 clip 加上一个 [CLS] token，该 token 就汇聚了 clip 里所有帧里所有节点的信息。这个 token 也就作为该 clip 的 embedding。

Video-leve Transformer (V-TRS)

在这个 Transformer 里，每个 clip 相当于一个 patch，所以该 Transformer 做的是 clip 和 clip 之间的 Attention。

同样，该 Transformer 为每个 clip 加上了可学习的位置编码（1D learnable positional embedding）。

同时，作者为每个 video 加上一个 [CLS] token，该 token 就汇聚了 video 里所有 clips 的信息。这个 token 也就作为该 video 的 embedding。

层级式自监督学习

可以从上图可知，论文针对不同层级 Transformer 的输出做了不同代理任务的设计。

Spatial Pretext task

作用于 Frame-level Transformer 的输出 embeddings。
任务类似于 MAE，用不同的策略掩盖掉 15% 的关节点 embeddings。再接上一个全连接层，回归预测出被掩盖掉关节点的坐标。
该任务使用 L1-Loss 去约束预测值与真实值之间的差距。

Temporal Pretext task

分别作用于 Clip-leve Transformer 和 Video-leve Transformer 的输出 embeddings。
简单的二分类任务，判断时序正确与否。当作用于 Clip-leve Transformer 时，可能打乱 clip 中任意两帧 embeddings，也有可能不打乱，再接上一个全连接层，让其判断打乱与否；当作用于 Video-leve Transformer 时，可能打乱任意两个 clip embeddings 的顺序，也有可能不打乱，再接上一个全连接层，让其判断打乱与否；
用交叉熵损失函数约束任务的进行。

Discriminative Pretext task

作用于 Video-level Transformer 的输出 embeddings。
该任务是生成式任务，结合前几个 clip 的 embeddings 去预测最后一个 clip 的 embedding。同样通过接上一个全连接层，让其回归出最后一个 clip 的 embedding。
使用 InfoNCE Loss 来约束任务的进行。正样本对为最后一个 clip 的预测 embedding 和真实 embedding；负样本为同一个 batch 里其他 skeleton sequences 最后一个 clip 的真实 embedding

如果觉得有帮到你的话，可以点击右下方的“打赏”按钮~您的支持是我创作的最大动力呀~

Hi-TRS：骨架点视频序列的层级式建模及层级式自监督学习

论文题目：Hierarchically Self-Supervised Transformer for Human Skeleton Representation Learning 论文下载地址：https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136860181.pdf 代码地址：https://github.com/yuxiaochen1103…...

编程日记 2023/8/17 15:11:53

FPGA 之 xilinx DDS IP相位控制字及频率控制字浅析

浅析相位环在Xilinx DDS中的理解本文仅为个人理解之用; 相关仿真结果如下:...

编程日记 2023/8/17 15:10:52

[鹏城杯 2022]简单包含

直接用php：// 有wtf 加脏数据绕过...

编程日记 2023/8/17 15:09:50

Required request parameter ‘XXX‘ for method parameter type XXX is not present问题

今日工作中遇到很奇葩的问题，用翻译软件翻译结果为方法参数类型XXX所需的请求参数XXX不存在也就是说前端没有给后端传值后端的接收方式为 public Result demo(RequestParam("id") String id){}...

编程日记 2023/8/17 15:08:49

centOS 快速安装和配置 NVIDIA docker Container Toolkit

要在 CentOS 上正确安装和配置 NVIDIA Container Toolkit，您可以按照以下步骤进行操作，如果1和2都已经完成，可以直接进行第3步NVIDIA Container Toolkit安装配置。 1. 安装 NVIDIA GPU 驱动程序： 您可以从 NVIDIA 官方网站下载适…...

编程日记 2023/8/17 15:06:45

编程练习（2）

一.选择题第一题： 考察转义字符和strlen函数求解字符串长度进一步在VS中可以智能看出哪些字符是转义字符： 因此本体答案选择B 第二题： 本体较为简单，宏定义了三个数N,M,NUM,N值为2,M值为3，因此NUM值为8，…...

编程日记 2023/8/17 15:05:43

利用Figlet工具创建酷炫Linux Centos8服务器-登录欢迎界面-SHELL自动化编译安装代码

因为我们需要生成需要的特定字符，所以需要在当前服务器中安装Figlet，默认没有安装包的，其实如果我们也只要在一台环境中安装，然后需要什么字符只要复制到需要的服务器中，并不需要所有都安装。同样的，我们也可以利用此生成的字符用到脚本运行的开始起头部分，用ECHO分行标…...

编程日记 2023/8/17 15:04:42

Git Cherry-pick使用

概述无论项目大小，当你和一群程序员一起工作时，处理多个 Git 分支之间的变更都会变得很困难。有时，与其把整个 Git 分支合并到另一个分支，不如选择并移动几个特定的提交。这个过程被称为 "挑拣", 即 Cherry-pick。本…...

编程日记 2023/8/17 15:03:41

红帽8.5 ansible 安装和部署 |（简单版）

什么是ansible Ansible是一款基于OpenSSH开源的自动化运维工具，可以用它来配置系统、部署软件和编排更高级的 IT 任务，并且使用具有极高的安全性，ansible是当前市面上主流的自动化运维工具之一为什么使用ansible 比较直观的说，…...

编程日记 2023/8/17 15:02:39

Visual Studio 2019 c++ 自定义注释 ----doxygen

可加入C 也可自定义。 <?xml version"1.0" encoding"utf-8"?> <CodeSnippets xmlns"http://schemas.microsoft.com/VisualStudio/2005/CodeSnippet"><CodeSnippet Format"1.0.0"><Header><Title>注释…...

编程日记 2023/8/17 15:01:38

面试题. 零矩阵

编写一种算法，若M N矩阵中某个元素为0，则将其所在的行与列清零。示例 1： 输入： [[1,1,1],[1,0,1],[1,1,1] ] 输出： [[1,0,1],[0,0,0],[1,0,1] ] 示例 2： 输入： [[0,1,2,0],[3,4,5,2],[1,3…...

编程日记 2023/8/17 15:00:37

易语言下载器

静态网站整站下载器 https://bbs.125.la/forum.php?modviewthread&tid14791313&highlight%E4%B8%8B%E8%BD%BD%E5%99%A8 易语言之音乐下载器 https://blog.51cto.com/u_15309652/3153642 （File Download Assistant）下载链接：https…...

编程日记 2023/8/17 14:59:36

原生js获取今天、昨天、近7天的时间（年月日时分秒）

有的时候我们需要将今天，昨天，近7天的时间(年月日时分秒)作为参数传递给后端，如下图：那怎么生成这些时间呢？如下代码里，在methods里的toDay方法、yesterDay方法、weekDay方法分别用于生成今天、昨天和近7天的时间： <template><div class="box"&…...

编程日记 2023/8/17 14:58:34

最强自动化测试框架Playwright（29）-文件选择对象

FileChooser对象通过page.on("filechoose")事件监听。如下代码实现点击百度搜图按钮，上传文件进行搜索。 from playwright.sync_api import Playwright, sync_playwright, expectdef run(playwright: Playwright) -> None:browser playwright.chro…...

编程日记 2023/8/17 14:57:32

【烂尾】K8S部署

0x01 初见K8S 在地下城的迷宫深处，有一个神奇的存在，它就是Kubernetes！宛如一个勇敢的冒险者，它穿越着这个复杂的迷宫，带领着容器们战胜各种惊险的挑战。 Kubernetes就像是一位无所畏惧的剑士，手握着强大…...

编程日记 2023/8/17 14:56:30

电机故障诊断(python程序，模型为MSCNN结合LSTM结合注意力机制模型，有注释)

代码运行环境要求：TensorFlow版本>2.4.0，python版本>3.6.0 1.电机常见的故障类型有以下几种： 轴承故障：轴承是电机运转时最容易受损的部件之一。常见故障包括磨损、疲劳、过热和润滑不良，这些问题可能导致噪音增…...

编程日记 2023/8/17 14:55:29

二叉树（ACM版）

【数据结构1-2】二叉树 - 题单 - 洛谷【数据结构】day2-树_J娇娇_的博客-CSDN博客上学时的作业 P1827 [USACO3.4] 美国血统 American Heritage 二叉树特点写法（非二叉树） 截取字符串写法 #include<string> #include<cstring> #include…...

编程日记 2023/8/17 14:54:28

Scratch 之如何制作鼠标框（2）—— 鼠标框框定角色

hello，大家好，欢迎来到鼠标框系列的第二课时！ 咱们废话不多说，直接开始首先，温故知新一下，上个教程我们讨论了如何绘制鼠标框，网址：绘制鼠标框你说，一个鼠标框&…...

编程日记 2023/8/17 14:53:25

爬虫逆向实战（九）--猿人学第十三题

一、数据接口分析主页地址：猿人学第十三题 1、抓包通过抓包可以发现数据接口是api/match/13 2、判断是否有加密参数请求参数是否加密？ 无请求头是否加密？ 无响应是否加密？ 无cookie是否加密？ 在“cookie”模块…...

编程日记 2023/8/17 14:52:24

NeuralNLP-NeuralClassifier的使用记录（一），训练预测自己的【英文文本多分类】

NeuralNLP-NeuralClassifier的使用记录，训练预测自己的英文文本多分类 NeuralNLP-NeuralClassifier是腾讯开发的一个多层多分类应用工具，支持的任务包括，文本分类中的二分类、多分类、多标签，以及层次多标签分类。支持的文本编码…...

编程日记 2023/8/17 14:51:22

接口测试中缓存处理策略

在接口测试中，缓存处理策略是一个关键环节，直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性，避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明： 一、缓存处理的核…...

编程新知 2025/7/12 9:22:06

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

一、变量声明设计：let 与 mut 的哲学解析 Rust 采用 let 声明变量并通过 mut 显式标记可变性，这种设计体现了语言的核心哲学。以下是深度解析： 1.1 设计理念剖析安全优先原则：默认不可变强制开发者明确声明意图 let x 5; …...

编程新知 2025/6/21 16:43:12

阿里云ACP云计算备考笔记 (5)——弹性伸缩

目录第一章概述第二章弹性伸缩简介 1、弹性伸缩 2、垂直伸缩 3、优势 4、应用场景 ① 无规律的业务量波动 ② 有规律的业务量波动 ③ 无明显业务量波动 ④ 混合型业务 ⑤ 消息通知 ⑥ 生命周期挂钩 ⑦ 自定义方式 ⑧ 滚的升级 5、使用限制第三章主要定义 …...

编程新知 2025/7/4 12:47:34

【位运算】消失的两个数字（hard）

消失的两个数字（hard） 题⽬描述：解法（位运算）：Java 算法代码：更简便代码题⽬链接：⾯试题 17.19. 消失的两个数字题⽬描述： 给定⼀个数组，包含从 1 到 N 所有…...

编程新知 2025/7/8 4:43:23

LeetCode - 394. 字符串解码

题目 394. 字符串解码 - 力扣（LeetCode） 思路使用两个栈：一个存储重复次数，一个存储字符串遍历输入字符串： 数字处理：遇到数字时，累积计算重复次数左括号处理：保存当前状态&a…...

编程新知 2025/7/11 10:26:35

剑指offer20_链表中环的入口节点

链表中环的入口节点给定一个链表，若其中包含环，则输出环的入口节点。若其中不包含环，则输出null。数据范围节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。节点 val 值各不相同。链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...

编程新知 2025/7/10 1:57:27

工业自动化时代的精准装配革新：迁移科技3D视觉系统如何重塑机器人定位装配

AI3D视觉的工业赋能者迁移科技成立于2017年，作为行业领先的3D工业相机及视觉系统供应商，累计完成数亿元融资。其核心技术覆盖硬件设计、算法优化及软件集成，通过稳定、易用、高回报的AI3D视觉系统，为汽车、新能源、金属制造等行…...

编程新知 2025/7/6 0:53:56

如何在最短时间内提升打ctf（web)的水平？

刚刚刷完2遍 bugku 的 web 题，前来答题。每个人对刷题理解是不同，有的人是看了writeup就等于刷了，有的人是收藏了writeup就等于刷了，有的人是跟着writeup做了一遍就等于刷了，还有的人是独立思考做了一遍就等于刷了。…...

编程新知 2025/7/12 4:40:10

C# 求圆面积的程序（Program to find area of a circle）

给定半径r，求圆的面积。圆的面积应精确到小数点后5位。例子： 输入：r 5 输出：78.53982 解释：由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982，因为我们只保留小数点后 5 位数字。输…...

编程新知 2025/7/12 6:30:50

华硕a豆14 Air香氛版，美学与科技的馨香融合

在快节奏的现代生活中，我们渴望一个能激发创想、愉悦感官的工作与生活伙伴，它不仅是冰冷的科技工具，更能触动我们内心深处的细腻情感。正是在这样的期许下，华硕a豆14 Air香氛版翩然而至，它以一种前所未有的方式&#x…...

编程新知 2025/7/12 7:28:21