MHFormer 论文解读
目录
Multi-Hypothesis Transformer 结果
Introduction & Related work
多假设
为什么作者提出这个模型?
3.Multi-Hypothesis Transformer
3.1 Preliminary
3.2 MultiHypothesis Generation
3.3 Temporal Embedding
3.4. SelfHypothesis Refinement
3.5. CrossHypothesis Interaction
3.6 Regression Head
3.7 Loss Function
4. Experiments
4.2. Implementation Details
4.+ results
5. Qualitative Results
6. Conclusion
Multi-Hypothesis Transformer 结果
MHFormer在Human3.6M 和 MPI-INF-3DHP两个数据集上实现了SOTA效果,比之前最好的效果提升了3%。
Introduction & Related work
多假设
多假设的原因:很多3d姿态都能映射到2d姿态,从2d推断3d姿态时,会有很多个解,这里就称为多假设。
为什么作者提出这个模型?
参考:https://www.cnblogs.com/Nothing-is-easy/p/16006064.html
在视频中的2D到3D的姿态评估,之前的工作要么使用时空图(spatio-tempral graph),要么使用纯粹的基于Transformer的模型,这些方法的共性就是提取2D pose sequence中的时空信息。但是都忽略了一个重要的事实,2D->3D的过程是一个可逆问题,存在多个可行解,即一个2D pose投影到3D上,符合要求的投影可能有多个,这些方法忽略了这个问题,只估计了一个单一的解决方案,这样得到的结果就不够精确。如下图,带一定的自遮挡,以前的方法只预测一个结果,而作者提出的方法预测了多个可行解,这也是作者为什么要提出这个方法的原因。

如图Figure 2 是作者提出的三阶段框架。从生成多个初始化的表示开始,通过作者称之为的self-communication以合成一个更为准确的预测。
第一阶段引入了称之为Multi-Hypothesis Generation(MHG)的模块,对人体关节的内在结构信息进行建模,在空间域生成多个多层次的特征,这些特征包含了从浅到深的不同深度的不同语义信息,可以视为多个假设的初始表征形式。
接下来,作者提出了两个新的模块对时间一致性进行建模,并增强了时序上的coase representations。第二阶段,一个作者称之为Self-Hypothesis Refinement (SHR)的模块用于微调每个单假设的特征,SHR由两个块组成。第一个块是一个多假设自注意块(multi-hypothesis self-attention,MH-SA),对单个假设构建self-hypothesis communication,使信息在每个假设中传递以增强特征。第二个块是hypothesis-mixing multi-layer perceptron (MLP),多假设混合的多层感知器(十分拗口),用于交换每个假设之间的信息。第二阶段的工作是将多个假设聚合成一个中间表示后,又将其分割成几个不同的假设。
虽然SHR对这些假设进行了微调(refine),但是不同假设之间的联系依然不够强,因为MH-SA模块只传递了各自假设的信息,没有实现跨假设信息交互,为了解决这个问题,作者提出了第三个阶段Cross-Hypothesis Interaction (CHI),跨假设交互模块,对多个假设的的特征进行交互。CHI的关键模块是multi-hypothesis cross-attention(MH-CA),多假设的注意力交互模块,该模块捕获多假设之间的相互关系,构建跨假设的信息交互(cross-hypothesis communication),以实现假设之间的信息传递,从而更好地进行交互建模。然后,利用hypothesis-mixing MLP对多个假设进行聚合得到最终地结果。

本文贡献:
(1)提出了一个基于Transformer的新方法MHFormer,用于单目视频的3D HPE。该模型能够以端到端的方式有效学习多个姿态假设的时空表征。
(2)提出了多假设特征之间的信息交互,既能够实现自假设信息微调,也能够跨假设进行信息交互。
(3)在两个数据集上实现了最先进的效果,比之前好了3%。
3.Multi-Hypothesis Transformer

MHFormer整体图如Fig3所示,2D pose sequence由现成的2D pose detector生成。方法目标是通过充分利用多假设特征的时空信息来构建3D pose,方法实现包括三个关键模块:MHG、SHR和CHI,以及两个辅助模块:时序嵌入和回归头。

3.1 Preliminary
本文中,作者使用的架构是基于Transformer的,因为其在长期依赖建模中具有良好表现。本文Transformer的基本组件包含:多头注意力(MSA)和一个多层感知器(MLP)。
MSA 采用点积方式计算注意力分数:

MSA将queries,keys和values分为h个平行输入,输出是将h个注意力头又结合在一起。
MLP 包含两个线性层,分别用于非线性化(GELU激活函数)和特征转换
![]()
3.2 MultiHypothesis Generation
在空间域,作者通过设计一个基于transformer的级联结构来解决可逆问题,这个级联结构能够输出不同潜在空间的多个特征。具体就是引进MHG对人体关节关系进行建模,以及初始化多假设表示。

给定一个2D pose sequence,将每一帧的每个关节的坐标作为一个patch,在此基础上加上spatial position embedding,用于保留身体关节的空间信息,之后将这个embedded features 作为MHG的输入,为了梯度传播,这边也应用了残差结构。以上过程可用公式表示为:

LN()表示LayerNorm。图中可以看到是输出了三个不同的假设表示(presentation),每一个表示经历过的Transformer Encoder层数不一样,即深度不一样,因此包含的信息不一样,也就是三个特征表示是不一样,即作者所谓的在不同潜在空间中包含不同深度的多个假设。
3.3 Temporal Embedding
MHG更多是在空间上提取信息,时间上的联系是不足的,因此作者在每一帧之间加入了一个Temporal embedding,为后面模块提取时间联系时提供一个强的参考信息。
3.4. SelfHypothesis Refinement
在时间域上,作者首先构造了SHR来对单个假设特征表示进行细化/微调(refine),每个SHR层由一个多假设自注意力块(multi-hypothesis self-attention, MH-SA)和一个hypothesis-mixing MLP块。

MH-SA Transformer模型的核心时MSA,任意两个元素(这里我理解为输入的patch)都可以通过它进行信息交互,进而产生长期依赖。而MH-SA是捕捉单假设中独立的依赖关系,以进行自假设信息交互,也就是说这部分的微调,只和自己有关,从自己身上提取信息后进行微调。公式上可以如下表达:

Hypothesis-Mixing MLP(HM-MLP) 在MH-SA中,多假设被单独处理,而假设之间是没有进行信息交换的,因此在MH-SA之后,作者添加了这个HM-MLP模块。在MH-SA之后,多个假设的特征被连接起来,fed到HM-MLP中进行信息融合,之后将特征沿通道维数均匀划分为不重叠的块,形成(经过多假设信息交互后的)更精细化的假设表示,公式表示为:

Concat()表示连接操作。经过以上操作,得到的多个假设就包含了其他假设的交互信息了。这边有点不清楚连接后的划分依据是什么?按照个人理解是多个假设特征只是被简单的串联,那么经过MLP层后就发生了信息交互,只需要按照原来连接的地方将一个特征重新拆分成多个假设特征就行了,这样拆分的几个假设特征也就实现了作者所说的假设混合。
3.5. CrossHypothesis Interaction
然后利用CHI对多假设特征之间的交互进行建模,CHI包括两个模块:multi-hypothesis cross-attention (MH-CA) 和 hypothesis-mixing MLP(HM-MLP)。

MH-CA MH-SA缺少跨假设之间的连接,这会限制其交互建模。为了捕捉多假设之间的相关性,进行交叉假设交互,作者提出了MH-CA,MH-CA由多个平行的multi-head cross attention(MCA)组成。
MCA用于衡量多个假设特征之间的相关性,与MSA有着相似的结构。下图右侧为MCA的结构图。在MCA中,如果使用相同的keys和values作为输入,会导致更多的块,此处作者采用了一种更有效的策略,通过使用不同的输入来减少参数的数量。对比下图可知,在MSA中是采用相同参数的输入,输入一个特征,输出一个特征,MCA中输入三个不同特征,输出一个特征。

以上实现可表示为公式:

Hypothesis-Mixing MLP(HM-MLP) 这部分操作和3.4HM-MLP基本一致

在最后一层的HM-MLP中,不再进行分配操作,最终将所有假设的特征进行聚合,合成一个单一的假设特征表示ZM。
3.6 Regression Head
经过MHG、temporal embedding、SHR和CHI,输入关节帧X变成了唯一的特征表示ZM,然后在先行输出层上进行回归生成3D pose sequence X~, X~中选择中间帧X^作为最终的预测结果。
3.7 Loss Function
使用标准的平均关节位置误差(MPJPE)损失以端到端方式对整个网络进行训练

4. Experiments
这里就贴一下效果,实现细节翻译一下。
4.2. Implementation Details
作者的实验中,参数采用L1=4 MHG, L2=2 SHR, 和 L3=1 CHI layers。使用pytorch框架在3090单GPU训练20个epochs,优化器为Amsgrad。初始学习率为0.05,每个epoch后收缩系数为0.95,每5个epoch后收缩系数为0.5。2D pose sequence在Human3.6M上采用CPN,MPI-INF-3DHP上使用ground truth。
4.+ results
Human3.6M上的实验效果,protocol1为CPN生成的2D pose sequence作为输入, protocol2为ground truth作为输入,效果都比之前的好:

关于多个假设的对比实验:

MPI-INF-3DHP上的实验效果对比:

Human3.6M上做的消融实验对比,其实就是2D pose sequence输入的不同,以及输入帧数不同时的影响:

消融实验,改变MHG层数和假设数量后的实验结果对比,显示MHG层数最好为4,假设数量最好为3:

消融实验,改变SHR和CHI层数后的实验结果:

消融实验,对比没有多个假设生成对比,以及部分模块有无的对比,说明每个模块都时必要的:

消融实验做了非常多,说明非常重要,不仅仅提出一个新模型就够了,还要实验证明提出的模型不可缺少。
5. Qualitative Results
作者的方法并没有产生多个3D预测结果,但是中间添加了回归层后,可以使中间假设可视化。下图展示了几个定性的结果,作者的方法能够生成不同的貌似合理的3D姿态解,特别是对于具有深度模糊、自遮挡和2D检测器不确定性的模糊身体部位。通过多假设信息聚合得到的最终三维位姿更合理、更准确。

6. Conclusion
贡献:
(1)提出了一个基于Transformer的新方法MHFormer,用于单目视频的3D HPE。该模型能够以端到端的方式有效学习多个姿态假设的时空表征。
(2)提出了多假设特征之间的信息交互,既能够实现自假设信息微调,也能够跨假设进行信息交互。
(3)在两个数据集上实现了最先进的效果,比之前好了3%。
Limitation:要求相对较大的计算复杂度,因为Transformer卓越的性能是以高计算成本为代价的。
相关文章:
MHFormer 论文解读
目录 Multi-Hypothesis Transformer 结果 Introduction & Related work 多假设 为什么作者提出这个模型? 3.Multi-Hypothesis Transformer 3.1 Preliminary 3.2 MultiHypothesis Generation 3.3 Temporal Embedding 3.4. SelfHypothesi…...
Python列表append()函数使用详解
在Python中,列表是一种可变序列类型,可以用来存储多个元素。列表的append()函数是用于在列表末尾添加新元素的内置方法。本文将详细介绍Python列表的append()函数及其使用方法。 一、append()函数的基本语法 append()函数的语法非常简单,只…...
第08章_面向对象编程(高级)拓展练习(关键字:static,代码块,关键字:final,抽象类和抽象方法,接口,内部类,枚举类,注解,包装类)
文章目录 第08章_面向对象编程(高级)拓展练习01-关键字:static1、银行账户类2、图形类3、数组工具类4、二分查找5、二分查找6、素数7、阅读代码,分析运行结果8、阅读代码,分析运行结果 02-代码块9、阅读代码࿰…...
分布式光伏运维平台在提高光伏电站发电效率解决方案
摘要:伴随着能源危机和环境恶化问题的日益加重,科技工作者进一步加大对新能源的开发和利用。太阳能光伏发电作为新型清洁能源的主力军,在实际生产生活中得到了广泛的应用。然而,光伏发电效率偏低,成为制约光伏发电发展…...
2024.1.14~1.20 周内刷题总结
2024.1.14~1.20 周内刷题总结 [ABC158F] Removing Robots 题解[ABC145F] Laminate 题解[ABC254G] Elevators 题解(坑点总结)[ARC160C] Power Up 题解[ABC203F] Weed 题解Shopping时代的眼泪 [ABC158F] Removing Robots 题解 \qquad 题面 \qquad 本题的连…...
徐州数字孪生元宇宙赋能工业智能制造,助力传统制造业数字化转型
徐州数字孪生元宇宙赋能工业智能制造,助力传统制造业数字化转型。在徐州市制造业企业数字化转型的过程中,数字孪生技术的应用已经取得了显著成效。一方面,企业的生产效率得到了显著提高,产品质量也得到了有效保障。另一方面&#…...
智云谷再获资本市场青睐,完成数千万元A+轮融资
近日,深圳前海智云谷科技有限公司(以下简称“智云谷”)完成数千万元A轮融资,本轮融资由青松基金独家投资,多维资本担任独家融资财务顾问。本轮融资资金将用于扩大新技术研发投入、智能工厂扩产、加速产品交付ÿ…...
ACM论文LaTeX模板解析(三)| 文章顶部信息(Top matter))Part 1
本文收录于专栏:ACM 论文 LaTeX模板解析,本专栏将会围绕ACM 论文 LaTeX模板解析持续更新。欢迎点赞收藏关注! 文章目录 有许多命令可以设置文章的顶部信息或(计算机科学术语)元数据。它们建立了出版物名称、文章标题、…...
[GDOUCTF 2023]受不了一点
[GDOUCTF 2023]受不了一点 wp 题目代码: <?php error_reporting(0); header("Content-type:text/html;charsetutf-8"); if(isset($_POST[gdou])&&isset($_POST[ctf])){$b$_POST[ctf];$a$_POST[gdou];if($_POST[gdou]!$_POST[ctf] &&…...
精心挑选免费好用的api,推荐给大家
企业基本信息:通过公司名称/公司ID/注册号或社会统一信用代码获取企业基本信息,企业基本信息包括公司名称或ID、类型、成立日期、经营状态、注册资本、法人、工商注册号、统一社会信用代码、组织机构代码、纳税人识别号等字段信息。 AI绘画-Stable Diff…...
(001)window 使用 OpenObserve
文章目录 安装上传数据报错附录 安装 1.下载安装包: 2. window 设置环境变量: ZO_ETCD_COMMAND_TIMEOUT 600 ZO_ETCD_CONNECT_TIMEOUT 600 ZO_ETCD_LOCK_WAIT_TIMEOUT 600 ZO_INGEST_ALLOWED_UPTO 10000 ZO_ROOT_USER_EMAIL 422615924qq.com ZO_…...
linux发送http请求命令
一、http get请求 1、curl命令不带参 curl “http://www.baidu.com” 如果这里的URL指向的是一个文件或者一幅图都可以直接下载到本地 curl -i “http://www.baidu.com” 显示全部信息 curl -l “http://www.baidu.com” 只显示头部信息 curl -v “http://www.baidu.com”…...
JVM实战(19)——JVM调优工具概述
作者简介:大家好,我是smart哥,前中兴通讯、美团架构师,现某互联网公司CTO 联系qq:184480602,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬 学习必须往深处挖&…...
Windows10无法访问github
亲测有效 1、修改hosts文件 如果电脑是Windows系统:打开 C:\Windows\System32\drivers\etc 找到hosts文件,将对应的Host地址修改为: #github 140.82.112.4 github.com 199.232.69.194 github.global.ssl.fastly.net 如果在保存hosts时遇到…...
GIT 分支管理办法(二)
GIT 分支管理办法(二) 一. 大型项目分支管理中存在的痛点 大型项目中需求的上线存在很大的不确定性,而且往往存在多版本、多团队、多开发并行的情况。尤其是大型企业对上线分支中编号的管理十分严苛,严禁夹带上线。这时对于开发…...
Vue面试之Mixins
Vue面试之Mixins 定义Mixins使用Mixins全局MixinsMixins合并策略注意事项命名冲突:过度使用 最近在整理一些前端面试中经常被问到的问题,分为vue相关、react相关、js相关、react相关等等专题,可持续关注后续内容,会不断进行整理~ …...
YOLOv8改进 | 主干篇 | EfficientViT高效的特征提取网络完爆MobileNet系列(轻量化网络结构)
一、本文介绍 本文给大家带来的改进机制是主干网络,一个名字EfficientViT的特征提取网络(和之前发布的只是同名但不是同一个),其基本原理是提升视觉变换器在高效处理高分辨率视觉任务的能力。它采用了创新的建筑模块设计,包括三明治布局和级联…...
分布式限流要注意的问题
本文已收录至我的个人网站:程序员波特,主要记录Java相关技术系列教程,共享电子书、Java学习路线、视频教程、简历模板和面试题等学习资源,让想要学习的你,不再迷茫。 为什么需要匀速限流 同学们回想一下在Guava小节里…...
git将一个远程分支的部分修改提交到另一个远程分支
将一个远程分支的部分修改提交到另一个远程分支 将一个远程分支的部分修改提交到另一个远程分支,可以使用 git cherry-pick 命令。这个命令可以选择特定的提交(commit)从一个分支应用到另一个分支。 切换到目标本地分支: 首先&am…...
promise是什么怎么使用
Promise 是一种 JavaScript 中的对象,用于处理异步操作。它表示一个最终可能完成(解析)或失败(拒绝)的操作,以及其结果值。 Promise 有三种状态: Pending(待定)&#x…...
观成科技:隐蔽隧道工具Ligolo-ng加密流量分析
1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具,该工具基于TUN接口实现其功能,利用反向TCP/TLS连接建立一条隐蔽的通信信道,支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式,适应复杂网…...
谷歌浏览器插件
项目中有时候会用到插件 sync-cookie-extension1.0.0:开发环境同步测试 cookie 至 localhost,便于本地请求服务携带 cookie 参考地址:https://juejin.cn/post/7139354571712757767 里面有源码下载下来,加在到扩展即可使用FeHelp…...
Day131 | 灵神 | 回溯算法 | 子集型 子集
Day131 | 灵神 | 回溯算法 | 子集型 子集 78.子集 78. 子集 - 力扣(LeetCode) 思路: 笔者写过很多次这道题了,不想写题解了,大家看灵神讲解吧 回溯算法套路①子集型回溯【基础算法精讲 14】_哔哩哔哩_bilibili 完…...
Opencv中的addweighted函数
一.addweighted函数作用 addweighted()是OpenCV库中用于图像处理的函数,主要功能是将两个输入图像(尺寸和类型相同)按照指定的权重进行加权叠加(图像融合),并添加一个标量值&#x…...
基于当前项目通过npm包形式暴露公共组件
1.package.sjon文件配置 其中xh-flowable就是暴露出去的npm包名 2.创建tpyes文件夹,并新增内容 3.创建package文件夹...
使用van-uploader 的UI组件,结合vue2如何实现图片上传组件的封装
以下是基于 vant-ui(适配 Vue2 版本 )实现截图中照片上传预览、删除功能,并封装成可复用组件的完整代码,包含样式和逻辑实现,可直接在 Vue2 项目中使用: 1. 封装的图片上传组件 ImageUploader.vue <te…...
2025 后端自学UNIAPP【项目实战:旅游项目】6、我的收藏页面
代码框架视图 1、先添加一个获取收藏景点的列表请求 【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口(适配服务端返回 Token) export const login async (code, avatar) > {const res await http…...
基于matlab策略迭代和值迭代法的动态规划
经典的基于策略迭代和值迭代法的动态规划matlab代码,实现机器人的最优运输 Dynamic-Programming-master/Environment.pdf , 104724 Dynamic-Programming-master/README.md , 506 Dynamic-Programming-master/generalizedPolicyIteration.m , 1970 Dynamic-Programm…...
安宝特案例丨Vuzix AR智能眼镜集成专业软件,助力卢森堡医院药房转型,赢得辉瑞创新奖
在Vuzix M400 AR智能眼镜的助力下,卢森堡罗伯特舒曼医院(the Robert Schuman Hospitals, HRS)凭借在无菌制剂生产流程中引入增强现实技术(AR)创新项目,荣获了2024年6月7日由卢森堡医院药剂师协会࿰…...
IP如何挑?2025年海外专线IP如何购买?
你花了时间和预算买了IP,结果IP质量不佳,项目效率低下不说,还可能带来莫名的网络问题,是不是太闹心了?尤其是在面对海外专线IP时,到底怎么才能买到适合自己的呢?所以,挑IP绝对是个技…...
