ViTPose+:迈向通用身体姿态估计的视觉Transformer基础模型 | 京东探索研究院
身体姿态估计旨在识别出给定图像中人或者动物实例身体的关键点,除了典型的身体骨骼关键点,还可以包括手、脚、脸部等关键点,是计算机视觉领域的基本任务之一。目前,视觉transformer已经在识别、检测、分割等多个视觉任务上展现出来很好的性能。在身体姿态估计任务上,使用CNN提取的特征,结合定制化的transformer模块进行特征增强,视觉transformer取得了很好的效果。然而,简单的视觉transformer本身在姿态估计任务上是否能有很好的表现呢?
京东探索研究院联合悉尼大学在这方面做出了探索,提出了基于简单视觉transformer的姿态估计模型ViTPose和改进版本ViTPose+。ViTPose系列模型在MS COCO多个人体姿态估计数据集上达到了新的SOTA和帕累托前沿。其中,ViTPose已收录于Neurips 2022。ViTPose+进一步拓展到多种不同类型的身体姿态估计任务,涵盖动物、人体以及典型的身体骨骼、手、脚、脸部等关键点类型,在不增加推理阶段模型复杂度和计算复杂度的情况下,实现了多个数据集上的最佳性能。
一、研究背景
ViTPose和ViTPose+的性能和速度对比图,圆圈大小代表了模型大小
近年来,视觉transformer在多个视觉领域展现出了极佳的性能。在姿态估计领域,也涌现出许多基于transformer的方案,并取得了很好的效果。如TokenPose等工作,使用CNN进行特征提取,并使用transformer作为后处理模块来建模多个关键点之间的关系。尽管他们展现了很好的效果,但是仍然依赖CNN提取特征,很难充分挖掘transformer在姿态估计领域的潜力。
为了减少CNN的影响,HRFormer等工作仅使用transformer来进行特征提取和建模人体关键点。为了提升模型性能,模型采用了一些特殊的设计,如多尺度建模、多层级结构等方式。这些结构在CNN模型设计和transformer模型设计中都表现出很好的结果。然而,我们是否需要为姿态估计任务定制化的设计Transformer网络结构呢?为此,京东探索研究院联合悉尼大学提出了基于简单视觉transformer的姿态估计基线ViTPose,充分挖掘transformer在姿态估计领域的潜力。基于常见的无监督预训练技术并结合非常简单的解码器,ViTPose展示了视觉transformer在姿态估计方面的简单性,可扩展性,灵活性,和可迁移性,并在人体,动物,全身关键点检测等方面达到SOTA性能。
二、ViTPose方法
2.1 ViTPose结构简介
图1 ViTPose结构
为了尽可能避免复杂的设计,ViTPose采用了最简单的方式来应用简单的视觉transformer。具体来说,ViTPose使用了简单的视觉transformer作为编码器对输入图像进行特征提取。提取得到的特征会作为解码器的输入来得到最终的关键点预测。带有transposed卷积上采样和预测层的标准解码器(c)和直接使用双线性插值的简单解码器(d)被用于评估简单视觉transformer的简单性;用于Bottom-up预测的解码器(e)也被采用来衡量ViTPose对于不同关键点检测范式的灵活性。
此外,得益于采用了最简单的编码器-解码器设计,ViTPose可以很容易的兼容更大规模的简单视觉transformer模型,并得到性能提升,展示出良好的扩展性;此外,通过使用不同的预训练方式,和不同大小模型的迁移,ViTPose展现出优秀的灵活性和可迁移性。尽管没有复杂的模型设计,ViTPose在人体,动物,全身关键点估计等多个设置下达到或超过了SOTA的模型,充分展示了简单视觉transformer在姿态估计领域的潜力。
2.2 简单性和扩展性
表1 使用不同decoder的ViTPose在MS COCO的性能对比
为了验证ViTPose的简单性和可扩展性,研究者使用了不同的解码器和不同尺寸的编码器,结果如表1所示。相比于使用经典的反卷积解码器,使用简单双线性解码器的CNN模型出现了极大的性能下降,如ResNet-50和ResNet-152有接近20平均准确度的下降。然而,视觉transformer模型则表现出了很强的竞争力:使用简单的解码器和经典解码器的性能差距不到0.3平均准确度,充分说明由于视觉transformer的强表征能力,它可以学习到线性可分性极强的特征表示,从而仅需要简单的线性解码器即可以达到很好的效果。此外,使用更大规模的编码器,ViTPose的性能持续上升,展示了ViTPose良好的扩展性。
2.3 ViTPose的数据灵活性
表2 使用不同预训练数据的ViTPose在MS COCO的性能对比
在过往的实验中,使用ImageNet对编码器进行预训练已经成为了一种默认设置。然而,对于姿态估计任务来说,这引入了额外的数据需求。为了探索使用ImageNet数据进行预训练是否是不可避免的,ViTPose探索了能否只使用姿态估计数据 (MS COCO和AI Challenger数据)进行预训练。结果如表2所示,无论是否使用人体的位置(人体实例的检测框标注)进行裁剪操作,只使用姿态估计的数据进行预训练的ViTPose在使用更少的数据量的情况下达到了和使用ImageNet数据进行预训练的ViTPose相当的效果。
2.4 ViTPose的结构灵活性
表3 使用不同注意力方式的ViTPose性能
由于使用全注意力方式的计算复杂度,在使用大尺寸特征图进行训练时,ViTPose模型的显存消耗会大幅度增长。为此,ViTPose也探索了能否在微调阶段使用不同的注意力方式进行计算。如表3所示,使用窗口注意力机制的ViTPose在占用更少显存消耗的情况下可以达到和使用全注意力机制的ViTPose相当的效果。
2.5 ViTPose的训练灵活性
表4 使用不同模块进行训练的ViTPose性能
为了充分探索ViTPose中各个模块对于姿态估计任务的贡献,ViTPose进一步探索了仅使用FFN模块或者MHSA模块进行训练而保持其他模块不动的训练方式。结果如表4所示。仅调整FFN模块可以达到和全部可训练相当的效果,而只训练MHSA模块则会带来较大的性能下降,说明FFN模块负责更多特定任务相关的建模,在下游任务迁移学习中发挥更大作用。
2.6 ViTPose+使用MoE机制扩展多数据集
图2 ViTPose+中的FFN-MoE结构
表5 ViTPose+性能比较
然而,不同的姿态估计数据集有不同的分布,简单通过单一模型来建模不同的姿态估计数据集会因为数据集之间的冲突造成各个数据集上的性能下降。例如,使用动物数据集和人体数据集进行联合训练会影响人体姿态估计性能(如表5中I-FFN所示)。为解决这一问题,ViTPose+模型探索了使用MoE机制来解决数据集冲突的问题,如图2所示,经过注意力机制处理后的特征会分块输入FFN模块中进行处理。经过自己数据集独有的部分和各个数据集共享的部分处理后的FFN模块会拼接起来输入到之后的模块中。如表5所示,这一机制超过了多任务学习的基线方法(MT Baseline),并与使用独立和共享FFN模块(IS-FFN)取得了相当的效果,但节省了更多的参数量。
三、实验结果
3.1 客观结果
表6 在MS COCO数据集上不同模型采用Top-down检测范式的性能
表7 在MS COCO数据集上不同模型采用Bottom-up检测范式的性能
如表6和表7所示,ViTPose在top-down和bottom-up两种检测方式下达到了和之前模型相当或者更好的效果。使用更多数据集联合训练的ViTPose+系列模型达到了更好的速度和性能的平衡,如ViTPose±S模型在22M的参数量下达到了1439fps的速度和75.8 AP的准确度。这展示了使用简单视觉transformer在姿态估计任务上的潜力和可能性。
3.2 主观结果
图3 MS COCO主观结果展示
图4 AI Challenger主观结果展示
图5 OCHuman主观结果展示
图6 MPII主观结果展示
图7 WholeBody主观结果展示
图8 动物主观结果展示
如图3-8所示,ViTPose+在多个姿态估计数据集和多种姿态估计任务上均可以得到优异的结果,较好的应对遮挡、截断等多种富有挑战性的场景。这充分展现了简单的视觉transformer作为姿态估计基础模型的潜力。
四、结论
本文提出了ViTPose,通过使用简单的视觉transformer进行特征提取和简单的解码器的方式,在姿态估计任务上展现了简单视觉transformer的简单性,可扩展性,灵活性和可迁移性。通过使用MoE的机制解决数据集之间的冲突,ViTPose+系列模型在多个姿态估计数据集上刷新了之前方法的最好结果,达到了新的SOTA和帕累托前沿。我们希望这个工作可以启发更多基于简单视觉transformer的工作来探索简单视觉transformer在更多视觉任务上的可能性,并建立统一多个姿态估计任务的视觉基础模型。
【文章】ViTPose:https://arxiv.org/abs/2204.12484或https://openreview.net/pdf?id=6H2pBoPtm0s
ViTPose+:https://arxiv.org/abs/2212.04246
【代码】https://github.com/ViTAE-Transformer/ViTPose
参考文献:
[1] Yufei Xu, Jing Zhang, Qiming Zhang, and Dacheng Tao. “ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation.” Neurips 2022.
[2] Yufei Xu, Jing Zhang, Qiming Zhang, and Dacheng Tao. “ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation.” arXiv preprint arXiv:2212.04246 (2022). [3] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. “Deep residual learning for image recognition.” CVPR 2016.
[4] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. “Imagenet: A large-scale hierarchical image database.” CVPR 2009.
[5] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C. Lawrence Zitnick. “Microsoft coco: Common objects in context.” ECCV 2014.
[6] Yuhui Yuan, Rao Fu, Lang Huang, Weihong Lin, Chao Zhang, Xilin Chen, and Jingdong Wang. “Hrformer: High-resolution vision transformer for dense predict.” Neurips 2021.
[7] Yanjie Li, Shoukui Zhang, Zhicheng Wang, Sen Yang, Wankou Yang, Shu-Tao Xia, and Erjin Zhou. “Tokenpose: Learning keypoint tokens for human pose estimation.” ICCV 2021.
相关文章:

ViTPose+:迈向通用身体姿态估计的视觉Transformer基础模型 | 京东探索研究院
身体姿态估计旨在识别出给定图像中人或者动物实例身体的关键点,除了典型的身体骨骼关键点,还可以包括手、脚、脸部等关键点,是计算机视觉领域的基本任务之一。目前,视觉transformer已经在识别、检测、分割等多个视觉任务上展现出来…...

Android 播放mp3文件
1,在res/raw中加入mp3文件 2,实现播放类 import android.content.Context; import android.media.AudioManager; import android.media.SoundPool; import android.util.Log;import java.util.HashMap; import java.util.Map;public class UtilSound {pu…...

在OpenStack私有云上安装配置虚拟机
文章目录 零、学习目标一、登录大数据实训云二、创建网络三、创建路由四、添加接口五、创建端口六、添加安全组规则七、创建实例(一)实例规划(二)创建实例 - ied(三)创建实例 - master、slave1与slave2&…...

pyCharm远程DEBUG
第一步,添加一个远程机器的解释器 ssh 远程机器解释器添加, 我本地ssh有配置目标机器。 如果没配置,那就选着new server configuration 新增一个。 interpreter 指定远程机器python, (机器上有多个版本python里尤其要…...
微服务框架Go-kit
微服务框架Go-kit go kit简介第一个go kit应用go kit基本概念go kit Endpointsgo kit Endpoint 定义go kit Endpoint 函数签名go kit Endpoint 链式操作go kit Endpoint 请求和响应转换go kit Endpoint 中间件go kit Endpoint 错误处理go kit 传输层go kit HTTP 传输层go kit …...

《王道24数据结构》课后应用题——第三章 栈和队列
第三章 【3.1】 03、 假设以I和O分别表示入栈和出操作。栈的初态和终态均为空,入栈和出栈的操作序列可表示为仅由I和O组成的序列,可以操作的序列称为合法序列,否则称为非法序列。 如IOIIOIOO 和IIIOOIOO是合法的,而IOOIOIIO和II…...

查看linux开发板的CPU频率
1)查看CPU可设置的频率列表 cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_available_frequencies 2)查看CPU当前所使用的频率: cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq 3)设置CPU频率(最高…...

对象模型和this指针(个人学习笔记黑马学习)
1、成员变量和成员函数 #include <iostream> using namespace std; #include <string>//成员变量和成员函数分开存储class Person {int m_A;//非静态成员变量 属于类的对象上的static int m_B;//静态成员变量 不属于类的对象上void func() {} //非静态成员函数 不…...

SpringCloudAlibaba常用组件
SpringCloudAlibaba常用组件 微服务概念 1.1 单体、分布式、集群 单体 ⼀个系统业务量很⼩的时候所有的代码都放在⼀个项⽬中就好了,然后这个项⽬部署在⼀台服务器上就 好了。整个项⽬所有的服务都由这台服务器提供。这就是单机结构。 单体应⽤开发简单,部署测试…...

Shotcut for Mac:一款强大而易于使用的视频编辑器
随着数码相机的普及,视频编辑已成为我们日常生活的一部分。对于许多专业和非专业用户来说,找到一个易于使用且功能强大的视频编辑器是至关重要的。今天,我们将向您介绍Shotcut——一款专为Mac用户设计的强大视频编辑器。 什么是Shotcut&…...

【数学建模】2023数学建模国赛C题完整思路和代码解析
C题第一问代码和求解结果已完成,第一问数据量有点大,经过编程整理出来了单品销售额的汇总数据、将附件2中的单品编码替换为分类编码,整理出了蔬菜各品类随着时间变化的销售量,并做出了这些疏菜品类的皮尔森相关系数的热力图&#…...

论数据库的种类
摘要 数据库是现代信息管理和数据存储的重要工具,几乎在各个领域都有广泛应用。不同类型的数据库适用于不同的应用场景和需求。本文将介绍几种常见的数据库种类,并探讨它们的特点和适用范围。 正文 一、关系型数据库(RDBMS) 关…...

docker笔记4:高级复杂安装-mysql主从复制
1.主从搭建步骤 1.1新建主服务器容器实例3307 docker run -p 3307:3306 --name mysql-master \ -v /mydata/mysql-master/log:/var/log/mysql \ -v /mydata/mysql-master/data:/var/lib/mysql \ -v /mydata/mysql-master/conf:/etc/mysql \ -e MYSQL_ROOT_PASSWORDroot \ -d…...

MySQL卸载干净再重新安装【Windows】
家人们,谁懂啊? 上学期学的数据库,由于上学期不知道为什么抽风,过得十分的迷,上课跟老师步骤安装好了Mysql,但后面在使用的过程中出现了问题,而且还出现了忘记密码这么蠢的操作,后半…...

在VScode中如何将界面语言设置为中文
VSCode安装后的默认界面是只有英文的,如果想用中文界面,那么就需要安装对应的插件,vscode插件可以从扩展中心去搜索并安装。 安装vscode后打开vscode,点击左侧的扩展按钮。 在搜索框中输入chinese,弹出chinese&#x…...
jenkins如何请求http接口及乱码问题解决
文章目录 1.插件安装2.请求pipline语法3.插件方式实现4.乱码问题解决5.值得注意 1.插件安装 需要安装HTTP Request 插件;安装方式不介绍。 2.请求pipline语法 官网链接,上面有详细语法:https://plugins.jenkins.io/http_request/ 附一个d…...
景区洗手间生活污水处理设备厂家电话
诸城市鑫淼环保小编带大家了解一下景区洗手间生活污水处理设备厂家电话 MBR生活污水处理设备构造介绍: mbr一体化污水处理的设计主要是对生活污水和相类似的工业有机污水的处理,其主要处理手段是采用目前较为成熟的生化处理技术接触氧化法,水…...

Java基础(四)
151. LinkedList特征分析 增删快 可以打断连接,重新赋值引用,不 涉及数据移动操作,效率高 查询慢 双向链表结构数据存储非连 续,需要通过元素一一 跳转 152 ArrayList和LinkedList对比分析 ArrayList特征 查询快。增删慢 适用于数据产出之…...
Android WIFI工具类 特别兼容Android12
直接上代码: package com.realtop.commonutils.utils;import android.annotation.SuppressLint; import android.bluetooth.BluetoothDevice; import android.bluetooth.BluetoothManager; import android.bluetooth.BluetoothProfile; import android.content.Con…...

【Android Framework系列】第14章 Fragment核心原理(AndroidX版本)
1 简介 Fragment是一个历史悠久的组件,从API 11引入至今,已经成为Android开发中最常用的组件之一。 Fragment表示应用界面中可重复使用的一部分。Fragment定义和管理自己的布局,具有自己的生命周期,并且可以处理自己的输入事件。…...

手游刚开服就被攻击怎么办?如何防御DDoS?
开服初期是手游最脆弱的阶段,极易成为DDoS攻击的目标。一旦遭遇攻击,可能导致服务器瘫痪、玩家流失,甚至造成巨大经济损失。本文为开发者提供一套简洁有效的应急与防御方案,帮助快速应对并构建长期防护体系。 一、遭遇攻击的紧急应…...

高频面试之3Zookeeper
高频面试之3Zookeeper 文章目录 高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个?3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制 半数机制(过半机制࿰…...

视频行为标注工具BehaviLabel(源码+使用介绍+Windows.Exe版本)
前言: 最近在做行为检测相关的模型,用的是时空图卷积网络(STGCN),但原有kinetic-400数据集数据质量较低,需要进行细粒度的标注,同时粗略搜了下已有开源工具基本都集中于图像分割这块,…...
音视频——I2S 协议详解
I2S 协议详解 I2S (Inter-IC Sound) 协议是一种串行总线协议,专门用于在数字音频设备之间传输数字音频数据。它由飞利浦(Philips)公司开发,以其简单、高效和广泛的兼容性而闻名。 1. 信号线 I2S 协议通常使用三根或四根信号线&a…...
为什么要创建 Vue 实例
核心原因:Vue 需要一个「控制中心」来驱动整个应用 你可以把 Vue 实例想象成你应用的**「大脑」或「引擎」。它负责协调模板、数据、逻辑和行为,将它们变成一个活的、可交互的应用**。没有这个实例,你的代码只是一堆静态的 HTML、JavaScript 变量和函数,无法「活」起来。 …...

STM32---外部32.768K晶振(LSE)无法起振问题
晶振是否起振主要就检查两个1、晶振与MCU是否兼容;2、晶振的负载电容是否匹配 目录 一、判断晶振与MCU是否兼容 二、判断负载电容是否匹配 1. 晶振负载电容(CL)与匹配电容(CL1、CL2)的关系 2. 如何选择 CL1 和 CL…...

《Docker》架构
文章目录 架构模式单机架构应用数据分离架构应用服务器集群架构读写分离/主从分离架构冷热分离架构垂直分库架构微服务架构容器编排架构什么是容器,docker,镜像,k8s 架构模式 单机架构 单机架构其实就是应用服务器和单机服务器都部署在同一…...
Java详解LeetCode 热题 100(26):LeetCode 142. 环形链表 II(Linked List Cycle II)详解
文章目录 1. 题目描述1.1 链表节点定义 2. 理解题目2.1 问题可视化2.2 核心挑战 3. 解法一:HashSet 标记访问法3.1 算法思路3.2 Java代码实现3.3 详细执行过程演示3.4 执行结果示例3.5 复杂度分析3.6 优缺点分析 4. 解法二:Floyd 快慢指针法(…...
机器学习的数学基础:线性模型
线性模型 线性模型的基本形式为: f ( x ) ω T x b f\left(\boldsymbol{x}\right)\boldsymbol{\omega}^\text{T}\boldsymbol{x}b f(x)ωTxb 回归问题 利用最小二乘法,得到 ω \boldsymbol{\omega} ω和 b b b的参数估计$ \boldsymbol{\hat{\omega}}…...

相关类相关的可视化图像总结
目录 一、散点图 二、气泡图 三、相关图 四、热力图 五、二维密度图 六、多模态二维密度图 七、雷达图 八、桑基图 九、总结 一、散点图 特点 通过点的位置展示两个连续变量之间的关系,可直观判断线性相关、非线性相关或无相关关系,点的分布密…...