当前位置：首页 > news >正文

Human-M3 多模态姿态估计数据集-初步解读

news 2026/2/9 5:07:26

文章概述（个人总结）：该论文重点提出一个用于人体姿态估计的RGB+点云数据集，针对该多模态数据集，作者阐述了数据集的收集、数据标注以及该数据集的特点。并提出了一个简单的多模态3D人体姿态估计算法，对比其他模型，该方法性能较好。最后总结了该数据集和该方法的限制。

动机

现有的3D HPE数据集大多局限于单一模态（如RGB图像或点云），并且场景中的人数有限，导致数据多样性不足，无法应对复杂的现实场景。

论文的主要贡献如下：

Human-M3数据集：该数据集是第一个综合了多摄像头和LiDAR点云的户外3D人体姿态数据集。它包含了多视角RGB视频以及相应的LiDAR点云数据，能够同时捕捉多个个体的姿态，涵盖了不同的场景如篮球场、广场和街道交叉口等。
数据采集方法：提出了一种有效的方法，在不需要佩戴设备的情况下，获取户外场景中多个个体的3D人体姿态数据。每个采集单元包含了一个LiDAR传感器和一个摄像头，利用多模态信息结合的方式，解决了户外大范围场景中准确获取姿态的难题。
多模态3D姿态估计算法：论文提出了一种基于多模态数据（即RGB图像和LiDAR点云）的3D人体姿态估计算法，展示了多模态输入在姿态估计任务中的优势。这种算法通过融合RGB图像和点云的特征，在多视角数据上训练模型，大幅提高了3D姿态估计的精度。

背景（引言）

**3D HPE算法通常使用多视角的RGB图像或LiDAR点云作为输入，来估计人体的三维姿态和形状。这些算法在*人类行为识别、场景感知、增强/虚拟现实、仿真、自动驾驶等众多下游应用中起到了关键作用。

激光雷达（LiDAR）点云数据，是由三维激光雷达设备扫描得到的空间点的数据集，每一个点都包含了三维坐标信息，也是我们常说的X、Y、Z三个元素，有的还包含颜色信息、反射强度信息、回波次数信息等

三维激光点云数据特点

稀疏性、无序性、空间分布不均匀性、表示信息的有限性

在过去的几十年中，研究人员提出了许多3D人体姿态估计的数据集和基准测试，大大推动了这一领域的发展。这些数据集主要分为两类：室内场景和室外场景。

室内场景数据集使用光学跟踪系统、摄像头阵列或RGB-D传感器来捕捉部分人体姿态。但这些设备在自然光下表现不佳，且缺乏深度信息，无法适用于室外场景。此外，摄像头阵列的同步也带来了物理限制。
室外场景数据集通常通过在人体上安装IMU传感器（惯性测量单元）来捕捉人体的3D姿态。然而，IMU传感器在长时间的采集过程中容易产生漂移，从而导致姿态估计不准确。

引言还指出，当前室外3D人体姿态数据集存在几个主要的挑战：

获取精准的姿态真值困难，尤其是在大范围的室外场景中，很难为人群佩戴动作捕捉设备。
行人在图像中的尺寸较小，因为他们离传感器较远，给姿态估计带来挑战。
行人常常被其他个体或物体遮挡，使得姿态难以分辨。

为了解决这些问题，论文提出了Human-M3数据集，它采用了多视角RGB视频和LiDAR点云的结合，并且无需使用穿戴设备来捕捉人体的3D姿态。通过这种多模态的密集信息，提出的算法能够在复杂的多人物场景中提供更精确的姿态估计和真值标注。

点云数据格式

该数据集给出的是PCD格式，PCD 格式标准是为了更好支持 PCL 库而诞生的。

PCL库是什么？*

PCL(Point Cloud Library) 是一个大型跨平台开源的 C++ 编程库。该库实现了大量点云相关的通用算法和高效数据结构。涉及到点云获取、过滤、分割、配准、检索、特征提取、识别、追踪、曲面重建、可视化等。

关于 PCL 更多相关知识，可查看 PCL 官网：https://pointclouds.org/

Human-M3 多模态姿态估计数据集-初步解读

动机

背景（引言）

三维激光点云数据特点

相关文章：

Human-M3 多模态姿态估计数据集-初步解读

python爬虫 - 进阶正则表达式

静态路由和nqa 联动实验

golang用any类型去接收前端传的数字类型的值，类型断言为float64

5、Spring Boot 3.x 集成 RabbitMQ

ENSP搭建基础网络拓扑图

尚硅谷rabbitmq 2024 消息可靠性答疑二第22节

在 Ubuntu 上安装 Whisper 支撑环境（ffmpeg、PyTorch）的教程（2024亲测可用）

vue+echarts实现雷达图及刻度标注

【进阶OpenCV】（9）--摄像头操作---＞答题卡识别改分项目

实时从TDengine数据库采集数据到Kafka Topic

Linux -- 初识动静态库

vite 打包前请求接口和打包后的不一致

fairseq 安装包python

使用Mockaroo生成测试数据

使用频率最高的 opencv 基础绘图操作 - python 实现

Python 在Excel中添加数据条

Unity中搜索不到XR Interaction Toolkit包解决方法

【前端】JQ验证每个单选按钮是否已经选择

【无人机设计与控制】滑模控制、反步控制、传统PID四旋翼无人机轨迹跟踪控制仿真

MPNet：旋转机械轻量化故障诊断模型详解python代码复现

Cursor实现用excel数据填充word模版的方法

脑机新手指南（八）：OpenBCI_GUI：从环境搭建到数据可视化（下）

Qt Widget类解析与代码注释

CMake基础：构建流程详解

spring：实例工厂方法获取bean

微信小程序云开发平台MySQL的连接方式

R 语言科研绘图第 55 期 --- 网络图-聚类

Python 实现 Web 静态服务器（HTTP 协议）

springboot 日志类切面，接口成功记录日志，失败不记录