当前位置：首页 > news >正文

siMLPe：Human Motion Prediction

news 2026/2/10 18:24:04

Back to MLP: A Simple Baseline for Human Motion Prediction解析

摘要
1. 简介
2. Related Work
- 2.1 基于RNN的人体运动预测
- 2.2 基于GCN的人体运动预测
- 2.3 基于 Attention 的人类运动预测
- 2.4 总结
3. siMLPe
- 3.1 离散余弦变换（Discrete Cosine Transform (DCT)）
- 3.2 网络架构
- 3.3 Losses
- - 目标函数
4. 实验
- 4.1 数据集
- 4.2 评价指标

论文地址：Back to MLP: A Simple Baseline for Human Motion Prediction
论文代码：https://github.com/dulucas/simlpe
论文出处：IEEE/CVF Winter Conference on Applications of Computer Vision （WACV），2023
论文单位：Grenoble INP，France

摘要

本文解决了人体运动预测的问题，包括从历史上观察到的序列预测未来的身体姿势。
然而，最先进的方法提供了良好的结果，它们依赖于任意复杂性的深度学习架构，例如RNN，Transformers或GCN，通常需要多个训练阶段和超过200万个参数。
在本文中，我们表明，结合一系列标准实践，如应用离散余弦变换(DCT)，预测关节的残余位移和优化速度作为辅助损失，基于多层感知器(mlp)的轻量级网络只有14万个参数可以超越最先进的性能。
对Human3.6M、AMASS和3DPW数据集进行了验证，显示了我们的方法（siMLPe）始终优于所有其他方法。
我们希望我们的简单方法可以为社区提供一个强有力的基线，并允许重新思考人体运动预测问题。

1. 简介

给定一个三维人体姿态序列，人体运动预测任务的目的是预测姿态序列的后续动作。
预测未来人体运动是许多应用的核心，包括自动驾驶中的事故预防、跟踪人或人机交互。
由于人体运动的时空性质，文献中常见的趋势是设计能够融合时空信息的模型。
传统方法主要依赖于隐马尔可夫模型或高斯过程潜变量模型。
然而，虽然这些方法在简单和周期性运动模式下表现良好，但在复杂运动下却明显失败。
近年来，随着深度学习的成功，基于不同类型的神经网络开发了各种能够处理序列数据的方法。
例如，一些工作使用 RNN 来建模人体运动，一些工作基于 GCN，一些工作基于Transformers，融合跨越人体关节和时间的运动序列的时空信息。
然而，这些新方法的体系结构通常并不简单，其中一些方法需要额外的先验，这使得它们的网络难以分析和修改。
因此，一个问题自然出现了:“我们可以用一个简单的网络来解决人类运动预测问题吗?”
为了回答这个问题，我们首先尝试了一个简单的解决方案，即重复最后一个输入姿势并将其用作输出预测。 如图1所示，这种朴素的解决方案已经可以获得合理的结果，这意味着最后一个输入姿势与未来的姿势“接近” （Repeating Last-Frame）。
受此启发，我们进一步只训练一个全连接层来预测未来姿势和最后一个输入姿势之间的残差，并获得更好的性能，这显示了建立在像全连接层这样的基础层上的简单网络用于人体运动预测的潜力（One-FC）。
基于上述观察，我们回到多层感知器(MLPs)，并构建一个简单而有效的网络，称为siMLPe，只有三个组成部分: fully connected layers, layer normalization, and transpose operations. 网络体系结构如图2所示。
值得注意的是，我们发现即使是常用的激活层(如ReLU)也不需要，这使得我们的网络除了层归一化之外完全是线性模型。
尽管简单，但当与三个简单的做法适当结合时，siMLPe可以实现强大的性能。这三个简单的做法分别为：应用离散余弦变换(DCT)，预测关节的残余位移，优化速度作为辅助损失。
SIMLPE在几个标准数据集上产生了SOAT性能，包括Human3.6M，AMASS，和3DPW。
同时，siMLPe是轻量级的，需要的参数比以前最先进的方法少20到60倍。
SIMLPE和以前的方法的比较可以在图1显示了不同网络在Human3.6M上1000 ms时的平均每个关节位置误差(MPJPE)与网络复杂性的关系。siMLPe以高效率达到最佳性能。
综上所述，我们的贡献如下:
（1）我们表明，人类运动预测可以以一种简单的方式建模，而无需明确融合空间和时间信息。作为一个极端的例子，单个全连接层已经可以达到合理的性能。
（2）我们提出siMLPe，一个简单而有效的人体运动预测网络，只有三个组成部分: 全连接层、层归一化和转置操作，在多个基准测试(如Human3.6M，AMASS和3DPW数据集)上，以远少于现有方法的参数实现了最先进的性能。

2. Related Work

人体运动预测是一种序列到序列的任务，将过去观察到的运动作为预测未来运动序列的输入。
传统的运动预测方法都是非线性的，如马尔可夫模型、高斯过程动力学模型，和受限玻尔兹曼机。
这些方法已被证明可以有效地预测简单的运动，但最终难以预测复杂和长期的运动。
随着深度学习时代的到来，使用深度网络进行人体运动预测取得了巨大的成功，其中包括递归神经网络(Recurrent Neural networks, RNN)，图卷积网络(Graph Convolutional networks, GCNs)和Transformers，这是本节的主要重点。

2.1 基于RNN的人体运动预测

由于人体运动固有的顺序结构，一些工作解决了三维人体运动预测的循环模型。
然而，该类方法受到RNN的多重固有限制。
首先，RNN作为一个序列模型，在训练和推理过程中很难并行化。
其次，内存约束阻止RNN从更远的帧探索信息。
一些研究通过使用RNN变体、滑动窗口、卷积模型或对抗性训练来缓解这一问题。但是它们的网络仍然是复杂的，并且有大量的参数。

2.2 基于GCN的人体运动预测

为了更好地编码人体关节的空间连通性，最近的工作通常是构建人体姿态为图（graph），采用图卷积网络(graph Convolutional Networks, GCNs)进行人体运动预测。

2.3 基于 Attention 的人类运动预测

随着transformers的发展，一些作品试图用 Attention 机制来处理这一任务。

2.4 总结

综上所述，随着近年来人体运动预测的发展，基于RNN/GCN/Transformer 的结构得到了很好的探索，结果得到了显著改善。
虽然这些方法提供了良好的效果，但它们的架构变得越来越复杂和难以训练。
在本文中，我们坚持简单的架构，并提出了一个基于MLP的网络。
我们希望我们的简单方法可以作为一个baseline，让社区重新思考人体运动预测的问题。

3. siMLPe

在本节中，我们将阐述问题，并在3.1节中给出DCT变换的公式，在3.2节中给出网络架构的细节，在3.3节中给出我们用于训练的损失。
给定过去的3D人体姿势序列，我们的目标是预测未来的姿势序列。
我们将观察到的三维人体姿势表示为 x_1:T ∈ R^T×C，由 T 个连续的人体姿势组成，其中第 t 帧 x_t 处的姿势用 C 维向量表示，即：x_t∈ R^C。
在本工作中，与之前的工作相似，x_t 为第 t 帧节点的三维坐标，C = 3 × K，其中 K 为节点个数。
我们的任务是预测未来 N 个运动帧: x_T +1:T +N ∈R^N×C。

3.1 离散余弦变换（Discrete Cosine Transform (DCT)）

我们采用DCT变换对时间信息进行编码。
更精确地说，给定 T 帧的输入运动序列，DCT矩阵 D∈R^T×T可以计算为：

其中δ_i,j表示Kronecker函数, δ_i,j 为：
离散余弦变换后的输入是：D(x_1:T) = Dx_1:T。
我们应用**反向离散余弦变换(IDCT)**将网络的输出转换回原始姿态表示，表示为D^-1和D的逆。

3.2 网络架构

图2显示了我们网络的体系结构。我们的网络只包含三个组成部分: 全连接层、转置操作、层归一化。
对于所有的全连通层，它们的输入维数等于输出维数。
形式上，给定一个三维人体姿势的输入序列 x_1:T ∈R^T×C，我们的网络预测一个未来的姿势序列x_T+1:T+N ∈ R^N×C:

F 表示我们的网络。
DCT变换后，我们应用一个全连接层，只对变换后的运动序列 D(x_1:T)∈R^T×C的空间维度进行操作：

其中z⁰∈R^T×C为全连通层的输出。W⁰∈R^C×C, b⁰∈R^C表示全连通层的可学习参数。
在实践中，这相当于对一个全连接层应用转置操作，然后将输出特征转置回去，如图2所示。
然后，引入一系列 m 块，仅在时间维度上操作，即仅跨帧合并信息。
每个块由一个全连接层组成，然后进行层规范化，表示为：

式中，zⁱ∈R^T×C, i∈[1,…, m] 表示第 i 个MLP块的输出。
LN表示层归一化操作。
Wⁱ∈R^T×T和 bⁱ∈R^T是第 i 个MLP块中全连通层的可学习参数。
最后，与第一个全连接层类似，我们在MLP块之后再添加一个全连接层，只对特征的空间维度进行操作，然后应用IDCT变换得到预测结果：

其中W_m+1和 b_m+1是最后一个全连接层的可学习参数。
注意长度 T 和 N 不需要相等。当T > N时，我们只取预测的N个前帧，在T < N的情况下，我们可以通过重复最后一帧将输入序列填充到N。

3.3 Losses

正如第1节中提到的，如图1所示，最后一个输入姿势与未来的姿势 “接近”。
通过这种观察，我们让网络预测未来姿态 x_T+t 和最后输入姿态 x_T 之间的残差，而不是从头开始预测绝对3D姿态。 这简化了学习并提高了性能。

目标函数

我们的目标函数 L 包括两项 Lre 和 Lv：
Lre的目标是最小化预测运动 x_T+1:T+N 和真实运动x_T+1:T+N 之间的 L2 范数：
Lv 的目的是最小化预测运动速度 v_T+1:T+N 与地面真实速度 vT+1:T+N之间的 L2 范数:

式中 v_T+1:T+N ∈R^N×C, v_T表示第 t 帧的速度，用时间差计算: v_T = x_t+1−x_t。

4. 实验

4.1 数据集

Human3.6M：
Human3.6M包含7个演员表演15个动作，每个姿势标记32个关节。
我们遵循测试协议，使用S5作为测试集，S11作为验证集，其他作为训练集。
以前的工作使用了不同的测试采样策略，包括每个动作8个样本，每个动作256个样本或测试集中的所有样本。
由于8个样本太少，取所有的测试样本无法平衡不同序列长度的不同动作，因此我们每个动作取256个样本进行测试，并在22个关节上进行评估。
AMASS：
AMASS是多个动作捕捉数据集的集合，使用统一的SMPL参数化。
我们使用AMASS- bmlrub作为测试集，并将AMASS数据集的其余部分分成训练集和验证集。
模型在18个关节上进行了验证。
3DPW：
3DPW是一个包含室内和室外场景的数据集。
一个姿势由26个关节表示，我们使用在AMASS上训练的模型评估18个关节来评估泛化。

4.2 评价指标

本文使用三维关节坐标上的平均关节位置误差(Mean Per Joint Position Error，MPJPE)作为评价指标。这是评估3D姿态误差最广泛使用的指标。
该度量计算预测和真实之间不同节点的平均L2 -范数。
与之前的工作相似，我们忽略了姿态的全局旋转和平移，保持采样率为 25 FPS 的所有数据集。

siMLPe：Human Motion Prediction

Back to MLP: A Simple Baseline for Human Motion Prediction解析摘要1. 简介2. Related Work2.1 基于RNN的人体运动预测2.2 基于GCN的人体运动预测2.3 基于 Attention 的人类运动预测2.4 总结 3. siMLPe3.1 离散余弦变换（Discrete Cosine Transform (DCT)&#x…...

编程日记 2023/8/10 20:52:10

详解——JS map()方法

JavaScript是一种广泛使用的编程语言，用于开发Web应用程序。它具有许多内置函数和方法，其中之一是map()方法。map()方法是一个非常有用的函数，它允许我们在数组中的每个元素上执行相同的操作，并返回一个新的数组。 map()方法的语…...

编程日记 2023/8/10 20:51:08

leetcode做题笔记57

给你一个无重叠的 ，按照区间起始端点排序的区间列表。在列表中插入一个新的区间，你需要确保列表中的区间仍然有序且不重叠（如果有必要的话，可以合并区间）。思路一：模拟题意 int pushbackInterval(int…...

编程日记 2023/8/10 20:50:07

SAP Fiori 将GUI中的自开发报表添加到Fiori 工作台

1. 首先我们在workbench 中开发一个GUI report 这里我们开发的是一个简单的物料清单报表 2. 分配一个事务代码。注意这里的SAP GUI for HTML 要打上勾 3. 创建语义对象（ Create Semantic Object） 事物代码： path: SAP NetWeaver ->…...

编程日记 2023/8/10 20:49:05

【Docker】配置指定大小的磁盘空间

背景测试磁盘满时程序的运行情况问题如何使用 docker 来模拟磁盘满的情况解决方法创建指定大小的数据卷 volumedocker volume create --driver local --opt typetmpfs --opt devicetmpfs --opt osize50M my_volumn创建 docker 时，使用该数据卷docker run …...

编程日记 2023/8/10 20:48:04

使用Spring五大注解来更加简单的存储Bean对象

在使用Spring框架的时候我们如果使用这种方式来存储bean对象的话未免有点太麻烦了 <bean id"xxx" class"xxx"> </bean> 为了简化存储Bean对象的操作，我们可以使用五大类注解来进行存储Bean对象我们首先要在配置文件配置扫描路径…...

编程日记 2023/8/10 20:47:01

Netty面试题1

计算机网络模型 OSI采用了分层的结构化技术，共分七层， 物理层、数据链路层、网络层、传输层、会话层、表示层、应用层。 Open System Interconnect 简称OSI，是国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合制定的开放系统互连参…...

编程日记 2023/8/10 20:45:59

水质分析积分球定义和原理

随着社会经济的快速发展，人们对水质的要求不断提升，特别是生活饮用水，检测项目渐趋完善。在工业化大发展的前提下，水资源正遭受着严重的污染，因此确保水质安全，定期开展对饮用水的检测工作已迫在眉睫。环境…...

编程日记 2023/8/10 20:43:55

自然语言处理从入门到应用——LangChain：记忆（Memory）-[基础知识]

分类目录：《自然语言处理从入门到应用》总目录默认情况下，链（Chains）和代理（Agents）是无状态的，这意味着它们将每个传入的查询视为独立的（底层的LLM和聊天模型也是如此）…...

编程日记 2023/8/10 20:42:55

phpstorm添加vue 标签属性绑定提示和提示vue的方法提示

v-text v-html v-once v-if v-show v-else v-for v-on v-bind v-model v-ref v-el v-pre v-cloak v-on:click v-on:keyup.enter v-on:keyup click change input number debounce transition :is :class把上面这些文字粘贴到点击右下角放大按钮后的文本框里，然后保存…...

编程日记 2023/8/10 20:41:54

从计算到人类知识：ChatGPT与智能演化

引言智能是自然界演化出来的结果，而人工智能则是人类创造的产物。随着人工智能的不断进步，尤其是近期ChatGPT的开放，我们发现人工智能的智能水平似乎已经达到了非常高的水平。然而，对于自然界中生物来说很简单的行为&#xff0…...

编程日记 2023/8/10 20:40:53

Leetcode每日一题：2681. 英雄的力量（2023.8.1 C++）

目录 2681. 英雄的力量题目描述： 实现代码与解析： 数学规律原理思路： 2681. 英雄的力量题目描述： 给你一个下标从 0 开始的整数数组 nums ，它表示英雄的能力值。如果我们选出一部分英雄，这组英雄的…...

编程日记 2023/8/10 20:39:52

【学习】若依源码（前后端分离版）之 “ 异常处理”

大型纪录片：学习若依源码（前后端分离版）之 “ 异常处理” 前言1、统一返回实体定义2、定义登录异常定义3、基于ControllerAdvice注解的Controller层的全局异常统一处理4、测试访问请求结语前言通常一个web框架中，有大量需要处理…...

编程日记 2023/8/10 20:38:51

天花板级，Python接口自动化测试-接口关联封装调用（实例）

目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜） 前言流程相关的接口&a…...

编程日记 2023/8/10 20:37:49

yolov5代码解读之yolo.py【网络结构】

这个文件阿对于做模型修改、模型创新有很好大好处。首先加载一些python库和模块： 如果要执行这段代码，直接在终端输入python yolo.py. yolov5的模型定义和网络搭建都用到了model这个类(也就是以下图片展示的东西)：（以前代码没…...

编程日记 2023/8/10 20:36:48

Docker之jenkins部署harbor在harbor中完成部署

Docker之jenkins部署harbor在harbor中完成部署 1、harbor作用 Harbor允许用户用命令行工具对容器镜像及其他Artifact进行推送和拉取，并提供了图形管理界面帮助用户查阅和删除这些Artifact。在Harbor 2.0版本中，除容器镜像外，Harbor对符合OCI…...

编程日记 2023/8/10 20:35:47

安装Jenkins

一、什么是Jenkins Jenkins是一个开源软件项目，是基于Java开发的。我们可以利用Jenkins来实现持续集成的功能。因为Jenkins是基于Java开发的，所以在安装Jenkins之前首先需要安装Java的JDK。二、安装Jenkins 在Windows平台上面安装Jenkins共有两种方式…...

编程日记 2023/8/10 20:34:46

大运空瓶行动，绘就生态文明画卷

随着成都第31届世界大学生夏季运动会赛事的成功举办，为了倡导节约水资源、绿色大运，在此之前成都电视2台《城视民生》栏目面向全市发起“大运空瓶行动”的倡议，呼吁市民杜绝水资源浪费，喝完瓶中水，并鼓励市民积极参与到…...

编程日记 2023/8/10 20:33:44

tomcat7.exe 启动闪退解决

标题tomcat7.exe 启动闪退解决双击tomcat7.exe启动，但是出现闪退问题，无法启动tomcat 解决： 1.解决 tomcat7.exe 启动闪退解决第一步：双击打开tomcat7w.exe 文件如果出现 “指定的服务未安装。 Unable to open the service ‘…...

编程日记 2023/8/10 20:32:43

java修改jar包中的配置文件

方法一 ！！！除了以上的方式，其实也可以通过 vim 命令直接修改 jar 包配置文件的内容，然后直接保存即可，不过这种方法必须保证服务器上已经安装了 zip 和 unzip 命令。方法二首先需要找出你的配置文件在…...

编程日记 2023/8/10 20:31:42

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架，它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用，和丰富的HTTP工具。使用Express可以快速地搭建一个完整功能的网站。 Expre…...

编程新知 2026/2/8 6:37:43

以下是对华为 HarmonyOS NETX 5属性动画（ArkTS）文档的结构化整理，通过层级标题、表格和代码块提升可读性：

一、属性动画概述NETX 作用：实现组件通用属性的渐变过渡效果，提升用户体验。支持属性：width、height、backgroundColor、opacity、scale、rotate、translate等。注意事项： 布局类属性（如宽高）变化时&#…...

编程新知 2026/1/28 21:15:38

多场景 OkHttpClient 管理器 - Android 网络通信解决方案

下面是一个完整的 Android 实现，展示如何创建和管理多个 OkHttpClient 实例，分别用于长连接、普通 HTTP 请求和文件下载场景。 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas…...

编程新知 2025/12/15 1:34:37

2.Vue编写一个app

1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template>  </template>…...

编程新知 2026/1/31 6:04:01

家政维修平台实战20：权限设计

目录 1 获取工人信息2 搭建工人入口3 权限判断总结目前我们已经搭建好了基础的用户体系，主要是分成几个表，用户表我们是记录用户的基础信息，包括手机、昵称、头像。而工人和员工各有各的表。那么就有一个问题，不同的角色&#xf…...

编程新知 2026/2/1 22:23:58

GC1808高性能24位立体声音频ADC芯片解析

1. 芯片概述 GC1808是一款24位立体声音频模数转换器（ADC），支持8kHz~96kHz采样率，集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器，适用于高保真音频采集场景。 2. 核心特性高精度：24位分辨率&#xff0c…...

编程新知 2026/1/27 4:58:14

Java毕业设计：WML信息查询与后端信息发布系统开发

JAVAWML信息查询与后端信息发布系统实现一、系统概述本系统基于Java和WML(无线标记语言)技术开发，实现了移动设备上的信息查询与后端信息发布功能。系统采用B/S架构，服务器端使用Java Servlet处理请求，数据库采用MySQL存储信息&#xff0…...

编程新知 2025/10/27 13:29:11

MySQL 知识小结（一）

一、my.cnf配置详解我们知道安装MySQL有两种方式来安装咱们的MySQL数据库，分别是二进制安装编译数据库或者使用三方yum来进行安装,第三方yum的安装相对于二进制压缩包的安装更快捷，但是文件存放起来数据比较冗余，用二进制能够更好管理咱们M…...

编程新知 2026/1/26 13:29:47

现有的 Redis 分布式锁库（如 Redisson）提供了哪些便利？

现有的 Redis 分布式锁库（如 Redisson）相比于开发者自己基于 Redis 命令（如 SETNX, EXPIRE, DEL）手动实现分布式锁，提供了巨大的便利性和健壮性。主要体现在以下几个方面： 原子性保证 (Atomicity)&#xff…...

编程新知 2025/9/23 11:26:04

STM32HAL库USART源代码解析及应用

STM32HAL库USART源代码解析前言STM32CubeIDE配置串口USART和UART的选择使用模式参数设置GPIO配置DMA配置中断配置硬件流控制使能生成代码解析和使用方法串口初始化__UART_HandleTypeDef结构体浅析HAL库代码实际使用方法使用轮询方式发送使用轮询方式接收使用中断方式发送使用中…...

编程新知 2026/1/31 13:18:46