当前位置：首页 > news >正文

指数移动平均（EMA）

news 2026/2/9 11:19:22

文章目录

前言
EMA的定义
在深度学习中的应用
- PyTorch代码实现
- yolov5中模型的EMA实现
参考

前言

在深度学习中，经常会使用EMA（指数移动平均）这个方法对模型的参数做平均，以求提高测试指标并增加模型鲁棒。
实际上，_EMA可以看作是Temporal Ensembling，在模型学习过程中融合更多的历史状态，从而达到更好的优化效果。

EMA的定义

指数移动平均（Exponential Moving Average）也叫权重移动平均（Weighted Moving Average），是一种给予近期数据更高权重的平均方法。
假设有n个权重数据：

普通的平均数：
EMA：

其中， vt表示前 t条的平均值 ( v0=0 )，β是加权权重值 (一般设为0.9-0.999)。

Andrew Ng在Course 2 Improving Deep Neural Networks中讲到，EMA可以近似看成过去 1/(1−β) 个时刻 v 值的平均。
普通的过去n时刻的平均是这样的：
类比EMA，可以发现当时，两式形式上相等。需要注意的是，两个平均并不是严格相等的，这里只是为了帮助理解。
实际上，EMA计算时，过去 1/(1−β) 个时刻之前的数值平均会decay到 1/e 的加权比例，证明如下。
如果将这里的 vt展开，可以得到：

其中，，代入可以得到。

在深度学习中的应用

上面讲的是广义的ema定义和计算方法，特别的，在深度学习的优化过程中，是t时刻的模型权重weights， vt是t时刻的影子权重（shadow weights）。在梯度下降的过程中，会一直维护着这个影子权重，但是这个影子权重并不会参与训练。
基本的假设是，模型权重在最后的n步内，会在实际的最优点处抖动，所以我们取最后n步的平均，能使得模型更加的鲁棒。

PyTorch代码实现

下面是一个简单的指数移动平均（EMA）的PyTorch实现：

import torchclass EMA():def __init__(self, alpha):self.alpha = alpha    # 初始化平滑因子alphaself.average = None   # 初始化平均值为空self.count = 0        # 初始化计数器为0def update(self, x):if self.average is None:  # 如果平均值为空，则将其初始化为与x相同大小的全零张量self.average = torch.zeros_like(x)self.average = self.alpha * x + (1 - self.alpha) * self.average  # 更新平均值self.count += 1   # 更新计数器def get(self):return self.average / (1 - self.alpha ** self.count)   # 根据计数器和平滑因子计算EMA值，并返回平均值除以衰减系数的结果

在这个类中，我们定义了三个方法，分别是__init__、update和get。

__init__方法用于初始化平滑因子alpha、平均值average和计数器count
update方法用于更新EMA值
get方法用于获取最终的EMA值。

使用这个类时，我们可以先实例化一个EMA对象，然后在每个时间步中调用update方法来更新EMA值，最后调用get方法来获取最终的EMA值。
例如：

ema = EMA(alpha=0.5)
for value in data:ema.update(torch.tensor(value))
smoothed_data = ema.get()

在这个例子中，我们使用alpha=0.5来初始化EMA对象，然后遍历数据集data中的每个数据点，调用update方法更新EMA值。最后我们调用get方法来获取平滑后的数据。

yolov5中模型的EMA实现

如下：

class ModelEMA:""" Updated Exponential Moving Average (EMA) from https://github.com/rwightman/pytorch-image-modelsKeeps a moving average of everything in the model state_dict (parameters and buffers)For EMA details see https://www.tensorflow.org/api_docs/python/tf/train/ExponentialMovingAverage"""def __init__(self, model, decay=0.9999, tau=2000, updates=0):# Create EMAself.ema = deepcopy(de_parallel(model)).eval()  # FP32 EMAself.updates = updates  # number of EMA updatesself.decay = lambda x: decay * (1 - math.exp(-x / tau))  # decay exponential ramp (to help early epochs)for p in self.ema.parameters():p.requires_grad_(False)def update(self, model):# Update EMA parametersself.updates += 1d = self.decay(self.updates)msd = de_parallel(model).state_dict()  # model state_dictfor k, v in self.ema.state_dict().items():if v.dtype.is_floating_point:  # true for FP16 and FP32v *= dv += (1 - d) * msd[k].detach()# assert v.dtype == msd[k].dtype == torch.float32, f'{k}: EMA {v.dtype} and model {msd[k].dtype} must be FP32'def update_attr(self, model, include=(), exclude=('process_group', 'reducer')):# Update EMA attributescopy_attr(self.ema, model, include, exclude)

参考

https://zhuanlan.zhihu.com/p/68748778

如果有用，请点个三连呗 点赞、关注、收藏。
你的鼓励是我最大的动力

指数移动平均（EMA）

文章目录

前言

EMA的定义

在深度学习中的应用

PyTorch代码实现

yolov5中模型的EMA实现

参考

相关文章：

指数移动平均（EMA）

无线表格识别模型LORE转换库：ConvertLOREToONNX

C# 视频转图片

LINUX ADC使用

Ubuntu 基本操作-嵌入式 Linux 入门

Pytorch可形变卷积分类模型与可视化

Mysql 表逻辑分区原理和应用

架构面试题汇总：网络协议34问（七）

lida，一个超级厉害的 Python 库！

K好数 C语言蓝桥杯算法提升ALGO3 一个自然数N的K进制表示中任意的相邻的两位都不是相邻的数字

2195. 深海机器人问题（网络流，费用流，上下界可行流，网格图模型）

Vue/cli项目全局css使用

【自然语言处理】【大模型】BitNet：用1-bit Transformer训练LLM

安装及管理docker

【MySQL】表的增删改查——MySQL基本查询、数据库表的创建、表的读取、表的更新、表的删除

C/C++蓝桥杯之日期问题

【理解指针（二）】

使用AI纠正文章

拼多多API批量获取商品详情信息

杨辉三角（C语言）

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

.Net框架，除了EF还有很多很多......

8k长序列建模，蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

定时器任务——若依源码分析

HBuilderX安装（uni-app和小程序开发）

Unit 1 深度强化学习简介

Caliper 配置文件解析：config.yaml

全面解析各类VPN技术：GRE、IPsec、L2TP、SSL与MPLS VPN对比

C++ Visual Studio 2017厂商给的源码没有.sln文件易兆微芯片下载工具加开机动画下载。

Springboot社区养老保险系统小程序