当前位置：首页 > news >正文

期望极大算法（Expectation Maximization Algorithm,EM）

news 2025/7/9 0:48:10

定义

输入:观测变量数据Y,隐变量数据Z,联合分布P(Y,Z| $\theta$ ),条件分布PP(Z,Y| $\theta$ );
输出:模型参数 $\theta$
(1)选择参数的初值 $\theta^{(0)},开始迭代;$
(2)E步:记 $\theta^{(i)}为第i次迭代参数$ \theta $的估计值, 在第$ i+1$次迭代的E步,计算

$Q(\theta,\theta^{(i)}) = E_Z\big[ log P(Y,Z|\theta)|Y,\theta^{(i)} \big] = \sum_{Z}log P(Y,Z|\theta) P(Z|Y,\theta^{(i)})$

$P(Z|Y,\theta^{(i)})$ :给定观测数据 $Y$ 和当前的参数估计 $\theta^{(i)}$ 下隐变量数据 $Z$ 的条件概率分布；
(3)M步:求使 $Q(\theta,\theta^{(i)})$ 极大化的 $\theta$ ,确定第 $i + 1$ 次迭代的参数的估计值 $\theta^{(i+1)}$
$\theta^{(i+1)} = arg * \mathop{max}\limits_{\theta} Q(\theta,\theta^{(i)})$
(4)重复第(2)步和第(3)步，直到收敛。

输入空间

$T=\left\{(x_1,x_2,\dots,x_N\right\}$

import numpy as np
import random
import math
import timedef loadData(mu0, sigma0, mu1, sigma1, alpha0, alpha1):'''初始化数据集这里通过服从高斯分布的随机函数来生成数据集:param mu0: 高斯0的均值:param sigma0: 高斯0的方差:param mu1: 高斯1的均值:param sigma1: 高斯1的方差:param alpha0: 高斯0的系数:param alpha1: 高斯1的系数:return: 混合了两个高斯分布的数据'''#定义数据集长度为1000length = 1000#初始化第一个高斯分布，生成数据，数据长度为length * alpha系数，以此来#满足alpha的作用data0 = np.random.normal(mu0, sigma0, int(length * alpha0))#第二个高斯分布的数据data1 = np.random.normal(mu1, sigma1, int(length * alpha1))#初始化总数据集#两个高斯分布的数据混合后会放在该数据集中返回dataSet = []#将第一个数据集的内容添加进去dataSet.extend(data0)#添加第二个数据集的数据dataSet.extend(data1)#对总的数据集进行打乱（其实不打乱也没事，只不过打乱一下直观上让人感觉已经混合了# 读者可以将下面这句话屏蔽以后看看效果是否有差别）random.shuffle(dataSet)#返回伪造好的数据集return dataSet

# mu0是均值μ
# sigmod是方差σ
#在设置上两个alpha的和必须为1，其他没有什么具体要求，符合高斯定义就可以
alpha0 = 0.3; mu0 = -2; sigmod0 = 0.5
alpha1 = 0.7; mu1 = 0.5; sigmod1 = 1#初始化数据集
dataSetList = loadData(mu0, sigmod0, mu1, sigmod1, alpha0, alpha1)

np.shape(dataSetList)

print('alpha0:%.1f, mu0:%.1f, sigmod0:%.1f, alpha1:%.1f, mu1:%.1f, sigmod1:%.1f'%(alpha0, mu0, sigmod0, alpha1, mu1, sigmod1))

统计学习方法

模型

$\mathop{max}\limits_{\theta} Q(\theta,\theta^{(i)})$

策略

$L(\theta) = log\bigg( \sum_{Z} P(Y|Z,\theta) P(Z|\theta) \bigg)$

算法

高斯混合模型
$P(y|\theta) = \sum_{k=1}^K \alpha_k \phi(y|\theta_k),\alpha_k:系数,\alpha_k \geq 0,\sum_{k=1}^K \alpha_k = 1;\phi(y|\theta_k):高斯分布密度,\theta_k=(\mu_k,\sigma_k^2)$
$\phi(y|\theta_k) = \frac{1}{\sqrt{2\pi}\sigma_k} exp \bigg( - \frac{(y-\mu_k)^2}{2\sigma_k^2} \bigg)$

def calcGauss(dataSetArr, mu, sigmod):'''根据高斯密度函数计算值:param dataSetArr: 可观测数据集:param mu: 均值:param sigmod: 方差:return: 整个可观测数据集的高斯分布密度（向量形式）'''result = (1 / (math.sqrt(2 * math.pi) * sigmod)) * \np.exp(-1 * (dataSetArr - mu) * (dataSetArr - mu) / (2 * sigmod**2))#返回结果return result

$Q(\theta,\theta^{(i)}) = E_Z\big[ log P(Y,Z|\theta)|Y,\theta^{(i)} \big] = \sum_{Z}log P(Y,Z|\theta) P(Z|Y,\theta^{(i)})$
$P(Z|Y,\theta^{(i)}):给定观测数据Y和当前的参数估计\theta^{(i)}下隐变量数据Z的条件概率分布；$

def E_step(dataSetArr, alpha0, mu0, sigmod0, alpha1, mu1, sigmod1):'''依据当前模型参数，计算分模型k对观数据y的响应度:param dataSetArr: 可观测数据y:param alpha0: 高斯模型0的系数:param mu0: 高斯模型0的均值:param sigmod0: 高斯模型0的方差:param alpha1: 高斯模型1的系数:param mu1: 高斯模型1的均值:param sigmod1: 高斯模型1的方差:return: 两个模型各自的响应度'''#计算y0的响应度#先计算模型0的响应度的分子gamma0 = alpha0 * calcGauss(dataSetArr, mu0, sigmod0)#模型1响应度的分子gamma1 = alpha1 * calcGauss(dataSetArr, mu1, sigmod1)#两者相加为E步中的分布sum = gamma0 + gamma1#各自相除，得到两个模型的响应度gamma0 = gamma0 / sumgamma1 = gamma1 / sum#返回两个模型响应度return gamma0, gamma1

$\theta^{(i+1)} = arg * \mathop{max}\limits_{\theta} Q(\theta,\theta^{(i)})$

def M_step(muo, mu1, gamma0, gamma1, dataSetArr):mu0_new = np.dot(gamma0, dataSetArr) / np.sum(gamma0)mu1_new = np.dot(gamma1, dataSetArr) / np.sum(gamma1)sigmod0_new = math.sqrt(np.dot(gamma0, (dataSetArr - muo)**2) / np.sum(gamma0))sigmod1_new = math.sqrt(np.dot(gamma1, (dataSetArr - mu1)**2) / np.sum(gamma1))alpha0_new = np.sum(gamma0) / len(gamma0)alpha1_new = np.sum(gamma1) / len(gamma1)#将更新的值返回return mu0_new, mu1_new, sigmod0_new, sigmod1_new, alpha0_new, alpha1_new

def EM_Train(dataSetList, iter = 500):'''根据EM算法进行参数估计:param dataSetList:数据集（可观测数据）:param iter: 迭代次数:return: 估计的参数'''#将可观测数据y转换为数组形式，主要是为了方便后续运算dataSetArr = np.array(dataSetList)#步骤1：对参数取初值，开始迭代alpha0 = 0.5; mu0 = 0; sigmod0 = 1alpha1 = 0.5; mu1 = 1; sigmod1 = 1#开始迭代step = 0while (step < iter):#每次进入一次迭代后迭代次数加1step += 1#步骤2：E步：依据当前模型参数，计算分模型k对观测数据y的响应度gamma0, gamma1 = E_step(dataSetArr, alpha0, mu0, sigmod0, alpha1, mu1, sigmod1)#步骤3：M步mu0, mu1, sigmod0, sigmod1, alpha0, alpha1 = \M_step(mu0, mu1, gamma0, gamma1, dataSetArr)#迭代结束后将更新后的各参数返回return alpha0, mu0, sigmod0, alpha1, mu1, sigmod1

alpha0, mu0, sigmod0, alpha1, mu1, sigmod1 = EM_Train(dataSetList)
print('Parameters predict:')
print('alpha0:%.1f, mu0:%.1f, sigmod0:%.1f, alpha1:%.1f, mu1:%.1f, sigmod1:%.1f' % (alpha0, mu0, sigmod0, alpha1, mu1, sigmod1))

假设空间（Hypothesis Space）

$\left\{ arg * \mathop{max}\limits_{\theta} Q(\theta,\theta^{(i)}) \right\}$

输出

$\theta$

期望极大算法（Expectation Maximization Algorithm,EM）

定义

输入空间

统计学习方法

模型

策略

算法

假设空间（Hypothesis Space）

输出

相关文章：

期望极大算法（Expectation Maximization Algorithm,EM）

初级练习[4]:多表查询——表联结

基于JAVA+SpringBoot+Vue的中药实验管理系统

移动硬盘读取出错结构损坏？数据恢复实战指南

Web安全之HTTPS调用详解和证书说明案例示范

man命令学习记录

Linux三剑客-grep

备忘录模式memento

5-【JavaWeb】JUnit 单元测试及JUL 日志系统

多人开发小程序设置体验版的痛点

【Kubernetes】常见面试题汇总（七）

EmguCV学习笔记 C# 11.1 DnnInvoke类

论文解读 | ACL2024 Outstanding Paper：因果指导的主动学习方法：助力大语言模型自动识别并去除偏见...

xLSTM模型学习笔记

woocommerce 调用当前product_tag 为标题

音视频开发：基于sdl的pcm播放器

[产品管理-6]：NPDP新产品开发 - 4 - 战略 - 创新支持战略，支持组织的总体创新战略（平台战略、技术战略、营销战略、知识产权战略、能力建设战略）

Cursor：程序员的AI助手，开启智能编程新时代

OpenAI 刚刚发布了新的Sora视频——实现的真人效果令人惊叹

计算机视觉学习路线

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

手游刚开服就被攻击怎么办？如何防御DDoS？

为什么需要建设工程项目管理？工程项目管理有哪些亮点功能？

【解密LSTM、GRU如何解决传统RNN梯度消失问题】

【论文笔记】若干矿井粉尘检测算法概述

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

Device Mapper 机制

VM虚拟机网络配置（ubuntu24桥接模式）：配置静态IP

scikit-learn机器学习