当前位置：首页 > news >正文

最大熵模型

news 2025/9/23 20:07:19

最大熵模型（maximum entropy model）由最大熵原理推导实现

最大熵原理

最大熵原理是概率模型学习的一个准则。最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型时最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

假设离散随机变量 $X$ 的概率分布时 $P\left(X\right)$ ，则其熵是
$H\left(P\right) = -\sum_{x}P\left(x\right)\log P\left(x\right)$
熵满足下列不等式：
$0\le H\left(P\right) \le \log \left|X\right|$
其中 $\left|X\right|$ 是 $X$ 的取值个数，当且仅当 $X$ 的分布是均匀分布时，右边的等号成立。
这就是说，当 $X$ 服从均匀分布时，熵最大

证明：

$\begin{aligned} &\max _{p_{i}}-\sum_{i=1}^{n} p_{i} \log p_{i} \\ &\text { s.t. } \sum_{i=1}^{n} p_{i}=1 \end{aligned}$
显然 $-\sum_{i=1}^{n} p_{i} \log p_{i} \ge 0$
当 $p_i$ 中其中一个为 $1$ ，其他为 $0$ 时， $-\sum_{i=1}^{n} p_{i} \log p_{i} = 0$

拉格朗日函数
$L\left(P, \lambda\right) = -\sum_{i=1}^{n} p_{i} \log p_{i} - \lambda\left(\sum_{i=1}^{n} p_{i} - 1\right)$
求导
$\frac{\partial L}{\partial p_i} = -\log p_i - 1-\lambda =0$
于是
$\log p_1=\log p_2 = \cdots = \log p_n = -\lambda - 1$
进而
$p_1 = p_2=\cdots = p_n$

最大熵模型的定义

最大熵原理时统计学习的一般原理，将它应用到分类得到最大熵模型

假设分类模型时一个条件概率分布 $P\left(Y|X\right)$ ， $X\in\mathcal{X}\subseteq \mathbb{R}^n$ 表示输入， $Y\in\mathcal{Y}$ 表示输出， $\mathcal{X}$ 和 $\mathcal{Y}$ 分别是输入和输出的集合。
这个模型表示的是对于给定的输入 $X$ ，以条件概率 $P\left(Y|X\right)$ 输出 $Y$

给定一个训练数据集
$\left\{\left(\mathbf{x}_1,y_1\right),\cdots,\left(\mathbf{x}_N,y_N\right)\right\}$
学习的目标是用最大熵原理选择最好的分类模型

首先考虑模型应该满足的条件。给定训练数据集，可以确定联合分布 $P\left(X,Y\right)$ 的经验分布和边缘分布 $P\left(X\right)$ 的经验分布，分别以 $\tilde{P}\left(X,Y\right)$ 和 $\tilde{P}\left(X\right)$ 表示。这里
$\tilde{P}\left(X=\mathbf{x},Y=y\right)=\frac{v\left(X=\mathbf{x},Y=y\right)}{N}\\ \tilde{P}\left(X=\mathbf{x}\right) = \frac{v\left(X = \mathbf{x}\right)}{N}$
其中， $v\left(X=\mathbf{x},Y= y\right)$ 表示训练数据中样本 $\left(\mathbf{x},y\right)$ 出现的频率， $v\left(X=\mathbf{x}\right)$ 表示训练数据中输入 $\mathbf{x}$ 出现的频率， $N$ 表示训练样本容量

用特征函数（feature function） $f\left(\mathbf{x}, y\right)$ 描述输入 $\mathbf{x}$ 和输出 $y$ 之间的某一个事实，其定义是
$f\left(\mathbf{x},y\right) = \begin{cases} 1, & \mathbf{x}与y满足某一事实\\ 0, &否则 \end{cases}$

特征函数 $f\left(x,y\right)$ 关于经验分布 $\tilde{P}\left(X,Y\right)$ 的期望值，用 $E_{\tilde{P}}\left(f\right)$ 表示
$E_{\tilde{P}}\left(f\right)=\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x},y\right)f\left(\mathbf{x},y\right)$
特征函数 $f\left(\mathbf{x},y\right)$ 关于模型 $P\left(Y|X\right)$ 与经验分布 $\tilde{P}\left(X\right)$ 的期望值，用 $E_P\left(f\right)$ 表示

$E_P\left(f\right) = \sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x}\right)P\left(y|\mathbf{x}\right)f\left(\mathbf{x},y\right)$
如果模型能够获取训练数据中的信息，那么就可以假设这两个期望值相等，即
$E_P\left(f\right)=E_{\tilde{P}}\left(f\right)$
或者
$\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x}\right)P\left(y|\mathbf{x}\right)f\left(\mathbf{x},y\right)=\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x},y\right)f\left(\mathbf{x},y\right)$
上式作为模型学习的约束条件
假设有 $n$ 个特征函数 $f_i\left(\mathbf{x},y\right)$ ，那么就有 $n$ 个约束条件

最大熵模型：假设满足所有约束条件的模型集合为
$\mathcal{C}\equiv\left\{P\in\mathcal{P}|E_p\left(f_i\right) = E_{\tilde{P}}\left(f_i\right),\quad i = 1,2,\cdots, n\right\}$
定义在条件概率分布 $P\left(Y|X\right)$ 上的条件熵为
$H\left(P\right) = -\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x}\right)P\left(y|\mathbf{x}\right)\log P\left(y|\mathbf{x}\right)$
则模型集合 $\mathcal{C}$ 中条件熵 $H\left(P\right)$ 最大的模型称为最大熵模型。
（其中 $log = \ln = \log_e$ ）

最大熵模型的学习

最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最大化问题

对于给定的训练数据集 $T=\left\{\left(\mathbf{x}_1,y_1\right), \cdots, \left(\mathbf{x}_N, y_N\right)\right\}$ 以及特征函数 $f_i\left(\mathbf{x},y\right)$ ，最大熵的学习等价于约束最优化问题：
$\begin{aligned} \max_{P\in \mathcal{C}} & H\left(P\right) = -\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x}\right)P\left(y|\mathbf{x}\right)\log P\left(y|\mathbf{x}\right)\\ s.t.& E_P\left(f_i\right) = E_{\tilde{P}}\left(f_i\right),\quad i = 1,2,\cdots, n\\ &\sum_{y}P\left(y|\mathbf{x}\right) =1 \end{aligned}$
改成最小化
$\begin{aligned} \min_{P\in \mathcal{C}} & -H\left(P\right) = \sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x}\right)P\left(y|\mathbf{x}\right)\log P\left(y|\mathbf{x}\right)\\ s.t.& E_P\left(f_i\right) = E_{\tilde{P}}\left(f_i\right),\quad i = 1,2,\cdots, n\\ &\sum_{y}P\left(y|\mathbf{x}\right) =1 \end{aligned}$

拉格朗日函数
$\begin{aligned} L\left(P,\mathbf{w}\right) &=-H\left(P\right) + w_0\left(1 - \sum_{y}P\left(y|\mathbf{x}\right)\right)+\sum_{i=1}^{n}w_i\left(E_{\tilde{P}}\left(f_i\right) - E_P\left(f_i\right)\right)\\ &=\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x}\right)P\left(y|\mathbf{x}\right)\log P\left(y|\mathbf{x}\right)+w_0\left(1 - \sum_{y}P\left(y|\mathbf{x}\right)\right)\\ &\quad +\sum_{i=1}^{n}w_i\left(\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x},y\right)f\left(\mathbf{x},y\right) - \sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x}\right)P\left(y|\mathbf{x}\right)f\left(\mathbf{x},y\right)\right) \end{aligned}$
原始问题
$\min_{P\in \mathcal{C}}\max_{\mathbf{w}} L\left(P,\mathbf{w}\right)$
对偶问题
$\max_{\mathbf{w}}\min_{P\in \mathcal{C}} L\left(P,\mathbf{w}\right)$

目标函数是凸的，约束条件是等式约束，于是满足广义Slater条件, 所以原始问题与对偶问题等价
设
$\psi\left(\mathbf{w}\right) = \min_{P\in \mathcal{C}} L\left(P,\mathbf{w}\right)=L\left(P_\mathbf{w},\mathbf{w}\right)$
其中
$P_{\mathbf{w}}=\arg\min_{P\in\mathcal{C}} L\left(P,\mathbf{w}\right) = P_{\mathbf{w}}\left(y|\mathbf{x}\right)$

$\begin{aligned} \frac{\partial L}{\partial P\left(y|\mathbf{x}\right)} &= \sum_{\mathbf{x},y} \tilde{P}\left(\mathbf{x}\right)\left(\log P\left(y|\mathbf{x}\right) + 1\right)-\sum_{y}w_0-\sum_{\mathbf{x},y}\left(\tilde{P}\left(\mathbf{x}\right)\sum_{i=1}^{n}w_if_i\left(\mathbf{x},y\right)\right)\\ &= \sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x}\right)\left(\log P\left(y|\mathbf{x}\right) + 1-w_0-\sum_{i=1}^{n}w_if_i\left(\mathbf{x},y\right)\right)\\ &=0 \end{aligned}$
在 $\tilde{P}\left(\mathbf{x}\right)>0$ 的情况下
$P\left(y|\mathbf{x}\right) = exp\left(\sum_{i=1}^{n}w_if_i\left(\mathbf{x},y\right) + w_0 - 1\right)=\frac{exp\left(\sum_{i=1}^{n}w_if_i\left(\mathbf{x},y\right)\right)}{exp\left(1-w_0\right)}$

利用 $\sum_{y} P\left(y|\mathbf{x}\right) = 1$ ,得
$P_{\mathbf{w}}\left(y|\mathbf{x}\right) = \frac{1}{Z_{\mathbf{w}}\left(\mathbf{x}\right)}exp\left(\sum_{i=1}^{n}w_if_i\left(\mathbf{x},y\right)\right)$
其中
$Z_{\mathbf{w}}\left(\mathbf{x}\right) = \sum_{y}exp\left(\sum_{i=1}^{n}w_if_i\left(\mathbf{x},y\right)\right)$

其中 $Z_{\mathbf{w}}\left(\mathbf{x}\right)$ 称为规范化因子；
$P_{\mathbf{w}}=P_{\mathbf{w}}\left(y|\mathbf{x}\right)$ 就是最大熵模型。这里 $\mathbf{w}$ 是最大熵模型中的参数向量
之后，求解
$\max\psi\left(\mathbf{w}\right)$
令
$\mathbf{w}^{*} = \arg\max_{\mathbf{w}}\psi\left(\mathbf{w}\right)$

极大似然估计

下面证明对偶函数的极大化等价于最大熵模型的极大似然估计

训练数据的经验概率分布 $\tilde{P}\left(X,Y\right)$ ，条件概率分布 $P\left(Y|X\right)$ 的对数似然函数表示为
$L_{\tilde{P}} \left(P_{\mathbf{w}}\right) = \log \pi_{\mathbf{x},y}P\left(y|\mathbf{x}\right)^{\tilde{P}\left(\mathbf{x},y\right)} =\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x},y\right) \log P\left(y|\mathbf{x}\right)$

$\begin{aligned} L_{\tilde{P}}\left(P_{\mathbf{w}}\right) &= \sum_{\mathbf{x},y} \tilde{P}\left(\mathbf{x},y\right) \log P\left(y|\mathbf{x}\right)\\ &=\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x},y\right)\sum_{i=1}^{n}w_i f_i\left(\mathbf{x},y\right) - \sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x},y\right)\log Z_{\mathbf{w}}\left(\mathbf{x}\right)\\ &=\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x},y\right)\sum_{i=1}^{n}w_i f_i\left(\mathbf{x},y\right) - \sum_{\mathbf{x}}\tilde{P}\left(\mathbf{x}\right)\log Z_{\mathbf{w}}\left(\mathbf{x}\right) \end{aligned}$
接着
$\begin{aligned} \psi\left(\mathbf{w}\right) &= \sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x}\right)P_{\mathbf{w}}\left(y,\mathbf{x}\right)\log P_{\mathbf{w}}\left(y|\mathbf{x}\right) \\ &\quad + \sum_{i=1}^n w_i\left(\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x},y\right)f_i\left(\mathbf{x},y\right) - \sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x}\right)P_{\mathbf{w}}\left(y|\mathbf{x}\right)f_i\left(\mathbf{x},y\right)\right)\\ &=\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x},y\right)\sum_{i=1}^{n}w_i f_i\left(\mathbf{x},y\right) + \sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x}\right) P_{\mathbf{w}}\left(y|\mathbf{x}\right)\left(\log P_{\mathbf{w}}\left(y|\mathbf{x}\right) - \sum_{i=1}^{n}w_if_i\left(\mathbf{x},y\right)\right)\\ &=\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x},y\right)\sum_{i=1}^{n}w_i f_i\left(\mathbf{x},y\right)-\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x}\right)P_{\mathbf{w}}\left(y|\mathbf{x}\right)\log Z_{\mathbf{w}}\left(\mathbf{x}\right)\\ &=\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x},y\right)\sum_{i=1}^{n}w_i f_i\left(\mathbf{x},y\right)-\sum_{\mathbf{x},y}\tilde{P}\left(\mathbf{x}\right)\log Z_{\mathbf{w}}\left(\mathbf{x}\right)\\ \end{aligned}$

这样，最大熵模型的学习问题就转化为具体求解对数似然函数极大化或对偶函数极大化的问题

可以将最大熵模型写成更一般的形式
$\frac{1}{Z_{\mathbf{w}}\left(\mathbf{x}\right)}exp\left(\sum_{i=1}^{n}w_i f_i\left(\mathbf{x},y\right)\right)$
其中
$Z_{\mathbf{w}}\left(\mathbf{x}\right)=\sum_{y}exp\left(\sum_{i=1}^{n}w_i f_i\left(\mathbf{x},y\right)\right)$
这里 $\mathbf{x}\in\mathbb{R}^n$ 为输入， $y\in\left\{1,2,\cdots, K\right\}$ 为输出， $\mathbf{w}\in\mathbb{R}^n$ 为权值向量， $f_i\left(\mathbf{x},y\right)$ 为任意实值特征函数

参考：
统计学习方法(李航)

最大熵模型

最大熵原理

最大熵模型的定义

最大熵模型的学习

极大似然估计

相关文章：

最大熵模型

微服务中网关的配置

Linux基本指令实现4及热键指令详解

系统调用与API

OpenPCDet系列 | 5.4.1 DenseHead中的AnchorGenerator锚框生成模块

【开发者指南】如何在MyEclipse中使用HTML或JSP设计器？（上）

Node开发Web后台服务

Linux下对mmap封装使用

深入了解云计算：发展历程、服务与部署模型、未来趋势与挑战

使用乐鑫 Web IDE 助力物联网开发

Maven（5）---Maven的部署和发布

内网渗透之权限维持-黄金白银票据隐藏账户远控-RustDeskGotoHTTP

动态规划——带权活动选择

软考A计划-真题-分类精讲汇总-第十八章(面向对象程序设计)

【C++ 入坑指南】（09）数组

Vue.js

博士毕业答辩流程注意事项

拼多多开放平台订单详情接口解析

如何把ipa文件(iOS安装包)安装到iPhone手机上? 附方法汇总

由浅入深了解深度神经网络优化算法

golang循环变量捕获问题

R语言AI模型部署方案：精准离线运行详解

Spring Boot 实现流式响应（兼容 2.7.x）

以下是对华为 HarmonyOS NETX 5属性动画（ArkTS）文档的结构化整理，通过层级标题、表格和代码块提升可读性：

大数据零基础学习day1之环境准备和大数据初步理解

Java - Mysql数据类型对应

GitHub 趋势日报 (2025年06月08日)

Java入门学习详细版（一）

在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用

[Java恶补day16] 238.除自身以外数组的乘积