当前位置：首页 > news >正文

Fisher信息矩阵（Fisher Information Matrix，简称FIM）

news 2025/11/21 16:58:05

Fisher信息矩阵简介

Fisher信息矩阵（Fisher Information Matrix，简称FIM）是统计学和信息理论中的一个重要概念，广泛应用于参数估计、统计推断和机器学习领域。它以统计学家罗纳德·费希尔（Ronald Fisher）的名字命名，反映了概率分布对参数变化的敏感度，是衡量模型参数估计不确定性的核心工具。

什么是Fisher信息矩阵？

Fisher信息矩阵是一个对称的方阵，用于描述概率密度函数（或概率质量函数）在其参数下的信息含量。简单来说，它告诉我们通过观测数据能够获得多少关于未知参数的信息。对于一个参数化的概率分布 ( $p(x|\theta)$ )，其中 ( $\theta$ ) 是参数向量，Fisher信息矩阵 ( $I(\theta)$ ) 的定义基于对数似然函数的二阶导数。

数学定义

假设我们有一个概率密度函数 ( $p(x|\theta)$ )，其中 ( $\theta = (\theta_1, \theta_2, \dots, \theta_k)$ ) 是 ( $k$ ) 维参数向量。Fisher信息矩阵 ( $I(\theta)$ ) 的元素可以通过以下两种等价的方式定义：

基于期望的定义：
$I(\theta)_{ij} = E\left[ \frac{\partial \log p(x|\theta)}{\partial \theta_i} \frac{\partial \log p(x|\theta)}{\partial \theta_j} \bigg| \theta \right]$
这里，( $E[\cdot]$ ) 表示在给定 ( $\theta$ ) 下的期望，( $\frac{\partial \log p(x|\theta)}{\partial \theta_i}$ ) 是对数似然函数对第 ( $i$ ) 个参数的偏导数，也称为得分函数（score function）。
基于二阶导数的定义（在一定条件下等价）：
$I(\theta)_{ij} = -E\left[ \frac{\partial^2 \log p(x|\theta)}{\partial \theta_i \partial \theta_j} \bigg| \theta \right]$
这是对数似然函数的二阶偏导数的负期望值，通常称为Hessian矩阵的期望。

这两种定义在正则条件下（例如，分布满足可微性和期望的可交换性）是等价的。

一个简单例子

为了更好地理解，假设我们有一个正态分布 ( $N(\mu, \sigma^2)$ )，其中参数 ( $\theta = (\mu, \sigma^2)$ )。我们来计算它的Fisher信息矩阵：

对数似然函数

对于单个观测值 ( $x$ )：
$\log p(x|\mu, \sigma^2) = -\frac{1}{2} \log (2\pi \sigma^2) - \frac{(x - \mu)^2}{2\sigma^2}$

计算得分函数

对 ( $\mu$ ) 求偏导：
$\frac{\partial \log p}{\partial \mu} = \frac{x - \mu}{\sigma^2}$
对 ( $\sigma^2$ ) 求偏导：
$\frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2}$

Fisher信息矩阵元素

( $I_{11} = E\left[ \left( \frac{x - \mu}{\sigma^2} \right)^2 \right] = \frac{1}{\sigma^2}$ )，因为 ( $\mu)^2] = \sigma^2$ )。
( $I_{22} = E\left[ \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 \right] = \frac{1}{2(\sigma^2)^2}$ )。计算过程见下文。
( $I_{12} = I_{21} = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right] = 0$ )（交叉项期望为零）。计算过程见下文。

于是，Fisher信息矩阵为：
$I(\theta) = \begin{bmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2(\sigma^2)^2} \end{bmatrix}$

Fisher信息矩阵的性质

正定性：如果模型是可识别的（即不同参数对应不同分布），Fisher信息矩阵通常是正定的，这意味着它可以用来衡量参数估计的“曲率”。
对角元素：对角线上的元素 ( $I_{ii}$ ) 表示单个参数 ( $\theta_i$ ) 的信息量。
独立性：如果参数之间是独立的（得分函数的交叉项期望为零），矩阵将是对角矩阵。

应用

Cramér-Rao下界：
Fisher信息矩阵的一个重要应用是提供参数估计方差的下界。对于一个无偏估计器 ( $\hat{\theta}$ )，其协方差矩阵满足：
$\text{Cov}(\hat{\theta}) \geq I(\theta)^{-1}$
其中 ( $I(\theta)^{-1}$ ) 是Fisher信息矩阵的逆矩阵。这表明，估计器的精度受限于Fisher信息。
最大似然估计：
在最大似然估计（MLE）中，Fisher信息矩阵的逆可以用来近似估计参数的协方差矩阵，尤其是在大样本情况下。
机器学习：
在深度学习中，Fisher信息矩阵被用于优化算法（如自然梯度下降）和模型正则化，帮助理解损失函数的几何结构。

总结

Fisher信息矩阵是统计学中的一个强大工具，它连接了概率分布、参数估计和信息理论。通过量化数据中包含的参数信息，它为我们提供了理解模型行为和估计精度的基础。尽管计算复杂，但在许多实际问题中，它可以通过数值方法或近似来实现。

如果你需要更深入的探讨或具体例子，请告诉我，我可以进一步扩展！

$I_{22}$ 复杂计算过程

以下是关于Fisher信息矩阵元素 ( $I_{22}$ ) 的计算过程

第一部分：计算 ( $I_{22}$ )

给出的表达式是：

$I_{22} = E\left[ \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 \right]$

并提到它等于 ( $\frac{1}{2(\sigma^2)^2}$ )。让我们一步步验证这个计算过程，假设 ( $\sim N(\mu, \sigma^2)$ )，因为Fisher信息矩阵通常在正态分布的背景下计算。

步骤 1：定义对数似然函数

对于来自正态分布 ( $N(\mu, \sigma^2)$ ) 的单个观测值 ( $x$ )，概率密度函数为：

$\mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right)$

对数似然函数为：

$\log p(x | \mu, \sigma^2) = -\frac{1}{2} \log (2\pi \sigma^2) - \frac{(x - \mu)^2}{2\sigma^2}$

步骤 2：对 ( $\sigma^2$ ) 求偏导数

由于 ( $I_{22}$ ) 对应参数 ( $\theta_2 = \sigma^2$ )，我们需要计算：

$\frac{\partial \log p}{\partial \sigma^2}$

第一项：( $-\frac{1}{2} \log (2\pi \sigma^2) = -\frac{1}{2} \log 2\pi - \frac{1}{2} \log \sigma^2$ )

$\frac{\partial}{\partial \sigma^2} \left( -\frac{1}{2} \log \sigma^2 \right) = -\frac{1}{2} \cdot \frac{1}{\sigma^2} = -\frac{1}{2\sigma^2}$

（这里使用了链式法则：( $\frac{d}{d\sigma^2} \log \sigma^2 = \frac{1}{\sigma^2}$ )。）

第二项：( $-\frac{(x - \mu)^2}{2\sigma^2}$ )

$\frac{\partial}{\partial \sigma^2} \left( -\frac{(x - \mu)^2}{2\sigma^2} \right) = -\frac{(x - \mu)^2}{2} \cdot (-1) (\sigma^2)^{-2} = \frac{(x - \mu)^2}{2(\sigma^2)^2}$

因此：

$\frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2}$

这与给出的期望内的表达式一致.

步骤 3：对偏导数平方

$I_{22} = E\left[ \left( \frac{\partial \log p}{\partial \sigma^2} \right)^2 \right] = E\left[ \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 \right]$

展开平方：

$\left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 = \left( -\frac{1}{2\sigma^2} \right)^2 + 2 \left( -\frac{1}{2\sigma^2} \right) \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) + \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2$

逐项简化：

( $\left( -\frac{1}{2\sigma^2} \right)^2 = \frac{1}{4(\sigma^2)^2}$ )
( $\left( -\frac{1}{2\sigma^2} \right) \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) = -\frac{(x - \mu)^2}{2(\sigma^2)^3}$ )
( $\left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 = \frac{(x - \mu)^4}{4(\sigma^2)^4}$ )

因此：

$I_{22} = E\left[ \frac{1}{4(\sigma^2)^2} - \frac{(x - \mu)^2}{2(\sigma^2)^3} + \frac{(x - \mu)^4}{4(\sigma^2)^4} \right]$

步骤 4：计算期望

由于 ( $\sigma^2$ ) 是参数（常数），我们对 ( $x$ ) 取期望：

( $E\left[ \frac{1}{4(\sigma^2)^2} \right] = \frac{1}{4(\sigma^2)^2}$ ) （常数）
( $E\left[ -\frac{(x - \mu)^2}{2(\sigma^2)^3} \right] = -\frac{1}{2(\sigma^2)^3} E[(x - \mu)^2]$ )
( $E\left[ \frac{(x - \mu)^4}{4(\sigma^2)^4} \right] = \frac{1}{4(\sigma^2)^4} E[(x - \mu)^4]$ )

对于 ( $\sim N(\mu, \sigma^2)$ )：

( $\mu)^2] = \text{方差} = \sigma^2$ )
( $\mu)^4] = 3(\sigma^2)^2$ ) （正态分布的四阶中心矩）

代入：

$I_{22} = \frac{1}{4(\sigma^2)^2} - \frac{1}{2(\sigma^2)^3} \cdot \sigma^2 + \frac{1}{4(\sigma^2)^4} \cdot 3(\sigma^2)^2$

$\frac{1}{4(\sigma^2)^2} - \frac{1}{2(\sigma^2)^2} + \frac{3}{4(\sigma^2)^2}$

$\left( \frac{1}{4} - \frac{2}{4} + \frac{3}{4} \right) \frac{1}{(\sigma^2)^2} = \frac{2}{4} \frac{1}{(\sigma^2)^2} = \frac{1}{2(\sigma^2)^2}$

这证实了：

$I_{22} = \frac{1}{2(\sigma^2)^2}$

这个计算依赖于对偏导数平方后展开，并利用正态分布的矩，结果如上所示。

第二部分：两个偏导的乘积是否等价于平方？

两个偏导的乘积等价成平方了吗？让我们在 ( $\theta = (\mu, \sigma^2)$ ) 的Fisher信息矩阵背景下解释这个问题。

Fisher信息矩阵元素

( $I_{11} = E\left[ \left( \frac{\partial \log p}{\partial \mu} \right)^2 \right]$ )
( $I_{12} = I_{21} = E\left[ \frac{\partial \log p}{\partial \mu} \frac{\partial \log p}{\partial \sigma^2} \right]$ )
( $I_{22} = E\left[ \left( \frac{\partial \log p}{\partial \sigma^2} \right)^2 \right]$ ) （如上计算）

对角元素是平方，非对角元素是乘积。

解答交叉项期望为零

为什么 ( $I_{12} = I_{21} = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right] = 0$ )?

背景

在Fisher信息矩阵中，( $I_{ij}$ ) 表示参数 ( $\theta_i$ ) 和 ( $\theta_j$ ) 的信息关联。对于正态分布 ( $N(\mu, \sigma^2)$ )，我们令 ( $\theta_1 = \mu$ )，( $\theta_2 = \sigma^2$ )。这里，( $I_{12}$ ) 是交叉项，定义为：

$I_{12} = E\left[ \frac{\partial \log p}{\partial \mu} \cdot \frac{\partial \log p}{\partial \sigma^2} \right]$

它衡量了 ( $\mu$ ) 和 ( $\sigma^2$ ) 之间的信息相关性。如果 ( $I_{12} = 0$ )，说明这两个参数在信息上是“正交”的，也就是说，一个参数的得分函数（score function）与另一个参数的得分函数在期望上是无关的。

计算过程

步骤 1：计算交叉项 ( $I_{12}$ )

$I_{12} = E\left[ \frac{\partial \log p}{\partial \mu} \cdot \frac{\partial \log p}{\partial \sigma^2} \right] = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right]$

展开乘积：

$\frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) = \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} \right) + \frac{x - \mu}{\sigma^2} \cdot \frac{(x - \mu)^2}{2(\sigma^2)^2}$

$-\frac{x - \mu}{2(\sigma^2)^2} + \frac{(x - \mu)^3}{2(\sigma^2)^3}$

因此：

$I_{12} = E\left[ -\frac{x - \mu}{2(\sigma^2)^2} + \frac{(x - \mu)^3}{2(\sigma^2)^3} \right]$

由于期望是线性的，我们可以分开计算：

$I_{12} = -\frac{1}{2(\sigma^2)^2} E[x - \mu] + \frac{1}{2(\sigma^2)^3} E[(x - \mu)^3]$

步骤 2：计算正态分布的矩

对于 ( $\sim N(\mu, \sigma^2)$ )：

( $\mu] = 0$ ) （一阶中心矩，因为均值为 ( $\mu$ )）
( $\mu)^3] = 0$ ) （三阶中心矩，由于正态分布是对称的，奇数阶中心矩为零）

代入：

$I_{12} = -\frac{1}{2(\sigma^2)^2} \cdot 0 + \frac{1}{2(\sigma^2)^3} \cdot 0 = 0$

所以：

$I_{12} = 0$

这就是为什么交叉项期望为零。

解释：为什么会是零？

这个结果的背后有深刻的统计意义：

正态分布的对称性：
- ( $\mu$ ) 的分布是对称的（服从 ( $\sigma^2)$ )），其奇数阶中心矩（如 ( $\mu]$ ) 和 ( $\mu)^3]$ )）都为零。
- ( $\frac{\partial \log p}{\partial \mu} = \frac{x - \mu}{\sigma^2}$ ) 是线性项，期望为零。
- ( $\frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2}$ ) 包含常数项和二次项，乘以奇数项 ( $\mu$ ) 后，奇数阶的部分在期望下消失。
参数的正交性：
- 在正态分布中，( $\mu$ ) 和 ( $\sigma^2$ ) 的得分函数是“正交”的，意味着它们提供的信息在统计上是独立的。
- 当 ( $I_{12} = 0$ )，Fisher信息矩阵是对角矩阵，表明 ( $\mu$ ) 和 ( $\sigma^2$ ) 的估计不会相互干扰。
直观理解：
- ( $\frac{x - \mu}{\sigma^2}$ ) 表示数据偏离均值的程度，是随机的正负波动。
- ( $-\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2}$ ) 与方差相关，是关于偏差大小的量。
- 这两者乘积的正负波动在对称分布下互相抵消，期望为零。

验证：另一种方法（二阶导数）

Fisher信息矩阵也可以用二阶导数的负期望定义：

$I_{12} = -E\left[ \frac{\partial^2 \log p}{\partial \mu \partial \sigma^2} \right]$

计算二阶混合偏导：

$\frac{\partial}{\partial \sigma^2} \left( \frac{x - \mu}{\sigma^2} \right) = (x - \mu) \cdot (-1) (\sigma^2)^{-2} = -\frac{x - \mu}{(\sigma^2)^2}$

$I_{12} = -E\left[ -\frac{x - \mu}{(\sigma^2)^2} \right] = \frac{1}{(\sigma^2)^2} E[x - \mu] = 0$

这与得分函数方法一致，进一步确认 ( $I_{12} = 0$ )。

结论

( $I_{12} = 0$ ) 是因为正态分布的奇数阶中心矩为零，导致 ( $\frac{\partial \log p}{\partial \mu}$ ) 和 ( $\frac{\partial \log p}{\partial \sigma^2}$ ) 的乘积在期望下抵消。这反映了 ( $\mu$ ) 和 ( $\sigma^2$ ) 在信息上的独立性，是正态分布的一个重要特性。

后记

2025年2月24日21点43分于上海，在Grok3大模型辅助下完成。

Fisher信息矩阵简介

什么是Fisher信息矩阵？

数学定义

一个简单例子

对数似然函数

计算得分函数

Fisher信息矩阵元素

Fisher信息矩阵的性质

应用

总结

I 22 I_{22} I22​复杂计算过程

第一部分：计算 ( I 22 I_{22} I22​ )

步骤 1：定义对数似然函数

步骤 2：对 ( σ 2 \sigma^2 σ2 ) 求偏导数

步骤 3：对偏导数平方

步骤 4：计算期望

第二部分：两个偏导的乘积是否等价于平方？

Fisher信息矩阵元素

解答交叉项期望为零

背景

计算过程

步骤 1：计算交叉项 ( I 12 I_{12} I12​ )

步骤 2：计算正态分布的矩

解释：为什么会是零？

验证：另一种方法（二阶导数）

结论

后记

相关文章：

$I_{22}$ 复杂计算过程

第一部分：计算 ( $I_{22}$ )

步骤 2：对 ( $\sigma^2$ ) 求偏导数

步骤 1：计算交叉项 ( $I_{12}$ )