当前位置: 首页 > article >正文

Fisher信息矩阵(Fisher Information Matrix,简称FIM)

Fisher信息矩阵简介

Fisher信息矩阵(Fisher Information Matrix,简称FIM)是统计学和信息理论中的一个重要概念,广泛应用于参数估计、统计推断和机器学习领域。它以统计学家罗纳德·费希尔(Ronald Fisher)的名字命名,反映了概率分布对参数变化的敏感度,是衡量模型参数估计不确定性的核心工具。

什么是Fisher信息矩阵?

Fisher信息矩阵是一个对称的方阵,用于描述概率密度函数(或概率质量函数)在其参数下的信息含量。简单来说,它告诉我们通过观测数据能够获得多少关于未知参数的信息。对于一个参数化的概率分布 ( p ( x ∣ θ ) p(x|\theta) p(xθ) ),其中 ( θ \theta θ ) 是参数向量,Fisher信息矩阵 ( I ( θ ) I(\theta) I(θ) ) 的定义基于对数似然函数的二阶导数。

数学定义

假设我们有一个概率密度函数 ( p ( x ∣ θ ) p(x|\theta) p(xθ) ),其中 ( θ = ( θ 1 , θ 2 , … , θ k ) \theta = (\theta_1, \theta_2, \dots, \theta_k) θ=(θ1,θ2,,θk) ) 是 ( k k k ) 维参数向量。Fisher信息矩阵 ( I ( θ ) I(\theta) I(θ) ) 的元素可以通过以下两种等价的方式定义:

  1. 基于期望的定义
    I ( θ ) i j = E [ ∂ log ⁡ p ( x ∣ θ ) ∂ θ i ∂ log ⁡ p ( x ∣ θ ) ∂ θ j ∣ θ ] I(\theta)_{ij} = E\left[ \frac{\partial \log p(x|\theta)}{\partial \theta_i} \frac{\partial \log p(x|\theta)}{\partial \theta_j} \bigg| \theta \right] I(θ)ij=E[θilogp(xθ)θjlogp(xθ) θ]
    这里,( E [ ⋅ ] E[\cdot] E[] ) 表示在给定 ( θ \theta θ ) 下的期望,( ∂ log ⁡ p ( x ∣ θ ) ∂ θ i \frac{\partial \log p(x|\theta)}{\partial \theta_i} θilogp(xθ) ) 是对数似然函数对第 ( i i i ) 个参数的偏导数,也称为得分函数(score function)。

  2. 基于二阶导数的定义(在一定条件下等价):
    I ( θ ) i j = − E [ ∂ 2 log ⁡ p ( x ∣ θ ) ∂ θ i ∂ θ j ∣ θ ] I(\theta)_{ij} = -E\left[ \frac{\partial^2 \log p(x|\theta)}{\partial \theta_i \partial \theta_j} \bigg| \theta \right] I(θ)ij=E[θiθj2logp(xθ) θ]
    这是对数似然函数的二阶偏导数的负期望值,通常称为Hessian矩阵的期望。

这两种定义在正则条件下(例如,分布满足可微性和期望的可交换性)是等价的。

一个简单例子

为了更好地理解,假设我们有一个正态分布 ( N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2) ),其中参数 ( θ = ( μ , σ 2 ) \theta = (\mu, \sigma^2) θ=(μ,σ2) )。我们来计算它的Fisher信息矩阵:

对数似然函数

对于单个观测值 ( x x x ):
log ⁡ p ( x ∣ μ , σ 2 ) = − 1 2 log ⁡ ( 2 π σ 2 ) − ( x − μ ) 2 2 σ 2 \log p(x|\mu, \sigma^2) = -\frac{1}{2} \log (2\pi \sigma^2) - \frac{(x - \mu)^2}{2\sigma^2} logp(xμ,σ2)=21log(2πσ2)2σ2(xμ)2

计算得分函数
  • 对 ( μ \mu μ ) 求偏导:
    ∂ log ⁡ p ∂ μ = x − μ σ 2 \frac{\partial \log p}{\partial \mu} = \frac{x - \mu}{\sigma^2} μlogp=σ2xμ
  • 对 ( σ 2 \sigma^2 σ2 ) 求偏导:
    ∂ log ⁡ p ∂ σ 2 = − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 \frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} σ2logp=2σ21+2(σ2)2(xμ)2
Fisher信息矩阵元素
  • ( I 11 = E [ ( x − μ σ 2 ) 2 ] = 1 σ 2 I_{11} = E\left[ \left( \frac{x - \mu}{\sigma^2} \right)^2 \right] = \frac{1}{\sigma^2} I11=E[(σ2xμ)2]=σ21 ),因为 ( E [ ( x − μ ) 2 ] = σ 2 E[(x - \mu)^2] = \sigma^2 E[(xμ)2]=σ2 )。
  • ( I 22 = E [ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 ] = 1 2 ( σ 2 ) 2 I_{22} = E\left[ \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 \right] = \frac{1}{2(\sigma^2)^2} I22=E[(2σ21+2(σ2)2(xμ)2)2]=2(σ2)21 )。计算过程见下文。
  • ( I 12 = I 21 = E [ x − μ σ 2 ⋅ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) ] = 0 I_{12} = I_{21} = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right] = 0 I12=I21=E[σ2xμ(2σ21+2(σ2)2(xμ)2)]=0 )(交叉项期望为零)。计算过程见下文。

于是,Fisher信息矩阵为:
I ( θ ) = [ 1 σ 2 0 0 1 2 ( σ 2 ) 2 ] I(\theta) = \begin{bmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2(\sigma^2)^2} \end{bmatrix} I(θ)=[σ21002(σ2)21]

Fisher信息矩阵的性质

  1. 正定性:如果模型是可识别的(即不同参数对应不同分布),Fisher信息矩阵通常是正定的,这意味着它可以用来衡量参数估计的“曲率”。
  2. 对角元素:对角线上的元素 ( I i i I_{ii} Iii ) 表示单个参数 ( θ i \theta_i θi ) 的信息量。
  3. 独立性:如果参数之间是独立的(得分函数的交叉项期望为零),矩阵将是对角矩阵。

应用

  1. Cramér-Rao下界
    Fisher信息矩阵的一个重要应用是提供参数估计方差的下界。对于一个无偏估计器 ( θ ^ \hat{\theta} θ^ ),其协方差矩阵满足:
    Cov ( θ ^ ) ≥ I ( θ ) − 1 \text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} Cov(θ^)I(θ)1
    其中 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 ) 是Fisher信息矩阵的逆矩阵。这表明,估计器的精度受限于Fisher信息。

  2. 最大似然估计
    在最大似然估计(MLE)中,Fisher信息矩阵的逆可以用来近似估计参数的协方差矩阵,尤其是在大样本情况下。

  3. 机器学习
    在深度学习中,Fisher信息矩阵被用于优化算法(如自然梯度下降)和模型正则化,帮助理解损失函数的几何结构。

总结

Fisher信息矩阵是统计学中的一个强大工具,它连接了概率分布、参数估计和信息理论。通过量化数据中包含的参数信息,它为我们提供了理解模型行为和估计精度的基础。尽管计算复杂,但在许多实际问题中,它可以通过数值方法或近似来实现。

如果你需要更深入的探讨或具体例子,请告诉我,我可以进一步扩展!

I 22 I_{22} I22复杂计算过程

以下是关于Fisher信息矩阵元素 ( I 22 I_{22} I22 ) 的计算过程


第一部分:计算 ( I 22 I_{22} I22 )

给出的表达式是:

I 22 = E [ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 ] I_{22} = E\left[ \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 \right] I22=E[(2σ21+2(σ2)2(xμ)2)2]

并提到它等于 ( 1 2 ( σ 2 ) 2 \frac{1}{2(\sigma^2)^2} 2(σ2)21 )。让我们一步步验证这个计算过程,假设 ( x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) xN(μ,σ2) ),因为Fisher信息矩阵通常在正态分布的背景下计算。

步骤 1:定义对数似然函数

对于来自正态分布 ( N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2) ) 的单个观测值 ( x x x ),概率密度函数为:

p ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) p(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right) p(xμ,σ2)=2πσ2 1exp(2σ2(xμ)2)

对数似然函数为:

log ⁡ p ( x ∣ μ , σ 2 ) = − 1 2 log ⁡ ( 2 π σ 2 ) − ( x − μ ) 2 2 σ 2 \log p(x | \mu, \sigma^2) = -\frac{1}{2} \log (2\pi \sigma^2) - \frac{(x - \mu)^2}{2\sigma^2} logp(xμ,σ2)=21log(2πσ2)2σ2(xμ)2

步骤 2:对 ( σ 2 \sigma^2 σ2 ) 求偏导数

由于 ( I 22 I_{22} I22 ) 对应参数 ( θ 2 = σ 2 \theta_2 = \sigma^2 θ2=σ2 ),我们需要计算:

∂ log ⁡ p ∂ σ 2 \frac{\partial \log p}{\partial \sigma^2} σ2logp

  • 第一项:( − 1 2 log ⁡ ( 2 π σ 2 ) = − 1 2 log ⁡ 2 π − 1 2 log ⁡ σ 2 -\frac{1}{2} \log (2\pi \sigma^2) = -\frac{1}{2} \log 2\pi - \frac{1}{2} \log \sigma^2 21log(2πσ2)=21log2π21logσ2 )

∂ ∂ σ 2 ( − 1 2 log ⁡ σ 2 ) = − 1 2 ⋅ 1 σ 2 = − 1 2 σ 2 \frac{\partial}{\partial \sigma^2} \left( -\frac{1}{2} \log \sigma^2 \right) = -\frac{1}{2} \cdot \frac{1}{\sigma^2} = -\frac{1}{2\sigma^2} σ2(21logσ2)=21σ21=2σ21

(这里使用了链式法则:( d d σ 2 log ⁡ σ 2 = 1 σ 2 \frac{d}{d\sigma^2} \log \sigma^2 = \frac{1}{\sigma^2} dσ2dlogσ2=σ21 )。)

  • 第二项:( − ( x − μ ) 2 2 σ 2 -\frac{(x - \mu)^2}{2\sigma^2} 2σ2(xμ)2 )

∂ ∂ σ 2 ( − ( x − μ ) 2 2 σ 2 ) = − ( x − μ ) 2 2 ⋅ ( − 1 ) ( σ 2 ) − 2 = ( x − μ ) 2 2 ( σ 2 ) 2 \frac{\partial}{\partial \sigma^2} \left( -\frac{(x - \mu)^2}{2\sigma^2} \right) = -\frac{(x - \mu)^2}{2} \cdot (-1) (\sigma^2)^{-2} = \frac{(x - \mu)^2}{2(\sigma^2)^2} σ2(2σ2(xμ)2)=2(xμ)2(1)(σ2)2=2(σ2)2(xμ)2

因此:

∂ log ⁡ p ∂ σ 2 = − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 \frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} σ2logp=2σ21+2(σ2)2(xμ)2

这与给出的期望内的表达式一致.

步骤 3:对偏导数平方

I 22 = E [ ( ∂ log ⁡ p ∂ σ 2 ) 2 ] = E [ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 ] I_{22} = E\left[ \left( \frac{\partial \log p}{\partial \sigma^2} \right)^2 \right] = E\left[ \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 \right] I22=E[(σ2logp)2]=E[(2σ21+2(σ2)2(xμ)2)2]

展开平方:

( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 = ( − 1 2 σ 2 ) 2 + 2 ( − 1 2 σ 2 ) ( ( x − μ ) 2 2 ( σ 2 ) 2 ) + ( ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 = \left( -\frac{1}{2\sigma^2} \right)^2 + 2 \left( -\frac{1}{2\sigma^2} \right) \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) + \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 (2σ21+2(σ2)2(xμ)2)2=(2σ21)2+2(2σ21)(2(σ2)2(xμ)2)+(2(σ2)2(xμ)2)2

逐项简化:

  1. ( ( − 1 2 σ 2 ) 2 = 1 4 ( σ 2 ) 2 \left( -\frac{1}{2\sigma^2} \right)^2 = \frac{1}{4(\sigma^2)^2} (2σ21)2=4(σ2)21 )

  2. ( 2 ( − 1 2 σ 2 ) ( ( x − μ ) 2 2 ( σ 2 ) 2 ) = − ( x − μ ) 2 2 ( σ 2 ) 3 2 \left( -\frac{1}{2\sigma^2} \right) \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) = -\frac{(x - \mu)^2}{2(\sigma^2)^3} 2(2σ21)(2(σ2)2(xμ)2)=2(σ2)3(xμ)2 )

  3. ( ( ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 = ( x − μ ) 4 4 ( σ 2 ) 4 \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 = \frac{(x - \mu)^4}{4(\sigma^2)^4} (2(σ2)2(xμ)2)2=4(σ2)4(xμ)4 )

因此:

I 22 = E [ 1 4 ( σ 2 ) 2 − ( x − μ ) 2 2 ( σ 2 ) 3 + ( x − μ ) 4 4 ( σ 2 ) 4 ] I_{22} = E\left[ \frac{1}{4(\sigma^2)^2} - \frac{(x - \mu)^2}{2(\sigma^2)^3} + \frac{(x - \mu)^4}{4(\sigma^2)^4} \right] I22=E[4(σ2)212(σ2)3(xμ)2+4(σ2)4(xμ)4]

步骤 4:计算期望

由于 ( σ 2 \sigma^2 σ2 ) 是参数(常数),我们对 ( x x x ) 取期望:

  • ( E [ 1 4 ( σ 2 ) 2 ] = 1 4 ( σ 2 ) 2 E\left[ \frac{1}{4(\sigma^2)^2} \right] = \frac{1}{4(\sigma^2)^2} E[4(σ2)21]=4(σ2)21 ) (常数)

  • ( E [ − ( x − μ ) 2 2 ( σ 2 ) 3 ] = − 1 2 ( σ 2 ) 3 E [ ( x − μ ) 2 ] E\left[ -\frac{(x - \mu)^2}{2(\sigma^2)^3} \right] = -\frac{1}{2(\sigma^2)^3} E[(x - \mu)^2] E[2(σ2)3(xμ)2]=2(σ2)31E[(xμ)2] )

  • ( E [ ( x − μ ) 4 4 ( σ 2 ) 4 ] = 1 4 ( σ 2 ) 4 E [ ( x − μ ) 4 ] E\left[ \frac{(x - \mu)^4}{4(\sigma^2)^4} \right] = \frac{1}{4(\sigma^2)^4} E[(x - \mu)^4] E[4(σ2)4(xμ)4]=4(σ2)41E[(xμ)4] )

对于 ( x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) xN(μ,σ2) ):

  • ( E [ ( x − μ ) 2 ] = 方差 = σ 2 E[(x - \mu)^2] = \text{方差} = \sigma^2 E[(xμ)2]=方差=σ2 )

  • ( E [ ( x − μ ) 4 ] = 3 ( σ 2 ) 2 E[(x - \mu)^4] = 3(\sigma^2)^2 E[(xμ)4]=3(σ2)2 ) (正态分布的四阶中心矩)

代入:

I 22 = 1 4 ( σ 2 ) 2 − 1 2 ( σ 2 ) 3 ⋅ σ 2 + 1 4 ( σ 2 ) 4 ⋅ 3 ( σ 2 ) 2 I_{22} = \frac{1}{4(\sigma^2)^2} - \frac{1}{2(\sigma^2)^3} \cdot \sigma^2 + \frac{1}{4(\sigma^2)^4} \cdot 3(\sigma^2)^2 I22=4(σ2)212(σ2)31σ2+4(σ2)413(σ2)2

= 1 4 ( σ 2 ) 2 − 1 2 ( σ 2 ) 2 + 3 4 ( σ 2 ) 2 = \frac{1}{4(\sigma^2)^2} - \frac{1}{2(\sigma^2)^2} + \frac{3}{4(\sigma^2)^2} =4(σ2)212(σ2)21+4(σ2)23

= ( 1 4 − 2 4 + 3 4 ) 1 ( σ 2 ) 2 = 2 4 1 ( σ 2 ) 2 = 1 2 ( σ 2 ) 2 = \left( \frac{1}{4} - \frac{2}{4} + \frac{3}{4} \right) \frac{1}{(\sigma^2)^2} = \frac{2}{4} \frac{1}{(\sigma^2)^2} = \frac{1}{2(\sigma^2)^2} =(4142+43)(σ2)21=42(σ2)21=2(σ2)21

这证实了:

I 22 = 1 2 ( σ 2 ) 2 I_{22} = \frac{1}{2(\sigma^2)^2} I22=2(σ2)21

这个计算依赖于对偏导数平方后展开,并利用正态分布的矩,结果如上所示。


第二部分:两个偏导的乘积是否等价于平方?

两个偏导的乘积等价成平方了吗?让我们在 ( θ = ( μ , σ 2 ) \theta = (\mu, \sigma^2) θ=(μ,σ2) ) 的Fisher信息矩阵背景下解释这个问题。

Fisher信息矩阵元素
  • ( I 11 = E [ ( ∂ log ⁡ p ∂ μ ) 2 ] I_{11} = E\left[ \left( \frac{\partial \log p}{\partial \mu} \right)^2 \right] I11=E[(μlogp)2] )

  • ( I 12 = I 21 = E [ ∂ log ⁡ p ∂ μ ∂ log ⁡ p ∂ σ 2 ] I_{12} = I_{21} = E\left[ \frac{\partial \log p}{\partial \mu} \frac{\partial \log p}{\partial \sigma^2} \right] I12=I21=E[μlogpσ2logp] )

  • ( I 22 = E [ ( ∂ log ⁡ p ∂ σ 2 ) 2 ] I_{22} = E\left[ \left( \frac{\partial \log p}{\partial \sigma^2} \right)^2 \right] I22=E[(σ2logp)2] ) (如上计算)

对角元素是平方,非对角元素是乘积。

解答交叉项期望为零

为什么 ( I 12 = I 21 = E [ x − μ σ 2 ⋅ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) ] = 0 I_{12} = I_{21} = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right] = 0 I12=I21=E[σ2xμ(2σ21+2(σ2)2(xμ)2)]=0 )?


背景

在Fisher信息矩阵中,( I i j I_{ij} Iij ) 表示参数 ( θ i \theta_i θi ) 和 ( θ j \theta_j θj ) 的信息关联。对于正态分布 ( N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2) ),我们令 ( θ 1 = μ \theta_1 = \mu θ1=μ ),( θ 2 = σ 2 \theta_2 = \sigma^2 θ2=σ2 )。这里,( I 12 I_{12} I12 ) 是交叉项,定义为:

I 12 = E [ ∂ log ⁡ p ∂ μ ⋅ ∂ log ⁡ p ∂ σ 2 ] I_{12} = E\left[ \frac{\partial \log p}{\partial \mu} \cdot \frac{\partial \log p}{\partial \sigma^2} \right] I12=E[μlogpσ2logp]

它衡量了 ( μ \mu μ ) 和 ( σ 2 \sigma^2 σ2 ) 之间的信息相关性。如果 ( I 12 = 0 I_{12} = 0 I12=0 ),说明这两个参数在信息上是“正交”的,也就是说,一个参数的得分函数(score function)与另一个参数的得分函数在期望上是无关的。


计算过程

步骤 1:计算交叉项 ( I 12 I_{12} I12 )

I 12 = E [ ∂ log ⁡ p ∂ μ ⋅ ∂ log ⁡ p ∂ σ 2 ] = E [ x − μ σ 2 ⋅ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) ] I_{12} = E\left[ \frac{\partial \log p}{\partial \mu} \cdot \frac{\partial \log p}{\partial \sigma^2} \right] = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right] I12=E[μlogpσ2logp]=E[σ2xμ(2σ21+2(σ2)2(xμ)2)]

展开乘积:

x − μ σ 2 ⋅ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) = x − μ σ 2 ⋅ ( − 1 2 σ 2 ) + x − μ σ 2 ⋅ ( x − μ ) 2 2 ( σ 2 ) 2 \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) = \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} \right) + \frac{x - \mu}{\sigma^2} \cdot \frac{(x - \mu)^2}{2(\sigma^2)^2} σ2xμ(2σ21+2(σ2)2(xμ)2)=σ2xμ(2σ21)+σ2xμ2(σ2)2(xμ)2

= − x − μ 2 ( σ 2 ) 2 + ( x − μ ) 3 2 ( σ 2 ) 3 = -\frac{x - \mu}{2(\sigma^2)^2} + \frac{(x - \mu)^3}{2(\sigma^2)^3} =2(σ2)2xμ+2(σ2)3(xμ)3

因此:

I 12 = E [ − x − μ 2 ( σ 2 ) 2 + ( x − μ ) 3 2 ( σ 2 ) 3 ] I_{12} = E\left[ -\frac{x - \mu}{2(\sigma^2)^2} + \frac{(x - \mu)^3}{2(\sigma^2)^3} \right] I12=E[2(σ2)2xμ+2(σ2)3(xμ)3]

由于期望是线性的,我们可以分开计算:

I 12 = − 1 2 ( σ 2 ) 2 E [ x − μ ] + 1 2 ( σ 2 ) 3 E [ ( x − μ ) 3 ] I_{12} = -\frac{1}{2(\sigma^2)^2} E[x - \mu] + \frac{1}{2(\sigma^2)^3} E[(x - \mu)^3] I12=2(σ2)21E[xμ]+2(σ2)31E[(xμ)3]

步骤 2:计算正态分布的矩

对于 ( x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) xN(μ,σ2) ):

  • ( E [ x − μ ] = 0 E[x - \mu] = 0 E[xμ]=0 ) (一阶中心矩,因为均值为 ( μ \mu μ ))

  • ( E [ ( x − μ ) 3 ] = 0 E[(x - \mu)^3] = 0 E[(xμ)3]=0 ) (三阶中心矩,由于正态分布是对称的,奇数阶中心矩为零)

代入:

I 12 = − 1 2 ( σ 2 ) 2 ⋅ 0 + 1 2 ( σ 2 ) 3 ⋅ 0 = 0 I_{12} = -\frac{1}{2(\sigma^2)^2} \cdot 0 + \frac{1}{2(\sigma^2)^3} \cdot 0 = 0 I12=2(σ2)210+2(σ2)310=0

所以:

I 12 = 0 I_{12} = 0 I12=0

这就是为什么交叉项期望为零。


解释:为什么会是零?

这个结果的背后有深刻的统计意义:

  1. 正态分布的对称性

    • ( x − μ x - \mu xμ ) 的分布是对称的(服从 ( N ( 0 , σ 2 ) N(0, \sigma^2) N(0,σ2) )),其奇数阶中心矩(如 ( E [ x − μ ] E[x - \mu] E[xμ] ) 和 ( E [ ( x − μ ) 3 ] E[(x - \mu)^3] E[(xμ)3] ))都为零。
    • ( ∂ log ⁡ p ∂ μ = x − μ σ 2 \frac{\partial \log p}{\partial \mu} = \frac{x - \mu}{\sigma^2} μlogp=σ2xμ ) 是线性项,期望为零。
    • ( ∂ log ⁡ p ∂ σ 2 = − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 \frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} σ2logp=2σ21+2(σ2)2(xμ)2 ) 包含常数项和二次项,乘以奇数项 ( x − μ x - \mu xμ ) 后,奇数阶的部分在期望下消失。
  2. 参数的正交性

    • 在正态分布中,( μ \mu μ ) 和 ( σ 2 \sigma^2 σ2 ) 的得分函数是“正交”的,意味着它们提供的信息在统计上是独立的。
    • 当 ( I 12 = 0 I_{12} = 0 I12=0 ),Fisher信息矩阵是对角矩阵,表明 ( μ \mu μ ) 和 ( σ 2 \sigma^2 σ2 ) 的估计不会相互干扰。
  3. 直观理解

    • ( x − μ σ 2 \frac{x - \mu}{\sigma^2} σ2xμ ) 表示数据偏离均值的程度,是随机的正负波动。
    • ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} 2σ21+2(σ2)2(xμ)2 ) 与方差相关,是关于偏差大小的量。
    • 这两者乘积的正负波动在对称分布下互相抵消,期望为零。

验证:另一种方法(二阶导数)

Fisher信息矩阵也可以用二阶导数的负期望定义:

I 12 = − E [ ∂ 2 log ⁡ p ∂ μ ∂ σ 2 ] I_{12} = -E\left[ \frac{\partial^2 \log p}{\partial \mu \partial \sigma^2} \right] I12=E[μσ22logp]

计算二阶混合偏导:

∂ ∂ σ 2 ( x − μ σ 2 ) = ( x − μ ) ⋅ ( − 1 ) ( σ 2 ) − 2 = − x − μ ( σ 2 ) 2 \frac{\partial}{\partial \sigma^2} \left( \frac{x - \mu}{\sigma^2} \right) = (x - \mu) \cdot (-1) (\sigma^2)^{-2} = -\frac{x - \mu}{(\sigma^2)^2} σ2(σ2xμ)=(xμ)(1)(σ2)2=(σ2)2xμ

I 12 = − E [ − x − μ ( σ 2 ) 2 ] = 1 ( σ 2 ) 2 E [ x − μ ] = 0 I_{12} = -E\left[ -\frac{x - \mu}{(\sigma^2)^2} \right] = \frac{1}{(\sigma^2)^2} E[x - \mu] = 0 I12=E[(σ2)2xμ]=(σ2)21E[xμ]=0

这与得分函数方法一致,进一步确认 ( I 12 = 0 I_{12} = 0 I12=0 )。


结论

( I 12 = 0 I_{12} = 0 I12=0 ) 是因为正态分布的奇数阶中心矩为零,导致 ( ∂ log ⁡ p ∂ μ \frac{\partial \log p}{\partial \mu} μlogp ) 和 ( ∂ log ⁡ p ∂ σ 2 \frac{\partial \log p}{\partial \sigma^2} σ2logp ) 的乘积在期望下抵消。这反映了 ( μ \mu μ ) 和 ( σ 2 \sigma^2 σ2 ) 在信息上的独立性,是正态分布的一个重要特性。

后记

2025年2月24日21点43分于上海,在Grok3大模型辅助下完成。

相关文章:

Fisher信息矩阵(Fisher Information Matrix,简称FIM)

Fisher信息矩阵简介 Fisher信息矩阵(Fisher Information Matrix,简称FIM)是统计学和信息理论中的一个重要概念,广泛应用于参数估计、统计推断和机器学习领域。它以统计学家罗纳德费希尔(Ronald Fisher)的名…...

基础设施安全(Infrastructure Security)是什么?

基础设施安全(Infrastructure Security)指的是保护IT基础设施(包括物理和云端的服务器、网络设备、存储、数据库等)免受网络攻击、数据泄露、未授权访问、系统故障等威胁的各种安全措施和技术。 1. 基础设施安全的主要组成部分 &…...

[杂学笔记]OSI七层模型作用、HTTP协议中的各种方法、HTTP的头部字段、TLS握手、指针与引用的使用场景、零拷贝技术

1.OSI七层模型作用 物理层:负责光电信号的传输,以及将光电信号转化为二进制数据数据链路层:主要负责将收到的二进制数据进一步的封装为数据帧报文。同时因为数据在网络中传递的时候,每一个主机都能够收到报文数据,该层…...

Framework层JNI侧Binder

目录 一,Binder JNI在整个系统的位置 1.1 小结 二,代码分析 2.1 BBinder创建 2.2 Bpinder是在查找服务时候创建的 2.3 JNI实现 2.4 JNI层android_os_BinderProxy_transact 2.5 BPProxy实现 2)调用IPCThreadState发送数据到Binder驱动…...

Windows 图形显示驱动开发-WDDM 3.2-自动显示切换(九)

面板驱动程序 显示器驱动程序是根据从 EDID 生成的即插即用 (PnP) 硬件 ID 加载的。 由于 EDID 保持不变,当任何一个 GPU 控制内部面板时,都会加载面板驱动程序。 这两个驱动程序将显示相同的亮度功能。 因此,加载应该不会造成任何问题&…...

Excel大文件拆分

import pandas as pddef split_excel_file(input_file, output_prefix, num_parts10):# 读取Excel文件df pd.read_excel(input_file)# 计算每部分的行数total_rows len(df)rows_per_part total_rows // num_partsremaining_rows total_rows % num_partsstart_row 0for i i…...

OpenCV计算摄影学(7)HDR成像之多帧图像对齐的类cv::AlignMTB

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 该算法将图像转换为‌中值阈值位图‌(Median Threshold Bitmap,MTB): 1.位图生成‌:…...

JWT+redis实现三大令牌管理方案深度解析

三种令牌管理方案对比与评估 1. 仅续期Redis(不生成新令牌) 实现原理 通过延长Redis中的令牌有效期维持会话,JWT本身不包含动态过期时间。 优点 ✅ 低开销:无需生成新令牌,减少JWT签名计算成本。 ✅ 简单实现&#x…...

北京大学DeepSeek提示词工程与落地场景(PDF无套路免费下载)

近年来,大模型技术飞速发展,但许多用户发现:即使使用同一款 AI 工具,效果也可能天差地别——有人能用 AI 快速生成精准方案,有人却只能得到笼统回答。这背后的关键差异,在于提示词工程的应用能力。 北京大…...

Axure PR 9 中继器 03 翻页控制

大家好,我是大明同学。 接着上期的内容,这期内容,我们来了解一下Axure中继器图表翻页控制。 预览地址:https://pvie5g.axshare.com 翻页控制 1.打开上期RP 文件,在元件库中拖入一个矩形,宽值根据业务实际…...

IO流(师从韩顺平)

文章目录 文件什么是文件文件流 常用的文件操作创建文件对象相关构造器和方法应用案例 获取文件的相关信息应用案例 目录的操作和文件删除应用案例 IO 流原理及流的分类Java IO 流原理IO流的分类 IO 流体系图-常用的类IO 流体系图(重要!!&…...

基于Javase的停车场收费管理系统

基于Javase的停车场收费管理系统 停车场管理系统开发文档 项目概述 1.1 项目背景 随着现代化城市的不断发展,车辆数量不断增加,停车难问题也日益突出。为了更好地管理停车场资 源,提升停车效率,需要一个基于Java SE的停车场管理…...

Exoplayer(MediaX)实现音频变调和变速播放

在K歌或录音类应用中变调是个常见需求,比如需要播出萝莉音/大叔音等。变速播放在影视播放类应用中普遍存在,在传统播放器Mediaplayer中这两个功能都比较难以实现,特别在低版本SDK中,而Exoplayer作为google官方推出的Mediaplayer替…...

Spring Boot集成Jetty、Tomcat或Undertow及支持HTTP/2协议

目录 一、常用Web服务器 1、Tomcat 2、Jetty 3、Undertow 二、什么是HTTP/2协议 1、定义 2、特性 3、优点 4、与HTTP/1.1的区别 三、集成Web服务器并开启HTTP/2协议 1、生成证书 2、新建springboot项目 3、集成Web服务器 3.1 集成Tomcat 3.2 集成Jetty 3.3 集成…...

《Python实战进阶》专栏 No 5:GraphQL vs RESTful API 对比与实现

《Python实战进阶》专栏包括68集,每一集聚焦一个中高级技术知识点,涵盖Python在Web开发、数据处理、自动化、机器学习、并发编程等领域的应用,系统梳理Python开发者的知识集。本集的主题为: No4 : GraphQL vs RESTful API 对比与实…...

类和对象——static修饰类的成员

static修饰类的成员 static成员1 static成员的概念2 特性 static成员 有时会有这样的需求:计算程序中创建出了多少个类的对象,以及多少个正在使用的对象。 因为构造函数和析构函数都只会调用一次,所以可以通过设置生命周期和main函数一致的…...

RabbitMQ系列(七)基本概念之Channel

RabbitMQ 中的 Channel(信道) 是客户端与 RabbitMQ 服务器通信的虚拟会话通道,其核心作用在于优化资源利用并提升消息处理效率。以下是其核心机制与功能的详细解析: 一、Channel 的核心定义 虚拟通信链路 Channel 是建立在 TCP 连…...

你对 Spring Cloud 的理解

Spring Cloud 是一个基于 Spring Boot 的微服务架构开发工具集,为开发者提供了快速构建分布式系统的一系列解决方案,涵盖了服务发现、配置管理、熔断器、智能路由、微代理、控制总线等多个方面。 从核心组件来看: 服务发现:以 Eu…...

MYSQL 5.7数据库,关于1067报错 invalid default value for,解决方法!

???作者: 米罗学长 ???个人简介:混迹java圈十余年,精通Java、小程序、数据库等。 ???各类成品java毕设 。javaweb,ssm,springboot,mysql等项目,源码丰富,欢迎咨询。 ???…...

C# Enumerable类 之 数据筛选

总目录 前言 在 C# 中,System.Linq.Enumerable 类是 LINQ(Language Integrated Query)的核心组成部分,它提供了一系列静态方法,用于操作实现了 IEnumerable 接口的集合。通过这些方法,我们可以轻松地对集合…...

运维基础知识(一)

一:SSH端口 首先SSH是什么? SSH(Secure Shell)是Linux、Unix、Mac及其他网络设备最常用的远程CLI管理协议,SSH使用秘钥对数据进行加密,保证了远程管理数据的安全性。 Secure Shell (SSH) 是一种网络协议,允许用户通过加密的通道安全地访问另一台计算机。SSH广泛用于远程…...

权重生成图像

简介 前面提到的许多生成模型都有保存了生成器的权重,本章主要介绍如何使用训练好的权重文件通过生成器生成图像。 但是如何使用权重生成图像呢? 一、参数配置 ima_size 为图像尺寸,这个需要跟你模型训练的时候resize的时候一样。 latent_dim为噪声维度,一般的设置都是…...

【Linux基础】Linux下的C编程指南

目录 一、前言 二、Vim的使用 2.1 普通模式 2.2 插入模式 2.3 命令行模式 2.4 可视模式 三、GCC编译器 3.1 预处理阶段 3.2 编译阶段 3.3 汇编阶段 3.4 链接阶段 3.5 静态库和动态库 四、Gdb调试器 五、总结 一、前言 在Linux环境下使用C语言进行编程是一项基础且…...

DeepSeek-OpenSourceWeek-第四天-Optimized Parallelism Strategies

DeepSeek 在 #OpenSourceWeek(开源周) 的第四天推出了两项新工具,旨在让深度学习更快、更高效:**DualPipe** 和 **EPLB**。 DualPipe 定义:DualPipe 是一种用于 V3/R1 训练中计算与通信重叠的双向pipline并行算法。 作用:它通过实现前向和后向计算-通信阶段的完全重叠,减…...

Python Cookbook-2.15 用类文件对象适配真实文件对象

任务 需要传递一个类似文件的对象(比如,调用urllib.urlopen 返回的结果)给一个函数或者方法,但这个函数或方法要求只接受真实的文件对象(比如,像marshalload 这样的函数)。 解决方案 为了过类型检查这一关,我们需要将类文件对象…...

浅谈HTTP及HTTPS协议

1.什么是HTTP? HTTP全称是超文本传输协议,是一种基于TCP协议的应用非常广泛的应用层协议。 1.1常见应用场景 一.浏览器与服务器之间的交互。 二.手机和服务器之间通信。 三。多个服务器之间的通信。 2.HTTP请求详解 2.1请求报文格式 我们首先看一下…...

Pytest自定义测试用例执行顺序

文章目录 1.前言2.pytest默认执行顺序3.pytest自定义执行顺序 1.前言 在pytest中,我们可能需要自定义测试用例的执行顺序,例如登陆前需要先注册,这个时候就需要先执行注册的测试用例再执行登录的测试用例。 本文主要讲解pytest的默认执行顺序…...

人大金仓KCA | 用户与角色

人大金仓KCA | 用户与角色 一、知识预备1. 用户和角色 二、具体实施1. 用户管理-命令行1.1 创建和修改用户1.2 修改用户密码1.3 修改用户的并发连接数1.4 修改用户的密码有效期 2.用户管理-EasyKStudio2.1 创建和修改用户2.2 修改用户密码2.3 修改用户的并发连接数2.4 修改用户…...

【Azure 架构师学习笔记】- Azure Databricks (12) -- Medallion Architecture简介

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (11) – UC搭建 前言 使用ADB 或者数据湖,基本上绕不开一个架构“Medallion”, 它使得数据管理更为简单有效。ADB 通过…...

什么是Ollama?什么是GGUF?二者之间有什么关系?

一、Ollama:本地化大模型运行框架 Ollama 是一款开源工具,专注于在本地环境中快速部署和运行大型语言模型(LLM)。它通过极简的命令行操作简化了模型管理流程,支持离线运行、多模型并行、私有化部署等场景。 核心特性 本地化运行:无需依赖云端API,用户可在个人电脑或服务…...