当前位置：首页 > news >正文

数理基础知识

news 2025/11/17 2:43:11

数理基础

大数定律
期望方差
常见分布
- 伯努利分布
- 泊松分布
- 高斯分布
- - 服从一维高斯分布的随机变量KL散度
  - 服从多元高斯分布的随机变量KL散度
Gibbs不等式
凸函数
- Jensen不等式
似然函数
泰勒近似
信息论
- 信息量
- 信息熵
- KL散度
- JS散度
- 交叉熵
Wiener Process
SDE

大数定律

期望方差

x为连续随机变量，其概率密度函数为 $f_x(x)$ ，x的期望值为:
$\int_{-\infty}^{\infty} xf_x(x)dx$
g为一个函数，g(x)的期望值为
$\int_{-\infty}^{\infty}g(x)f_x(x)dx$

经常E会有下标，代表了期望值是对应下标分布的随机变量上计算得出的。比如
$E_{x\sim f_x(x)}[h(x, y)] = \int_{-\infty}^{\infty}h(x, y)f_x(x)dx$

常见分布

伯努利分布

又名两点分布或者01分布，是一个离散型概率分布。记其成功概率为 $p$ ( $0\leq p\leq1$ )，则：
其概率质量函数为
$f_x(x)=p^x(1-p)^{1-x}=\left\{ \begin{aligned} p \quad \quad (x= 1) \\ 1-p \quad \quad (x= 0)\\ \end{aligned} \right.$
期望为 $p$ ，方差为 $p (1 - p)$ 。

泊松分布

Poisson分布，是一个离散概率分布，适合于描述单位时间内随机事件发生次数的概率分布。
概率质量函数为：
$\frac{e^{-\lambda}\lambda^k}{k!}$
期望为 $\lambda$ , 方差为 $\sqrt{\lambda}$ 。

高斯分布

一维高斯分布：
$f_x(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

多元高斯分布：
$f_x(x) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)]$
$\mu \in R^{n\times 1}$ , $\Sigma \in R^{n\times n}$ , $|\Sigma|$ 为求协方差矩阵的det。

服从一维高斯分布的随机变量KL散度

两个高斯分布 $p(x)=N(\mu_1, \sigma_1)$ 和 $q(x)=N(\mu_2, \sigma_2)$
$\begin{aligned} D_{KL}(p, q) &= \int p(x)log\frac{p(x)}{q(x)}dx \\ &= \int p(x)[logp(x) - logq(x)]dx \\ \end{aligned}$

$\begin{aligned} \int p(x)logp(x)dx &= \int p(x) log[\frac{1}{\sqrt{2\pi\sigma_1^2}}exp({-\frac{(x-\mu_1)^2}{2\sigma_1^2}})]dx \\ &= -\frac{1}{2}log(2\pi\sigma_1^2) + \int p(x)({-\frac{(x-\mu_1)^2}{2\sigma_1^2}})dx \\ &= -\frac{1}{2}log(2\pi\sigma_1^2) - \frac{\int p(x)x^2dx - \int p(x)2x\mu_1dx + \int p(x)\mu_1^2dx}{2\sigma_1^2} \\ &= -\frac{1}{2}log(2\pi\sigma_1^2) - \frac{\mu_1^2 + \sigma_1^2 - 2\mu_1^2 + \mu_1^2}{2\sigma_1^2} \\ &= -\frac{1}{2}[1 + log(2\pi\sigma_1^2)] \end{aligned}$

$\begin{aligned} \int p(x)logq(x)dx &= \int p(x) log[\frac{1}{\sqrt{2\pi\sigma_2^2}}exp({-\frac{(x-\mu_2)^2}{2\sigma_2^2}})]dx \\ &= -\frac{1}{2}log(2\pi\sigma_2^2) + \int p(x)({-\frac{(x-\mu_2)^2}{2\sigma_2^2}})dx \\ &= -\frac{1}{2}log(2\pi\sigma_2^2) - \frac{\int p(x)x^2dx - \int p(x)2x\mu_2dx + \int p(x)\mu_2^2dx}{2\sigma_2^2} \\ &= -\frac{1}{2}log(2\pi\sigma_2^2) - \frac{\mu_1^2 + \sigma_1^2 - 2\mu_1\mu_2 + \mu_2^2}{2\sigma_2^2} \\ &= -\frac{1}{2}log(2\pi\sigma_2^2) - \frac{ \sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2} \\ \end{aligned}$

带入可得：
$\begin{aligned} D_{KL}(p, q) &= \int p(x)[logp(x) - logq(x)]dx \\ &= -\frac{1}{2}[1 + log(2\pi\sigma_1^2)] + \frac{1}{2}log(2\pi\sigma_2^2) + \frac{ \sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2} \\ &= log(\frac{\sigma_2}{\sigma_1}) + \frac{\sigma_1^2 + (\mu_1-\mu_2)^2}{2\sigma_2^2} - \frac{1}{2} \end{aligned}$

服从多元高斯分布的随机变量KL散度

与一元高斯分布类似，第一部分：
$\begin{aligned} \int p(x)logp(x)dx &= \int p(x) log[\frac{1}{(2\pi)^{n/2}|\Sigma_1|^{1/2}} exp[-\frac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]] dx\\ &= log\frac{1}{(2\pi)^{n/2}|\Sigma_1|^{1/2}} + \int p(x) [-\frac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]dx\\ &= log\frac{1}{(2\pi)^{n/2}|\Sigma_1|^{1/2}} -\frac{1}{2}E_{x\sim p(x)}[(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)] \end{aligned}$
第二部分同理可得：
$\begin{aligned} \int p(x)logq(x)dx &= log\frac{1}{(2\pi)^{n/2}|\Sigma_2|^{1/2}} -\frac{1}{2}E_{x\sim p(x)}[(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)]\\ \end{aligned}$

带入可得：
$\begin{aligned} D_{KL}(p, q) &= \int p(x)[logp(x) - logq(x)]dx \\ &= \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} + \frac{1}{2}E_{x\sim p(x)} [(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2) - (x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)] \end{aligned}$

多元正态分布下期望矩阵化的表示结果：
$E[x^TAx] = tr(A\Sigma) + \mu^TA\mu$
证明过程如下：
$\begin{aligned} E[x^TAx] = E[tr(x^TAx)] = E[tr(Axx^T)] = tr[E(Axx^T)] &= tr[A\cdot E(xx^T)] \\ &= tr[A(\Sigma + \mu\mu^T)] \\ &= tr(A\Sigma) + tr(A\mu\mu^T) \\ &= tr(A\Sigma) + tr(\mu^TA\mu) \\ & = tr(A\Sigma) + \mu^TA\mu \end{aligned}$
整个证明过程用到了如下性质：

$x^TAx$ 是个标量，因此 $x^TAx=tr(x^TAx)=tr(Axx^T)$
$\Sigma=E[(x-\mu)(x-\mu)^T] = E[xx^T-x\mu^T-\mu x^T-\mu\mu^T]=E(xx^T)-\mu\mu^T$

进一步带入可得：
$\begin{aligned} D_{KL}(p, q) &= \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} + \frac{1}{2}E_{x\sim p(x)} [(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2) - (x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]\\ &= \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} + \frac{1}{2}tr(\Sigma_2^{-1}\Sigma_1) + (\mu_1 - \mu_2)^T\Sigma_2^{-1}(\mu_1-\mu_2)^T - \frac{1}{2}tr(\Sigma_1^{-1}\Sigma_1) - (\mu_1-\mu_1)^T\Sigma_2^{-1}(\mu_1-\mu_1)^T \\ &= \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} + \frac{1}{2}tr(\Sigma_2^{-1}\Sigma_1) + (\mu_1 - \mu_2)^T\Sigma_2^{-1}(\mu_1-\mu_2)^T -\frac{1}{2}n \end{aligned}$

进一步延伸到VAE的训练过程，假设 $p(x)=N(\mu_1, \sigma_1)$ 为encoder估计出的隐变量 $z$ 概率分布的参数， $q(x)=N(\mu_2, \sigma_2)=(0, I)$ 为隐变量 $z$ 的先验分布。我们希望对学习到的隐变量分布进行约束，使其符合标准高斯分布，方便后续采样生成。则有:
$KL(N(\mu_1, \sigma_1), N(0, I)) = -log\sigma_1 + \frac{1}{2}(\sigma_1^2 + \mu_1^2) - \frac{1}{2}$

Gibbs不等式

若 $\sum_{i=1}^np_i=\sum_{i=1}^nq_i=1$ ，且 $p_i, q_i \in (0, 1]$ ，则有：
$-\sum_i^np_ilogp_i\leq -\sum_i^n p_ilogq_i$
当且仅当 $p_i=q_i, \forall i$ 时，等号成立。

凸函数

convex function，是指函数图形上，任意两点连成的线段，皆位于图形的上方的实值函数。如单变的二次函数和指数函数。快速判断就是函数图形开口向上。

Jensen不等式

如果x是随机变量，f是凸函数，则有如下性质，称之为Jensen’s inequality（詹森不等式/琴生不等式）。
$\leq E[f(x)]$
ELBO证明中会用到对数似然，这里延伸下log(x)函数是凹函数，-log(x)是凸函数。则有：
$\geq E[log(x)]$

似然函数

likelihood function，译为似然函数。是一种关于统计模型中参数的函数，表示模型参数的似然性。假设随机变量x的概率密度函数为 $f(x|\theta)$ ，样本集D上有m个样本，则D上的似然函数写作 $L(\theta|x)= \prod_i^mf(x_i|\theta)$ 。

为什么要用对数似然？

对 $p (x)$ 取对数不影响单调性。
减少计算量。似然函数是每个数据点概率的连乘。取对数可以将连乘化为连加，同时如果概率分布中含有指数项，比如高斯分布，也能将指数项化为求和形式，进一步减少计算量。
利于结果更好的计算。因为概率在[0, 1]之间，因此概率连乘会变为一个很小的值，甚至可能会引起浮点数下溢，尤其是当数据集很大时，联合概率趋向于0，非常不利于计算。

泰勒近似

泰勒公式:
$f(x_0) + f^{'}(x_0)(x-x_0) + \frac{f^{''}(x_0)}{2!}(x-x_0)^2 + ... + \frac{f^{n}(x_0)}{n!}(x-x_0)^n + o((x-x_0)^n)$
麦克劳林公式（泰勒公式的特殊形式，在零点展开）：
$f^{'}(0)(x) + \frac{f^{''}(0)}{2!}x^2 + ... + \frac{f^{n}(0)}{n!}x^n + o(x^n)$
常见函数的麦克劳林展开：
$e^x = 1 + x + \frac{1}{2!}x^2 + \frac{1}{3!}x^3 + o(x^3)$
$\frac{1}{2!}x^2 + \frac{1}{3!}x^3 + o(x^3)$
$\frac{1}{3!}x^3 + \frac{1}{5!}x^5 + o(x^5)$
$\frac{1}{2!}x^2 + \frac{1}{4!}x^4 + o(x^4)$
$(1+x)^{\alpha} = 1 + \frac{\alpha}{1!}x + \frac{\alpha(\alpha-1)}{2!}x^2 + \frac{\alpha(\alpha-1)(\alpha-2)}{3!}x^3 + o(x^3)$
正常近似取到一阶或者二阶项即可。

信息论

信息量

$- l o g (p (X = x))$ 表示一个概率事件或者随机变量X取值x时的信息量。 $p (X = x)$ 为取值为x的概率。
信息量的单位随着计算公式中 $l o g$ 运算的底数而变化， $l o g$ 底数为2时单位为比特(bit)，log底数为e时，单位为奈特(nat)。

信息熵

信息熵就是期望信息量，即对于一个信号系统来说，对于每次的信号，在平均意义上为了编码这个信号需要使用的信息量。在一个信号系统中，信息熵最大的时候是当每个信号概率相等的时候。通过大数定律可知，信息熵是编码一个信号系统所需信息量多理论下界。
$\sum_{x\in X} p(x)logp(x)$

KL散度

全名Kullback-Leible散度，又称相对熵。用以衡量两个分布之间的距离， $D_{KL}(p, q)$ 表示真实分布为 $p$ 时，度量近似分布 $q$ 和真实分布之间的差异程度。

连续随机变量的KL散度：
$D_{KL}(p||q) = E_{x\sim p}[log\frac{p(x)}{q(x)}]=\int p(x)log\frac{p(x)}{q(x)} dx$
离散随机变量的KL散度：
$D_{KL}(p||q) = E_{x\sim p}[log\frac{p(x)}{q(x)}]=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)}$

KL散度有如下特性：

不对称性： $D_{KL}(p||q) \neq D_{KL}(q||p)$ 。
非负性： $D_{KL}(p||q)\geq0$ 。

JS散度

Jensen-Shanno散度，是对称的。

交叉熵

交叉熵定义如下：
$E_{x\sim p}[-logq(x)]$
离散随机变量的交叉熵形式如下：
$E_{x\sim p}[-logq(x)] = -\sum_{x\in X}p(x)logq(x)$
连续随机变量的交叉熵形式如下：
$E_{x\sim p}[-logq(x)] = \int p(x)logq(x)dx$

交叉熵可由相对熵推导得到：
$\begin{aligned} D_{KL}(p||q) = E_{x\sim p}[log\frac{p(x)}{q(x)}]&=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)} \\ &=\sum_{x\in X}p(x)logp(x) - \sum_{x\in X}p(x)logq(x) \\ &=-H(p) + H(p, q) \end{aligned}$
$H (p)$ 为真实分布的信息熵，不影响模型参数优化。因此模型优化过程中，可以直接用交叉熵 $H (p, q$ 作为目标函数。

对于交叉熵，可以有个直观的解释：数据集服从真实分布 $p$ ，从数据集中抽取样本 $x$ ，该样本被抽到的概率为 $p (x)$ ，如果用近似分布 $q$ 去编码该样本，需要用到的信息量为 $- l o g q (x)$ 。对整个数据集求期望，当近似分布的参数优化至 $H (p, q) = H (p)$ 时，可以认为近似分布 $q (x)$ 已优化至和真实分布 $p (x)$ 一致。

Wiener Process

维纳过程，又称为布朗运动，它是一种连续时间，连续状态的独立增量过程，其增量服从正态分布 $N\sim(0, \Delta t)$ 。可以用以下公式来表示维纳过程：
$\sqrt{t} Z$
其中 $Z$ 是一个标准正态分布随机变量，t表示时间。对于维纳过程，我们可以证明其具有如下性质：

$W (0)$ = 0。
$W (t)$ 是一个连续的随机变量。
$W (t)$ 具有独立增量：对于任意 $0\leq t_1 < t_2 <...<t_n$ ，其增量 $W(t_{i+1})$ - $W(t_{i})$ 相互独立。
增量服从正态分布：对于任意 $0\leq s < t$ ，其增量 $W (t)$ - $W (s)$ 服从 $N\sim(0, t-s)$ 的正态分布。

SDE

Applied Stochastic Differential Equations
随机微分方程最泛化的表达形式:
$d x = f (x, t) d t + L (x, t) d w$
$f (x, t)$ 为drift函数，决定了系统的nominal dynamics， $L (x, t)$ 是扩散矩阵，决定了噪声如何进入系统。 $w$ 为布朗运动。

其均值和方差可表示为：
$\frac{dm}{dt} = E[f(x, t)]$
$\frac{dP}{dt} = E[f(x, t)(x-m)^T] + E[(x-m)f^T(x, t)] + E[L(x, t)QL^T(x, t)]$
具体可见上书的公式5.51。