当前位置：首页 > news >正文

【机器学习笔记】贝叶斯学习

news 2026/2/10 23:31:01

贝叶斯学习

文章目录

贝叶斯学习
- 1 贝叶斯学习背景
- 2 贝叶斯定理
- 3 最大后验假设MAP(Max A Posterior)
- 4 极大似然假设ML(Maximum Likelihood)
- 5 朴素贝叶斯NB
- 6 最小描述长度MDL

1 贝叶斯学习背景

试图发现两件事情的关系（因果关系，先决条件&结论）。

执果索因：肺炎→肺癌？不好确定，换成确诊肺癌得肺炎的概率

2 贝叶斯定理

贝叶斯定理是一种用先验慨率来推断后验慨率的公式，它可以表示为：
$\frac{P(D|h)P(h)}{P(D)}$

$P (h ∣ D)$ 是后验概率，表示在已知事件 D 发生的情况下，事件 h 发生的概率；
$P (h)$ 是 h 的先验概率，表示在没有任何其他信息的情况下，事件 h 发生的概率；

$h$ 代表假设，应互相排斥；且假设空间 $H$ 完全详尽，即 $\sum P(h_i)=1$
$P (D)$ 是证据概率，表示在没有任何其他信息的情况下，事件 D 发生的概率；

$D$ 代表数据的一个采样集合，需要与 $h$ 独立。
$P (D ∣ h)$ 是似然概率，表示在已知事件 h 发生的情况下，事件 D 发生的概率；

在实践上往往取 $l o g$ ，是可以得到的概率。

举例： $h$ 代表得了癌症， $D$ 为测试结果为阳性。

$P (h ∣ D)$ ：已知测试结果为阳性，得癌症的概率。

$P (D ∣ h)$ ：已知得了癌症，测试结果为阳性的概率。

我们已知：

正确的阳性样本: 98% (患有该癌症, 测试结果为 +)
正确的阴性样本: 97% (未患该癌症, 测试结果为 -)
在整个人群中，只有0.008 的人患这种癌症

如果一个人测试结果阳性，多大概率得癌症？
$\because P(+|\text{cancer})=0.98;P(\text{cancer})=0.008;P(-|\neg \text{cancer})=0.97; \\\therefore P(+|\neg \text{cancer})=0.03;P(\neg \text{cancer})=0.992 \\P(+)=\sum_iP(+|h_i)P(h_i)=P(+|\text{cancer})P(\text{cancer})+P(+|\neg \text{cancer})P(\neg \text{cancer}) \\P(\text{cancer}|+)=\frac{P(+|\text{cancer})P(\text{cancer})}{P(+)}=\frac{0.98×0.008}{0.98×0.008+0.03×0.992}=0.21$

3 最大后验假设MAP(Max A Posterior)

求在给定训练集上最有可能的假设。
$h_{\text{MAP}}=\underset{h∈H}{\text{argmax}}\ P(D|h)P(h)$
$\underset{h∈H}{\text{argmax}}$ 指令后续公式取值最大的参数 $h$ 。

最大后验概率的思想是，在有一些关于参数的先验知识的情况下，根据观测数据来修正参数的概率分布，并选择使后验概率最大的参数值作为估计值。

4 极大似然假设ML(Maximum Likelihood)

如果我们完全不知道假设的概率分布，或者我们知道所有的假设发生的概率相同，那么MAP 等价于极大似然假设 $h_{ML}$ (Maximum Likelihood)，其公式为
$h_{ML}=\mathop{\arg\max}_{h_i∈H}\ P(D|H_i)$

最小二乘LSE

最小二乘法（Least Squares Method），又称最小平方法，是一种数学优化方法，它通过最小化误差的平方和来找到数据的最佳函数匹配。假设训练数据为 $x_i,d_i>$
$d_i=f(x_i)+e_i$
$d_i$ ：独立的样本； $f (x)$ ：没有噪声的目标函数值； $e_i$ ：噪声，独立随机变量，符合正态分布。
极大似然和最小二乘法的关系：
$\begin{align} h_{ML} & = \underset{h∈H}{\text{argmax}}\ P(D|h)P(h) \\ & = \underset{h∈H}{\text{argmax}}\ \prod_{i=1}^mp(d_i|h) \\ & = \underset{h∈H}{\text{argmax}}\ \prod_{i=1}^m\frac{1}{\sqrt{2π\sigma^2}}e^{-\frac{1}{2}(\frac{d_i-h(x_i)}{\sigma})^2}&\text{(正态分布)} \\ & = \underset{h∈H}{\text{argmax}}\ \sum_{i=1}^m \ln\frac{1}{\sqrt{2π\sigma^2}}-\frac{1}{2}(\frac{d_i-h(x_i)}{\sigma})^2&\text{(取ln,单调性)} \\ & = \underset{h∈H}{\text{argmax}}\ \sum_{i=1}^m (d_i-h(x_i))^2&\text{(最小二乘)}\\ \end{align}$
在独立随机变量，正态分布噪声的情况下， $h_{ML}=h_{LSE}$

5 朴素贝叶斯NB

朴素贝叶斯的核心思想是，根据贝叶斯定理，后验概率 P(Y|X) 与先验概率 P(Y) 和似然概率 P(X|Y) 成正比

朴素贝叶斯假设：
$P(x|y_i)=P(a_1,a_2...a_n|v_j) =\prod_iP(a_i|v_j)$
$a_1,a_2...a_n$ 是相互独立的属性， $v_j$ 某条件。

朴素贝叶斯分类器：
$v_{\text{NB}}=\mathop{\arg\max}_{vi∈V}\{\log P(v_j)+\sum_i\log P(a_i|v_j) \}$
如果满足属性之间的独立性，那么 $v_{\text{MAP}}=v_{\text{NB}}$

举例1：词义消歧 (Word Sense Disambiguation)

对于单词 w，使用上下文 c 进行词义消歧

e.g. "A fly flies into the kitchen while he fry the chicken. "

如何判断fly的含义？根据上下文 $c$ 在词 $w$ 周围一组词 $w_i$ (特征)，进行判断词义 $s_i$

朴素贝叶斯假设： $P(c|s_k) = \prod_{w_i∈c} P(w_i|s_k)$

朴素贝叶斯选择： $s=\underset{s_k}{argmax}\{\log P(s_k)+\sum_{w_i∈c}\log P(w_i|s_k) \}$

其中 $P(s_k)=\frac{C(s_k)}{C(w)},P(w_i|s_k)=\frac{C(w_i,s_k)}{C(s_k)}$

举例 2: 垃圾邮件过滤

经验：数据量要大；注重邮件头；不对词进行词干化；只用最显著的词；对假阳性做偏置

6 最小描述长度MDL

偏向假设 h 使得最小化
$h_{\text{MDL}}=\mathop{\arg\min}_{h∈H}\{L_{C_1}(h)+L_{C_2}(D|h) \}$
其中 $L_{C_x}$ 是 $x$ 在编码 $C$ 下的描述长度。

为可能性较大的消息赋予较短的编码

在对信息编码时，更偏好一个短的且错误更少的假设，而不是一个长的但完美分类训练数据的假设

【机器学习笔记】贝叶斯学习

贝叶斯学习

文章目录

1 贝叶斯学习背景

2 贝叶斯定理

3 最大后验假设MAP(Max A Posterior)

4 极大似然假设ML(Maximum Likelihood)

5 朴素贝叶斯NB

6 最小描述长度MDL

相关文章：

【机器学习笔记】贝叶斯学习

ElasticSearch之倒排索引

win11安装mysql8.3.0压缩包版 240206

数据库索引与优化：深入了解索引的种类、使用与优化

React 错误边界组件 react-error-boundary 源码解析

分享66个相册特效，总有一款适合您

chagpt的原理详解

dockerfile 详细讲解

跟着pink老师前端入门教程-day23

JRT监听程序

MCU+SFU视频会议一体化，视频监控，指挥调度（AR远程协助）媒体中心解决方案。

1184. 欧拉回路（欧拉回路，模板题）

学习 Redis 基础数据结构，不讲虚的。

Android 11 webview webrtc无法使用问题

嵌入式单片机中晶振的工作原理

AWS配置内网EC2服务器上网【图形化配置】

Android中的MVVM

制作耳机壳的UV树脂和塑料材质相比劣势有哪些？

CSP-202012-1-期末预测之安全指数

Doris中的本地routineload环境，用于开发回归测试用例

设计模式和设计原则回顾

盘古信息PCB行业解决方案：以全域场景重构，激活智造新未来

Qt Widget类解析与代码注释

网络编程（UDP编程）

基于matlab策略迭代和值迭代法的动态规划

Xen Server服务器释放磁盘空间

深入理解Optional：处理空指针异常

Mysql故障排插与环境优化

raid存储技术

表单设计器拖拽对象时添加属性