当前位置：首页 > news >正文

【机器学习理论】朴素贝叶斯网络

news 2026/2/9 11:18:21

基础知识：
先验概率：对某个事件发生的概率的估计。可以是基于历史数据的估计，可以由专家知识得出等等。一般是单独事件概率。

后验概率：指某件事已经发生，计算事情发生是由某个因素引起的概率。一般是一个条件概率。

条件概率：条件事件发生后，另一个事件发生的概率。一般的形式为 $P (B ∣ A)$ ，表示 $A$ 发生的条件下 $B$ 发生的概率。
$\frac {P(AB)}{P(A)}$
贝叶斯公式基于先验概率，计算后验概率的方法；公式为：
$\frac {P(B|A) \cdot P(A)}{P(B)}$

$P (A ∣ B)$ : 在事件 $B$ 发生的条件下，事件 $A$ 发生的概率（后验概率）。
$P (B ∣ A)$ ：在事件 $A$ 发生的条件下，事件 $B$ 的发生概率（似然概率）。
$P (A)$ ：事件 $A$ 发生的先验概率（先验知识）。
$P (B)$ ：事件 $B$ 发生的总概率。

贝叶斯公式可以从条件概率和全概率公式推导得出：

条件概率定义：
$\frac {P(A \cap B)}{P(B)}, P(B|A) = \frac {P(A \cap B)}{P(A)}$
公式联立：
$\cap B) = P(B|A) \cdot P(A) = P(A | B) \cdot P(B)$
整理得到贝叶斯公式：
$\frac {P(B | A) P(A)}{P(B)}$

贝叶斯公式：将先验概率 $P (A)$ 、似然概率 $P (B ∣ A)$ 和证据 $P (B)$ 结合，计算后验概率 $P (A ∣ B)$ 。

朴素贝叶斯做出了一个假设”属性条件独立假设“：对所有已知标签的样本，假设每个属性独立地对标签结果产生影响。（这是一个很强的条件）

假设样本为： $x=\{a_{1}, a_{2}, ..., a_{d} \}$ ，label为 $Y = \{c_{1}, c_{2}, c_{3}, ...,c_{n} \}$ ；则计算这样一个样本 $x$ 的所属类别的公式为：
$P(c_{k} | x) = \max \{ P(c_{1} |x), P(c_{2} | x), P(c_{3} | x), ..., P(c_{n} |x)\}$
基于条件独立假设；可以得到
$\frac {P(c)P(x|c)}{P(x)} = \frac {P(c)}{P(x)} \prod_{i=1}^{d} P(x_{i}|c)$
其中 $d$ 为属性数目， $x_{i}$ 为 $x$ 在第 $i$ 个属性上的取值。
我们重写上述公式：
$\begin{align} h_{nb}(x) &= \max \{ P(c_{1} |x), P(c_{2} | x), P(c_{3} | x), ..., P(c_{n} |x)\} \\ &= \arg \max_{c \in Y} \frac {P(c)}{P(x)} \prod_{i=1}^{d}P(x_{i} | C) \\ &= \arg \max_{c \in Y} P(c) \prod_{i=1}^{d}P(x_{i} | C) \end{align}$ 令 $D_{c}$ 表示训练集 $D$ 中第 $c$ 类样本组成的集合，若有充足的独立同分布样本，则可以容易地估计出类别的先验概率：
$\frac {|D_{c}|}{|D|}$
对于离散属性而言，令 $D_{c, x_{i}}$ 表示 $D_{c}$ 中第 $i$ 个属性上取值为 $x_{i}$ 的样本组成的集合，则条件概率 $P(x_{i} |c)$ 可估计为：
$P{x_{i} | c} = \frac {|D_{c, x_{i}}|}{|D_{c}|}$
对于连续属性可考虑概率密度函数，假定 $p(x_{i}|c) \sim \mathcal{N}(\mu _{c, i}, \sigma _{c,i}^{2})$ d，其中 $\mu_{c, i}$ 和 $\sigma_{c, i}^{2}$ 分别是第 $c$ 类样本在第 $i$ 个属性上取值的均值和方差，则有：
$p(x_{i} | c) = \frac {1}{\sqrt{2 \pi} \sigma_{c, i}} \exp (- \frac {(x_{i}-\mu_{c, i})^2}{2 \sigma_{c, i}^{2}})$

【机器学习理论】朴素贝叶斯网络

相关文章：

【机器学习理论】朴素贝叶斯网络

Docker 部署 GLPI（IT 资产管理软件系统）

【Vaadin flow 实战】第5讲-使用常用UI组件绘制页面元素

强化学习 DAY1：什么是 RL、马尔科夫决策、贝尔曼方程

理解神经网络：Brain.js 背后的核心思想

【Docker】dockerfile识别当前构建的镜像平台

【VM】VirtualBox安装CentOS8虚拟机

【C++篇】哈希表

Java篇之继承

边缘检测算法（candy）

设计模式Python版组合模式

dfs枚举问题

【开源免费】基于SpringBoot+Vue.JS社区智慧养老监护管理平台（JAVA毕业设计）

安全防护前置

高性能消息队列Disruptor

kamailio中的sctp模块

前端学习-事件解绑，mouseover和mouseenter的区别(二十九)

独立游戏RPG回顾:高成本

10.4 LangChain核心架构揭秘：模块化设计如何重塑大模型应用开发？

【学习笔记】深度学习网络-正则化方法

云计算——弹性云计算器（ECS）

解决Ubuntu22.04 VMware失败的问题 ubuntu入门之二十八

《用户共鸣指数（E）驱动品牌大模型种草：如何抢占大模型搜索结果情感高地》

五年级数学知识边界总结思考-下册

postgresql|数据库|只读用户的创建和删除（备忘）

oracle与MySQL数据库之间数据同步的技术要点

ServerTrust 并非唯一

Python 包管理器 uv 介绍

push [特殊字符] present

android13 app的触摸问题定位分析流程