当前位置：首页 > news >正文

Python机器学习：朴素贝叶斯

news 2026/2/9 0:01:24

前两天不知道把书放哪去了，就停更了一下，昨天晚上发现被我放在书包夹层里面了，所以今天继续开始学习。

首先明确一下啊，朴素贝叶斯是什么：朴素贝叶斯分类器是一种有监督的统计学过滤器，在垃圾邮件过滤、信息检索等领域经常被使用到。

一、极大似然估计：这个我就不讲了，纯纯数理统计的问题，目标就是找到一个参数p，让他使得所有随机变量的联合概率最大，我就直接贴上一张图吧：

二、朴素贝叶斯分类：

先回忆一下，概率论里面贝叶斯公式是什么？想不起来的话，建议翻一翻浙大的那本概率论与数理统计，那里面有的，简单的来说，就是求条件概率，或者说，已知道一件事情X发生的概率，求X发生情况下另一个事件Y发生的概率：

$P(Y_i |X)=\frac{P(X,Y_i)}{P(X)}=\frac{P(Y_i)P(X|Y_I)}{\sum_{j=1}^{K}P(Y_j)P(X|Y_j)}$

那么，用频率代替概率在样本集合上进行估计的话，就是：

$\left\{\begin{matrix} P(Y=c_k)\approx \frac{N_k}{m} & \\ P(X^i=x^i|Y=c_k)\approx \frac{\sum_{j=1}^{m}I\left \{x_j^i =x^i,y_j=c_k \right \}}{N_k} & \end{matrix}\right.$

三、拉普拉斯平滑：

如果说，我们的样本集合不够大，就可能没有法子去覆盖特征值的所有可能取值，也就是说，可能会出现这种情况：

$P(X^i=x^i|Y=c_k)$

这个时候，你不管怎么给其他的特征分量取值，都会出现：

$P(Y=c_k)\prod_{I=1}^{N}P(X^i=x^i|Y=c_k)=0$

这种情况，很麻烦吧，但是，这种情况是可以避免的，通过平滑处理（典型的就是拉普拉斯平滑）：

$\left\{\begin{matrix} P(Y=c_k)\approx \frac{N_k+1}{m+K} & \\ P(X^i=x^i|Y=c_k)\approx \frac{\sum_{j=1}^{m}I\left \{x_j^i =x^i,y_j=c_k \right \}+1}{N_k+A^i} & \end{matrix}\right.$

$A_i$ 是 $X_i$ 的所有可能取值的个数。

来看一下书上给出的完整的朴素贝叶斯分类器的算法：

我们要输入的是:样本集合 $D=\left \{ (x_1,y_1),(x_2,y_2),....(x_n,y_n) \right \}$ ，待预测样本下，样本标记的所有可能值： $\left\{c_1,c_2,\cdots,c_k\right\}$ 样本输入变量X的每个属性 $X_i$ 的所有可能取值 $\left\{a_i1,a_i2,\cdots,a_{iA_i}\right\}$ ;

输出很简单：带预测样本x所属类别

算法如下：

step1：计算标记为 $c_k$ 的样本出现的概率：

$P(Y=c_k)\approx \frac{N_k+1}{m+K}$

step2：计算标记为 $c_k$ 的样本，其 $X_i$ 分量的属性值为 $a_{ip}$ 的概率

$P(X^i=x^i|Y=c_k)\approx \frac{\sum_{j=1}^{m}I\left \{x_j^i =x^i,y_j=c_k \right \}+1}{N_k+A^i}$

step3：根据上面的估计值计算x属于所有 $y_k$ 的概率值，并且喧杂概率最大的作为输出

$y=\arg max_{k=1,2,\cdots,K}(P(Y=c_k|X=x))$

即：

$y=\arg max_{k=1,2,\cdots,K}(P(Y=c_k)\prod_{i=1}^{n}P(X^i=x^i|Y=c_k))$

其实，朴素贝叶斯的本质就是极大似然估计，我也不知道再写些啥，书上有 $P(Y=c_k)$ 和 $P(X^i=x^i|Y=c_k)$ 的计算方法，想推的自己推一推吧，极大似然估计这个是考研数一的必考点，我在这里强烈推荐宇哥的视频，学完一身轻松。

我们看一个书上给出的利用朴素贝叶斯实现垃圾短信分类的应用，emm，他用的是SMS Spam Collection DataSet,you 5574条短信，其中有747条垃圾短信，数据集和是个纯文本，每行对应一条垃圾短信，第一个单词是Spam或者ham，表示是不是垃圾短信，这就是很简单的标签了，标签和短信内容之间用制表符分隔。

其实看到这个的时候，我想说，好好学一学，没啥坏处，我的qq邮箱和163邮箱里面全是垃圾邮件，每天都有，烦死了快。

找了一下啊，Kaggle上面是有这个数据集的，其他人的博客也给出了相关的下载地址，我会把这个传到我的下载哪一栏里面去，有需要的可以下载。

with open('./spam.csv','r',encoding='gb18030', errors='ignore')as f:sms=[line.split(',')for line in f ]#,encoding='utf-8'
y,x=zip(*sms)
from sklearn.feature_extraction.text import CountVectorizer as CV
from sklearn.model_selection import train_test_split
y=[label=='spam'for label in y]
x_train,x_test,y_train,y_test=train_test_split(x,y)
counter=CV(token_pattern='[a-zA-Z]{2,}')
x_train=counter.fit_transform(x_train)
x_test=counter.transform(x_test)
# print (x_train)
# print(x_test)
from sklearn.naive_bayes import MultinomialNB as NB
model=NB()
model.fit(x_train,y_train)
train_score=model.score(x_train,y_train)
test_score=model.score(x_test,y_test)
print("train_score:",train_score)
print("test_score:",test_score)

注意，这里有两个地方和书上的不一样，因为我从kaggle上面下载的是.csv文件，一直读不出来，然后查了一下，将encoding='utf-8'改成了encoding='gb18030', errors='ignore'，同时，这个数据集合并没有和书上说的那样子，标签和正文以空格隔开，而是用“，”隔开的，所以分隔那里我用的是

line.split(',')，这下才读取成功，这个地方告诉我们，搞之前要好好看一下数据集合，不能一昧的跟着书上走，因为书是先出的，你是后学的，先出的肯定会和你后面学习要用到的东西有出入，因地制宜，合理发展，产品迭代才是硬道理（此处连续三个/doge）

好了，来看看分类效果，为啥把两个print给注释了？没错误啊，绝对保真，就是输出太多了，我嫌烦才给注释了。

可以看到，训练结果是0.989，测试结果是0.979，效果还是可以滴。

Python机器学习：朴素贝叶斯

相关文章：

Python机器学习：朴素贝叶斯

几个最基本软件的环境变量配置

物业企业如何加快向现代服务业转型

java ssm人力资源系统Y3程序

leetcode重点题目分类别记录（三）动态规划深入与素数理论

面试篇-学习Java多线程编程必备：深入理解volatile与synchronized

后端系列文章

C++之AVL树

【ROS2指南-2】入门 turtlesim 和 rqt

Python 进阶指南（编程轻松进阶）：四、起个好名字

STL容器适配器之＜priority_queue＞

线程——线程同步

安卓录屏使用VirtualDisplay虚拟屏幕；MediaRecorder，媒体录影机；

Java FileChannel文件的读写实例

2023 年男生还推荐报计算机专业吗？

【华为OD机试真题】积木最远距离（相同数字的积木游戏1）（javapython）

STM32F103RCT6驱动SG90舵机-完成正反转角度控制

【4.13（补）】二叉搜索树的遍历、插入、删除

Web 攻防之业务安全：Callback自定义测试（触发XSS漏洞）

Java访问底层操作系统

龙虎榜——20250610

linux arm系统烧录

如何为服务器生成TLS证书

Psychopy音频的使用

css的定位（position）详解：相对定位绝对定位固定定位

GitHub 趋势日报 (2025年06月08日)

SpringTask-03.入门案例

【无标题】路径问题的革命性重构：基于二维拓扑收缩色动力学模型的零点隧穿理论

并发编程 - go版

PostgreSQL——环境搭建