当前位置：首页 > news >正文

朴素贝叶斯算法

news 2026/5/19 6:44:25

# -*-coding:utf-8-*-

"""
Author: sunchang
Desc:
代码4-7 朴素贝叶斯实现对异常账户检测
"""
import numpy as np

class NaiveBayesian:
def __init__(self, alpha):
self.classP = dict()
self.classP_feature = dict()
self.alpha = alpha # 平滑值

# 加载数据集
def createData(self):
data = np.array(
[
[320, 204, 198, 265],
[253, 53, 15, 2243],
[53, 32, 5, 325],
[63, 50, 42, 98],
[1302, 523, 202, 5430],
[32, 22, 5, 143],
[105, 85, 70, 322],
[872, 730, 840, 2762],
[16, 15, 13, 52],
[92, 70, 21, 693],
]
)
labels = np.array([1, 0, 0, 1, 0, 0, 1, 1, 1, 0])#是否是异常用户的标签（1：异常 0：正常）
return data, labels

# 计算高斯分布函数值
#求P(xi|yk)
def gaussian(self, mu, sigma, x):
return 1.0 / (sigma * np.sqrt(2 * np.pi)) * np.exp(-(x - mu) ** 2 / (2 * sigma ** 2))

# 计算某个特征列对应的均值和标准差
def calMuAndSigma(self, feature):
mu = np.mean(feature)
sigma = np.std(feature) # np.var()方差 np.std()标准差
return (mu, sigma)

# 训练朴素贝叶斯算法模型
def train(self, data, labels):
numData = len(labels) #样本个数
numFeaturs = len(data[0]) #X维度个数
# 是异常用户的概率
#p(y1)
self.classP[1] = (
(sum(labels) + self.alpha) * 1.0 / (numData + self.alpha * len(set(labels)))#创建一个无序不重复元素集，删除重复数据
)
# 不是异常用户的概率
#Py(0)
self.classP[0] = 1 - self.classP[1]

# 用来存放每个label下每个特征标签下对应的高斯分布中的均值和方差
# { label1:{ feature1:{ mean:0.2, var:0.8 }, feature2:{} }, label2:{...} }
#{0: {0: (346.4, 484.05479028721527), 1: (140.0, 192.22174694867383), 2: (49.6, 76.44501291778293), 3: (1766.8, 1975.568819353049)}}
#{1：{0: (275.2, 316.0249357250152), 1: (216.8, 264.3689845651339), 2: (232.6, 310.2009671164808), 3: (699.8, 1035.9788414827783)}}
self.classP_feature = dict()
# 遍历每个特征标签
for c in set(labels):
self.classP_feature[c] = {}
for i in range(numFeaturs):#（0，1，2，3）
feature = data[np.equal(labels, c)][:, i]
self.classP_feature[c][i] = self.calMuAndSigma(feature)

# 预测新用户是否是异常用户
def predict(self, x):
label = -1 # 初始化类别
maxP = 0 #初始最大概率0

# 遍历所有的label值
for key in self.classP.keys():#self.classP {1: 0.5, 0: 0.5}
label_p = self.classP[key]
currentP = 1.0
feature_p = self.classP_feature[key]
j = 0
for fp in feature_p.keys():
currentP *= self.gaussian(feature_p[fp][0], feature_p[fp][1], x[j]) #currentP=P(yk|x) =分子= p(xi|yk)迭乘
j += 1
# 如果计算出来的概率大于初始的最大概率，则进行最大概率赋值和对应的类别记录
if currentP * label_p > maxP:
maxP = currentP * label_p
label = key
return label

if __name__ == "__main__":
nb = NaiveBayesian(1.0)
data, labels = nb.createData()
nb.train(data, labels)
label = nb.predict(np.array([134, 84, 235, 349]))
print("未知类型用户对应的行为数据为：[134,84,235,349]，该用户的可能类型为：{}".format(label))

朴素贝叶斯算法

相关文章：

朴素贝叶斯算法

【常见CSS扫盲雪碧图】从源码细看CSS雪碧图原理及实现，千字详解【附源码demo下载】

Java多线程：ThreadLocal源码剖析

96、数据的存储

@EventListener注解详细使用（IT枫斗者）

[c++17新增语言特性] --- [[nodiscard]]和[[maybe_unused]]

Centos7安装和使用docker的笔记

结构像与功能像

【IAR工程】STM8S基于ST标准库读取DS1302数据

【SpringBoot】实现后端服务器发送QQ邮件验证码的功能

vue在input中输入后，按回车，提交数据

【YOLOX】用YOLOv5框架YOLOX

【python机器学习实验】——逻辑回归与感知机进行线性分类，附可视化结果！

wps删除的文件怎么恢复

NIO消息黏包和半包处理

day018 第六章二叉树 part05

如何下载ChatGPT-ChatGPT如何写作

微策略再次买入

express框架

完蛋的goals

从“上管掉电”到稳定驱动：手把手教你计算EG2104自举电容的容值与选型（附PWM占空比影响分析）

为什么顶尖纳米实验室已停用传统文献管理工具？NotebookLM私有知识中枢部署避坑清单（限内部研究员参考）

Thanos剪枝算法：高效压缩大型语言模型的技术解析

使用Python开发了CLI爬虫智能体

轻松管理AD域：一款基于.NET的Web工具推荐

别只盯着SysTick_Config：用CubeMX配置STM32的SysTick中断并驱动OLED（附代码）

NotebookLM具身智能落地实战（从零部署到ROS2集成）：谷歌AI团队内部培训手册泄露版

35岁程序员亲历：AI时代如何避免踩坑？收藏这份避坑指南，小白也能看懂大模型！

ECB02蓝牙模块与手机通信避坑指南：从AT指令调试到数据收发实战

QT ToolButton的5个隐藏技巧与3个常见坑，新手避雷指南（基于Qt 6.5）