机器学习 | 贝叶斯方法
不同于KNN最近邻算法的空间思维,线性算法的线性思维,决策树算法的树状思维,神经网络的网状思维,SVM的升维思维。
贝叶斯方法强调的是 先后的因果思维。
监督式模型分为判别式模型和生成式模型。

判别模型和生成模型的区别:
判别式模型:输入一个特征X可以直接得到一个y。
生成式模型:上来先学习一个联合概率分布 p(x,y),
再用他根据贝叶斯法则求条件概率密度分布。
—— 没有决策边界的存在
判别式数据对于数据分布特别复杂的情况,比如文本图像视频;
而生成式模型对于数据有部分特征缺失的情况下效果更好,
而且更容易添加数据的先验知识 p(x)

1、核心思想和原理
贝叶斯公式
建立了四个概率分布之间的关系,已知变量 X 和 未知变量(模型参数)w 之间的计算关系
假定 X 表示数据,W 表示模型的参数
Likelihood翻译成可能性或者是似然函数,最大似然估计指的就是这个

以下图中 s 表示状态, o 表示观测。

参数估计
1、最大似然估计 MLE
2、最大后验估计 MAP
3、贝叶斯估计
2、朴素贝叶斯分类
我们知道分类问题是 给定特征 X,输出分类标记 y

那么朴素贝叶斯方法是如何由指定特征得到分类类别的呢?
2.1、举个栗子

能不能直接根据这些经验(上面的数据),来判断一个境外人员有没有得新冠呢?
—— 转换为数学语言即

比较难求的显然就是 Likelihood,所以朴素贝叶斯假设特征之间相互独立。

根据中心极限定理,频率就等于概率,虽然这里数据没有那么多,也一样可以这么算


2.2、朴素贝叶斯分类及其代码实现
- 逻辑简单,易于实现
- 效率高,时空开销小
- 条件独立假设不成立则分类效果一般
- 适用于特征相关性较小时
代码实现:
import numpy as np
X = [[1,0,0,1],[0,1,0,0],[1,1,0,0],[0,1,2,0],[1,0,0,0],[1,0,0,0],[1,1,2,1],[0,1,1,0],[1,1,1,0],[0,0,2,0],[1,1,0,1],[1,1,0,1]]y = [0,0,1,1,0,0,1,1,1,1,0,0]t=[[0,0,0,1]]
from sklearn.naive_bayes import BernoulliNB
bnb = BernoulliNB()
bnb.fit(X,y)
bnb.predict_proba(t)
array([[0.875, 0.125]])
2,3、朴素贝叶斯家族

2.3.1、伯努利朴素贝叶斯与多项式朴素贝叶斯
伯努利分布(两点分布、0-1分布)
属于离散型概率分布
伯努利分布公式:

伯努利实验 —— 例如抛硬币。
二项式分布和多项式分布
二项式分布:伯努利实验重复n次。
n = 1的二项式分布就是伯努利分布。
多项式分布:抛硬币改为掷骰子。
伯努利朴素贝叶斯:每个特征都服从伯努利分布的一种贝叶斯分类器
适用于二分类离散变量。
特征的条件概率服从伯努利分布:
![]()
xi 表示第 i 哥特征维度,y 表示观测道德类别。
特征可选值大于两个时可用多项式分布。
2.3.2、 高斯朴素贝叶斯

2.4、分类器效果对比
from sklearn.datasets import load_irisiris = load_iris()
X = iris.data
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)
from sklearn.naive_bayes import BernoulliNB
nb = BernoulliNB()
nb.fit(X_train, y_train)
nb.score(X_test, y_test)
0.23684210526315788
print(iris.DESCR)
.. _iris_dataset:Iris plants dataset --------------------**Data Set Characteristics:**:Number of Instances: 150 (50 in each of three classes):Number of Attributes: 4 numeric, predictive attributes and the class:Attribute Information:- sepal length in cm- sepal width in cm- petal length in cm- petal width in cm- class:- Iris-Setosa- Iris-Versicolour- Iris-Virginica:Summary Statistics:============== ==== ==== ======= ===== ====================Min Max Mean SD Class Correlation============== ==== ==== ======= ===== ====================sepal length: 4.3 7.9 5.84 0.83 0.7826sepal width: 2.0 4.4 3.05 0.43 -0.4194petal length: 1.0 6.9 3.76 1.76 0.9490 (high!)petal width: 0.1 2.5 1.20 0.76 0.9565 (high!)============== ==== ==== ======= ===== ====================:Missing Attribute Values: None:Class Distribution: 33.3% for each of 3 classes.:Creator: R.A. Fisher:Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov):Date: July, 1988The famous Iris database, first used by Sir R.A. Fisher. The dataset is taken from Fisher's paper. Note that it's the same as in R, but not as in the UCI Machine Learning Repository, which has two wrong data points.This is perhaps the best known database to be found in the pattern recognition literature. Fisher's paper is a classic in the field and is referenced frequently to this day. (See Duda & Hart, for example.) The data set contains 3 classes of 50 instances each, where each class refers to a type of iris plant. One class is linearly separable from the other 2; the latter are NOT linearly separable from each other... topic:: References- Fisher, R.A. "The use of multiple measurements in taxonomic problems"Annual Eugenics, 7, Part II, 179-188 (1936); also in "Contributions toMathematical Statistics" (John Wiley, NY, 1950).- Duda, R.O., & Hart, P.E. (1973) Pattern Classification and Scene Analysis.(Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. See page 218.- Dasarathy, B.V. (1980) "Nosing Around the Neighborhood: A New SystemStructure and Classification Rule for Recognition in Partially ExposedEnvironments". IEEE Transactions on Pattern Analysis and MachineIntelligence, Vol. PAMI-2, No. 1, 67-71.- Gates, G.W. (1972) "The Reduced Nearest Neighbor Rule". IEEE Transactionson Information Theory, May 1972, 431-433.- See also: 1988 MLC Proceedings, 54-64. Cheeseman et al"s AUTOCLASS IIconceptual clustering system finds 3 classes in the data.- Many, many more ...
from sklearn.naive_bayes import GaussianNB
nb = GaussianNB()
nb.fit(X_train, y_train)
nb.score(X_test, y_test)
1.0
from sklearn.naive_bayes import CategoricalNB
nb = CategoricalNB()
nb.fit(X_train, y_train)
nb.score(X_test, y_test)
0.8947368421052632
from sklearn.naive_bayes import MultinomialNB
nb = MultinomialNB()
nb.fit(X_train, y_train)
nb.score(X_test, y_test)
0.5789473684210527
from sklearn.naive_bayes import ComplementNB
nb = ComplementNB()
nb.fit(X_train, y_train)
nb.score(X_test, y_test)
0.5789473684210527
2.5、多项式朴素贝叶斯代码实现

纯文本数据不能直接传入模型,需要进行特征抽取。
Chapter-10/10-6 多项式朴素贝叶斯代码实现.ipynb · 梗直哥/Machine-Learning - Gitee.com
3、优缺点和使用条件
朴素贝叶斯优点
过程简单速度快。
对多分类问题言样有效。
分布独立假设下效果好。
贝叶斯思想光芒万丈,先验打开“扇大门。(拓展 变分)
朴素贝叶斯缺点
条件独立假设在现实中往往很难保证。
只适用于简单比大小问题。
如果个别类别概率为0,则预测失败。(平滑技术解决)。
条件概率和先验分布计算复杂度较高,高维计算困难。
适用条件
文本分类/垃圾文本过滤/情感判别。
多分类实时预测。
推荐系统、与 协同过滤 一起。
复杂问题建模。
参考
Machine-Learning: 《机器学习必修课:经典算法与Python实战》配套代码 - Gitee.com
相关文章:
机器学习 | 贝叶斯方法
不同于KNN最近邻算法的空间思维,线性算法的线性思维,决策树算法的树状思维,神经网络的网状思维,SVM的升维思维。 贝叶斯方法强调的是 先后的因果思维。 监督式模型分为判别式模型和生成式模型。 判别模型和生成模型的区别…...
缓存的定义及重要知识点
文章目录 缓存的意义缓存的定义缓存原理缓存的基本思想缓存的优势缓存的代价 缓存的重要知识点 缓存的意义 在互联网高访问量的前提下,缓存的使用,是提升系统性能、改善用户体验的唯一解决之道。 缓存的定义 缓存最初的含义,是指用于加速 …...
TrustZone之顶层软件架构
在处理器中的TrustZone和系统架构中,我们探讨了硬件中的TrustZone支持,包括Arm处理器和更广泛的内存系统。本主题关注TrustZone系统中发现的软件架构。 一、顶层软件架构 下图显示了启用TrustZone的系统的典型软件栈: 【注意】:为简单起见,该图不包括管理程序,尽管它们可…...
SpringBoot Whitelabel Error Page 报错--【已解决】
springboot 报错信息如下 这个报错页面就是个404 ,代表你访问的url 没有对应的的requestmapping 其实没啥影响的一个问题,但是看到Error 就是不爽,改了他丫的 解决方法如下 一、调整application.properties配置【治标不治本】 server.err…...
02.Git常用基本操作
一、基本配置 (1)打开Git Bash (2)配置姓名和邮箱 git config --global user.name "Your Name" git config --global user.email "Your email" 因为Git是分布式版本控制工具,所以每个用户都需要…...
黑盒测试中关键截图如何打点
黑盒测试中关键截图如何打点Android黑盒测试过程中如何进行有效的打点是我们经常遇到的问题,我们一般会在脚本内部进行数据打点,也可以使用其他进程录屏或截图。那我们如何选取合适的方式进行打点记录呢?下图是对常用打点方式的统计ÿ…...
画图之C4架构图idea和vscode环境搭建篇
VS Code 下C4-PlantUML安装 安装VS Code 直接官网下载安装即可,过程略去。 安装PlantUML插件 在VS Code的Extensions窗口中搜索PlantUML,安装PlantUML插件。 配置VS Code代码片段 安装完PlantUML之后,为了提高效率,我们最好安装PlantUML相关的代码片段。 打开VS Cod…...
安卓小练习-校园闲置交易APP(SQLite+SimpleCursorAdapter适配器)
环境: SDK:34 JDK:20.0.2 编写工具:Android Studio 2022.3.1 整体效果(视频演示): 小练习-闲置社区APP演示视频-CSDN直播 部分效果截图: 整体工作流程: 1.用户登录&…...
Pycharm 如何更改成中文版| Python循环语句| for 和 else 的搭配使用
🌈write in front🌈 🧸大家好,我是Aileen🧸.希望你看完之后,能对你有所帮助,不足请指正!共同学习交流. 🆔本文由Aileen_0v0🧸 原创 CSDN首发🐒 如…...
智合同是怎么审合同的?
#智合同#审合同#AI#深度学习#自然语言处理#知识图谱 智合同采用深度学习、自然语言处理、知识图谱等人工智能技术,为企业提供专业的合同相关的智能服务。其服务包含:合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、文本一致性对比、广告…...
使用Httpclient来替代客户端的jsonp跨域解决方案
最近接手一个项目,新项目需要调用老项目的接口,但是老项目和新项目不再同一个域名下,所以必须进行跨域调用了,但是老项目又不能进行任何修改,所以jsonp也无法解决了,于是想到了使用了Httpclient来进行服务端…...
测试工具Jmeter:设置中文界面
首先我们打开Jmeter所在的文件,进入bin目录,打开Jmeter.properties: 打开后找到languageen: 改为zh_CN: 保存关闭,然后再打开Jmeter: 英文并不会显得高级,能做到高效的性能测试才是高级的。...
K8s攻击案例:RBAC配置不当导致集群接管
01、概述 Service Account本质是服务账号,是Pod连接K8s集群的凭证。在默认情况下,系统会为创建的Pod提供一个默认的Service Account,用户也可以自定义Service Account,与Service Account关联的凭证会自动挂载到Pod的文件系统中。 …...
运行hive的beelin2时候going to print operations logs printed operations logs
运行hive的beelin2时候going to print operations logs printed operations logs 检查HiveServer2的配置文件hive-site.xml,确保以下属性被正确设置: <property><name>hive.async.log.enabled</name><value>false</value>…...
从 MySQL 到 DolphinDB,Debezium + Kafka 数据同步实战
Debezium 是一个开源的分布式平台,用于实时捕获和发布数据库更改事件。它可以将关系型数据库(如 MySQL、PostgreSQL、Oracle 等)的变更事件转化为可观察的流数据,以供其他应用程序实时消费和处理。本文中我们将采用 Debezium 与 K…...
六.聚合函数
聚合函数 1.什么是聚合函数1.1AVG和SUM函数1.2MIN和MAX函数1.3COUNT函数 2.GROUP BY2.1基本使用2.2使用多个列分组2.3GROUP BY中使用WITH ROLLUP 3.HAVING3.1基本使用3.2WHERE和HAVING的区别 4.SELECT的执行过程4.1查询的结构4.2SELECT执行顺序4.3SQL执行原理 1.什么是聚合函数…...
Eclipse_03_如何加快index速度
1. ini配置文件 -Xms:是最小堆内存大小,也是初始堆内存大小,因为堆内存大小可以根据使用情况进行扩容,所以初始值最小,随着扩容慢慢变大。 -Xmx:是最大堆内存大小,随着堆内存的使用率越来越高&a…...
scrapy的入门和使用
scrapy的入门使用 学习目标: 掌握 scrapy的安装应用 创建scrapy的项目应用 创建scrapy爬虫应用 运行scrapy爬虫应用 scrapy定位以及提取数据或属性值的方法掌握 response响应对象的常用属性 1 安装scrapy 命令: sudo apt-get install scrapy 或者&#x…...
yolov5单目测距+速度测量+目标跟踪(算法介绍和代码)
要在YOLOv5中添加测距和测速功能,您需要了解以下两个部分的原理: 单目测距算法 单目测距是使用单个摄像头来估计场景中物体的距离。常见的单目测距算法包括基于视差的方法(如立体匹配)和基于深度学习的方法(如神经网…...
flink 读取 apache paimon表,查看source的延迟时间 消费堆积情况
paimon source查看消费的数据延迟了多久 如果没有延迟 则显示0 官方文档 Metrics | Apache Paimon...
Nucleus Co-Op:突破单机游戏限制的多人分屏革新工具
Nucleus Co-Op:突破单机游戏限制的多人分屏革新工具 【免费下载链接】nucleuscoop Starts multiple instances of a game for split-screen multiplayer gaming! 项目地址: https://gitcode.com/gh_mirrors/nu/nucleuscoop 你是否曾遇到这样的困境࿱…...
QGIS插件开发实战:手把手教你用Python调用高德地图API做路径规划(附坐标转换避坑指南)
QGIS插件开发实战:Python集成高德地图API的路径规划全流程解析 当我们需要在QGIS中实现路径规划功能时,高德地图API提供了丰富的服务接口。本文将带你从零开始,开发一个能够调用高德地图API进行路径规划的QGIS插件,并重点解决开发…...
UE5开发者必备:10个免费3D模型资源网站推荐(含避坑指南)
UE5开发者必备:10个免费3D模型资源网站深度评测与实战指南 当你深夜盯着UE5编辑器里那个孤零零的默认立方体发呆时,是否也经历过这种绝望?作为经历过上百个原型项目的老司机,我深刻理解优质3D资源对开发效率的致命影响。市面上90…...
LIBERO Benchmark自定义任务避坑指南:手把手教你从零构建厨房场景的BDDL文件
LIBERO Benchmark厨房任务BDDL实战:从场景拆解到避坑全流程 当你第一次打开LIBERO Benchmark的文档,面对那些复杂的项目结构和晦涩的术语时,是否感到无从下手?本文将以一个具体的厨房场景任务为例——"打开橱柜放入杯子&quo…...
verl分布式训练实战:从单机多卡到多机多卡的完整配置指南
1. 分布式训练基础概念与verl框架简介 第一次接触分布式训练的朋友可能会被"单机多卡"、"多机多卡"这些术语吓到。其实理解起来很简单,就像搬家时找帮手一样:单机多卡相当于在一套房子里叫来几个家人一起打包,多机多卡则…...
FLUX.1文生图+SDXL风格保姆级教程:5分钟搞定AI绘画,新手也能出大片
FLUX.1文生图SDXL风格保姆级教程:5分钟搞定AI绘画,新手也能出大片 1. 为什么选择这个组合? FLUX.1-dev-fp8-dit与SDXL Prompt Styler的组合,是目前AI绘画领域最易上手且效果惊艳的解决方案之一。这个组合最大的特点是࿱…...
如何在KubeOperator中选择最佳存储方案:NFS、Ceph RBD和Local Volume完全指南
如何在KubeOperator中选择最佳存储方案:NFS、Ceph RBD和Local Volume完全指南 【免费下载链接】KubeOperator KubeOperator 是一个开源的轻量级 Kubernetes 发行版,专注于帮助企业规划、部署和运营生产级别的 K8s 集群。 项目地址: https://gitcode.co…...
Armbian 国内源一键配置:清华镜像加速实战
1. 为什么需要给Armbian换国内源? 如果你在国内使用Armbian系统,可能会遇到软件包下载速度慢、更新失败等问题。这主要是因为默认的软件源服务器通常位于国外,物理距离远导致网络延迟高。我最初用树莓派搭建家庭服务器时就深有体会࿰…...
手机助手新选择:DeepSeek-R1-Distill-Qwen-1.5B边缘计算实测分享
手机助手新选择:DeepSeek-R1-Distill-Qwen-1.5B边缘计算实测分享 1. 引言:边缘计算的新选择 在移动设备上运行大语言模型一直是技术挑战,传统方案要么性能不足,要么资源消耗过大。DeepSeek推出的R1-Distill-Qwen-1.5B模型改变了…...
超级千问语音设计世界效果展示:听听这些用文字描述生成的惊艳语音
超级千问语音设计世界效果展示:听听这些用文字描述生成的惊艳语音 1. 当文字遇见声音:一场无需录音棚的创作革命 想象一下,你只需要在电脑前输入一段文字,再描述一种情绪——“一个在深夜电台里,带着沙哑嗓音和淡淡忧…...
