当前位置：首页 > news >正文

【机器学习】自定义数据集，使用朴素贝叶斯对其进行分类

news 2026/2/9 2:37:47

一、贝叶斯原理

贝叶斯算法是基于贝叶斯公式的，其公式为：

$P(A\mid B)= \frac{P(B\mid A)P(A)}{P(B)}$

其中 $P(A)$ 叫做先验概率， $P(B\mid A)$ 叫做条件概率， $P(B)$ 叫做观察概率， $P(A\mid B)$ 叫做后验概率，也是我们求解的结果，通过比较后验概率的大小，将后验概率最大的类别作为真实类别。

二、朴素贝叶斯分类

朴素贝叶斯（Naive Bayes）是一种基于贝叶斯定理的简单概率分类算法，适用于文本分类、垃圾邮件过滤等任务。

朴素贝叶斯的“朴素”之处在于它假设特征之间相互独立，即给定类别，一个特征的出现不影响其他特征的出现。这在现实世界中通常不成立，但在许多情况下，这种简化的假设仍然能够提供良好的分类性能。

三、自定义数据集，使用朴素贝叶斯对其进行分类

1、代码示例：

import numpy as np
from sklearn.naive_bayes import GaussianNB# 1. 自定义数据集
# 生成 100 个样本，每个样本有 2 个特征
X = np.random.randn(100, 2).astype(np.float32)
# 根据特征的线性组合生成标签，大于 0 标记为 1，否则标记为 0
y = (2 * X[:, 0] + 3 * X[:, 1] > 0).astype(np.int32)# 2. 初始化朴素贝叶斯模型
model = GaussianNB()# 3. 训练模型
model.fit(X, y)# 4. 输出训练结果
print("训练完成！")
print("模型参数：")
print("类别先验概率:", model.class_prior_)
print("类别数量:", model.class_count_)
print("每个类别的均值:", model.theta_)
print("每个类别的方差:", model.sigma_)

2、代码解释

① 数据集生成：

X = np.random.randn(100, 2).astype(np.float32)：

生成 100 个样本，每个样本有 2 个特征。

使用 np.random.randn 生成符合标准正态分布的随机数。

astype(np.float32) 将数据类型转换为 32 位浮点数。

y = (2 * X[:, 0] + 3 * X[:, 1] > 0).astype(np.int32)：

根据特征的线性组合生成标签。

公式 2 * X[:, 0] + 3 * X[:, 1] > 0 表示特征的线性组合是否大于 0。

大于 0 的样本标记为 1，否则标记为 0。

astype(np.int32) 将标签转换为 32 位整数。

② 初始化朴素贝叶斯模型：

model = GaussianNB()：

使用高斯朴素贝叶斯模型（Gaussian Naive Bayes）。

适用于连续特征数据。

③ 训练模型：

model.fit(X, y)：

使用数据集训练模型。

模型会计算每个类别的先验概率、均值和方差。

④ 输出训练结果：

model.class_prior_：

输出每个类别的先验概率。

model.class_count_：

输出每个类别的样本数量。

model.theta_：

输出每个类别的均值。

model.sigma_：

输出每个类别的方差。

【机器学习】自定义数据集，使用朴素贝叶斯对其进行分类

一、贝叶斯原理贝叶斯算法是基于贝叶斯公式的，其公式为： 其中叫做先验概率，叫做条件概率，叫做观察概率，叫做后验概率，也是我们求解的结果，通过比较后验概率的大小，将后验概率最大的…...

编程日记 2025/2/2 10:46:41

02.01 生产者消费者

请使用条件变量实现2生产者2消费者模型，注意1个生产者在生产的时候，另外一个生产者不能生产。 1>程序代码 #include <stdio.h> #include <string.h> #include <unistd.h> #include <stdlib.h> #include <sys/types.h>…...

编程日记 2025/2/2 10:44:38

mac 手工安装OpenSSL 3.4.0

如果你希望继续安装 openssl-3.4.0 而不是降级到 3.1.1，可以尝试以下解决方案。根据你提供的错误信息，问题可能出在测试阶段（make test），我们可以尝试跳过测试或修复测试失败的原因。 --- ### **解决方案&#xff1a…...

编程日记 2025/2/2 10:42:34

kamailio-ACC_JSON模块详解【后端语言go】

要确认 ACC_JSON 模块是否已经成功将计费信息推送到消息队列（MQueue），以及如何从队列中取值，可以按照以下步骤进行操作： 1. 确认 ACC_JSON 已推送到队列 1.1 配置 ACC_JSON 确保 ACC_JSON 模块已正确配置并启用。以下…...

编程日记 2025/2/2 10:41:32

ArkTS语言介绍

文章目录一、基本知识声明类型运算符语句函数函数声明可选参数Rest参数返回类型函数的作用域函数调用函数类型箭头函数（又名Lambda函数）闭包函数重载类字段方法构造函数可见性修饰符对象字面量抽象类接口接口属性接口继承抽象类和接口泛型类型和函数泛型类和接口泛型约束泛型…...

编程日记 2025/2/2 10:40:29

海外问卷调查之渠道查，企业经营的指南针

海外问卷调查，是企业调研最常用到的方法，有目的、有计划、有系统地收集研究对象的现实状况或历史状况的一种有效手段，是指导企业经营的有效手段。海外问卷调查充分运用历史法、观察法等方法，同时使用谈话、问卷、个案研究、测试…...

编程日记 2025/2/2 10:38:27

spring和Mybatis的逆向工程

在现代企业级开发中，使用Spring和MyBatis进行快速、高效的数据库操作是非常常见的。本文将深入探讨如何使用Spring和MyBatis进行逆向工程，帮助开发者自动生成数据库相关的代码，提高开发效率和代码质量。一、什么是逆向工程逆向工程是指从…...

编程日记 2025/2/2 10:33:21

【Android】问deepseek存储访问

这些天deepseek爆火，我们来问问android问题看看，如果问android中的应用怎么访问外部存储，回答的很清楚，但是如果问的深入一些，比如Android中是怎么控制让应用不能读取其他应用的外部存储文件的，回答的比较抽…...

编程日记 2025/2/2 10:32:20

Android记事本App设计开发项目实战教程2025最新版Android Studio

平时上课录了个视频，从新建工程到打包Apk，从头做到尾，没有遗漏任何实现细节，欢迎学过Android基础的同学参加，如果你做过其他终端软件开发，也可以学习，快速上手Android基础开发。 Android记事本课…...

编程日记 2025/2/2 10:30:18

python学习——函数的返回值

在 Python 中，函数的返回值决定了调用该函数后得到的结果。默认情况下，如果函数没有使用 return 语句或没有明确返回一个值，函数将返回 None。为了实现更复杂的逻辑，可以通过 return 语句返回多个值、错误信息或其他数据类型。返…...

编程日记 2025/2/2 10:24:12

【竞技宝】裂变天地S1:BB0-2PARI淘汰出局

北京时间2月1日,DOTA2裂变天地S1继续进行,昨日共进行三场比赛,第三场比赛迎来败者组第二轮PARI对阵BB。以下是本场比赛的详细战报。第一局: 首局比赛,BB在天辉方,PARI在夜魇方。阵容方面,BB点出了圣堂、卡尔、玛尔斯、奶绿、亚巴顿,PARI则是拿到小娜迦、凤凰、大圣、玛西、萨…...

编程日记 2025/2/2 10:22:09

数据分析系列--⑨RapidMiner训练集、测试集、验证集划分

一、数据集获取二、划分数据集 1.导入和加载数据 2.数据集划分 2.1 划分说明 2.2 方法一 2.3 方法二一、数据集获取点击下载数据集此数据集包含538312条数据. 二、划分数据集 1.导入和加载数据 2.数据集划分 2.1 划分说明 2.2 方法一使用Filter Example Range算子. …...

编程日记 2025/2/2 10:11:59

实践Rust：编写一个猜数字游戏

如果你正在学习Rust，并且想通过一个有趣的小项目来巩固所学知识，那么“猜数字游戏”是一个绝佳的选择！这个游戏的逻辑非常简单：程序会随机生成一个数字，玩家需要猜测这个数字是多少，程序会告诉玩家猜大了还…...

编程日记 2025/2/2 10:10:57

JavaFX - 3D 形状

在前面的章节中，我们已经了解了如何在 JavaFX 应用程序中的 XY 平面上绘制 2D 形状。除了这些 2D 形状之外，我们还可以使用 JavaFX 绘制其他几个 3D 形状。通常，3D 形状是可以在 XYZ 平面上绘制的几何图形。它们由两个或多个维度定义&#…...

编程日记 2025/2/2 10:07:54

阿里新发的大模型Qwen2.5-max如何?

阿里新发布的大模型Qwen2.5-Max是一款性能卓越、技术先进的大型语言模型，其在多个方面展现了突出的表现。以下是基于我搜索到的资料对Qwen2.5-Max的详细评价： 技术特点超大规模预训练数据：Qwen2.5-Max采用了超过20万亿tokens的超大规模预训…...

编程日记 2025/2/2 10:04:50

文本复制兼容方案最佳实现落地。

文章目录一、navigator.clipboard.writeText二、方案落地总结一、navigator.clipboard.writeText navigator.clipboard.writeText 是一个Web API，它允许网页脚本将文本数据写入用户的系统剪贴板。这个API是异步的，并且设计用于提高安全性和用户体验&a…...

编程日记 2025/2/2 10:01:44

x86-64数据传输指令

关于汇编语言一些基础概念的更详细的介绍，可移步MIPS指令集（一）基本操作_mips指令 sw-CSDN博客该指令集中一个字2字节。该架构有16个64位寄存器，名字都以%r开头，每个寄存器的最低位字节，低1~2位字节&…...

编程日记 2025/2/2 10:00:40

LigerUI在MVC模式下的响应原则

LigerUI是基于jQuery的UI框架，故他也是遵守jQuery的开发模式，但是也具有其特色的侦听函数，那么当LigerUI作为View层的时候，他所发送后端的必然是表单的数据，在此我们以俩个div为例： {Layout "~/View…...

编程日记 2025/2/2 9:58:37

java CountDownLatch和CyclicBarrier

专栏系列文章地址：https://blog.csdn.net/qq_26437925/article/details/145290162 本文目标： 理解CountDownLatch和CyclicBarrier的使用，主要是复习Aqs 另外工作中用到CountDownLatch的地方还很多，一般是完成某些事情才能继续某…...

编程日记 2025/2/2 9:54:31

力扣动态规划-17【算法学习day.111】

前言 ###我做这类文章一个重要的目的还是给正在学习的大家提供方向（例如想要掌握基础用法，该刷哪些题？建议灵神的题单和代码随想录）和记录自己的学习过程，我的解析也不会做的非常详细，只会提供思路和一些关…...

编程日记 2025/2/2 9:50:26

观成科技：隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具，该工具基于TUN接口实现其功能，利用反向TCP/TLS连接建立一条隐蔽的通信信道，支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式，适应复杂网…...

编程新知 2026/2/8 4:37:24

大型活动交通拥堵治理的视觉算法应用

大型活动下智慧交通的视觉分析应用一、背景与挑战大型活动（如演唱会、马拉松赛事、高考中考等）期间，城市交通面临瞬时人流车流激增、传统摄像头模糊、交通拥堵识别滞后等问题。以演唱会为例，暖城商圈曾因观众集中离场导致周边…...

编程新知 2026/1/23 7:15:40

渗透实战PortSwigger靶场-XSS Lab 14：大多数标签和属性被阻止

编程新知 2026/1/24 13:05:24

vue3 字体颜色设置的多种方式

在Vue 3中设置字体颜色可以通过多种方式实现，这取决于你是想在组件内部直接设置，还是在CSS/SCSS/LESS等样式文件中定义。以下是几种常见的方法： 1. 内联样式你可以直接在模板中使用style绑定来设置字体颜色。 <template><div :s…...

编程新知 2026/2/4 20:47:44

CocosCreator 之 JavaScript/TypeScript和Java的相互交互

引擎版本： 3.8.1 语言： JavaScript/TypeScript、C、Java 环境：Window 参考：Java原生反射机制您好，我是鹤九日！ 回顾在上篇文章中：CocosCreator Android项目接入UnityAds 广告SDK。我们简单讲…...

编程新知 2026/1/30 12:10:19

数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...

编程新知 2026/1/29 18:30:30

什么是EULA和DPA

文章目录 EULA（End User License Agreement）DPA（Data Protection Agreement）一、定义与背景二、核心内容三、法律效力与责任四、实际应用与意义 EULA（End User License Agreement） 定义： EULA即…...

编程新知 2025/10/18 7:13:10

优选算法第十二讲：队列 + 宽搜优先级队列

优选算法第十二讲：队列宽搜 && 优先级队列 1.N叉树的层序遍历2.二叉树的锯齿型层序遍历3.二叉树最大宽度4.在每个树行中找最大值5.优先级队列 -- 最后一块石头的重量6.数据流中的第K大元素7.前K个高频单词8.数据流的中位数 1.N叉树的层序遍历 2.二叉树的锯…...

编程新知 2026/1/20 17:18:59

Reasoning over Uncertain Text by Generative Large Language Models

https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829 1. 概述文本中的不确定性在许多语境中传达，从日常对话到特定领域的文档（例如医学文档）（Heritage 2013；Landmark、Gulbrandsen 和 Svenevei…...

编程新知 2026/2/8 2:27:29

React---day11

14.4 react-redux第三方库提供connect、thunk之类的函数以获取一个banner数据为例子 store： 我们在使用异步的时候理应是要使用中间件的，但是configureStore 已经自动集成了 redux-thunk，注意action里面要返回函数 import { configureS…...

编程新知 2026/1/19 2:13:24