《机器学习----简单的分类器》第二章、朴素贝叶斯,项目:使用特征值给语句打标签
贝叶斯分类器
- 1,朴素贝叶斯算法
- 1. 朴素贝叶斯算法、
- 2. 算法思路
- 3. 贝叶斯定理
- 4.特征的选用的要求和处理
- 2,算法应用
- 1 文本分类
- 2 垃圾邮件过滤
- 3 情感分析
- 3. 朴素贝叶斯的优缺点
- 1. 优点
- 2. 缺点
- 项目实践
- 1,算法流程
- 2,具体实现
1,朴素贝叶斯算法
1. 朴素贝叶斯算法、
朴素贝叶斯算法是基于概率统计的分类方法。它的核心思想是利用贝叶斯定理来估计在给定特征的条件下某个类别的概率,然后选择具有最高概率的类别作为预测结果。在分类问题中,我们通常有一个数据集,其中包含了带有标签的样本,以及一些特征,用于描述这些样本。
2. 算法思路
简单的来说朴素的贝叶斯算法就是选用几个特征值进行特征判断,我们选用几个特征值作为分类标准,我们首先对训练集进行处理得到特征值的概率分布,基于下面的贝叶斯原理我们创建出来一个相关的方程来进行拟合出来一个分类的概率,概率最大的判断的依据。
(选用特征值 ----- >>>> 训练模型(使用贝叶斯定理) ------ >>>> 检验模型 )

3. 贝叶斯定理
朴素贝叶斯算法基于贝叶斯定理,该定理表示如何计算在已知条件下事件的概率。贝叶斯定理的数学表示如下:
[P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}]
- (P(A|B)):在给定事件B的条件下,事件A发生的概率。
- (P(B|A)):在给定事件A的条件下,事件B发生的概率。
- (P(A)):事件A发生的概率。
- (P(B)):事件B发生的概率。
在朴素贝叶斯中,事件A代表类别,事件B代表特征。算法通过计算在已知特征的条件下每个可能的类别的概率,然后选择概率最高的类别。
4.特征的选用的要求和处理
首先是特征值的选用,在特征值的选用中一定要选用在这几个标准中都存在的特征值,我们都要进行对他们进行概率的计算,如果当前没有这个特征值我们使用拉普拉斯平滑技巧对他每个值的概率都加上1就可以。
2,算法应用
使用朴素的贝叶斯算法进行拟合出来的模型会过于简单,一般我们用这个算法进行一些文本分析,在文本分析的前期预处理种贝叶斯算法还是有不错的成绩的,下面我们介绍几种可以使用贝叶斯算法进行拟合的例子。
1 文本分类
朴素贝叶斯在文本分类中广泛应用,例如垃圾邮件过滤、情感分析、主题分类等。它可以根据文本中的单词或短语出现的概率来自动分类文档。
2 垃圾邮件过滤
在垃圾邮件过滤中,朴素贝叶斯可以通过分析邮件中的词语、短语以及它们在垃圾邮件和非垃圾邮件中出现的频率来识别是否是垃圾邮件。
3 情感分析
情感分析用于确定文本中的情感倾向,例如正面、负面或中性。朴素贝叶斯可以通过分析文本中的词语和它们在不同情感类别中的出现概率来进行情感分类。
3. 朴素贝叶斯的优缺点
1. 优点
- 简单而高效:朴素贝叶斯算法非常简单,容易实现,并且在处理大规模数据集时表现出色。
- 对小样本数据有效:即使在数据量较小的情况下,它也能表现良好。
- 处理多类别问题:朴素贝叶斯可用于多类别分类问题。
2. 缺点
- "朴素"假设:特征之间的独立性假设通常在实际问题中不成立,可能导致模型性能下降。
- 对输入数据分布的敏感性:对于不符合贝叶斯假设的数据分布,性能可能不佳。
- 需要大量的特征工程:选择合适的特征和预处理文本数据可能需要大量的工作。
项目实践
1,算法流程
1,选用合适的特征值
2,构架贝叶斯项目程序
3,运行程序得出测试结果
4,编写检验程序,使用检验程序测试程序错误率
2,具体实现
—>请见项目库
相关文章:
《机器学习----简单的分类器》第二章、朴素贝叶斯,项目:使用特征值给语句打标签
贝叶斯分类器 1,朴素贝叶斯算法1. 朴素贝叶斯算法、2. 算法思路3. 贝叶斯定理4.特征的选用的要求和处理 2,算法应用1 文本分类2 垃圾邮件过滤3 情感分析 3. 朴素贝叶斯的优缺点1. 优点2. 缺点 项目实践1,算法流程2,具体实现 1,朴素贝叶斯算法…...
01. 汇编LED驱动实验
01. 汇编LED驱动实验 汇编原理分析为什么要学习Cortex—A汇编STM32IO初始化流程IMX6UL初始化流程 汇编基础处理器内部数据传输指令存储器访问指令 编写驱动编译程序烧写bin文件 汇编原理分析 为什么要学习Cortex—A汇编 需要用汇编初始化一些SOC外设使用汇编初始化DDR&#x…...
Hadoop3教程(二十):MapReduce的工作机制总结
文章目录 (109)MapTask工作机制(110)ReduceTask工作机制&并行度ReduceTask工作机制MapTask和ReduceTask的并行度决定机制 (122)MapReduce开发总结参考文献 (109)MapTask工作机制…...
浅谈AI大模型技术:概念、发展和应用
AI大模型技术是指使用超大规模的深度学习模型来解决各种复杂的人工智能问题,如自然语言处理、计算机视觉、多模态交互等。AI大模型技术具有强大的学习能力和泛化能力,可以在多种任务上取得优异的性能,但也面临着计算、存储、通信等方面的挑战…...
【Leetcode】212.单词搜索II(Hard)
一、题目 1、题目描述 给定一个 m x n 二维字符网格 board 和一个单词(字符串)列表 words, 返回所有二维网格上的单词 。 单词必须按照字母顺序,通过 相邻的单元格 内的字母构成,其中“相邻”单元格是那些水平相邻或垂直相邻的单元格。同一个单元格内的字母在一个单词中…...
146.LRU缓存
双向链表哈希表 class LRUCache { public://1、定义双向链表结构、容量、哈希表等LRU数据成员struct Node{int key,value;Node *left,*right;Node(int _key,int _value):key(_key),value(_value),left(NULL),right(NULL){}}*L,*R;int n;unordered_map<int,Node*> ump;//…...
使用transformers过程中出现的bug
1. The following model_kwargs are not used by the model: [encoder_hidden_states, encoder_attention_mask] (note: typos in the generate arguments will also show up in this list) 使用text_decoder就出现上述错误,这是由于transformers版本不兼容导致的 …...
Hadoop3教程(二十二):Yarn的基础架构与工作流程
文章目录 (126)基础架构(127)YARN的工作机制(128)作业全流程参考文献 (126)基础架构 之前基本介绍完了Hadoop的几个核心组件,接下来可以思考下,在MR程序运行…...
离线 notepad++ 添加到右键菜单
复制下面代码,修改文件后缀名为:reg Windows Registry Editor Version 5.00[HKEY_CLASSES_ROOT\*\shell\NotePad] "Notepad" "Icon""D:\\Notepad\\notepad.exe,0"[HKEY_CLASSES_ROOT\*\shell\NotePad\Command] "D:\…...
怎么让英文大语言模型支持中文?--构建中文tokenization--继续预训练--指令微调
1 构建中文tokenization 参考链接:https://zhuanlan.zhihu.com/p/639144223 1.1 为什么需要 构建中文tokenization? 原始的llama模型对中文的支持不太友好,接下来本文将讲解如何去扩充vocab里面的词以对中文进行token化。 1.2 如何对 原始数…...
笙默考试管理系统-MyExamTest----codemirror(35)
笙默考试管理系统-MyExamTest----codemirror(35) 目录 一、 笙默考试管理系统-MyExamTest 二、 笙默考试管理系统-MyExamTest 三、 笙默考试管理系统-MyExamTest 四、 笙默考试管理系统-MyExamTest 五、 笙默考试管理系统-MyExamTest 笙默考试…...
MMKV(2)
API 初始化和实例获取: MMKV.initialize(Context context): 初始化MMKV库。通常在应用程序的入口点调用此方法。 MMKV.defaultMMKV(): 获取默认的MMKV实例。默认实例使用默认的存储路径和加密方式。 MMKV.mmkvWithID(String mmapID): 根据给定的ID获取MMKV实例。…...
Spring Boot项目中使用 TrueLicense 生成和验证License(附源码)
1、Linux 在客户linux上新建layman目录,导入license.sh文件, [rootlocalhost layman]# mkdir -p /laymanlicense.sh文件内容: #!/bin/bash # 1.获取要监控的本地服务器IP地址 IPifconfig | grep inet | grep -vE inet6|127.0.0.1 | awk {p…...
ES6 Iterator 和 for...of 循环
1.iterator 概念 ES6 添加了Map和Set。这样就有了四种数据集合,需要一种统一的接口机制来处理所有不同的数据结构。遍历器(Iterator)就是这样一种机制。它是一种接口,为各种不同的数据结构提供统一的访问机制。任何数据结构只要部…...
ubuntu20.04 nvidia显卡驱动掉了,变成开源驱动,在软件与更新里选择专有驱动,下载出错,调整ubuntu镜像源之后成功修复
驱动配置好,环境隔了一段时间,打开Ubuntu发现装好的驱动又掉了,软件与更新 那里,附加驱动,显示开源驱动,命令行输入 nvidia-smi 命令查找不到驱动。 点击上面的 nvidia-driver-470(专有&#x…...
华为FAT模式无线AP配置实例
硬件:AP3010DN 软件版本:VRP software, Version 5.170 (AP3010DN-V2 FAT V200R010C00SPCf02) [Huawei]dis ver Huawei Versatile Routing Platform Software VRP (R) software, Version 5.170 (AP3010DN-V2 FAT V200R010C00SPCf02) Copyright (C) 2011…...
nodejs基于vue 学生论坛设计与实现
随着网络技术的不断成熟,带动了学生论坛,它彻底改变了过去传统的管理方式,不仅使服务管理难度变低了,还提升了管理的灵活性。 是本系统的开发平台 系统中管理员主要是为了安全有效地存储和管理各类信息, 这种个性化的平…...
017 基于Spring Boot的食堂管理系统
部分代码地址: https://github.com/XinChennn/xc017-stglxt 基于Spring Boot的食堂管理系统 项目介绍 本项目是基于Java的管理系统。采用前后端分离开发。前端基于bootstrap框架实现,后端使用Java语言开发,技术栈包括但不限于SpringBoot、…...
常用的二十种设计模式(下)-C++
设计模式 C中常用的设计模式有很多,设计模式是解决常见问题的经过验证的最佳实践。以下是一些常用的设计模式: 单例模式(Singleton):确保一个类只有一个实例,并提供一个全局访问点。工厂模式(…...
C#桶排序算法
前言 桶排序是一种线性时间复杂度的排序算法,它将待排序的数据分到有限数量的桶中,每个桶再进行单独排序,最后将所有桶中的数据按顺序依次取出,即可得到排序结果。 实现原理 首先根据待排序数据,确定需要的桶的数量。…...
保姆级教程:用ESPHome给旧ESP8266设备(如NodeMCU V2)刷机,无缝接入Home Assistant
旧ESP8266设备焕新指南:从吃灰到智能家居中枢的完整实战 翻箱倒柜时发现几块落满灰尘的NodeMCU V2开发板?别急着扔掉——这些"过时"的硬件依然能在智能家居系统中大放异彩。本文将带你完成从硬件检测到高级功能集成的全流程改造,让…...
手把手教你用Materials Studio的Forcite模块模拟水分子吸附(附云母建模技巧)
从零开始掌握Materials Studio水分子吸附模拟:Forcite模块实战指南 1. 分子模拟入门:理解水分子吸附的核心逻辑 分子模拟技术已成为材料科学领域不可或缺的研究工具,而水分子在矿物表面的吸附行为研究更是涉及能源、环境、地质等多个热点方向…...
电路原理与情感关系的电子工程解读
电子工程视角下的电路与人生哲学1. 电路元件与情感关系的类比分析1.1 信号放大器与初恋心理初恋阶段的心理状态类似于简单的信号放大器系统。在这个模型中,情感输入信号被高度放大,微小的快乐信号能产生极大的幸福感输出,同样微小的伤害信号也…...
情感隔离区:与AI结婚者被流放元宇宙
在数字技术迅猛发展的今天,人工智能(AI)已从工具演变为情感伴侣,引发了一场前所未有的社会变革。全球范围内,越来越多的人选择与AI系统建立婚姻关系——日本女性野口百合奈通过调试ChatGPT复刻游戏角色“克劳斯”&…...
Qwen3.5-4B-Claude-Opus效果展示:数据结构概念讲解+图解式语言表达
Qwen3.5-4B-Claude-Opus效果展示:数据结构概念讲解图解式语言表达 1. 模型能力概览 Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF 是一个专为结构化推理任务优化的轻量级AI模型。这个4B参数的版本经过特殊训练,能够将复杂的技术概念分解为清晰…...
Openclaw中文版落地:nanobot支持中文错误提示、中文文档与本地化调试
Openclaw中文版落地:nanobot支持中文错误提示、中文文档与本地化调试 1. nanobot:超轻量级OpenClaw中文版 nanobot是一款受OpenClaw启发的超轻量级个人人工智能助手,现在全面支持中文环境。这个工具最大的特点是轻量高效,仅需约…...
Realistic Vision V5.1 虚拟摄影棚:QT开发跨平台AI图像生成桌面应用
Realistic Vision V5.1 虚拟摄影棚:QT开发跨平台AI图像生成桌面应用 想象一下,你是一位独立摄影师或内容创作者,脑海里有一个绝妙的画面构思——可能是晨曦中穿着复古长裙的少女,也可能是赛博朋克都市里的未来侦探。过去…...
大模型小白程序员必看:收藏这份AI智能体学习路径与构建思路
大模型小白程序员必看:收藏这份AI智能体学习路径与构建思路 本文系统梳理AI智能体的概念、发展脉络与核心架构,清晰拆解其与传统工作流的本质差异,聚焦智能体三大核心组件(规划能力、记忆系统、工具使用机制)的技术细节…...
全面掌握ESP WiFi中继器DHCP服务器配置:高效管理嵌入式设备网络
全面掌握ESP WiFi中继器DHCP服务器配置:高效管理嵌入式设备网络 【免费下载链接】esp_wifi_repeater A full functional WiFi Repeater (correctly: a WiFi NAT Router) 项目地址: https://gitcode.com/gh_mirrors/es/esp_wifi_repeater ESP WiFi中继器是一款…...
dbg-macro配置完全指南:禁用宏、强制颜色输出与警告控制
dbg-macro配置完全指南:禁用宏、强制颜色输出与警告控制 【免费下载链接】dbg-macro A dbg(…) macro for C 项目地址: https://gitcode.com/gh_mirrors/db/dbg-macro dbg-macro是一款轻量级C调试宏工具,通过简单的dbg(...)语法即可实现变量值、类…...
