当前位置：首页 > news >正文

Python机器学习实战：分类算法之支持向量机-垃圾邮件识别

news 2026/5/13 5:05:13

为了解决特定问题而进行的学习是提高效率的最佳途径。这种方法能够使我们专注于最相关的知识和技能，从而更快地掌握解决问题所需的能力。

支持向量机算法介绍

练习题

Python代码与分析

支持向量机和朴素贝叶斯的联系

支持向量机算法介绍

支持向量机（Support Vector Machine, SVM）是一种监督学习算法，主要用于分类和回归问题。它是一种非常强大的模型，因其在高维空间中进行线性和非线性分类的能力而受到广泛欢迎。以下是SVM的一些基本概念和特点：

线性可分性：SVM最初设计用于解决线性可分问题，即数据点可以通过一个超平面清晰地分开成不同的类别。
最大间隔：SVM试图找到一个超平面，使得它与最近的数据点（支持向量）之间的距离最大化。这个距离被称为间隔（margin），最大化间隔可以提高模型的泛化能力。
核技巧：SVM通过核函数将数据映射到更高维的空间，以解决非线性问题。常用的核函数包括线性核、多项式核、径向基函数（RBF）核等。
优化问题：SVM的训练过程可以看作是一个凸优化问题，目标是找到最大化间隔的同时最小化分类误差的解。这保证了找到的解是全局最优解。
软间隔和正则化：在实际应用中，数据可能不是完全线性可分的。SVM通过引入软间隔和正则化参数（如C）来允许一定量的误差，以避免过拟合。
多类分类：SVM最初是为二分类问题设计的，但可以通过多种策略扩展到多类分类问题，如一对一（OvR）、一对余（OvO）等。
回归问题：SVM也可以用于回归问题，称为支持向量回归（SVR），它尝试找到一条曲线，使得实际值和预测值之间的误差在一定阈值内。
模型评估：SVM模型的性能通常通过准确率、召回率、F1分数等指标来评估。

SVM是一种非常灵活且强大的算法，适用于许多不同的问题，但它也有一些局限性，比如对核函数和正则化参数的选择敏感，以及在处理大规模数据集时可能需要较长的训练时间。

练习题

对已标注出垃圾邮件和正常邮件的csv文件实现支持向量机算法分类。

Python代码与分析

前6步骤和我们在朴素贝叶斯分类算法介绍的过程一样，主要是数据处理部分。为了分析的完整性，我们将前6步骤再展示一遍。

1、加载必要的Python库。

此时要导入的是sklearn.svm库中的SVC类。

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC # 导入支持向量机的类
from sklearn import metrics
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt

2、读取csv文件，把csv文件读入到一个pandas的DataFrame对象里。

然后对数据里面的NULL值，用空字符串（即''）代替。

df1 = pd.read_csv('spamham.csv')
df = df1.where(pd.notnull(df1))
df.head() # 查看数据前5行

3、对Category列进行变换，将取值ham和spam分别改成1或者0，以便进行后续机器学习的训练。

df.loc[df['Category'] == 'ham', 'Category'] = 1
df.loc[df['Category'] == 'spam', 'Category'] = 0
df.head()

4、把Message列作为x，Category列作为y。

df_x = df['Message']
df_y = df['Category']

5、划分数据集，80%用于训练模型，20%用于测试模型。

x_train, x_test, y_train, y_test = train_test_split(df_x, df_y, test_size = 0.2)

6、把Message数据列（x列）转换成机器学习的特征值(关键步骤)。
在这里采用文本的TF-IDF特征。TF表示单个文档里的某个词项的频率，IDF表示整个文集中词项的逆文档频率。IDF把在很多文档中都出现的但对于文档的类别划分没有太多贡献的词项的重要性降低。

tfvec = TfidfVectorizer(min_df = 1, stop_words = 'english', lowercase = True)
x_trainFeat = tfvec.fit_transform(x_train)
x_testFeat = tfvec.transform(x_test)

7、创建支持向量机分类模型，对其进行训练，并且利用模型对测试集进行预测。
在此之前，把训练集中的y转换成整数形式。

y_trainSvm = y_train.astype('int')
classifierModel = SVC(kernel='linear', probability=True)
classifierModel.fit(x_trainFeat, y_trainSvm)
y_pred = classifierModel.predict(x_testFeat)

8、把测试集的y转换成整数形式，对上述模型的预测值进行比较，显示分类器混淆矩阵和分类报告。

y_test = y_test.astype('int')
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

从以上混淆矩阵和分类报告中可以看出，该模型在类别0（垃圾邮件）和类别1（正常邮件）上的预测表现非常好，具有较高的精确度、召回率和F1分数。

总体而言，模型的准确度为98%，表明其在大多数情况下能够正确分类样本。

9、绘制ROC曲线

y_pred_prob = classifierModel.predict_proba(x_testFeat)
fpr, tpr, thresholds = metrics.roc_curve(y_test, y_pred_prob[:,1])
auc = metrics.auc(fpr, tpr)
print(auc)

auc = 0.9897103887520279

plt.rcParams['font.sans-serif'] = ['Heiti TC']
plt.rcParams['axes.unicode_minus'] = False
plt.plot(fpr, tpr, lw = 2, label = 'ROC曲线(面积 = {:.2f})'.format(auc))
plt.plot([0,1],[0,1],'r--')
plt.xlabel('假正例率') # False Positive Rate
plt.ylabel('真正例率') # True Positive Rate
plt.title('ROC曲线示例') # Receiver operating characteristic example
plt.legend(loc = 'lower right')
plt.show()

图片中的ROC曲线示例展示了一个具有较高AUC值的分类器的性能，表明该模型在区分正负类方面表现良好。

支持向量机和朴素贝叶斯的联系

监督学习：SVM和朴素贝叶斯都是监督学习算法，需要有标签的数据集进行训练。
分类问题：两者都可以用于分类问题，尽管它们的工作原理和适用场景不同。
模型评估：无论是SVM还是朴素贝叶斯，都可以使用相同的评估指标（如准确率、召回率、F1分数）来评价模型性能。
模型选择：在实际应用中，根据问题的特性和数据集的特点，可能会选择SVM或朴素贝叶斯，或者将它们与其他算法结合使用。
算法优化：两者都有对应的优化技术，如SVM的核函数选择和朴素贝叶斯的特征选择。

在选择算法时，需要根据具体问题的需求、数据的特性以及预期的性能来决定使用哪种算法。在某些情况下，可能会使用集成方法，结合SVM和朴素贝叶斯的优点，以提高整体的分类性能。

都读到这里了，不妨关注、点赞支持一下吧！

Python机器学习实战：分类算法之支持向量机-垃圾邮件识别

为了解决特定问题而进行的学习是提高效率的最佳途径。这种方法能够使我们专注于最相关的知识和技能，从而更快地掌握解决问题所需的能力。目录支持向量机算法介绍练习题 Python代码与分析支持向量机和朴素贝叶斯的联系支持向量机算法介绍支持向量机&#…...

编程日记 2024/8/2 5:50:28

秒懂Linux之自动化构建工具-make/Makefile

目录一.前文摘要二.make/Makefile 一.前文摘要在学习自动化构建工具前我们先来补充一下动静态库的相关指令动态库指令 gcc -o 文件（重命名） 源文件静态库指令 gcc -o 文件（重命名） 源文件 -static 二.make/Makefile 怎么形…...

编程日记 2024/8/2 5:49:27

.net core + vue 搭建前后端分离的框架

目录步骤一：创建.NET Core后端项目步骤二：创建Vue.js前端项目步骤三：集成后端和前端项目步骤一：创建.NET Core后端项目安装.NET Core SDK： 确保你的开发环境中已安装了最新版本的.NET Core SDK。你可以从 .NET …...

编程日记 2024/8/2 5:45:22

小阿轩yx-KVM+GFS 分布式存储系统构建 KVM 高可用

小阿轩yx-KVMGFS 分布式存储系统构建 KVM 高可用案例分析案例概述使用 KVM 及 GlusterFS 技术，结合起来实现 KVM 高可用利用 GlusterFS 分布式复制卷对 KVM 虚拟机文件进行分布存储和冗余分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个…...

编程日记 2024/8/2 5:43:21

centos安装mysql 5.7版本

因为要继续第二阶段的学习，windows里面的mysql版本，很多设置没有。因此弄了一个虚拟机，安装了centos，在里面安装mysql。看了《centos安装mysql 5.7版本》里面有设置my.cnf文件，这个在虚拟机里面编辑，手动敲…...

编程日记 2024/8/2 5:41:17

SQL——查询sql执行顺序

在SQL查询中，虽然我们在编写查询时遵循一定的逻辑顺序（SELECT, FROM, WHERE, GROUP BY, HAVING, ORDER BY），但实际上，数据库在执行这些查询时遵循的是不同的物理执行顺序。这个物理执行顺序是数据库管理系统&#xff0…...

编程日记 2024/8/2 5:40:16

钉耙编程（3）

1001深度自同构 Problem Description 对于无向图中的点，定义一个点的度为与其相连的边的条数。对于一棵有根树，定义一个点的深度为该点到根的距离。对于由若干有根树构成的森林，定义该森林是深度自同构的，当且仅当森林中任意…...

编程日记 2024/8/2 5:38:14

使用多线程来加速文件复制的过程，可以使用Python的concurrent.futures模块中的ThreadPoolExecutor。代码如下： import glob import os import shutil from concurrent.futures import ThreadPoolExecutordef copy_image(image):imagepath image.replace…...

编程日记 2024/8/2 5:36:11

AI技术和大模型对人才市场的影响

012024 AI技术和大模型 2024年AI技术和大模型呈现出多元化和深入融合的趋势，以下是一些关键的技术方向和特点： 1. 生成式AI 生成式AI（Generative AI）在2024年继续快速发展，它能够创造全新的内容，而不仅仅…...

编程日记 2024/8/2 5:35:10

解释“location”和“position”

Explanation of “Location” and “Position” Location and position are terms often used interchangeably in everyday language, but they can have distinct meanings depending on the context. Below, we explore their definitions, differences, and examples of u…...

编程日记 2024/8/2 5:32:05

Netty 必知必会（三）—— ByteBuf

Netty ByteBuf工作原理，和NIO里ByteBuffer区别？ Java NIO 提供了ByteBuffer 作为它的字节容器，但是这个类使⽤起来过于复杂，⽽且也有些繁琐。 ByteBuf是Netty框架中的一个关键类，专门设计来处理字节数据，…...

编程日记 2024/8/2 5:28:01

芋道以开源之名行下作之事恬不知耻标榜自己开源公开源码+sql 不用再加入知识星球

资源链接: https://pan.baidu.com/s/1TeuxbAUfLQ5_BqMBF1kniQ?pwdcqud 提取码: cqud 依次为后端、补充版的sql、前端此文档内安装部署等一应俱全...

编程日记 2024/8/2 5:25:58

wordpress中，wp_posts 文章的状态有哪些，分别对应什么数值

在WordPress中，wp_posts 表存储了网站上的所有内容，包括文章（posts）、页面（pages）、自定义文章类型（custom post types）等。这个表有一个名为 post_status 的字段，用于标…...

编程日记 2024/8/2 5:24:57

输入成绩问题（c语言）

1.问题：期中考试开始了，大家想要取得好成绩，争夺前五名，从键盘输入n个学生成绩（不超过40个），输出每组的前五名的成绩两行，第一行输入一个整数，表示n个学生（…...

编程日记 2024/8/2 5:23:55

基于域名+基于ip+基于端口的虚拟主机+上线商务系统

一、回顾 1.jdk环境 tomcat服务器需要jdk环境版本对应 tomcat9>jdk1.8 配置系统变量JAVA_HOME sed -i $aexport JAVA_HOME/usr/local/jdk22/ /etc/profile sed -i $aexport PATH$JAVA_HOME/bin:$PATH /etc/profile source /etc/profile java -version java…...

编程日记 2024/8/2 5:20:53

vue每次路由跳转前将页面滚动到顶部

在Vue.js应用中，特别是使用Vue Router进行页面路由管理时，router.beforeEach是一个非常有用的导航守卫（Navigation Guard）。它允许你在路由跳转之前执行一些逻辑，比如权限验证、页面跳转前的数据加载、滚动位置重置等。…...

编程日记 2024/8/2 5:19:52

【Qt】QDateTimeEdit

在Qt中，QDateEdit是用于选择日期的微调框，QTimeEdit是用于选择小时和分钟的微调框 QDateTimeEdit则是基于QDateEdit和QTimeEdit的组合控件，能够同时显示日期和时间，并允许用户以交互方式编辑日期常用属性属性说明dateTime时间…...

编程日记 2024/8/2 5:18:51

Redis和Mysql如何保持数据一致性

一般情况下，Redis是用来实现应用和数据库之间读操作得缓存层，主要目的是减少数据库IO，还可以提升数据的IO性能。当应用程序需要去读取某个数据时，会首先尝试去Redis里面加载，如果命中就直接返回，如果没有…...

编程日记 2024/8/2 5:17:49

Java中Optional相关

Java中Optional相关 orElse 提供默认值以确保不会返回 null。适用于默认情况下的备选值或简单计算结果。 // 如果 optionalName 为空，返回 "Unknown" Optional<String> optionalName Optional.empty(); String result optionalName.orElse(&q…...

编程日记 2024/8/2 5:16:48

AI在HR候选人关系管理中的革新应用

一、引言随着人工智能（AI）技术的快速发展，其在人力资源管理（HR）领域的应用也日益广泛。特别是在候选人关系管理方面，AI技术不仅提高了管理效率，还使得候选人体验得到了极大的改善。本文将深入分…...

编程日记 2024/8/2 5:14:46

ARM Trace Address Comparator寄存器原理与应用

1. ARM Trace Address Comparator寄存器详解在嵌入式系统调试和性能分析领域，地址比较器(Address Comparator)是一个至关重要的硬件组件。作为ARM CoreSight调试架构的一部分，Trace Address Comparator寄存器组为开发者提供了精确控制指令流追踪的能力。…...

编程新知 2026/5/13 4:42:37

基于Jina Reader与Exa API的免费网页抓取与搜索工具实践

1. 项目概述：一个轻量级的网络信息抓取与处理工具最近在折腾一些自动化信息处理的项目，发现很多时候需要从网上快速抓取内容或者进行关键词搜索，然后对结果进行结构化处理。市面上的工具要么太重，要么收费，要么就是API…...

编程新知 2026/5/13 4:24:51

MSP 盈利、留客、提口碑，核心就盯这12个 KPI

很多 MSP（托管服务提供商）都会陷入一个误区，手里握着一堆散落在各个看板的运营数据，却始终搞不清哪些指标能真正帮自己提升服务质量、拉高利润、留住客户。忙忙碌碌做了一堆报表，最终还是凭感觉做决策，业务…...

编程新知 2026/5/13 3:45:13

ComfyUI IPAdapter Plus完整指南：5个步骤掌握AI图像风格迁移技术

ComfyUI IPAdapter Plus完整指南：5个步骤掌握AI图像风格迁移技术【免费下载链接】ComfyUI_IPAdapter_plus 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI_IPAdapter_plus ComfyUI IPAdapter Plus是ComfyUI平台上功能强大的图像引导生成插件&#x…...

编程新知 2026/5/13 3:30:57

2026年录音转换文字的软件推荐：从微信小程序到专业工具的实用对比

做视频或音频素材处理的时候，经常卡在这几个环节：转出来的文字有错别字需要反复核对、处理一个长视频得等半天、格式导出后没法直接用到其他软件。这些都是常见的痛点。本文会从实际应用出发，先重点讲一个相对高效的方案——微信小程序提词匠…...

编程新知 2026/5/13 3:11:42

大模型高效化实战：从量化剪枝到推理部署的完整指南

1. 大模型高效化：从“巨无霸”到“精悍战士”的必经之路如果你和我一样，在过去的几年里深度参与过大语言模型的部署和应用，那你一定对“模型太大”这个问题深有体会。动辄几十GB甚至上百GB的模型文件，对显存的贪婪吞噬&#xff0c…...

编程新知 2026/5/13 1:37:03

3步免费获取公式识别神器：img2latex-mathpix本地部署终极指南

3步免费获取公式识别神器：img2latex-mathpix本地部署终极指南【免费下载链接】img2latex-mathpix Mathpix has changed their billing policy and no longer has free monthly API requests. This repo is now archived and will not receive any updates for the …...

编程新知 2026/5/13 0:16:13

Cursor Pro免费升级完整指南：3分钟突破使用限制的实用教程

Cursor Pro免费升级完整指南：3分钟突破使用限制的实用教程【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能: Youve reached your…...

编程新知 2026/5/12 23:33:50

基于官方API的WhatsApp AI助手集成：规避封号风险与实战部署指南

1. 项目概述：为你的AI助手开通一个安全的WhatsApp专线如果你正在使用OpenClaw构建自己的AI助手，并且希望它能通过WhatsApp与用户自然交流，那么你很可能已经研究过各种方案了。市面上常见的方案，比如基于 whatsapp-web.js 或 …...

编程新知 2026/5/12 23:23:17

【独家首发】Sora 2正式版未公开能力清单：原生支持3D空间锚点+时间轴语义编辑+版权水印嵌入（附OpenAI内部文档节选）

更多请点击： https://intelliparadigm.com 第一章：Sora 2正式版核心能力全景概览多模态时序理解与生成一体化 Sora 2正式版突破性地将文本、图像、音频及物理运动参数统一编码至共享时空潜空间，支持长达120秒、1080p分辨率的连贯视频生成。…...

编程新知 2026/5/12 22:35:27

Python机器学习实战：分类算法之支持向量机-垃圾邮件识别

支持向量机算法介绍

练习题

Python代码与分析

支持向量机和朴素贝叶斯的联系

相关文章：

Python机器学习实战：分类算法之支持向量机-垃圾邮件识别

秒懂Linux之自动化构建工具-make/Makefile

.net core + vue 搭建前后端分离的框架

小阿轩yx-KVM+GFS 分布式存储系统构建 KVM 高可用

centos安装mysql 5.7版本

SQL——查询sql执行顺序

钉耙编程（3）

python 线程池处理文件

AI技术和大模型对人才市场的影响

解释“location”和“position”

Netty 必知必会（三）—— ByteBuf

芋道以开源之名行下作之事恬不知耻标榜自己开源公开源码+sql 不用再加入知识星球

wordpress中，wp_posts 文章的状态有哪些，分别对应什么数值

输入成绩问题（c语言）

基于域名+基于ip+基于端口的虚拟主机+上线商务系统

vue每次路由跳转前将页面滚动到顶部

【Qt】QDateTimeEdit

Redis和Mysql如何保持数据一致性

Java中Optional相关

AI在HR候选人关系管理中的革新应用

ARM Trace Address Comparator寄存器原理与应用

基于Jina Reader与Exa API的免费网页抓取与搜索工具实践

MSP 盈利、留客、提口碑，核心就盯这12个 KPI

ComfyUI IPAdapter Plus完整指南：5个步骤掌握AI图像风格迁移技术

2026年录音转换文字的软件推荐：从微信小程序到专业工具的实用对比

大模型高效化实战：从量化剪枝到推理部署的完整指南

3步免费获取公式识别神器：img2latex-mathpix本地部署终极指南

Cursor Pro免费升级完整指南：3分钟突破使用限制的实用教程

基于官方API的WhatsApp AI助手集成：规避封号风险与实战部署指南

【独家首发】Sora 2正式版未公开能力清单：原生支持3D空间锚点+时间轴语义编辑+版权水印嵌入（附OpenAI内部文档节选）