当前位置：首页 > news >正文

自然语言处理NLP入门 -- 第四节文本分类

news 2026/5/11 11:59:52

目标

本章的目标是帮助你理解文本分类的基本概念，并通过具体示例学习如何使用 scikit-learn 训练文本分类模型，以及如何利用 OpenAI API 进行文本分类。

5.1 什么是文本分类？

文本分类（Text Classification）是自然语言处理（NLP）中的一个基础任务，指的是将文本数据自动归类到一个或多个预定义类别中的过程。例如：

垃圾邮件检测：判定邮件是“垃圾邮件”还是“正常邮件”。
情感分析：分析评论或社交媒体上的文本，判断其情感是“正面”、“负面”还是“中性”。
新闻分类：将新闻归类到“体育”、“政治”、“科技”等类别。

文本分类的常见方法

基于规则的方法：使用关键字匹配等方法进行分类，适用于简单场景。
机器学习方法：使用 scikit-learn 训练分类模型，如朴素贝叶斯（Naïve Bayes）、支持向量机（SVM）等。
深度学习方法：使用 BERT、LSTM、Transformer 等深度神经网络进行分类，适用于大规模数据。
预训练模型（如 OpenAI API）：直接使用强大的 NLP 模型进行分类，无需训练自己的模型。

5.2 使用 `scikit-learn` 训练文本分类模型

步骤

准备数据集
文本预处理（分词、去停用词、向量化）
训练分类模型
测试和评估模型

示例 1：垃圾邮件分类

我们使用 scikit-learn 的 Pipeline 训练一个简单的垃圾邮件分类器。

Step 1：安装必要的库

!pip install scikit-learn numpy pandas nltk

Step 2：导入所需库

import pandas as pd  # 用于处理数据集
import numpy as np  # 用于数值计算
import nltk  # 自然语言处理工具包
from sklearn.model_selection import train_test_split  # 用于数据集划分
from sklearn.feature_extraction.text import TfidfVectorizer  # 用于文本特征提取
from sklearn.naive_bayes import MultinomialNB  # 朴素贝叶斯分类器
from sklearn.pipeline import Pipeline  # 机器学习流水线（自动化处理流程）
from sklearn.metrics import accuracy_score, classification_report  # 评估模型性能

Step 3：加载数据

我们使用一个简单的数据集，其中包含邮件内容及其分类（ham 表示正常邮件，spam 表示垃圾邮件）。

# 创建一个简单的数据集
data = {"text": ["Get free money now!","Hello, how are you?","Congratulations! You have won a prize.","Call me when you get a chance.","Claim your free gift today!","Meeting at 3 PM, don't be late.","Win a brand new iPhone now!"],"label": ["spam", "ham", "spam", "ham", "spam", "ham", "spam"]
}# 转换数据为 Pandas DataFramedf = pd.DataFrame(data)# 将标签（类别）转换为数值（spam = 1, ham = 0）
df['label'] = df['label'].map({'spam': 1, 'ham': 0})
print(df)

示例输出：

                                     text  label
0                     Get free money now!      1
1                     Hello, how are you?      0
2  Congratulations! You have won a prize.      1
3          Call me when you get a chance.      0
4             Claim your free gift today!      1
5         Meeting at 3 PM, don't be late.      0
6             Win a brand new iPhone now!      1

Step 4：数据预处理

TfidfVectorizer：将文本转换为数值向量，去除停用词（如 the, and）。
MultinomialNB：使用朴素贝叶斯算法进行分类。

# 划分数据集（80% 训练，20% 测试）
X_train, X_test, y_train, y_test = train_test_split(df["text"], df["label"], test_size=0.2, random_state=42)# 创建文本分类管道（Pipeline）
pipeline = Pipeline([("tfidf", TfidfVectorizer(stop_words="english")),  # 文本向量化并去除停用词("classifier", MultinomialNB())  # 朴素贝叶斯分类器
])# 训练模型
pipeline.fit(X_train, y_train)# 进行预测
y_pred = pipeline.predict(X_test)# 评估模型
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))

Step 5：测试新文本

new_texts = ["Win a free iPhone!", "Meeting at 9 PM online.", "Get rich fast with this simple trick!"]
predictions = pipeline.predict(new_texts)for text, label in zip(new_texts, predictions):print(f"'{text}' -> {'Spam' if label == 1 else 'Ham'}")

示例输出：

'Win a free iPhone!' -> Spam
'Meeting at 9 PM online.' -> Ham
'Get rich fast with this simple trick!' -> Spam

5.3 使用 OpenAI API 进行文本分类

如果你不想训练自己的模型，可以直接使用 OpenAI 的 GPT 进行文本分类。

步骤

获取 OpenAI API Key
调用 OpenAI API 进行文本分类
解析 API 结果

Step 1：安装 `openai` 库

!pip install openai

Step 2：编写 API 调用代码

import openai# 设置 API Key（你需要在 OpenAI 官网申请）
openai.api_key = "your-api-key"def classify_text(text):response = openai.chat.completions.create(model="gpt-4",messages=[{"role": "system", "content": "You are a text classification assistant."},{"role": "user", "content": f"Classify the following message as 'spam' or 'ham': {text}"}])return response.choices[0].message.content# 测试 API
test_messages = ["Win a free iPhone!", "Let's have lunch together."]
for msg in test_messages:print(f"'{msg}' -> {classify_text(msg)}")

示例输出

'Win a free iPhone!' -> I would classify this message as 'spam'.
'Let's have lunch together.' -> The message "Let's have lunch together" can be classified as 'ham'.

总结

你学习了 文本分类的基本概念。
你用 scikit-learn 训练了一个垃圾邮件分类器。
你使用 OpenAI API 进行文本分类，并且可以轻松调用预训练模型。
你可以尝试 不同的数据集和任务，比如情感分析、新闻分类等。

下节课，我们将介绍词向量和文本表示（Word Embeddings），帮助你理解 NLP 如何将文本转化为计算机可理解的数值表示！ 🚀

自然语言处理NLP入门 -- 第四节文本分类

目标本章的目标是帮助你理解文本分类的基本概念，并通过具体示例学习如何使用 scikit-learn 训练文本分类模型，以及如何利用 OpenAI API 进行文本分类。 5.1 什么是文本分类？ 文本分类（Text Classification）是自然语…...

编程日记 2025/2/14 21:51:42

【redis】数据类型之bitmaps

Redis的Bitmaps是一种基于字符串的数据结构，用于处理位级别的操作。虽然Bitmaps在Redis中并不是一种独立的数据类型，而是基于字符串实现的，但它们提供了高效的位操作功能，适用于需要处理大量布尔值或二进制数据的场景。基本概念…...

编程日记 2025/2/14 21:48:35

计算机网络-MPLS转发原理

在上一篇关于 MPLS 基础的文章中，我们了解了 MPLS 的基本概念、术语以及它在网络中的重要性。今天，我们将深入探讨 MPLS 转发的原理与流程，帮助大家更好地理解 MPLS 是如何在实际网络中工作的。一、MPLS 转发概述 MPLS 转发的本质是将数据…...

编程日记 2025/2/14 21:46:23

5. 【.NET 8 实战--孢子记账--从单体到微服务--转向微服务】--微服务基础工具与技术--Nacos

一、什么是Nacos Nacos 是阿里巴巴开源的一款云原生应用基础设施，它旨在简化微服务架构中服务治理和配置管理的复杂性。通过 Nacos，服务在启动时可以自动注册，而其他服务则可以通过名称来查找并访问这些注册好的实例。同时，Nacos…...

编程日记 2025/2/14 21:39:06

【每日关注】科技圈重要动态

时代新动态 2025 年 2 月 12 日科技圈重要动态总结全球 AI 治理新进展巴黎 AI 宣言签署，美英缺席科技巨头合作与竞争苹果联姻阿里开发中国版AI功能DeepSeek生态持续扩展OpenAI拒绝马斯克收购，矛盾公开化汽车行业动态小米汽车销量跃居新势力第二比亚迪智…...

编程日记 2025/2/14 21:36:54

【算法】用C++实现A*算法

A*算法的背景与原理 A*（A-Star）算法是一种广泛应用于路径规划和图搜索问题中的启发式搜索算法。它结合了Dijkstra算法的广度优先搜索和贪心最佳优先搜索的优点，通过引入启发式函数来估计从当前节点到目标节点的成本，从而有效地减少搜索空间。A*算法的核心思想是使用一个评…...

编程日记 2025/2/14 21:35:49

细胞计数专题 | LUNA-FX7™新自动对焦算法提高极低细胞浓度下的细胞计数准确性

现代细胞计数仪采用自动化方法，在特定浓度范围内进行细胞计数。其上限受限于在高浓度条件下准确区分细胞边界的能力，而相机视野等因素则决定了下限。在图像中仅包含少量可识别细胞或特征的情况下，自动对焦可能会失效，从而影响细胞…...

编程日记 2025/2/14 21:32:45

记一次Self XSS+CSRF组合利用

视频教程在我主页简介或专栏里 （不懂都可以来问我专栏找我哦） 目录：　确认 XSS 漏洞确认 CSRF 漏洞这个漏洞是我在应用程序的订阅表单中发现的一个 XSS 漏洞，只能通过 POST 请求进行利用。通常情况下，基于 POST 的…...

编程日记 2025/2/14 21:31:43

JVM 类加载子系统在干什么？

JVM 类加载子系统是什么？ 类加载子系统（Class Loader Subsystem）是 JVM 负责加载、链接和初始化 .class 文件的组件。它的主要作用是将字节码文件加载进 JVM 并准备执行。类加载器（ClassLoader）是字节码的搬运工&…...

编程日记 2025/2/14 21:30:40

Golang轻松实现消息模板变量替换：text/template

text/template 是 Go 语言标准库中的一个包，用于生成文本输出。它通过解析模板并根据给定的数据执行模板来生成最终的文本。text/template 提供了强大的模板引擎，支持条件判断、循环、变量替换等功能。基本概念模板：模板是一个文本文件或…...

编程日记 2025/2/14 21:29:31

DeepSeek模型R1服务器繁忙，怎么解决？

在当今科技飞速发展的时代，人工智能领域不断涌现出令人瞩目的创新成果，其中DeepSeek模型无疑成为了众多关注焦点。它凭借着先进的技术和卓越的性能，在行业内掀起了一股热潮，吸引了无数目光。然而，如同许多前沿技术在发…...

编程日记 2025/2/14 21:18:08

《探秘Windows 10驱动开发：从入门到实战》

《探秘Windows 10驱动开发：从入门到实战》为什么要在 Windows 10 编写驱动程序在当今数字化时代，计算机已成为人们生活和工作中不可或缺的工具，而 Windows 10 作为一款广泛使用的操作系统，其生态系统的丰富性和复杂性不言而喻。在这个庞大的体系中，驱动程序扮演着举足…...

编程日记 2025/2/14 21:17:03

Golang的容器化部署流程

# Golang的容器化部署流程什么是容器化部署容器化部署是将应用程序、运行环境及其依赖项打包在一起，以便可以在任何环境中快速、一致地运行的技术。它提供了更高效的资源利用、更便捷的部署和更稳定的环境。的容器化支持天生支持跨平台编译，使得将Go…...

编程日记 2025/2/14 21:14:58

计算机网络，大白话

好嘞，咱就从头到尾，给你好好说道说道计算机网络里这些“门门道道”的概念： 1. 网络（Network） 啥是网络？ 你可以把网络想象成一个“大Party”，大家（设备）聚在一起&#…...

编程日记 2025/2/14 21:12:53

智慧城市V4系统小程序源码独立版全插件全开源

智慧城市V4系统小程序源码：多城市代理同城信息服务的全域解决方案在数字化浪潮的推动下，智慧城市已成为全球发展的核心战略。作为这一领域的革新者，智慧城市V4系统小程序源码凭借其多城市代理同城信息服务能力与多商家营销功能，…...

编程日记 2025/2/14 21:09:45

SpringBoot分布式应用程序和数据库在物理位置分配上、路由上和数量上的最佳实践是什么？

在设计和部署Spring Boot分布式应用程序时，物理位置分配、路由和数据库数量的最佳实践对系统性能、可用性和可维护性至关重要。以下是相关建议： 1. 物理位置分配最佳实践： 靠近用户部署：将应用实例部署在靠近用户的数据中心&a…...

编程日记 2025/2/14 21:07:39

【LeetCode Hot100 哈希】两数之和、字母异位词分组、最长连续序列

哈希 1. 两数之和题目描述解题思路步骤：时间复杂度：空间复杂度： 代码实现 2. 字母异位词分组题目描述解题思路步骤：时间复杂度：空间复杂度： 代码实现 3. 最长连续序列题目描述解题思路关键思路：…...

编程日记 2025/2/14 21:05:32

Jenkins 通过 Execute Shell 执行 shell 脚本七

Jenkins 通过 Execute Shell 执行 shell 脚本七一、创建 .sh 文件项目目录下新建 .sh 文件 jenkins-script\shell\ci_android_master.sh添加 Execute Shell 模块在 Command 中添加 # 获取 .sh 路径 CI_ANDROID_MASTER_PATH"${WORKSPACE}/jenkins-script/shell/…...

编程日记 2025/2/14 21:03:28

无人机常见的定位方式

目录 1、卫星导航定位 2、基于地面基站定位 3、惯性导航定位 4、视觉定位 5、其他定位技术目前无人机的定位方式主要有以下几种： 1、卫星导航定位 GPS 定位：全球定位系统是应用最广泛的卫星导航系统，无人机上的 GPS 接收器接收至少四…...

编程日记 2025/2/14 21:02:26

【Git版本控制器】：第一弹——Git初识，Git安装,创建本地仓库，初始化本地仓库，配置config用户名，邮箱信息

🎁个人主页：我们的五年 🔍系列专栏：Linux网络编程 🌷追光的人，终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章相关笔记： https://blog.csdn.net/dj…...

编程日记 2025/2/14 21:01:21

Taotoken为Claude Code用户提供稳定替代方案解决封号与Token不足痛点

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Taotoken为Claude Code用户提供稳定替代方案解决封号与Token不足痛点 1. 场景与需求许多使用Claude Code进行开发的工程师会遇到…...

编程新知 2026/5/11 10:52:20

CommandAI：用自然语言驱动命令行，AI赋能开发运维效率革命

1. 项目概述：当命令行遇上AI，效率革命的新起点如果你和我一样，每天有超过一半的工作时间是在终端（Terminal）里度过的，那你一定对命令行（Command Line）又爱又恨。爱的是它的高效、精…...

编程新知 2026/5/11 8:34:29

Sonixd多语言支持详解：国际化(i18n)实现原理和本地化最佳实践

Sonixd多语言支持详解：国际化(i18n)实现原理和本地化最佳实践【免费下载链接】sonixd A full-featured Subsonic/Jellyfin compatible desktop music player 项目地址: https://gitcode.com/gh_mirrors/so/sonixd Sonixd是一款功能强大的桌面音乐播放器&…...

编程新知 2026/5/11 8:09:41

XUnity.AutoTranslator完整指南：让Unity游戏告别语言障碍的终极解决方案

XUnity.AutoTranslator完整指南：让Unity游戏告别语言障碍的终极解决方案【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾因为语言不通而错过精彩的日本RPG游戏？是否面对欧…...

编程新知 2026/5/11 7:28:24

Letta框架：全栈AI应用开发，从模型集成到部署上线的完整解决方案

1. 项目概述：一个开箱即用的AI应用开发框架最近在折腾AI应用开发的朋友，估计都绕不开一个核心痛点：想法很美好，落地很骨感。从模型调用、提示词工程，到前后端集成、状态管理，再到部署上线，每个环…...

编程新知 2026/5/11 6:21:26

TTS听觉校对法：技术写作质量提升的工程实践指南

1. 为什么我们需要“听”自己的文字：一个被忽视的校对革命作为一名写了十几年技术文档和博客的老兵，我敢说，最让我头疼的不是构思，也不是码字，而是最后那一步——校对。你肯定也经历过：一封精心撰写的邮件发…...

编程新知 2026/5/11 6:12:32

LLMs之Benchmarks：《ProgramBench: Can Language Models Rebuild Programs From Scratch?》翻译与解读

LLMs之Benchmarks：《ProgramBench: Can Language Models Rebuild Programs From Scratch?》翻译与解读导读：ProgramBench 把软件工程 agent 的评测从“局部修补”推进到“从零重建程序”，通过程序文档、行为级测试和 agent-driven fuzzing …...

编程新知 2026/5/11 5:31:01