当前位置：首页 > news >正文

使用 Python 进行自然语言处理第 3 部分：使用 Python 进行文本预处理

news 2026/2/9 11:17:22

一、说明

文本预处理涉及许多将文本转换为干净格式的任务，以供进一步处理或与机器学习模型一起使用。预处理文本所需的具体步骤取决于具体数据和您手头的自然语言处理任务。

常见的预处理任务包括：

文本规范化——将文本转换为标准表示形式，例如全部小写。
删除停用词、标点符号、特殊单词或文本片段，例如井号标签、URL、表情符号、非 ASCII 字符等。
词干提取——从文本单词中删除后缀
词形化 - 将单词转化为它们的引理形式（引理是字典中存在的单词的形式）。
拼写更正——更正任何拼写错误
通过绘图进行探索性分析

NLTK、SpaCy 等库提供内置的文本预处理功能。

二、文本预处理

2.1 文本预处理的好处

降维：包含许多单词的文本文档可以表示为多维向量。文档的每个单词都是向量的维度之一。应用文本处理有助于删除对您所针对的实际 NLP 任务可能没有意义的单词，从而减少数据的维度，这反过来又有助于解决维数灾难问题并提高 NLP 任务的性能。

2.2 文本预处理

下载到您的计算机并将其加载到 pandas 数据框中。如果使用 read_csv()，请使用编码 = 'latin-1'。数据集有很多列，我们只对这篇关于文本预处理的文章的原始推文列感兴趣。

# Read the dataset into a dataframe
import pandas as pd
train_data = pd.read_csv('Corona_NLP_train.csv',  encoding='latin-1')
train_data.head()# Remove the columns not relevant to Text-Preprocessing Task
train_data = train_data.drop(['UserName', 'ScreenName', 'Location', 'TweetAt', 'Sentiment'], axis = 1)
train_data.columns

2.3 小写转换

#1. Case Conversion to Lower Case
train_data['OriginalTweet'] = train_data['OriginalTweet'].str.lower()
train_data.head()

2.4 删除停用词和标点符号

#Remove stop words and punctuation marks
#https://stackoverflow.com/questions/29523254/python-remove-stop-words-from-pandas-dataframe
import nltk
import string
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
stopwordsandpunct = stop_words + list(string.punctuation)train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(lambda w:' '.join(w for w in w.split() if w not in stopwordsandpunct))
train_data['OriginalTweet']

2.5 删除 URL

# Remove URLs from all the tweets
import re
def remove_url(tweet):tweet = re.sub(r'\w+:\/{2}[\d\w-]+(\.[\d\w-]+)*(?:(?:\/[^\s/]*))*', '', tweet)return tweettrain_data['OriginalTweet'] = train_data['OriginalTweet'].apply(remove_url)
train_data['OriginalTweet'].head()

2.6 删除提及和井号标签

# remove mentions and hashtags
def remove_mentions_hashs(tweet):tweet = re.sub("@[A-Za-z0-9_]+","", tweet) #Remove mentionstweet = re.sub("#[A-Za-z0-9_]+","", tweet) #Remove hashtagsreturn tweettrain_data['OriginalTweet'] = train_data['OriginalTweet'].apply(remove_mentions_hashs)
train_data['OriginalTweet'].head()

2.7 删除表情符号

# Removing emojis from tweets
# Source Credit: https://stackoverflow.com/a/49146722/330558
import re
def remove_emojis(tweet):pat = re.compile("["u"\U0001F600-\U0001F64F"  # emoticonsu"\U0001F300-\U0001F5FF"  # symbols & pictographsu"\U0001F680-\U0001F6FF"  # transport & map symbolsu"\U0001F1E0-\U0001F1FF"  # flags (iOS)u"\U00002702-\U000027B0"u"\U000024C2-\U0001F251""]+", flags=re.UNICODE)return pat.sub(r'', tweet)train_data['OriginalTweet'] =train_data['OriginalTweet'].apply(remove_emojis)
train_data.head()

2.8 删除非 ASCII 字符

#https://docs.python.org/2/library/unicodedata.html#unicodedata.normalize
import unicodedata
def remove_nonascii(text):text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8', 'ignore')# apply compatibility decompositionreturn text
train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(remove_nonascii)
train_data.head()

2.9 删除空字符串

import string
def remove_empty_strings1(tweet):tweet = re.sub(r"^\s+|\s+$", 'NaN', tweet)return tweet
train_data['OriginalTweet'] =train_data['OriginalTweet'].apply(remove_empty_strings1)

2.10 删除主题标签、URL 后删除所有包含 NaN 的行

train_data = train_data[train_data['OriginalTweet'] != 'NaN']# Now resetting index of Data frame
train_data = train_data.reset_index(drop = True)

三、文本内容预处理

3.1 使用 TextBlob 进行拼写更正

# Spelling correction
import warnings
warnings.filterwarnings("ignore")
from textblob import TextBlob   
train_data['SpellCorrectedTweet'] = train_data['OriginalTweet'].apply(lambda x : str(TextBlob(x).correct()))
train_data.head()

3.2 使用 NLTK 的内置 Tokenizer 进行标记化

# Now we will perform tokenization
import nltk
from nltk import word_tokenize
tokenizer = nltk.tokenize.WhitespaceTokenizer()
def tokenize(text):return tokenizer.tokenize(text)train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(tokenize)
train_data['OriginalTweet'].head()

3.3 使用 NLTK 的 WordNetLemmatizer 进行词形还原

import nltk
tokenizer = nltk.tokenize.WhitespaceTokenizer()
lemmatizer = nltk.stem.WordNetLemmatizer()def lemmatize(text):return [lemmatizer.lemmatize(w) for w in text]train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(lemmatize)
train_data.head()

3.4 使用 NLTK 的 PorterStemmer 进行词干提取

# Stemming
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()def stemming(text):return [stemmer.stem(w) for w in text]train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(stemming)
train_data.head()

3.5 计算推文中最常见的单词

# Counting most frequent words in tweets
#https://docs.python.org/3/library/itertools.html#itertools.chain
import itertools
import collections
all_tweets = list(train_data["OriginalTweet"])
all_tokens = list(itertools.chain(*all_tweets))
token_counts = collections.Counter(all_tokens)# Print 10 most common words with their frequency
print(token_counts.most_common(10))# Convert above words and frequencies to a dataframe
df = pd.DataFrame(token_counts.most_common(20), columns=['Token','Count'])
df.head()# Plotting frequencies using Matplotlib barplot
import matplotlib.pyplot as plt
plt.rcParams["figure.figsize"] = (12,8)
df.sort_values(by = 'Count').plot.bar(x='Token', y='Count')
plt.title('Most Used Words')
plt.show()

四、总结

本文总结出关于文本预处理的大多数处理方法。对于文本处理的实际过程，可以抽取某些过程进行整合处理。对于更加特殊的处理也可以特别处理。

下一篇文章介绍文本表示技术：

使用 Python 进行自然语言处理第 4 部分：文本表示

使用 Python 进行自然语言处理第 3 部分：使用 Python 进行文本预处理

一、说明文本预处理涉及许多将文本转换为干净格式的任务，以供进一步处理或与机器学习模型一起使用。预处理文本所需的具体步骤取决于具体数据和您手头的自然语言处理任务。常见的预处理任务包括： 文本规范化——将文本转换为标准表示形式，…...

编程日记 2024/2/4 21:41:35

Python新春烟花盛宴

写在前面哈喽小伙伴们，博主在这里提前祝大家新春快乐呀！我用Python绽放了一场新春烟花盛宴，一起来看看吧！ 环境需求 python3.11.4及以上PyCharm Community Edition 2023.2.5pyinstaller6.2.0（可选，这个库…...

编程日记 2024/2/4 21:40:34

【QT+QGIS跨平台编译】之二十：【xerces+Qt跨平台编译】（一套代码、一套框架，跨平台编译）

文章目录一、xerces介绍二、文件下载三、文件分析四、pro文件五、编译实践一、xerces介绍 Xerces是一个开源的XML解析器，由Apache软件基金会维护。它是用Java语言编写的，提供了对XML文档进行解析、验证和操作的功能。Xerces具有高性能和广泛的兼容性，可用于各种Java应用程…...

编程日记 2024/2/4 21:34:28

18.通过telepresence调试部署在Kubernetes上的微服务

Telepresence简介在微服务架构中，本地开发和调试往往是一项具有挑战性的任务。Telepresence 是一种强大的工具，使得开发者本地机器上开发微服务时能够与运行在 Kubernetes 集群中的其他服务无缝交互。本文将深入探讨 Telepresence 的架构、运行原理，并通过实际的案例演示其…...

编程日记 2024/2/4 21:33:28

QT 范例阅读：系统托盘 The System Tray Icon example

main.cpp QApplication app(argc, argv);//判断系统是否支持系统托盘功能if (!QSystemTrayIcon::isSystemTrayAvailable()) {QMessageBox::critical(0, QObject::tr("Systray"),QObject::tr("I couldnt detect any system tray ""on this system.&qu…...

编程日记 2024/2/4 21:29:25

OpenAI Gym 高级教程——深度强化学习库的高级用法

Python OpenAI Gym 高级教程：深度强化学习库的高级用法在本篇博客中，我们将深入探讨 OpenAI Gym 高级教程，重点介绍深度强化学习库的高级用法。我们将使用 TensorFlow 和 Stable Baselines3 这两个流行的库来实现深度强化学习算法&#xff…...

编程日记 2024/2/4 21:28:23

K8sGPT 会彻底改变你对 Kubernetes 的认知

在不断发展的 Kubernetes （K8s） 环境中，AI 驱动技术的引入继续重塑我们管理和优化容器化应用程序的方式。K8sGPT 是一个由人工智能驱动的尖端平台，在这场变革中占据了中心位置。本文探讨了 K8sGPT 在 Kubernetes 编排领域的主要特…...

编程日记 2024/2/4 21:27:22

计组学习笔记2024/2/4

1.计算机的发展历程 2.计算机硬件的基本组成存储器 -> 就是内存. 3.各个硬件的部件寄存器 -> 用来存放二进制数据. 各个硬件的工作原理视频留白,听完后边课程之后再来理解理解. 冯诺依曼计算机的特点: 1.计算机由五大部件组成 2.指令和数据以同等地位存于存储器,…...

编程日记 2024/2/4 21:25:19

25种Google的搜索技巧

背景目前浏览器、搜索引擎，想必各位已经很熟悉了，但不代表想要知道的事情就一定可以通过搜索引擎搜索出来。大部分人的搜索技巧都在小学。所以本文就会系统总结一个 GOOGLE 搜索的一些技巧，来提高搜索效率。首先呢，本文只保证 GOOGLE 有效，其他搜索引擎自己尝试，因为我…...

编程日记 2024/2/4 21:20:14

769933-15-5，Biotin aniline，可以合成多种有机化合物和聚合物

您好，欢迎来到新研之家文章关键词：769933-15-5，Biotin aniline，生物素苯胺，生物素-苯胺一、基本信息产品简介：Biotin Aniline，一种具有重要生物学功能的化合物，不仅参与了维生…...

编程日记 2024/2/4 21:18:12

回归预测 | Matlab实现POA-CNN-LSTM-Attention鹈鹕算法优化卷积长短期记忆网络注意力多变量回归预测（SE注意力机制）

回归预测 | Matlab实现POA-CNN-LSTM-Attention鹈鹕算法优化卷积长短期记忆网络注意力多变量回归预测（SE注意力机制） 目录回归预测 | Matlab实现POA-CNN-LSTM-Attention鹈鹕算法优化卷积长短期记忆网络注意力多变量回归预测（SE注意力机制&…...

编程日记 2024/2/4 21:15:08

B站视频在电商中的应用：如何利用item_get_video API提高转化率

在数字媒体时代，视频已成为电商领域中不可或缺的营销工具。B站作为中国最大的弹幕视频网站之一，拥有庞大的用户群体和活跃的社区。将B站与电商结合，利用其独特的视频API（如item_get_video）可以带来诸多商业机会。本文将…...

编程日记 2024/2/4 21:12:04

【Linux】统信服务器操作系统V20 1060a-AMD64 Vmware安装

目录编辑一、概述 1.1 简介 1.2 产品特性 1.3 镜像下载二、虚拟机安装一、概述 1.1 简介官网：统信软件 – 打造操作系统创新生态统信服务器操作系统V20是统信操作系统（UOS）产品家族中面向服务器端运行环境的，是一款…...

编程日记 2024/2/4 21:06:59

c++类继承

一、继承的规则 （1）基类成员在派生类中的访问权限不得高于继承方式中指定的权限。例如，当继承方式为protected时，那么基类成员在派生类中的访问权限最高也为protected，高于protected会降级为protected，但低…...

编程日记 2024/2/4 21:04:57

Git 指令

Git 安装操作命令行简介： Git 是一个开源的分布式版本控制系统，用于敏捷高效地处理任何或小或大的项目。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion …...

编程日记 2024/2/4 21:01:53

JAVA中的多态参数

1.方法定义的参数类型为父类类型，实参类型允许为子类类型 public class Ploy_parameter {public static void main(String[] args) {Manage jack new Manage("jack",12000,3000);Staff tom new Staff("tom",10000);Ploy_parameter ploy_para…...

编程日记 2024/2/4 20:58:50

Ubuntu Linux 下安装和卸载cmake 3.28.2版本

一、安装cmake 1.首先，先从cmake官网下载cmake-3.28.2-linux-x86_64.tar.gz 2.用FinalShell 等文件上传工具，将这个压缩包上传到虚拟机的某个路径去（自选） 3. cd /usr/local/bin/，然后创建cmake文件夹，…...

编程日记 2024/2/4 20:57:49

【C++】类和对象3：默认成员函数之析构函数

前言这篇文章我们来学习默认成员函数中的析构函数概念析构函数：与构造函数功能相反，析构函数不是完成对对象本身的销毁，局部对象销毁工作是由编译器完成的。而对象在销毁时会自动调用析构函数，完成对象中资源的清理工作。 …...

编程日记 2024/2/4 20:55:47

2024美赛C题完整解题教程及代码网球运动的势头

2024 MCM Problem C: Momentum in Tennis （网球运动的势头） 注：在网球运动中，"势头"通常指的是比赛中因一系列事件（如连续得分）而形成的动力或趋势，这可能对比赛结果产生重要影响。球…...

编程日记 2024/2/4 20:53:46

二、人工智能之提示工程(Prompt Engineering)

黑8说岁月如流水匆匆过，哭一哭笑一笑不用说。黑8自那次和主任谈话后，对这个“妖怪”继续研究，开始学习OpenAI API！关注到了提示工程(Prompt Engineering)的重要性，它包括明确的角色定义、自然语言理解（…...

编程日记 2024/2/4 20:51:44

uniapp 对接腾讯云IM群组成员管理（增删改查）

UniApp 实战：腾讯云IM群组成员管理（增删改查） 一、前言在社交类App开发中，群组成员管理是核心功能之一。本文将基于UniApp框架，结合腾讯云IM SDK，详细讲解如何实现群组成员的增删改查全流程。权限校验…...

编程新知 2026/1/13 9:59:27

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

编辑：陈萍萍的公主一点人工一点智能未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

编程新知 2026/2/7 23:18:28

python打卡day49

知识点回顾： 通道注意力模块复习空间注意力模块CBAM的定义作业：尝试对今天的模型检查参数数目，并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...

编程新知 2026/2/7 5:37:17

土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测；从基础到高级，涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等

🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术，可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势，还能有效评价重大生态工程…...

编程新知 2025/9/12 15:10:44

鱼香ros docker配置镜像报错：https://registry-1.docker.io/v2/

使用鱼香ros一件安装docker时的https://registry-1.docker.io/v2/问题一键安装指令 wget http://fishros.com/install -O fishros && . fishros出现问题：docker pull 失败网络不同，需要使用镜像源按照如下步骤操作 sudo vi /etc/docker/dae…...

编程新知 2025/12/31 6:28:08

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现（两者等价），用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例： 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

编程新知 2025/11/21 22:02:37