当前位置: 首页 > news >正文

1 — NLP 的文本预处理技术

一、说明

        在本文中,我们将讨论以下主题:1为什么文本预处理很重要?2 文本预处理技术。这个文对预处理做一个完整化、程序化处理,这对NLP处理项目中有很大参考性。

二、为什么文本预处理很重要?

        数据质量显着影响机器学习模型的性能。数据不足或质量低下可能会导致模型的准确性和有效性降低。

        一般来说,源自自然语言的文本数据是非结构化的且有噪声。因此,文本预处理是将杂乱的非结构化文本数据转换为可有效用于训练机器学习模型的形式的关键步骤,从而获得更好的结果和见解。

三、文本预处理技术

3.1 预处理流程

文本预处理是指用于将原始文本数据清理、转换和准备为适合 NLP 或 ML 任务的格式的一系列技术。文本预处理的目标是提高文本数据的质量和可用性,以供后续分析或建模。

文本预处理通常涉及以下步骤:

  • 小写
  • 删除标点符号和特殊字符
  • 停用词删除
  • 删除 URL
  • 删除 HTML 标签
  • 词干提取和词形还原
  • 代币化
  • 文本规范化

NLP 系统通常使用部分或全部这些文本预处理技术。应用这些技术的顺序可能会根据项目的需要而有所不同。

让我们按顺序解释一下文本预处理技术。

3.2 Lowercasing

        Lowercasing 是一个文本预处理步骤,将文本中的所有字母转换为小写。执行此步骤是为了使算法不会在不同情况下对相同的单词进行不同的处理。

text = "Hello WorlD!"
lowercased_text = text.lower()print(lowercased_text)
Output:
hello world!

3.3 删除标点符号和特殊字符

        标点符号删除是一个文本预处理步骤,您可以从文本中删除所有标点符号(例如句号、逗号、感叹号、表情符号等)以简化文本并专注于单词本身。

import retext = "Hello, world! This is?* 💜an&/|~^+%'\" example- of text preprocessing."punctuation_pattern = r'[^\w\s]'text_cleaned = re.sub(punctuation_pattern, '', text)print(text_cleaned)
Output:
Hello world This is an example of text preprocessing

3.4 停用词删除

        停用词是对句子的含义没有贡献的词。因此,可以将它们删除而不会导致句子含义发生任何变化。NLTK 库有一组停用词,我们可以使用它们从文本中删除停用词并返回单词标记列表。删除这些可以帮助您专注于重要的单词。

from nltk.corpus import  stopwords# remove english stopwords function
def remove_stopwords(text, language):stop_words = set(stopwords.words(language))word_tokens = text.split()filtered_text = [word for word in word_tokens if word not in stop_words]print(language)print(filtered_text)en_text = "This is a sample sentence and we are going to remove the stopwords from this"
remove_stopwords(en_text, "english")tr_text = "bu cümledeki engellenen kelimeleri kaldıracağız"
remove_stopwords(tr_text, "turkish")
english
['This', 'sample', 'sentence', 'going', 'remove', 'stopwords']turkish
['cümledeki', 'engellenen', 'kelimeleri', 'kaldıracağız']

如果仔细检查输出,您会注意到在第一句中,单词“this”被删除,但“This”未被删除。因此,在应用此步骤之前,有必要将句子转换为小写并删除标点符号。

3.5 删除 URL

        此预处理步骤是删除数据中存在的任何 URL。

def remove_urls(text):url_pattern = re.compile(r'https?://\S+|www\.\S+')return url_pattern.sub(r'', text)text = "I hope it will be a useful article for you. Follow me: https://medium.com/@ayselaydin"
remove_urls(text)
Output:
I hope it will be a useful article for you. Follow me: 

3.6 删除 HTML 标签

        删除 HTML 标签是一个文本预处理步骤,用于清除 HTML 文档中的文本数据。当处理从网页或其他 HTML 格式源获取的文本数据时,文本可能包含 HTML 标签,这对于文本分析或机器学习模型来说是不可取的。因此,从文本数据中删除 HTML 标签非常重要。

import retext = """<html><div>
<h1>Aysel Aydin</h1>
<p>Text Preprocessing for NLP</p>
<a href="https://medium.com/@ayselaydin">Medium account</a>
</div></html>"""html_tags_pattern = r'<.*?>'text_without_html_tags = re.sub(html_tags_pattern, '', text)print(text_without_html_tags)
Output:
Aysel Aydin
Text Preprocessing for NLP
Medium account
        我将在下一篇文章中详细介绍最后 3 种技术。

四、结论

        这些只是自然语言处理的一些技术。一旦使用这些方法从非结构化文本中提取信息,就可以直接在聚类练习和机器学习模型中使用或使用它,以提高其准确性和性能。

相关文章:

1 — NLP 的文本预处理技术

一、说明 在本文中&#xff0c;我们将讨论以下主题&#xff1a;1为什么文本预处理很重要&#xff1f;2 文本预处理技术。这个文对预处理做一个完整化、程序化处理&#xff0c;这对NLP处理项目中有很大参考性。 二、为什么文本预处理很重要&#xff1f; 数据质量显着影响机器学习…...

TypeScript之泛型

一、是什么 泛型程序设计&#xff08;generic programming&#xff09;是程序设计语言的一种风格或范式 泛型允许我们在强类型程序设计语言中编写代码时使用一些以后才指定的类型&#xff0c;在实例化时作为参数指明这些类型 在typescript中&#xff0c;定义函数&#xff0c;…...

一个小妙招从Prompt菜鸟秒变专家!加州大学提出PromptAgent,帮你高效使用ChatGPT!

夕小瑶科技说 原创 作者 | 谢年年、王二狗 有了ChatGPT、GPT4之后&#xff0c;我们的工作学习效率得到大大提升&#xff08;特别在凑字数方面୧(๑•̀◡•́๑)૭&#xff09;。 作为一个工具&#xff0c;有人觉得好用&#xff0c;自然也有人觉得难用。 要把大模型用得6&am…...

Netty通信框架

Netty框架的底层是NIO&#xff0c;NIO&#xff1a;non-blocking io 非阻塞IO 一个线程可以处理多个通道&#xff0c;减少线程创建数量&#xff1b; 读写非阻塞&#xff0c;节约资源&#xff1a;没有可读&#xff0f;可写数据时&#xff0c;不会发生阻塞导致线程资源的浪费 一…...

6西格玛质量标准: 提升业务效率的关键

在现代竞争激烈的商业环境中&#xff0c;企业需要不断提高效率&#xff0c;降低成本&#xff0c;同时确保产品和服务的质量。为了达到这个目标&#xff0c;许多企业已经转向了6西格玛质量标准。这个方法旨在通过最小化缺陷和提高流程稳定性来优化业务运作&#xff0c;为客户提供…...

OpenGL ES相关库加载3D 车辆模型

需求类似奇瑞的这个效果&#xff0c;就是能全方位旋转拖拽看车&#xff0c;以及点击开关车门车窗后备箱等 瑞虎9全景看车 (chery.cn) 最开始收到这个需求的时候还有点无所适从&#xff0c;因为以前没有做过类似的效果&#xff0c;后面一经搜索后发现实现的方式五花八门&#xf…...

云原生环境下JAVA应用容器JVM内存如何配置?—— 筑梦之路

Docker环境下的JVM参数非定值配置 —— 筑梦之路_docker jvm设置-CSDN博客 之前简单地记录过一篇&#xff0c;这里在之前的基础上更加细化一下。 场景说明 使用Java开发且设置的JVM堆空间过小时&#xff0c;程序会出现系统内存不足OOM&#xff08;Out of Memory&#xff09;的…...

防雷接地测试方法完整方案

防雷接地是保障电力系统、电子设备和建筑物安全的重要措施&#xff0c;防雷接地测试是检验防雷接地装置是否合格的必要手段。本文介绍了防雷接地测试的原理、方法和注意事项&#xff0c;以及如何编写防雷接地测试报告。 地凯科技防雷接地测试的原理 防雷接地测试的基本原理是…...

【云原生-K8s】Kubernetes安全组件CIS基准kube-beach安装及使用

基础介绍kube-beach介绍kube-beach 下载百度网盘下载wget下载 kube-beach安装kube-beach使用基础参数示例结果说明 基础介绍 为了保证集群以及容器应用的安全&#xff0c;Kubernetes 提供了多种安全机制&#xff0c;限制容器的行为&#xff0c;减少容器和集群的攻击面&#xf…...

玩家必备,2款顶级游戏录屏软件!

“游戏怎么录屏呀&#xff1f;最近迷上了网游&#xff0c;觉得自己的游戏技术挺厉害的&#xff0c;想把游戏视频录下来出一个教程&#xff0c;方便给朋友进行参考&#xff0c;但是我不会录屏&#xff0c;大家有没有游戏录屏的软件或者方法推荐一下。” 随着游戏产业的飞速发展…...

七、W5100S/W5500+RP2040树莓派Pico<UDP 组播>

文章目录 1. 前言2. 相关简介2.1 简述2.2 优点2.3 应用 3. WIZnet以太网芯片4. UDP 组播回环测试4.1 程序流程图4.2 测试准备4.3 连接方式4.4 相关代码4.5 测试现象 5. 注意事项6. 相关链接 1. 前言 UDP组播是一种基于UDP协议的通信方式&#xff0c;它允许一台计算机通过发送单…...

Wonder3D:用单张图片生成纹理网格

Wonder3D 只需 2 ∼ 3 分钟即可从单视图图像重建高度详细的纹理网格。 Wonder3D首先通过跨域扩散模型生成一致的多视图法线图和相应的彩色图像&#xff0c;然后利用新颖的法线融合方法实现快速、高质量的重建。 推荐&#xff1a;用 NSDT编辑器 快速搭建可编程3D场景 1、推理准…...

macOS 创建Flutter项目

参考在 macOS 上安装和配置 Flutter 开发环境 - Flutter 中文文档 - Flutter 中文开发者网站 - Flutter 这个文档&#xff0c;配置好flutter的环境 编辑器可以选择vscode或者IDEA。 我这里以IDEA为例 打开 IDE 并选中 New Flutter Project。 选择 Flutter&#xff0c;验证 F…...

【微服务 Spring Cloud Alibaba】- Nacos 服务注册中心

目录 1. 什么是注册中心&#xff1f; 1.2 注册中心的作用 2. SpringBoot 整合 Nacos 实现服务注册中心 2.1 将服务注册到 Nacos 2.2 实现消费者 3. 服务列表各个参数的含义、作用以及应用场景 1. 什么是注册中心&#xff1f; 注册中心是微服务架构中的一个重要组件&…...

windows openssl安装和基本使用

OpenSSL使用 私钥和证书文件 openssl req -x509 -newkey rsa:4096 -keyout key.pem -out cert.pem -sha256 -days 365这是一个使用OpenSSL命令行工具生成自签名X.509证书的命令。通过执行该命令&#xff0c;您将生成一个4096位RSA密钥对&#xff0c;并使用该密钥对生成一个自…...

Qt Concurrent框架详解(QFuture、QFutureWatcher)

1.概述 Qt Concurrent是Qt提供的一个并发编程框架&#xff0c;用于简化多线程和并行计算的开发。它提供了一组易于使用的函数和类&#xff0c;可以方便地在多线程环境下处理并发任务。 有以下特点&#xff1a; 简单易用&#xff1a;Qt Concurrent提供了一组高级函数和类&…...

zip函数用法:解压与打包

解释 在 Python 中&#xff0c;zip 函数可以用于两种情况&#xff1a;打包&#xff08;压缩&#xff09;和解压&#xff08;解包&#xff09;。 1.打包&#xff08;压缩&#xff09;&#xff1a; 当传递多个可迭代对象作为参数给 zip 函数时&#xff0c;它会将这些可迭代对象…...

这一份免费API接口集合,开发者必备

台风信息查询&#xff1a;提供西北太平洋及南海地区过去两年及当前年份所有编号台风的信息查询&#xff0c;包括台风实时位置、过去路径、预报路径及登陆信息等要素。未来7天生活指数&#xff1a;支持国内3400个城市以及国际4万个城市的天气指数数据&#xff0c;包括晨练、洗车…...

【IDEA】设置sql提示

第一步&#xff1a;注入SQL语言 1.首先选择任意一条sql语句&#xff0c;右击&#xff0c;选择 ‘显示上下文操作’ 2.选择 ‘注入语言或引用’ 3. 往下翻&#xff0c;找到MySQL 第二步&#xff1a;配置MySQL数据库连接 1.首先点击侧边的数据库&#xff0c;再点击上面的加号 2…...

Swagger + DOCWAY 一步导出为优雅完整的Markdown、Pdf接口文档

只要开发&#xff0c;只要写接口应该没人不知道Swagger&#xff0c;但DOCWAY可能知道的人不多&#xff0c;但知道用过后就离不开了&#xff0c;不管是作为多方联调的接口文档&#xff0c;还是交接给客户的文档&#xff0c;都是可以的&#xff0c;具体如何使用&#xff0c;详细步…...

MQTTX连接风暴下的ECONNRESET:从异常表象到服务端会话队列的深度剖析

1. 当MQTTX遭遇连接风暴&#xff1a;ECONNRESET异常现象解析 第一次看到控制台刷出"READ ECONNRESET"错误时&#xff0c;我正端着咖啡准备测试新部署的MQTT集群。这个看似简单的网络断开提示&#xff0c;背后隐藏着服务端会话队列的深度博弈。想象一下早高峰的地铁闸…...

STM32WU55蓝牙开发避坑指南:从官方例程到8通道肌电信号传输实战

STM32WU55蓝牙开发避坑指南&#xff1a;从官方例程到8通道肌电信号传输实战 当肌电信号采集遇上低功耗蓝牙&#xff0c;工程师们往往面临一个尴尬的平衡&#xff1a;既要满足医疗级数据精度&#xff0c;又要兼顾穿戴设备的续航需求。STM32WU55系列以其双核架构和集成射频模块&a…...

赶考状元AI学伴的优势是什么:不止于解题,更在于育人

在当今教育数字化战略行动深入推进的背景下&#xff0c;AI与教育的融合已成为发展新质生产力的重要实践。从国家层面看&#xff0c;教育数字化转型正引领着建设教育强国的方向&#xff0c;而AI教育应用也从课程试点逐步走向普及。在这一宏大趋势中&#xff0c;赶考状元AI学伴脱…...

VibeVoice语音合成快速入门:Web应用搭建,支持音频文件保存

VibeVoice语音合成快速入门&#xff1a;Web应用搭建&#xff0c;支持音频文件保存 1. 引言&#xff1a;为什么选择VibeVoice&#xff1f; 想象一下&#xff0c;你正在开发一个需要语音交互的应用&#xff0c;或者需要为大量文本内容生成有声版本。传统语音合成方案要么延迟高…...

RePKG:解锁Wallpaper Engine壁纸资源的三大核心功能

RePKG&#xff1a;解锁Wallpaper Engine壁纸资源的三大核心功能 【免费下载链接】repkg Wallpaper engine PKG extractor/TEX to image converter 项目地址: https://gitcode.com/gh_mirrors/re/repkg 你是否曾经看着Wallpaper Engine里精美的动态壁纸&#xff0c;想要提…...

nli-distilroberta-base一文详解:开源NLI大模型在语义推理场景的落地应用

nli-distilroberta-base一文详解&#xff1a;开源NLI大模型在语义推理场景的落地应用 1. 项目概述 nli-distilroberta-base是一个基于DistilRoBERTa模型的自然语言推理(NLI)Web服务&#xff0c;专门用于判断两个句子之间的逻辑关系。这个轻量级模型继承了RoBERTa的强大语义理…...

Android蓝牙HFP连接实战:从SDK调用到底层状态机全解析(附避坑指南)

Android蓝牙HFP连接实战&#xff1a;从SDK调用到底层状态机全解析&#xff08;附避坑指南&#xff09; 在移动设备互联场景中&#xff0c;蓝牙免提协议&#xff08;HFP&#xff09;作为语音通话的核心传输通道&#xff0c;其连接稳定性直接影响用户体验。本文将深入Android蓝牙…...

告别低效写作:盘点2026年备受推崇的AI论文写作工具

一天写完毕业论文在2026年已不再是天方夜谭。最新实测显示&#xff0c;2026年AI论文写作工具正在重新定义学术效率&#xff0c;覆盖选题构思、文献综述、内容生成、格式排版等核心场景&#xff0c;真正帮你高效搞定论文&#xff0c;省时又省力。 一、全流程王者&#xff1a;一站…...

浅谈项目运行时,jvm是如何工作的

最近研究了一下项目运行时&#xff0c;jvm是如何工作的&#xff0c;按照自己的理解画的图&#xff0c;一块复习一下有不对的地方&#xff0c;欢迎大家一块讨论...

Llama-3.2V-11B-cot应用场景:文化遗产数字化中壁画破损区域逻辑复原

Llama-3.2V-11B-cot应用场景&#xff1a;文化遗产数字化中壁画破损区域逻辑复原 1. 项目背景与价值 壁画作为人类文明的重要载体&#xff0c;在长期保存过程中常面临褪色、剥落、破损等问题。传统修复工作依赖专家经验&#xff0c;存在效率低、成本高、主观性强等痛点。Llama…...