NLP学习路线图(十三):正则表达式
在自然语言处理(NLP)的浩瀚宇宙中,原始文本数据如同未经雕琢的璞玉。而文本预处理,尤其是其中至关重要的正则表达式技术,正是将这块璞玉转化为精美玉器的核心工具集。本文将深入探讨正则表达式在NLP文本预处理中的原理、技巧与实践应用。
一、文本预处理:NLP的基石
为什么预处理至关重要?
-
数据质量决定模型上限
-
噪声数据(HTML标签、特殊符号、乱码)导致特征稀疏
-
不一致的格式(日期/货币表达)干扰模型学习
-
研究表明:预处理可提升文本分类准确率5-15%
-
-
维度灾难的应对
原始文本的极高维度(如所有可能字符组合)通过清洗、标准化、分词被压缩到可计算范围
预处理核心流程
二、正则表达式:文本处理的瑞士军刀
基础元字符详解
字符 | 功能 | 示例 | 匹配结果 |
---|---|---|---|
. | 任意单字符 | a.c | abc, aac, axc |
\d | 数字 | \d{3} | 123, 001 |
\w | 单词字符 | \w+ | hello, word3 |
\s | 空白字符 | hello\swo | 'hello wo' |
^ | 行首 | ^Dear | 信件开头 |
$ | 行尾 | end$ | 行末的end |
高级特性实战
-
贪婪 vs 惰性匹配
-
".*"
匹配整句:<div>Content</div>
→ 整个标签 -
".*?"
最小匹配:<div>(.*?)</div>
→ 仅"Content"
-
-
零宽断言(Lookaround)
-
提取价格数值:
(?<=\$)\d+\.\d{2}
→ "$19.99"中匹配"19.99" -
排除停用词:
\b(?!the\b)\w+\b
-
-
命名捕获组
pattern = r"(?P<area>\d{3})-(?P<prefix>\d{3})-(?P<line>\d{4})" match = re.search(pattern, "Phone: 123-456-7890") print(match.group('area')) # 输出:123
三、NLP预处理中的正则表达式实战
1. 深度数据清洗
import redef clean_text(text):# 删除HTML标签text = re.sub(r'<[^>]+>', '', text) # 移除URL链接text = re.sub(r'https?://\S+|www\.\S+', '[URL]', text)# 过滤特殊字符(保留中英文及常用标点)text = re.sub(r'[^\w\u4e00-\u9fff\.,!?;:’\'"\-]', ' ', text)# 合并连续空格text = re.sub(r'\s+', ' ', text)return text.strip()
2. 结构化信息抽取
# 抽取邮件地址
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text)# 识别中文身份证号
id_cards = re.findall(r'\b[1-9]\d{5}(?:19|20)\d{2}(?:0[1-9]|1[0-2])(?:0[1-9]|[12]\d|3[01])\d{3}[\dXx]\b', text)
3. 文本标准化
# 日期统一格式化
text = re.sub(r'(\d{4})[-/年](\d{1,2})[-/月](\d{1,2})日?', r'\1年\2月\3日', text)# 货币标准化
text = re.sub(r'¥\s*(\d+(?:\.\d+)?)', r'人民币\1元', text)
4. 高级分词辅助
# 处理英文缩略词
text = re.sub(r"\b([A-Z])\.", r"\1", text) # U.S.A → USA# 分离粘连词
text = re.sub(r"([a-z])([A-Z])", r"\1 \2", text) # "helloWorld" → "hello World"
四、性能优化与陷阱规避
正则表达式引擎原理
-
DFA vs NFA引擎
Python的re
模块使用NFA引擎,支持回溯但需警惕灾难性回溯# 危险示例:指数级复杂度 re.match(r'(a+)+$', 'aaaaaaaaX') # 输入稍长即卡死
-
编译重用提升效率
# 错误做法:每次调用重新编译 for text in texts:re.sub(r'\d+', '', text)# 正确优化:预编译模式 digit_pattern = re.compile(r'\d+') for text in texts:digit_pattern.sub('', text)
常见陷阱解决方案
-
Unicode匹配问题
# 匹配中文字符(需开启Unicode支持) re.findall(r'\p{Han}+', text, re.UNICODE) # 使用regex库更佳
-
多行模式混淆
# 需明确指定多行模式 re.findall(r'^##\s(.+)$', text, re.MULTILINE)
五、超越基础:正则表达式在现代NLP中的位置
虽然深度学习(如BERT)减少了对严格规则的需求,但正则表达式仍在关键场景不可替代:
-
工业级数据流水线
在亿级文本的预处理中,正则表达式仍是最高效的首选工具 -
领域自适应
医疗文本中处理"COVID-19"
、"CT影像"
等专业术语 -
规则+模型的混合系统
graph TB A[输入文本] --> B{规则匹配} B -->|匹配成功| C[直接输出结果] B -->|匹配失败| D[深度学习模型] D --> E[模型输出]
结语:掌握文字炼金术
正则表达式不是冰冷的符号组合,而是一种精确描述语言规律的元语言。在NLP实践中:
-
避免"正则万能论":复杂语法(如嵌套引用)可读性差,应考虑其他方案
-
牢记"82法则":20%的常用模式(如
\w+
,\d{4}
)解决80%的问题 -
结合上下文:预处理需服务于下游任务,电商评论与学术论文的处理策略截然不同
附录:正则表达式速查表
基础类:\d 数字 \D 非数字\w 单词 \W 非单词\s 空白 \S 非空白量词:* 0或多 + 1或多? 0或1 {n} n次{n,} ≥n次 {m,n} m到n次高级:(?:...) 非捕获分组 (?=...) 正向预查(?!...) 负向预查 (?<=...) 反向肯定预查
相关文章:

NLP学习路线图(十三):正则表达式
在自然语言处理(NLP)的浩瀚宇宙中,原始文本数据如同未经雕琢的璞玉。而文本预处理,尤其是其中至关重要的正则表达式技术,正是将这块璞玉转化为精美玉器的核心工具集。本文将深入探讨正则表达式在NLP文本预处理中的原理…...
[VMM]现代 CPU 中用于加速多级页表查找的Page‐Table Entry原理
现代 CPU 中用于加速多级页表查找的Page‐Table Entry原理 摘要:以下从背景、结构、查找流程、一致性与性能影响等方面,详细介绍现代 CPU 中用于加速多级页表查找的 Page-Walk Cache(也称 Walker Cache 或 Page‐Table Entry Cache࿰…...

javaweb-maven以及http协议
1.maven坐标: 坐标是资源的唯一标识,通过该坐标可以唯一定位资源位置; 2.坐标的组成: groupId:定义当前项目隶书的组织名称; artifactId:定义当前maven项目名称 version:定义项目版本 3.依…...

华为OD机试真题—— 最少数量线段覆盖/多线段数据压缩(2025A卷:100分)Java/python/JavaScript/C++/C语言/GO六种最佳实现
2025 A卷 100分 题型 本文涵盖详细的问题分析、解题思路、代码实现、代码详解、测试用例以及综合分析; 并提供Java、python、JavaScript、C++、C语言、GO六种语言的最佳实现方式! 2025华为OD真题目录+全流程解析/备考攻略/经验分享 华为OD机试真题《最少数量线段覆盖/多线段数…...

C语言创意编程:用趣味实例玩转基础语法(2)
文章目录 0. 前言1. 📊 动态条形图1.1 程序效果展示1.2 完整代码解析1.3 关键技术详解1.3.1 Unicode字符应用1.3.2 函数封装思想1.3.3 输入处理1.3.4 跨平台考虑 2. 🔤 字母金字塔2.1 程序效果展示2.2 完整代码解析2.3 关键技术详解2.3.1 嵌套循环结构2.…...
关于近期中国移动民用家庭网络,新增的UDP网络限制。
在近期中国移动在全国一定范围普及新的打击 “PCDN、P2P、HY/HY2” 等流氓网络应用的技术方案,并接入在 “省/州” 的边界网关路由上。 根据遥测数据的具体研究分析,且本人曾非常生气的详细质询过,移动城域网管理人员,可以确认该技…...

OpenCV CUDA模块图像处理------颜色空间处理之GPU 上对两张带有 Alpha 通道的图像进行合成操作函数alphaComp()
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 该函数用于在 GPU 上对两张带有 Alpha 通道的图像进行合成操作。支持多种常见的 Alpha 合成模式(Porter-Duff 合成规则)&…...

OpenWebUI(1)源码学习构建
1. 前言 通过docker镜像拉取安装就不介绍了,官方的命令很多。本节主要撸一撸源码,所以,本地构建 2. 技术框架和启动环境 后端python,前端svelte 环境要求:python > 3.11 ,Node.js > 20.10 3. 源…...

npm error Cannot find module ‘negotiator‘ 的处理
本想运行npm create vuelatest,但提示: npm error code MODULE_NOT_FOUND npm error Cannot find module negotiator npm error Require stack: npm error - C:\Users\Administrator\AppData\Roaming\nvm\v18.16.1\node_modules\npm\node_modules\tuf-j…...

爬虫入门指南-某专利网站的专利数据查询并存储
免责声明 本教程仅用于教育目的,演示如何合法获取公开专利数据。在实际操作前,请务必: 1. 仔细阅读目标网站的robots.txt文件和服务条款 2. 控制请求频率,避免对服务器造成负担 3. 仅获取和使用公开数据 4. 不用于商业用途或…...

SQL(Database Modifications)
目录 Insertion Specifying Attributes in INSERT Adding Default Values(缺省值) Inserting Many Tuples Creating a Table Using the SELECT INTO Statement Deletion Example: Deletion Semantics of Deletion Updates Example: Update Sev…...

【android bluetooth 案例分析 04】【Carplay 详解 2】【Carplay 连接之手机主动连车机】
1. 背景 在【android bluetooth 案例分析 04】【Carplay 详解 1】【CarPlay 在车机侧的蓝牙通信原理与角色划分详解】中我们从整理上介绍了车机中 carplay 相关基础概念。 本节 将详细分析 iphone手机主动 连接 车机carplay 这一过程。 先回顾一下 上一节, carpla…...
maven离线将jar包导入到本地仓库中
想将本地的 jnetpcap.jar 包安装到 Maven 的本地仓库中,以便在项目中通过如下依赖方式引用。 <dependency><groupId>org.jnetpcap</groupId><artifactId>jnetpcap...

【仿muduo库实现并发服务器】实现时间轮定时器
实现时间轮定时器 1.时间轮定时器原理2.项目中实现目的3.实现功能3.1构造定时任务类3.2构造时间轮定时器每秒钟往后移动添加定时任务刷新定时任务取消定时任务 4.完整代码 1.时间轮定时器原理 时间轮定时器的原理类似于时钟,比如现在12点,定一个3点的闹…...
Conda更换镜像源教程:加速Python包下载
Conda更换镜像源教程:加速Python包下载 为什么要更换conda镜像源? Conda作为Python的包管理和环境管理工具,默认使用的是国外镜像源,在国内下载速度往往较慢。通过更换为国内镜像源,可以显著提高包下载速度ÿ…...
蓝桥杯 盗墓分赃2
原题目链接 问题描述 在一个探险者的团队中,小明和小红是合作的盗墓贼。 他们成功盗取了一座古墓中的宝藏,包括 n 件不同重量的珍贵文物和黄金,第 i 件宝藏的重量为 ai。 现在,他们希望公平地分配这些宝藏,使得小明…...
深度解读 Qwen3 大语言模型的关键技术
一、模型架构设计 Qwen3 延续了当前主流大型语言模型的 Transformer 架构,并在此基础上进行了多项增强设计,包含特殊的 Transformer 变体、位置编码机制改进、混合专家 (MoE) 技术引入,以及支持多模态和双重思考模式的新特性。 1. Transformer 基础架构与增强 基础架构:…...
使用 mysqldump 获取 MySQL 表的完整创建 DDL
要获取 MySQL 中某个表的完整创建 DDL(仅结构,不含数据),可以使用 mysqldump 工具的以下命令: 基本命令格式 bash mysqldump -h [主机名] -u [用户名] -p --no-data --single-transaction --routines --triggers --…...

day15 leetcode-hot100-28(链表7)
2. 两数相加 - 力扣(LeetCode) 1.模拟 思路 最核心的一点就是将两个链表模拟为等长,不足的假设为0; (1)设置一个新链表newl来代表相加结果。 (2)链表1与链表2相加,具…...
阿里云云效对接SDK获取流水线制品
参考文档: API旧版 企业令牌 https://help.aliyun.com/zh/yunxiao/developer-reference/api-reference API新版 个人令牌 https://help.aliyun.com/zh/yunxiao/developer-reference/api-reference-standard-proprietary API 个人令牌 https://www.alibabacloud.com…...
Qt 相关 编译流程及交叉编译 部署所遇到的问题总结-持续更新
准备环境和工具 1、主机环境 ubuntu20 2、交叉编译器 gcc-linaro-6.3.1…arm-linux-gnuebihf 3、QT5源码包qt-5.11.3_sources 下载qt-5.11.3的包,自己想办法下载 网盘啥的 都ok,再访问下载目录就可以显示了。 Index of /archive/qt 4、依赖库安装 sudo …...
前端面经 DNSxieyi1
域名解析协议 域名转为目标IP地址 两种方式 1 递归查询 A请求B B一定会告诉IP 2迭代查询 A请求B 如果B无能 ,B会告诉A如何获得改内容,但是B自己不会发出请求1 步骤 1.检查浏览器DNS 2.没有命中继续查询操作系统的DNS缓存 3.查询本地域名服务器&…...
如何通过ES实现SQL风格的查询?
一、Spring项目集成方案 添加依赖(pom.xml): <dependency><groupId>co.elastic.clients</groupId><artifactId>elasticsearch-java</artifactId><version>8.12.0</version> </dependency> <dependency><…...

知识图谱:重构认知的智能革命
在数字经济的浪潮中,知识图谱正悄然掀起一场认知革命。它不仅是技术的迭代,更是人类从“数据依赖”迈向“知识驱动”的里程碑。当谷歌用知识图谱优化搜索引擎、银行用它穿透复杂的金融欺诈网络、医院用它辅助癌症诊疗时,这项技术已悄然渗透到…...
【计算机网络】4网络层①
这篇笔记讲IPv4和IPv6。 为了解决“IP地址耗尽”问题,有三种措施: ①CIDR(延长IPv4使用寿命) ②NAT(延长IPv4使用寿命) ③IPv6(从根本上解决IP地址耗尽问题) IPv6 在考研中考查频率较低,但需掌握基础概念以防冷门考点,重点结合数据报格式和与 IPv4 的对比记忆。…...

MATLAB中的table数据类型:高效数据管理的利器
MATLAB中的table数据类型:高效数据管理的利器 什么是table数据类型? MATLAB中的table是一种用于存储列向数据的数据类型,它将不同类型的数据组织在一个表格结构中,类似于电子表格或数据库表。自R2013b版本引入以来,t…...

Dropout 在大语言模型中的应用:以 GPT 和 BERT 为例
引言 大型语言模型(LLMs)如 GPT(生成式预训练 Transformer)和 BERT(双向编码器表示 Transformer)通过其强大的语言理解和生成能力,彻底改变了自然语言处理(NLP)领域。然…...
CentOS 7 如何安装libsndfile?
CentOS 7 如何安装libsndfile? # 配置编译环境 yum install -y gcc gcc-c make# 下载libsndfile压缩软件包 wget http://www.mega-nerd.com/libsndfile/files/libsndfile-1.0.25.tar.gztar -xf libsndfile-1.0.25.tar.gz cd libsndfile-1.0.25./configure --prefix/home/libs…...
基于深度学习的语音识别系统设计与实现
以下是为您准备的《基于深度学习的语音识别系统》技术文档,内容包含完整实现方案和详细代码解析: 基于深度学习的语音识别系统设计与实现 目录 语音识别技术概述系统架构设计语音信号预处理深度神经网络模型构建端到端语音识别实现模型训练与优化策略部署与性能优化完整代码…...

gitLab 切换中文模式
点击【头像】--选择settings 选择【language】,选择中文,点击【保存】即可。...