当前位置: 首页 > article >正文

Python 正则表达式详解:从原理到实践

Python 正则表达式详解从原理到实践1. 背景与动机正则表达式Regular Expression是一种用于匹配字符串中字符组合的模式它在文本处理、数据提取、验证等场景中发挥着重要作用。Python 的re模块提供了对正则表达式的支持使得我们可以方便地进行复杂的字符串操作。正则表达式的应用场景非常广泛数据验证验证邮箱、电话号码、URL 等格式是否正确数据提取从文本中提取特定信息如日期、价格、身份证号等文本替换批量替换文本中的特定内容日志分析从日志文件中提取关键信息网页爬虫从 HTML 页面中提取数据2. 核心概念与原理2.1 正则表达式的基本概念正则表达式是由普通字符如字母、数字和特殊字符如元字符组成的字符串模式用于描述字符串的特征。2.2 元字符及其含义元字符含义示例.匹配任意单个字符除换行符外a.c匹配 abc、adc 等^匹配字符串的开始^abc匹配以 abc 开头的字符串$匹配字符串的结束abc$匹配以 abc 结尾的字符串*匹配前面的字符零次或多次ab*c匹配 ac、abc、abbc 等匹配前面的字符一次或多次abc匹配 abc、abbc 等但不匹配 ac?匹配前面的字符零次或一次ab?c匹配 ac、abc但不匹配 abbc{n}匹配前面的字符恰好 n 次ab{2}c匹配 abbc{n,}匹配前面的字符至少 n 次ab{2,}c匹配 abbc、abbbc 等{n,m}匹配前面的字符至少 n 次最多 m 次ab{2,3}c匹配 abbc、abbbc[]匹配括号内的任意一个字符[abc]匹配 a、b 或 c[^]匹配不在括号内的任意一个字符[^abc]匹配除 a、b、c 之外的任意字符匹配左右任意一个表达式()捕获分组(ab)匹配 ab、abab 等\转义字符\.匹配字面意义的点2.3 特殊字符类特殊字符类含义示例\d匹配任意数字等价于[0-9]\d匹配一个或多个数字\D匹配任意非数字等价于[^0-9]\D匹配一个或多个非数字\w匹配任意字母、数字或下划线等价于[a-zA-Z0-9_]\w匹配一个或多个字母、数字或下划线\W匹配任意非字母、数字或下划线等价于[^a-zA-Z0-9_]\W匹配一个或多个非字母、数字或下划线\s匹配任意空白字符包括空格、制表符、换行符等\s匹配一个或多个空白字符\S匹配任意非空白字符\S匹配一个或多个非空白字符3. Python 正则表达式的使用3.1 re 模块的核心函数re.match()从字符串的开始位置匹配正则表达式只匹配一次。import re pattern r^\d text 123abc456 result re.match(pattern, text) print(result) # re.Match object; span(0, 3), match123 print(result.group()) # 123re.search()在整个字符串中搜索正则表达式只匹配一次。import re pattern r\d text abc123def456 result re.search(pattern, text) print(result) # re.Match object; span(3, 6), match123 print(result.group()) # 123re.findall()在整个字符串中搜索正则表达式返回所有匹配的结果。import re pattern r\d text abc123def456ghi789 result re.findall(pattern, text) print(result) # [123, 456, 789]re.finditer()在整个字符串中搜索正则表达式返回一个迭代器包含所有匹配的结果。import re pattern r\d text abc123def456ghi789 result re.finditer(pattern, text) for match in result: print(match.group(), match.span()) # 123 (3, 6) # 456 (9, 12) # 789 (15, 18)re.sub()替换字符串中匹配的部分。import re pattern r\d text abc123def456ghi789 result re.sub(pattern, X, text) print(result) # abcXdefXghiX # 使用函数进行替换 def replace_func(match): return str(int(match.group()) * 2) result re.sub(pattern, replace_func, text) print(result) # abc246def912ghi1578re.split()根据正则表达式分割字符串。import re pattern r\s text abc def ghi result re.split(pattern, text) print(result) # [abc, def, ghi]3.2 正则表达式的编译对于频繁使用的正则表达式可以使用re.compile()编译提高性能。import re pattern re.compile(r\d) text abc123def456ghi789 # 使用编译后的正则表达式 result pattern.findall(text) print(result) # [123, 456, 789]4. 正则表达式实战4.1 数据验证邮箱验证import re def validate_email(email): pattern r^[a-zA-Z0-9._%-][a-zA-Z0-9.-]\.[a-zA-Z]{2,}$ return bool(re.match(pattern, email)) # 测试 print(validate_email(userexample.com)) # True print(validate_email(userexample)) # False print(validate_email(user.com)) # False电话号码验证import re def validate_phone(phone): pattern r^1[3-9]\d{9}$ return bool(re.match(pattern, phone)) # 测试 print(validate_phone(13812345678)) # True print(validate_phone(12345678901)) # False print(validate_phone(1381234567)) # FalseURL 验证import re def validate_url(url): pattern r^https?:\/\/(www\.)?[-a-zA-Z0-9:%._\~#]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9():%_\.~#?//]*)$ return bool(re.match(pattern, url)) # 测试 print(validate_url(https://www.example.com)) # True print(validate_url(http://example.com/path)) # True print(validate_url(example.com)) # False4.2 数据提取提取日期import re def extract_dates(text): pattern r\d{4}-\d{2}-\d{2} return re.findall(pattern, text) # 测试 text Today is 2024-03-30, tomorrow is 2024-03-31. print(extract_dates(text)) # [2024-03-30, 2024-03-31]提取价格import re def extract_prices(text): pattern r¥(\d\.\d{2}) return re.findall(pattern, text) # 测试 text The price is ¥199.99, and the discount is ¥50.00. print(extract_prices(text)) # [199.99, 50.00]提取 HTML 标签内容import re def extract_html_tags(text, tag): pattern fr{tag}(.*?)/{tag} return re.findall(pattern, text, re.DOTALL) # 测试 html divHello/divdivWorld/div print(extract_html_tags(html, div)) # [Hello, World]4.3 文本替换替换表情符号import re def replace_emojis(text): pattern r[\U00010000-\U0010ffff] return re.sub(pattern, [EMOJI], text) # 测试 text Hello World print(replace_emojis(text)) # Hello [EMOJI] World [EMOJI]格式化电话号码import re def format_phone(phone): pattern r(\d{3})(\d{4})(\d{4}) return re.sub(pattern, r\1-\2-\3, phone) # 测试 phone 13812345678 print(format_phone(phone)) # 138-1234-56785. 性能评估与优化5.1 正则表达式性能对比import re import time # 测试不同正则表达式的性能 def test_performance(): text a * 1000000 # 测试贪婪匹配 start_time time.time() re.findall(ra, text) greedy_time time.time() - start_time # 测试非贪婪匹配 start_time time.time() re.findall(ra?, text) non_greedy_time time.time() - start_time # 测试编译后的正则表达式 pattern re.compile(ra) start_time time.time() pattern.findall(text) compiled_time time.time() - start_time print(f贪婪匹配时间: {greedy_time:.6f} 秒) print(f非贪婪匹配时间: {non_greedy_time:.6f} 秒) print(f编译后匹配时间: {compiled_time:.6f} 秒) test_performance()5.2 常见性能问题及解决方案性能问题原因解决方案回溯爆炸正则表达式中存在嵌套的重复量词避免使用嵌套的重复量词如(a)*过度匹配使用贪婪量词导致匹配范围过大使用非贪婪量词如.*?代替.*频繁编译每次使用都重新编译正则表达式使用re.compile()编译正则表达式复杂模式正则表达式过于复杂分解复杂正则表达式为多个简单表达式6. 最佳实践与注意事项6.1 最佳实践使用原始字符串在定义正则表达式时使用原始字符串以r开头可以避免 Python 字符串转义的问题。编译正则表达式对于频繁使用的正则表达式使用re.compile()编译可以提高性能。使用非贪婪匹配在需要匹配尽可能少的字符时使用非贪婪量词如*?、?。使用分组使用括号()进行分组可以提取匹配的部分或进行复杂的匹配。使用命名分组对于复杂的正则表达式使用命名分组如(?Pnamepattern)可以提高代码的可读性。测试正则表达式使用在线工具如 regex101.com测试正则表达式的匹配效果。6.2 注意事项转义字符在正则表达式中一些字符具有特殊含义需要使用\进行转义。性能问题复杂的正则表达式可能会导致性能问题特别是在处理大量文本时。可读性过于复杂的正则表达式会降低代码的可读性建议添加注释或分解为多个简单的表达式。边界条件需要考虑各种边界情况确保正则表达式能够正确处理各种输入。安全性在处理用户输入时需要注意正则表达式的安全性避免正则表达式拒绝服务攻击ReDoS。7. 代码优化建议7.1 使用编译后的正则表达式# 优化前每次使用都重新编译 for i in range(1000): re.findall(r\d, text) # 优化后编译一次多次使用 pattern re.compile(r\d) for i in range(1000): pattern.findall(text)7.2 避免回溯爆炸# 优化前可能导致回溯爆炸 pattern r(a)*b # 优化后避免嵌套重复 pattern ra*b7.3 使用非贪婪匹配# 优化前贪婪匹配可能匹配过多 pattern rdiv(.*)/div # 优化后使用非贪婪匹配 pattern rdiv(.*?)/div7.4 使用命名分组提高可读性# 优化前使用数字索引访问分组 pattern r(\d{4})-(\d{2})-(\d{2}) match re.match(pattern, 2024-03-30) year match.group(1) month match.group(2) day match.group(3) # 优化后使用命名分组 pattern r(?Pyear\d{4})-(?Pmonth\d{2})-(?Pday\d{2}) match re.match(pattern, 2024-03-30) year match.group(year) month match.group(month) day match.group(day)7.5 分解复杂正则表达式# 优化前复杂的单个正则表达式 pattern r^[a-zA-Z0-9._%-][a-zA-Z0-9.-]\.[a-zA-Z]{2,}$ # 优化后分解为多个简单的正则表达式 def validate_email(email): # 检查基本格式 if not in email: return False # 分割用户名和域名 username, domain email.split() # 检查用户名 if not re.match(r^[a-zA-Z0-9._%-]$, username): return False # 检查域名 if not re.match(r^[a-zA-Z0-9.-]\.[a-zA-Z]{2,}$, domain): return False return True8. 结论正则表达式是 Python 中处理字符串的强大工具它可以帮助我们快速、灵活地进行文本匹配、提取和替换操作。通过掌握正则表达式的基本概念、元字符和使用方法我们可以在各种文本处理场景中提高效率。在实际应用中我们需要注意选择合适的正则表达式函数如re.match()、re.search()、re.findall()等优化正则表达式的性能避免回溯爆炸等问题提高正则表达式的可读性使用注释和命名分组测试正则表达式的正确性确保能够处理各种边界情况通过本文的学习相信你已经对 Python 正则表达式有了更深入的理解希望你能够在实际项目中灵活运用这些技巧提高文本处理的效率和准确性。

相关文章:

Python 正则表达式详解:从原理到实践

Python 正则表达式详解:从原理到实践 1. 背景与动机 正则表达式(Regular Expression)是一种用于匹配字符串中字符组合的模式,它在文本处理、数据提取、验证等场景中发挥着重要作用。Python 的 re 模块提供了对正则表达式的支持&am…...

Minecraft 1.12.2 彩色渐变字体模组:打造个性化聊天与物品命名

1. RGB Chat模组:让你的Minecraft文字绚丽多彩 还在用单调的白色文字聊天吗?RGB Chat模组彻底改变了Minecraft 1.12.2版本的文字显示方式。这个轻量级模组只有几百KB大小,却能给你的游戏体验带来质的飞跃。我第一次在服务器里看到彩色渐变文字…...

Vue3+Cesium实战:解决404报错与Webpack配置优化指南

1. 为什么你的Cesium地图总是加载失败? 第一次在Vue3项目里集成Cesium时,我也被那些莫名其妙的404报错搞得焦头烂额。明明按照文档配置了,地图就是不显示,控制台一片红。后来才发现,90%的问题都出在资源路径配置上。 C…...

Python箱线图实战:从原理到自定义异常值边界

1. 箱线图的核心原理与构成要素 箱线图(Box Plot)是数据分析中最实用的可视化工具之一,它用五个关键数值概括一组数据的分布特征。很多初学者容易把箱线图的上下边缘误解为数据集的最大最小值,这其实是个常见误区。让我用一个实际…...

深度学习模型可解释性详解:从原理到实践

深度学习模型可解释性详解:从原理到实践 1. 背景与动机 随着深度学习模型在各个领域的广泛应用,模型的可解释性变得越来越重要。深度学习模型通常被视为"黑盒",其内部决策过程难以理解,这在医疗、金融、法律等关键领域应…...

GitLab中文版在Windows Docker部署后,解决‘git clone’和‘git push’失败的几个关键检查点

GitLab中文版Windows Docker部署后git clone和git push故障排查指南 当你终于完成了GitLab中文版在Windows Docker上的部署,准备大展拳脚时,却发现git clone和git push命令频频报错,这种挫败感我深有体会。本文将带你系统排查四个关键环节&am…...

别只改.prettierrc了!从Git配置到CI/CD,一劳永逸解决团队换行符冲突

从Git配置到CI/CD:彻底解决团队协作中的换行符冲突 跨平台协作开发时,换行符问题就像鞋里的一粒沙子——看似微不足道,却能让整个团队步履维艰。当Windows的CRLF遇上Unix的LF,不仅会导致Prettier报出恼人的Delete ␍错误&#xff…...

OpenWrt SDK实战:如何用SDK高效开发自定义驱动和应用

OpenWrt SDK实战:如何用SDK高效开发自定义驱动和应用 在嵌入式开发领域,OpenWrt因其高度模块化和可定制性成为路由器及物联网设备的首选操作系统。但对于需要频繁修改驱动或开发定制应用的工程师来说,每次完整编译整个系统不仅耗时耗力&#…...

嵌入式开发五大常见Bug解析与解决方案

1. 嵌入式开发中的五大常见Bug根源解析在嵌入式系统开发领域,代码质量直接关系到产品的可靠性和稳定性。作为一名经历过多个嵌入式项目的开发者,我深刻体会到某些类型的bug特别顽固且难以排查。这些bug往往在实验室测试中难以复现,却在现场运…...

Ubuntu系统通过命令行与GUI配置以太网固定IPv4地址全指南

1. 为什么需要固定IP地址? 在日常使用Ubuntu系统时,大多数情况下我们都会选择自动获取IP地址(DHCP)。这种方式简单方便,特别适合家庭网络环境。但如果你正在搭建服务器、进行网络调试,或者需要远程访问这台…...

用Python+Matplotlib动手验证:标准DH和改进DH建模同一机械臂,结果真的相同吗?

PythonMatplotlib实战:标准DH与改进DH建模机械臂的等价性验证 机械臂运动学建模是机器人学中的基础课题,而Denavit-Hartenberg(DH)参数法则是其中最经典的建模方法之一。标准DH(sDH)与改进DH(mD…...

MoveIt2的KDL插件不好用?手把手教你自定义关节权重,优化机械臂运动优先级

MoveIt2关节权重调优实战:如何让冗余机械臂按你的想法运动 当机械臂的第七个关节开始不受控制地乱转,而前三个关节却几乎不动时,大多数工程师的第一反应是"这IK算法有问题"。但真相往往是:算法没问题,只是它…...

告别校园网登录页!实测用UDP 53端口“曲线救国”上网的几种姿势与风险提示

校园网络优化:提升连接效率的合法实践指南 校园网络作为师生日常学习研究的重要基础设施,其稳定性和访问效率直接影响教学科研质量。许多用户在使用过程中会遇到认证页面频繁弹出、连接不稳定等问题,这通常与网络架构设计和流量管理策略有关。…...

别再硬调PI参数了!手把手教你用MATLAB/Simulink搞定PMSM FOC电流环整定(附模型下载)

永磁同步电机FOC控制:从电流环整定到系统优化的工程实践 永磁同步电机(PMSM)因其高效率、高功率密度和优异的动态性能,在工业驱动、电动汽车和航空航天等领域得到广泛应用。而磁场定向控制(FOC)作为PMSM的主…...

深入解析MMU:从虚拟地址到物理地址的转换机制

1. 为什么需要虚拟地址? 想象一下你正在玩一个大型多人在线游戏,游戏里每个玩家都有自己的房子、装备和任务进度。如果所有玩家的数据都混在一起存放,你的装备可能会被隔壁玩家不小心拿走,甚至整个游戏世界都会乱套。虚拟地址的出…...

命名实体识别工具:从技术突破到业务价值重构

命名实体识别工具:从技术突破到业务价值重构 【免费下载链接】W2NER 项目地址: https://gitcode.com/gh_mirrors/w2/W2NER 1 解锁NER效率新范式 传统NER为何在长文本中频频失效? 当面对医疗病例中"高血压引发的左心室肥厚导致劳力性呼吸困…...

AUTOSAR SPI配置进阶:如何为你的车载传感器设计高效可靠的通信序列?

AUTOSAR SPI配置进阶:车载传感器通信序列设计实战指南 在智能驾驶系统开发中,SPI总线作为连接毫米波雷达、IMU等关键传感器的神经末梢,其通信效率直接影响着环境感知的实时性。传统配置手册往往止步于基础参数说明,而本文将带您深…...

避坑指南:从零搭建Anaconda+CUDA+PyTorch+Pycharm深度学习环境

1. 深度学习环境配置全景图 刚接触深度学习的新手往往会在环境配置这一步卡住好几天。我见过太多人在Anaconda、CUDA、PyTorch的版本兼容性问题上来回折腾,最后连代码都没开始写就放弃了。其实只要理解这四个核心组件的关系,配置过程就会变得清晰很多。 …...

Smelpro Macaron多模无线开发板技术解析

1. Smelpro Macaron 开发板深度技术解析Smelpro Macaron 是一款面向物联网(IoT)边缘节点设计的高性能多模无线开发平台。其核心价值在于将 ESP32-S3 的强大处理能力与 RAK3172 多协议射频模块深度融合,构建出一个可同时覆盖 LoRaWAN、Sigfox、…...

创新音乐体验:foobox-cn全攻略

创新音乐体验:foobox-cn全攻略 【免费下载链接】foobox-cn DUI 配置 for foobar2000 项目地址: https://gitcode.com/GitHub_Trending/fo/foobox-cn 在数字音乐时代,如何将本地播放器与网络电台无缝融合,打造个性化的音乐中心&#xf…...

ngx_http_join_exact_locations

1 定义 ngx_http_join_exact_locations 函数 定义在 ./nginx-1.24.0/src/http/ngx_http.cstatic ngx_int_t ngx_http_join_exact_locations(ngx_conf_t *cf, ngx_queue_t *locations) {ngx_queue_t *q, *x;ngx_http_location_queue_t *lq, *lx;q ngx_queue_he…...

从HTTP到字节流:ESP32与App Inventor通信协议的效率优化实践

1. 为什么需要优化ESP32与App Inventor的通信协议? 当你用ESP32和App Inventor做一个遥控小车时,最让人抓狂的就是按下按钮后小车要等半秒才有反应。这种延迟问题在HTTPJSON通信方案中非常典型。我去年做过一个智能家居控制系统,最初用的就是…...

GLM-4-9B-Chat-1M惊艳效果:复杂SQL代码库跨文件依赖关系可视化

GLM-4-9B-Chat-1M惊艳效果:复杂SQL代码库跨文件依赖关系可视化 1. 项目背景与核心价值 当你面对一个包含数百个SQL文件的大型数据仓库项目时,最头疼的问题是什么?我相信很多开发者和数据工程师都会说:理不清的表依赖关系。 传统…...

双向无线功率传输系统模型附Simulink仿真

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室🍊个人信条:格物致知,完整Matlab代码及仿真咨询…...

ngx_http_init_static_location_trees

1 定义 ngx_http_init_static_location_trees 函数 定义在 ./nginx-1.24.0/src/http/ngx_http.cstatic ngx_int_t ngx_http_init_static_location_trees(ngx_conf_t *cf,ngx_http_core_loc_conf_t *pclcf) {ngx_queue_t *q, *locations;ngx_http_core_loc_conf_…...

3种颠覆式方案:让IDM突破限制的秘密

3种颠覆式方案:让IDM突破限制的秘密 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script 作为技术侦探,我们经常遇到用户反馈IDM试用到期的困扰…...

从理论到实践:LSTM与Qwen1.5-1.8B GPTQ在时序预测任务中的对比

从理论到实践:LSTM与Qwen1.5-1.8B GPTQ在时序预测任务中的对比 最近在折腾时间序列预测,发现一个挺有意思的现象。大家一提到时序预测,脑子里蹦出来的第一个词可能就是LSTM,这几乎成了这个领域的“标配”。但另一边,以…...

第三章、CLion+GCC+OpenOCD构建STM32标准库开发环境:从零到调试的完整实践

1. 环境准备与工具链安装 搭建STM32标准库开发环境的第一步,就是准备好所有必要的工具。这里我们需要三个核心组件:CLion作为集成开发环境、arm-none-eabi-gcc作为编译器、OpenOCD作为调试器。这三个工具的组合,可以让我们在Windows平台上获得…...

向量化计算失效的7大隐性陷阱,深度解析HotSpot向量编译器决策逻辑

第一章:向量化计算失效的7大隐性陷阱,深度解析HotSpot向量编译器决策逻辑HotSpot JVM 的向量化编译(Vector API 编译支持与循环自动向量化)并非在所有场景下都能生效。其背后由C2编译器的向量化决策引擎驱动,该引擎基于…...

ROS Noetic/Melodic下,手把手教你将Qt Designer做的UI打包成Rviz插件

ROS Noetic/Melodic下Qt Designer UI转Rviz插件的完整实践指南 在机器人操作系统(ROS)生态中,Rviz作为可视化利器,其插件机制允许开发者扩展自定义功能。当遇到需要将Qt Designer设计的精美界面嵌入Rviz时,许多开发者会…...