当前位置: 首页 > article >正文

【Python基础20讲】第17章:正则表达式

博主智算菩萨专注于人工智能、Python编程、音视频处理及UI窗体程序设计等方向。致力于以通俗易懂的方式拆解前沿技术从零基础入门到高阶实战陪伴开发者共同成长。目前已开设五大技术专栏累计发布多篇原创技术文章深受读者好评。 专栏导航人工智能前沿知识深度剖析Transformer架构、生成式AI、强化学习、具身智能、神经符号系统、大模型及智能体Agent技术系统性解析AI核心技术体系与前沿趋势。Python基础小白编程从零开始以保姆式教程讲解变量、数据类型、流程控制、函数等核心语法配有大量实战代码与避坑指南真正做到学以致用。机器学习与深度学习系统化拆解线性模型、决策树、随机森林、梯度提升树、神经网络等算法原理与工程实践覆盖从公式推导到代码实现的全链路内容。音频、图像与视频处理理论与实战涵盖FFmpeg多媒体处理、audio_shop开源工具、ComfyUI-WanVideoWrapper视频生成等实用技术从基础操作到高级应用一应俱全。UI窗体程序设计实战深入讲解UI设计、动态窗体生成、游戏UI框架设计等实战技巧提供从配置到编码的完整解决方案。智算菩萨以代码为经以算法为纬在人工智能的星辰大海中做你前行路上最可靠的导航者。17.1 正则表达式基础正则表达式Regular Expression是一种描述字符串模式的形式化语言。Python 的 re 模块提供了正则表达式的支持。常用函数re.search() 搜索第一个匹配re.match() 从开头匹配re.fullmatch() 完全匹配re.findall() 查找所有匹配。search 和 match 的区别match 只在字符串开头匹配search 在字符串任意位置搜索。findall 返回所有匹配的字符串列表如果模式中有分组则返回分组列表。17.2 正则表达式语法元字符. 匹配任意字符^ 匹配开头$ 匹配结尾* 匹配 0 次或多次 匹配 1 次或多次? 匹配 0 次或 1 次{n,m} 匹配 n 到 m 次[] 字符集| 或() 分组\ 转义。预定义字符类\d 数字、\w 单词字符、\s 空白字符、\b 单词边界。量词的贪婪/非贪婪模式*、、? 默认贪婪尽可能多匹配加 ? 变为非贪婪尽可能少匹配。17.3 分组与替换使用 () 创建捕获分组分组的内容可以通过 group(n) 访问。(?Ppattern) 创建命名分组。(?:pattern) 创建非捕获分组。re.sub(pattern, repl, string) 进行替换repl 可以是字符串或函数。re.split(pattern, string) 按模式分割字符串。re.compile(pattern) 预编译正则表达式提高重复使用的效率。匹配标志re.IGNORECASE 忽略大小写re.MULTILINE 多行模式re.DOTALL 使 . 匹配换行符。17.4 正则表达式实战技巧验证邮箱[\w.±][\w-].[\w.-]。验证手机号1[3-9]\d{9}。提取 HTML 标签内容(.*?)。匹配 IP 地址\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}。编写正则表达式的建议先明确需求再逐步构建模式使用 re.VERBOSE 模式添加注释提高可读性先用简单模式测试再逐步添加约束。正则表达式不是万能的——对于复杂的文本解析任务有时使用字符串方法或专门的解析库更合适。完整代码 第17章正则表达式 演示 re 模块、匹配模式、分组、替换、常用正则 importre# # 1. 基本匹配# print(*50)print( 基本匹配)print(*50)textPython 3.12 发布于 2023 年 10 月Python 2.7 已停止维护。# search: 搜索第一个匹配mre.search(rPython \d\.\d,text)print(fsearch:{m.group()ifmelseNone})# match: 从开头匹配mre.match(rPython,text)print(fmatch:{m.group()ifmelseNone})mre.match(r\d,text)print(fmatch 数字:{m.group()ifmelseNone})# fullmatch: 完全匹配mre.fullmatch(r\d,12345)print(ffullmatch:{m.group()ifmelseNone})# findall: 查找所有匹配resultsre.findall(rPython,text)print(ffindall Python:{results})resultsre.findall(r\d,text)print(ffindall 数字:{results})# finditer: 返回迭代器forminre.finditer(r\d\.\d,text):print(f finditer:{m.group()}at{m.span()})# # 2. 匹配模式标志# print(\n*50)print( 匹配模式)print(*50)textHello\nWorld\nPython# re.MULTILINE: ^ $ 匹配每行print(fMULTILINE ^\\w:{re.findall(r^\w,text,re.MULTILINE)})print(fMULTILINE \\w$:{re.findall(r\w$,text,re.MULTILINE)})# re.DOTALL: . 匹配换行符htmldiv\n Hello\n/divprint(fDOTALL:{re.findall(rdiv(.*?)/div,html,re.DOTALL)})# re.IGNORECASE: 忽略大小写textPython python PYTHONprint(fIGNORECASE:{re.findall(rpython,text,re.IGNORECASE)})# re.VERBOSE: 允许注释patternr \b # 单词边界 \d{4} # 四位年份 [-/] # 分隔符 \d{1,2} # 月 [-/] # 分隔符 \d{1,2} # 日 \b # 单词边界 date_text日期: 2024-01-15 和 2023/12/25print(fVERBOSE:{re.findall(pattern,date_text,re.VERBOSE)})# 组合标志flagsre.IGNORECASE|re.MULTILINE textHello\nhello\nWORLDprint(f组合标志:{re.findall(r^hello,text,flags)})# # 3. 分组# print(\n*50)print( 分组)print(*50)# 基本分组text张三: 25岁, 北京; 李四: 30岁, 上海patternr(\w):\s*(\d)岁matchesre.findall(pattern,text)print(ffindall 分组:{matches})# 命名分组patternr(?Pname\w):\s*(?Page\d)岁forminre.finditer(pattern,text):print(f{m.group(name)},{m.group(age)}岁)# 非捕获分组 (?:...)textabc123def456print(f捕获:{re.findall(r(\d),text)})print(f非捕获:{re.findall(r(?:\d),text)})# 分组嵌套text2024-01-15mre.match(r(\d{4})-(\d{2})-(\d{2}),text)ifm:print(f完整匹配:{m.group(0)})print(f年:{m.group(1)}, 月:{m.group(2)}, 日:{m.group(3)})print(fgroups:{m.groups()})# # 4. 替换# print(\n*50)print( 替换)print(*50)textHello World Python Programming# sub: 替换所有匹配resultre.sub(r\s, ,text)print(fsub 多空格→单空格: {result})# subn: 返回替换次数result,countre.subn(r\s, ,text)print(fsubn: {result}, 替换{count}次)# 使用函数替换defreplacer(match):wordmatch.group()returnword.upper()iflen(word)3elseword textthe quick brown fox jumps over the lazy dogresultre.sub(r\b\w\b,replacer,text)print(f函数替换: {result})# 反向引用texthello hello world world python pythonresultre.sub(r(\w) \1,r\1,text)print(f去重: {result})# # 5. 分割# print(\n*50)print( 分割)print(*50)textone, two; three|four\tfiveresultre.split(r[,;|\t],text)print(fsplit:{result})# 保留分隔符resultre.split(r([,;|\t]),text)print(fsplit 保留分隔符:{result})# 限制分割次数texta:b:c:d:eresultre.split(r:,text,maxsplit2)print(fmaxsplit2:{result})# # 6. 常用正则模式# print(\n*50)print( 常用正则模式)print(*50)patterns{邮箱:r[\w.-][\w-]\.[\w.-],手机号:r1[3-9]\d{9},IP 地址:r\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3},URL:rhttps?://[\w\-._~:/?#\[\]!$()*,;%],日期:r\d{4}[-/]\d{1,2}[-/]\d{1,2},中文名:r[\u4e00-\u9fa5]{2,4},身份证:r\d{17}[\dXx],}test_texts{邮箱:联系我: testexample.com 或 adminmail.cn,手机号:电话: 13800138000 和 19912345678,IP 地址:服务器: 192.168.1.100 和 10.0.0.1,URL:访问 https://www.example.com/path?qtest,日期:日期: 2024-01-15 和 2023/12/25,中文名:姓名: 张三和李四,身份证:ID: 110101199001011234,}forname,patterninpatterns.items():texttest_texts[name]matchesre.findall(pattern,text)print(f{name}:{matches})# # 7. 实战文本清洗器# print(\n*50)print( 实战文本清洗器)print(*50)dirty_text html body h1Python 教程/h1 p 这是第一段。 有很多 多余的 空格。 /p p 联系邮箱: testexample.com /p p 电话: 13800138000 /p !-- 这是注释 -- scriptalert(xss)/script /body /html classTextCleaner:def__init__(self,text):self.texttextdefremove_html_tags(self):self.textre.sub(r[^],,self.text)returnselfdefremove_html_comments(self):self.textre.sub(r!--.*?--,,self.text,flagsre.DOTALL)returnselfdefnormalize_whitespace(self):self.textre.sub(r[ \t], ,self.text)self.textre.sub(r\n\s*\n,\n,self.text)returnselfdefremove_script_content(self):self.textre.sub(rscript.*?.*?/script,,self.text,flagsre.DOTALL|re.IGNORECASE)returnselfdefextract_emails(self):returnre.findall(r[\w.-][\w-]\.[\w.-],self.text)defextract_phones(self):returnre.findall(r1[3-9]\d{9},self.text)defclean(self):return(self.remove_html_comments().remove_script_content().remove_html_tags().normalize_whitespace().text.strip())cleanerTextCleaner(dirty_text)clean_textcleaner.clean()print(f清洗结果:\n{clean_text})print(f\n提取邮箱:{cleaner.extract_emails()})print(f提取手机:{cleaner.extract_phones()})print(\n[第17章] 全部示例运行完毕)实验日志以下是运行上述代码后的实际输出 基本匹配 search: Python 3.12 match: Python match 数字: None fullmatch: 12345 findall Python: [Python, Python] findall 数字: [3, 12, 2023, 10, 2, 7] finditer: 3.12 at (7, 11) finditer: 2.7 at (35, 38) 匹配模式 MULTILINE ^\w: [Hello, World, Python] MULTILINE \w$: [Hello, World, Python] DOTALL: [\n Hello\n] IGNORECASE: [Python, python, PYTHON] VERBOSE: [2024-01-15, 2023/12/25] 组合标志: [Hello, hello] 分组 findall 分组: [(张三, 25), (李四, 30)] 张三, 25岁 李四, 30岁 捕获: [123, 456] 非捕获: [123, 456] 完整匹配: 2024-01-15 年: 2024, 月: 01, 日: 15 groups: (2024, 01, 15) 替换 sub 多空格→单空格: Hello World Python Programming subn: Hello World Python Programming, 替换 3 次 函数替换: the QUICK BROWN fox JUMPS OVER the LAZY dog 去重: hello world python 分割 split: [one, two, three, four, five] split 保留分隔符: [one, ,, two, ;, three, |, four, \t, five] maxsplit2: [a, b, c:d:e] 常用正则模式 邮箱: [testexample.com, adminmail.cn] 手机号: [13800138000, 19912345678] IP 地址: [192.168.1.100, 10.0.0.1] URL: [https://www.example.com/path?qtest] 日期: [2024-01-15, 2023/12/25] 中文名: [姓名, 张三和李] 身份证: [110101199001011234] 实战文本清洗器 清洗结果: Python 教程 这是第一段。 有很多 多余的 空格。 联系邮箱: testexample.com 电话: 13800138000 提取邮箱: [testexample.com] 提取手机: [13800138000] [第17章] 全部示例运行完毕

相关文章:

【Python基础20讲】第17章:正则表达式

博主智算菩萨,专注于人工智能、Python编程、音视频处理及UI窗体程序设计等方向。致力于以通俗易懂的方式拆解前沿技术,从零基础入门到高阶实战,陪伴开发者共同成长。目前已开设五大技术专栏,累计发布多篇原创技术文章,…...

stable_baseline3 快速入门(二): 训练自定义游戏,构建Gymnasium训练环境

简介Gymnasium 为强化学习提供了一个标准化的API,它定义了 Agent 应该如何观察世界、如何做出动作以及如何获得奖励,不管是游戏,还是工业设备,只需要满足Gymnasium标准都能使用同一套代码进行训练。认识Gymnasium使用stable_basel…...

合并报表系统:多公司财务报表的自动合并

合并报表系统:多公司财务报表的自动合并 在全球化与集团化经营日益普遍的今天,企业往往需要管理多家子公司或分支机构的财务数据。传统的手工合并报表方式不仅耗时耗力,还容易因人为错误导致数据不准确。合并报表系统的出现,为企…...

【Python基础20讲】第01章:Python 环境搭建与第一个程序

博主智算菩萨,专注于人工智能、Python编程、音视频处理及UI窗体程序设计等方向。致力于以通俗易懂的方式拆解前沿技术,从零基础入门到高阶实战,陪伴开发者共同成长。目前已开设五大技术专栏,累计发布多篇原创技术文章,…...

山东大学软件学院2026项目实训个人博客(二)

项目名称:基于AI大模型的智能考研社区撰写日期:2026年4月18日本周我主要完成了项目基础环境的进一步搭建和Redis、RabbitMQ配置的完善,优化当前注册功能、登录功能、错题本CRUD功能,并进行Swagger测试。一、基础环境搭建从git仓获…...

Python 源码解读:核心数据结构与算法实现分析

一、前言Python 源码解读:核心数据结构与算法实现分析。本文深入源码层面,剖析核心设计原理,帮你从"会用"升级到"精通"。二、核心原理深度剖析2.1 数据结构设计# Python 装饰器的原理:闭包 函数作为一等公民…...

HC32F072 IAP实战:从Bootloader编写到APP跳转的完整避坑指南

HC32F072 IAP实战:从Bootloader编写到APP跳转的完整避坑指南 第一次在HC32F072上实现IAP功能时,我盯着那个神秘的__attribute__((section(".ARM.__at_0x2200")))发呆了一整天。为什么Flash操作函数必须放在这个特定地址?为什么跳转…...

技术挑战:模块交互中的条件替换异常分析与解决

技术挑战:模块交互中的条件替换异常分析与解决 【免费下载链接】ComfyUI-Impact-Pack Custom nodes pack for ComfyUI This custom node helps to conveniently enhance images through Detector, Detailer, Upscaler, Pipe, and more. 项目地址: https://gitcode…...

武昌老酒回收电话

随着消费升级与收藏文化的兴起,名贵老酒已成为许多家庭和企业资产的一部分。在武汉武昌区,如何处理手中闲置或珍藏的老酒,实现其价值的安全、高效变现,是不少持有者关心的话题。本文将深入分析武昌老酒回收市场的现状,…...

Go 中嵌入类型字段在派生结构体字面量中的初始化规则详解

Go 语言中,嵌入类型(embedded type)的字段虽可被派生结构体直接访问,但不能作为字段名出现在结构体字面量中;必须通过显式初始化嵌入类型本身,或先创建实例再赋值。 go 语言中,嵌入类型&am…...

第九篇技术笔记:PoDL:一根线,供电上网两不误

写在开篇:最近一位新疆美女导游特别火,说的也听感动:湾湾当归!早日回到祖国的怀抱!不是因为技术做不到,是因为那边有人需要。车载以太网也是这个道理。不是“把电源和数据放一根线上”这个技术有多难&#…...

Hermes_Agent_Windows安装文档

Hermes Agent Windows 安装文档适用系统:Windows 10/11 + WSL2 + Ubuntu 整理自实际安装过程,包含常见报错解决方案前置说明 Hermes Agent 不支持原生 Windows,必须通过 WSL2(Windows Linux 子系统)安装。 WSL2 会在 Windows 里运行一个完整的 Linux 环境,Ubuntu 的数据存…...

Workout.Cool:打造您的终极开源健身教练平台,3大核心功能全面解析

Workout.Cool:打造您的终极开源健身教练平台,3大核心功能全面解析 【免费下载链接】workout-cool 🏋 Modern open-source fitness coaching platform. Create workout plans, track progress, and access a comprehensive exercise database.…...

实战指南:Element-ui Select 选择器深度样式定制(从透明背景到悬停交互)

1. 为什么需要深度定制Select选择器? 最近在做一个深色主题的管理后台项目时,我发现Element-ui默认的Select选择器样式完全不符合设计需求。原生的白色背景在下拉时显得特别突兀,就像在一张黑色画布上突然撕开一道口子。这让我意识到&#xf…...

SOCD Cleaner终极指南:如何用键盘映射提升游戏操作精度

SOCD Cleaner终极指南:如何用键盘映射提升游戏操作精度 【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 在竞技游戏中,你是否曾因同时按下相反方向键而导致操作失误?SOCD Clea…...

结合上篇文“怪奇物语物流假设”的对死亡搁浅3的构想

在死亡搁浅中,“送货”从来不是简单的玩法机制,而是一种被具象化的哲学表达。玩家以身体为媒介,在破碎的大地上缓慢前行,将孤立的人类节点重新连接起来。连接,在这里既是行为,也是意义本身。而在死亡搁浅2所…...

实用CLI工具:命令行下的高效选择

命令行界面在开发者日常工作中占据重要位置。很多任务通过它完成时速度更快,也更直接。尤其当处理文件搜索、内容查看或者目录跳转这类重复操作时,合适的CLI工具能节省大量时间。 Homebrew官网: https://brew.sh/ 这些工具大多可以通过简单…...

算法训练营第六天|206. 反转链表

题目链接: https://leetcode.cn/problems/reverse-linked-list/ 视频链接: https://www.bilibili.com/video/BV1nB4y1i7eL题意:反转一个单链表。 示例: 输入: 1->2->3->4…...

用AI修复和复刻老照片

最近,用AI修复了自己不同时期的照片,非常感慨。尤其是小时的场景,我并没有留下多少童年照片,现在,AI根据我的口述,把我放进去了。也算是拼接上了久远的时间轴。包括老的数码、彩照,黑白&#xf…...

CSS Grid布局如何解决图片溢出网格单元_设置object-fit与网格尺寸.txt

函数节流核心是控制高频触发下函数执行频率,分定时器版(尾部延迟执行、首次不立即执行)和时间戳版(首调立即执行、后续按间隔节制),二者适用场景与性能表现各异。函数节流(Throttle)…...

2026年降AI率工具排行榜怎么选?3招避开智商税

2026年毕业季一到,朋友圈、知乎、小红书上铺天盖地的"降AI率工具排行榜"就开始刷屏。今天这家说"全网第一",明天那家又"权威评测",榜单的前三名永远在换人。我帮三届学弟学妹选过工具,也自己踩过不少坑,今天就…...

动网格实战:Spring光顺法原理详解与案例剖析

1. Spring光顺法入门:为什么需要动网格处理? 做流体仿真的时候,经常会遇到边界运动的场景。比如汽车发动机里的活塞上下运动,或者心脏瓣膜的开合。这时候如果网格不动,就会出现边界穿过网格的尴尬情况——就像用固定渔…...

Fast Screen Recorder屏幕录制软件:解决录屏区域选择与音频同步难题

在日常工作中,你是否需要录制一个软件操作教程发给同事,却不知道如何只录制特定窗口而非整个桌面?是否在录制游戏或会议时,发现系统声音或麦克风没有录进去?或者录制的视频文件过大,无法通过邮件发送&#…...

HiBit Uninstaller:轻松解决软件卸载不干净与顽固程序强制删除难题

当你从控制面板卸载一个软件后,是否发现它的文件夹还留在Program Files里?是否遇到过“无法卸载,缺少卸载程序”的报错?是否感觉电脑越用越慢,却又不知道是哪个残留程序在拖累系统?这些问题的根源在于:Windows自带的卸载功能只能调用软件自带的卸载程序,而很多软件(尤…...

【2026年最新600套毕设项目分享】宠物微信小程序(30100)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 项目演示视频2 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告/任务书)远程调试控屏包运…...

【2026年最新600套毕设项目分享】外卖微信小程序的研究与开发(30099)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 项目演示视频2 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告/任务书)远程调试控屏包运…...

测试库与生产库怎么应对同步中断断点续传_无损发布与更新方案

断点是某条变更事件的唯一标识未被消费,如MySQL的file_nameposition、Debezium的source.offset、Oracle的SCN;需通过元数据表存储offset与主键并查询MAX(offset)恢复,禁止依赖时间戳或COUNT对比。同步中断后怎么准确定位断点位置断点不是“某…...

2026届毕业生推荐的五大降AI率网站实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在进行学术论文或者原创内容撰写之际,过高的AI生成痕迹极具可能去影响评审结果。…...

【2026年最新600套毕设项目分享】微信小程序的电子购物系统(30098)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 项目演示视频2 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告/任务书)远程调试控屏包运…...

DIYGW UniApp可视化工具深度评测:对比传统编码开发到底能省多少时间?

DIYGW UniApp可视化工具实战评测:低代码开发效率的量化分析 在移动应用开发领域,时间就是竞争力。当传统编码方式还在与冗长的开发周期搏斗时,低代码平台正以惊人的速度重构着生产力边界。我们以电商商品详情页为测试场景,对DIYGW…...