正则表达式入门:Python ‘ re ‘ 模块详解
正则表达式(Regular Expression,简称 re)是一种强大而灵活的工具,广泛用于字符串匹配、替换和分割等操作,尤其在处理网页爬虫数据时非常有用。Python 提供了 " re " 模块来支持正则表达式的使用,本文将结合常见的用法和示例,带你快速入门。
正则表达式的常用方法
匹配字符串
1. ' search() '
' search() ' 方法用于在字符串中查找符合正则表达式的第一个匹配项。它从字符串的任意位置开始匹配,返回一个 ' Match ' 对象,或者在没有匹配时返回 ' None '。
import repattern = r"\d+" # 匹配一个或多个数字
string = "The price is 100 dollars."match = re.search(pattern, string)
if match:print(f"Found: {match.group()} at position {match.start()}-{match.end()}")
else:print("No match found!")
2. ' match() '
' match() ' 方法用于从字符串的开头匹配,如果开头不符合正则表达式,则返回 ' None '。
pattern = r"\d+" # 匹配一个或多个数字
string = "100 dollars"match = re.match(pattern, string)
if match:print(f"Matched: {match.group()}")
else:print("No match found!")
3. ' fullmatch() '
' fullmatch() ' 方法要求整个字符串完全符合正则表达式,否则返回 ' None '。
pattern = r"\d+" # 匹配一个或多个数字
string = "100"match = re.fullmatch(pattern, string)
if match:print(f"Full match: {match.group()}")
else:print("No full match!")
4. ' findall() '
' findall() ' 方法返回一个列表,包含字符串中所有符合正则表达式的匹配项。
pattern = r"\d+" # 匹配一个或多个数字
string = "There are 100 apples and 200 oranges."matches = re.findall(pattern, string)
print(f"All matches: {matches}")
5. ' finditer() '
' finditer() ' 方法返回一个迭代器,每个元素都是一个 ' Match ' 对象,表示字符串中每一个匹配项。
pattern = r"\d+" # 匹配一个或多个数字
string = "There are 100 apples and 200 oranges."matches = re.finditer(pattern, string)
for match in matches:print(f"Found: {match.group()} at position {match.start()}-{match.end()}")
替换字符串
1. ' sub() '
' sub() ' 方法用于替换字符串中所有符合正则表达式的部分,返回替换后的新字符串。
pattern = r"\d+" # 匹配一个或多个数字
string = "There are 100 apples and 200 oranges."
replacement = "many"new_string = re.sub(pattern, replacement, string)
print(new_string) # 输出:There are many apples and many oranges.
2. ' subn() '
' subn() ' 方法与 ' sub() ' 类似,但它返回一个元组,包括替换后的字符串和替换次数。
pattern = r"\d+" # 匹配一个或多个数字
string = "There are 100 apples and 200 oranges."
replacement = "many"new_string, count = re.subn(pattern, replacement, string)
print(new_string) # 输出:There are many apples and many oranges.
print(f"Replacements made: {count}")
分割字符串
1. ' split() '
' split() ' 方法用于根据正则表达式匹配项来分割字符串,返回分割后的列表。
pattern = r"\s+" # 匹配一个或多个空白字符
string = "This is a test."parts = re.split(pattern, string)
print(parts) # 输出:['This', 'is', 'a', 'test.']
正则表达式中的特殊字符
在编写正则表达式时,理解特殊字符的用法非常重要。以下是一些常用的特殊字符:
' \w ':匹配字母、数字、下划线。
' \W ':匹配非字母、数字、下划线的字符。
' \d ':匹配数字
' \D ':匹配非数字字符。
' \s ':匹配空白字符(包括空格、制表符等)。
' \S ':匹配非空白字符。
' . ':匹配除换行符 ' \n ' 之外的任意字符(如果使用 ' re.S ' 标志,可以匹配包括换行符在内的所有字符)。
' ^ ':匹配字符串的开头(如果使用 ' re.M ' 标志,可以匹配每一行的开头)。
' $ ':匹配字符串的结尾(如果使用 ' re.M ' 标志,可以匹配每一行的结尾)。
贪婪与非贪婪匹配
正则表达式中的量词(如 ' * '、' + ' 和 ' ? ')默认情况下是贪婪的,它们会尽可能多地匹配字符。要进行非贪婪(尽可能少的匹配),可以在量词后加上 ' ? '。
' * ':匹配前面的字符 0 次或多次。
' + ':匹配前面的字符 1 次或多次。
' ? ':匹配前面的字符 0 次或 1 次。
' {n} ':匹配前面的字符恰好 n 次。
' {m,n} ':匹配前面的字符至少 m 次,至多 n 次。
' {m,n}? ':非贪婪地匹配前面的字符至少 m 次,至多 n 次。
字符类和分组
' [] ':定义一个字符类,匹配其中的任意一个字符。例如,' [aeiou] ' 匹配任意一个元音字母。
' | ':表示逻辑或,匹配 ' | ' 左右两边的任意一个表达式。例如,' a|b ' 匹配 "a" 或 "b"。
' () ':用于分组,可以将多个字符组合在一起作为一个单元,或者用于提取匹配到的子串。
示例:结合网页爬虫数据解析假设我们正在处理一段 HTML 数据,想要提取所有的 ' <a> ' 标签中的链接。我们可以使用正则表达式来简单地实现这一操作。
import rehtml_data = '''
<a href="https://example.com">Example</a>
<a href="https://another-example.com">Another Example</a>
'''# 正则表达式模式,用于匹配 href 属性中的 URL
pattern = r'href="(https?://[^"]+)"'# 使用 findall() 提取所有匹配的 URL
urls = re.findall(pattern, html_data)
print(urls)
在这个示例中,' (https?://[^"]+) ' 部分表示匹配 "http://" 或 "https://" 开头,后面跟随任意非引号的字符串,直到下一个引号为止。通过 ' re.findall() ',我们可以轻松提取出所有符合条件的链接。
总结
Python 的 ' re ' 模块提供了强大的正则表达式支持,使得字符串的匹配、替换和分割操作变得非常灵活和高效。无论是在处理爬虫数据还是在其他文本处理任务中,掌握正则表达式都将大大提升你的工作效率。
记住,正则表达式虽然强大,但也容易变得复杂,因此在使用时应尽量保持模式的简洁和可读性。同时,随着经验的积累,你会逐渐发现正则表达式的更多妙用。Happy coding!
相关文章:
正则表达式入门:Python ‘ re ‘ 模块详解
正则表达式(Regular Expression,简称 re)是一种强大而灵活的工具,广泛用于字符串匹配、替换和分割等操作,尤其在处理网页爬虫数据时非常有用。Python 提供了 " re " 模块来支持正则表达式的使用,…...
thinkphp8.0+aliapy(支付宝)pc网站支付
环境:宝塔-centOS8.5,php8.3 第一步:安装alipay v3版本的安装依赖包; composer require alipaysdk/openapi:dev第二步:根据官方文档,把支付相关的类引用进来; <?php declare (strict_types 1);namespace app\p…...
高速信号的眼图、加重、均衡
目录 高速信号的眼图、加重、均衡眼图加重均衡线性均衡器CTLE判决反馈均衡器DFE 高速信号的眼图、加重、均衡 眼图 通常用示波器观察接收信号波形的眼图来分析码间串扰和噪声对系统性能的影响,从而估计系统优劣程度,因而眼图分析是高速互连系统信号完整…...
2024年PMP考前冲刺必背的学习笔记,整理好给你!
项目的四大特点:临时性、独特性、变革驱动性和创造商业价值。 项目管理:将知识、技能、工具与技术应用于项目活动,以满足项目的要求 Pestle:P政治,E经济,S社会,T技术,L法律,E环境 …...
增加服务器带宽可以提高资源加载速度吗?
答案是可以的 ,增加服务器带宽通常能够提高资源加速速度。带宽是服务器与互联网之间传输数据的速率,它决定了在单位时间内可以传输的数据量。以下是增加带宽如何提高资源加速速度的几个方面: 1.更快的数据传输:带宽增加后…...
汽车EDI: NAVISTAR EDI对接
Navistar International Corporation 是一家美国商用车辆制造公司,总部位于伊利诺伊州的Lisle。公司以生产中型和重型卡车、公共汽车、柴油发动机和底盘闻名,其产品广泛应用于运输、建筑、和农业等行业。Navistar 的历史可以追溯到1831年,由国…...
【Word多级标题完整设置】设置各级标题样式将多级列表链接到各级标题样式中
Word多级标题完整设置 一、设置各级标题样式主标题样式设置中英文字体、字形以及字号设置段落设置(缩进、间距和行距) 一级标题样式设置中英文字体、字形以及字号设置段落设置(缩进、间距和行距) 二级标题样式设置中英文字体、字形…...
不同分辨率下vue页面的高度自适应
1. 使用视口单位 .element { height: 100vh; /* 使得元素高度等于视口高度的100% */ /* 可以减去一部分高度以适应页眉或页脚 */ height: calc(100vh - 100px); } 2. 使用百分比(%)高度 .parent { height: 100vh; /* 父元素高度等于视口高度 */…...
“野生钢铁侠 “ 稚晖君一连亮出5 款智元人形机器人,地表最强!
打麻将、拆快递、纽扣穿针,还能做 30KG 重物提拉! 沉寂一年,稚晖君带着他的二代机器人全家桶重磅回归,秀出的各种新技能令人眼前一亮。 智东西 8 月 18 日报道,今日," 野生钢铁侠 " 稚晖君一连亮…...
JSON Web Token (JWT): 理解与应用
JWT(JSON Web Token)是一种开放标准(RFC 7519),它定义了一种紧凑且自包含的方式,用于在各方之间以JSON对象的形式安全地传输信息。JWT通常用于身份验证和授权目的,因为它可以使用JSON对象在各方…...
LeetCode面试题Day12|LC209 长度最小的子数组、LC30 串联所有单词的子串
题目一: 指路: . - 力扣(LeetCode)209 长度最小的子数组 思路与分析: 滑动窗口,目的在于降低算法的时间复杂度,每次只维护一定长度的数组而非原数组的全部元素。那么既然需要长度࿰…...
【开端】JAVA泛型类的使用
一、这是一个类 public class CommonVo<D extends CommonDao> implements Serializable { 我们来探讨一样 CommonVo<D extends CommonDao> 这个尖括号里到底能写啥。 首先这是一个泛型类型D ,D类继承了CommonDao,说明尖括号里只要放入一…...
mp3转换器免费有哪些?6个音频转换器助你一键转换各种音频
音乐如同生活的调味剂,让每一个平凡瞬间都跃动着不凡的旋律。 但有时候,当你想把这些歌曲放到你的设备上时,却发现格式不兼容,无法播放。 别担心!接下来,我们将介绍几款免费mp3转换工具,它们能…...
力扣爆刷第174天之TOP200五连刷136=140(最小k数、字典序、跳跃游戏)
力扣爆刷第174天之TOP200五连刷136140(最小k数、字典序、跳跃游戏) 文章目录 力扣爆刷第174天之TOP200五连刷136140(最小k数、字典序、跳跃游戏)一、LCR 159. 库存管理 III二、450. 删除二叉搜索树中的节点三、440. 字典序的第K小…...
蚁群算法原理与实战(Python、MATLAB、C++)
蚁群算法 1.蚁群算法来源 蚁群算法(Ant Colony Optimization,简称ACO)是一种模拟自然界中蚂蚁寻找食物路径行为的优化算法,主要用于解决组合优化问题。它的灵感来源于意大利学者Marco Dorigo在1992年提出的蚂蚁系统模型。 蚁群算…...
HTML静态网页成品作业(HTML+CSS)——非遗阜阳剪纸介绍设计制作(1个页面)
🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有1个页面。 二、作品演示 三、代…...
如何做萤石开放平台的物联网卡定向?
除了用萤石自带的4G卡外,我们也可以自己去电信、移动和联通办物联网卡连接萤石云平台。 1、说在前面 注意:以下流程必须全部走完,卡放在设备上才能连接到萤石云平台。 2、大致流程 登录官网→下载协议→盖章(包括骑缝章&#…...
ptrade排坑日记——定时任务执行后,文件权限会变化。
前言 今天要和大家分享的是使用ptrade的定时任务过后,执行的时候,文件权限会发生变化! 一、问题描述 定时任务执行后, /home/fly/data/fundamentals_daily/all.pickle、/home/fly/data/valuation_new/all.pickle 文件权限会从…...
TILs 评分:TCGA 肿瘤浸润淋巴细胞病理切片深度学习评分!图片下载与可视化
生信碱移 病理切片的TILs评分 TCGA 数据库是最大的肿瘤组学公开数据库之一。尽管如此,更多的研究往往仅局限于关注 TCGA 中各类肿瘤样本的上游组学信息或基本病理特征,而忽略了对样本数字化 H&E 病理染色图像的进一步应用。 ▲ TCGA中肿瘤样本的病…...
【运维】如何在浏览器中查看和管理 Cookie 信息?
如何在浏览器中查看和管理 Cookie 信息 引言 Cookie 是我们日常浏览网页时经常遇到的一个重要概念。它们用于存储用户的登录状态、偏好设置以及其他相关信息,帮助网站提供个性化的体验。然而,很多人并不清楚如何在浏览器中找到并查看这些 Cookie 信息。本文将带您了解如何在…...
OpenLayers 可视化之热力图
注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 热力图(Heatmap)又叫热点图,是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...
Xshell远程连接Kali(默认 | 私钥)Note版
前言:xshell远程连接,私钥连接和常规默认连接 任务一 开启ssh服务 service ssh status //查看ssh服务状态 service ssh start //开启ssh服务 update-rc.d ssh enable //开启自启动ssh服务 任务二 修改配置文件 vi /etc/ssh/ssh_config //第一…...
基于Flask实现的医疗保险欺诈识别监测模型
基于Flask实现的医疗保险欺诈识别监测模型 项目截图 项目简介 社会医疗保险是国家通过立法形式强制实施,由雇主和个人按一定比例缴纳保险费,建立社会医疗保险基金,支付雇员医疗费用的一种医疗保险制度, 它是促进社会文明和进步的…...
SCAU期末笔记 - 数据分析与数据挖掘题库解析
这门怎么题库答案不全啊日 来简单学一下子来 一、选择题(可多选) 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 A. 频繁模式挖掘:专注于发现数据中…...
基于Uniapp开发HarmonyOS 5.0旅游应用技术实践
一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架,支持"一次开发,多端部署",可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务,为旅游应用带来…...
macOS多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用
文章目录 问题现象问题原因解决办法 问题现象 macOS启动台(Launchpad)多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用。 问题原因 很明显,都是Google家的办公全家桶。这些应用并不是通过独立安装的…...
Spring Boot面试题精选汇总
🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息 文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...
unix/linux,sudo,其发展历程详细时间线、由来、历史背景
sudo 的诞生和演化,本身就是一部 Unix/Linux 系统管理哲学变迁的微缩史。来,让我们拨开时间的迷雾,一同探寻 sudo 那波澜壮阔(也颇为实用主义)的发展历程。 历史背景:su的时代与困境 ( 20 世纪 70 年代 - 80 年代初) 在 sudo 出现之前,Unix 系统管理员和需要特权操作的…...
AI编程--插件对比分析:CodeRider、GitHub Copilot及其他
AI编程插件对比分析:CodeRider、GitHub Copilot及其他 随着人工智能技术的快速发展,AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者,分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...
mysql已经安装,但是通过rpm -q 没有找mysql相关的已安装包
文章目录 现象:mysql已经安装,但是通过rpm -q 没有找mysql相关的已安装包遇到 rpm 命令找不到已经安装的 MySQL 包时,可能是因为以下几个原因:1.MySQL 不是通过 RPM 包安装的2.RPM 数据库损坏3.使用了不同的包名或路径4.使用其他包…...
