01 Python进阶:正则表达式
re.match函数
使用 Python 中的 re 模块时,可以通过 re.match() 函数来尝试从字符串的开头匹配一个模式。以下是一个简单的详解和举例:
import re# 定义一个正则表达式模式
pattern = r'^[a-z]+' # 匹配开头的小写字母序列# 要匹配的字符串
text = "hello world"# 使用 re.match() 尝试匹配模式
match_obj = re.match(pattern, text)if match_obj:print("匹配成功:", match_obj.group())
else:print("无匹配结果")
在这个示例中,我们使用了 re.match() 函数来尝试从字符串的开头匹配一个小写字母序列。让我们具体解释一下:
-
r'^[a-z]+'
:这是一个正则表达式模式,包含了以下几个部分:^
表示匹配字符串的开头。[a-z]
表示匹配任意一个小写字母。+
表示匹配前面的模式一次或多次。
-
"hello world"
:这是我们要进行匹配的字符串。 -
re.match(pattern, text)
:使用 re.match() 函数尝试从字符串开头匹配指定的模式。 -
match_obj
:re.match() 函数返回一个 Match 对象,如果匹配成功则包含匹配的结果,否则为 None。 -
match_obj.group()
:如果匹配成功,可以通过 match_obj.group() 方法获取匹配的内容。
在这个示例中,由于 “hello” 符合模式 r'^[a-z]+'
,因此匹配成功,输出 “匹配成功: hello”。
re.search方法
可以通过 re.search() 函数来搜索整个字符串,尝试找到与指定模式匹配的子串。以下是一个详细解释和示例:
import re# 定义一个正则表达式模式
pattern = r'world' # 要匹配的模式是 "world"# 要搜索的字符串
text = "hello world"# 使用 re.search() 方法在整个字符串中搜索模式
search_obj = re.search(pattern, text)if search_obj:print("找到匹配:", search_obj.group())
else:print("未找到匹配")
在这个示例中,我们使用了 re.search() 函数来搜索整个字符串,尝试找到子串 “world”。以下是每个部分的详细解释:
-
r'world'
:这是一个简单的正则表达式模式,它表示要匹配的字符串是 “world”。 -
"hello world"
:这是我们要进行搜索的字符串。 -
re.search(pattern, text)
:使用 re.search() 函数在整个字符串中搜索指定的模式。 -
search_obj
:re.search() 函数返回一个 Match 对象,如果找到了匹配的子串,Match 对象就会包含匹配的结果,否则为 None。 -
search_obj.group()
:如果找到了匹配的子串,可以通过调用 match_obj.group() 方法来获取匹配的内容。
在这个示例中,由于字符串 “world” 存在于 “hello world” 中,因此 re.search() 函数找到了匹配,输出 “找到匹配: world”。
re.search() 是一个非常有用的函数,可以帮助您在字符串中查找特定的模式。希望这个示例能够帮助您理解 re.search() 函数的使用方法。
re.match 与 re.search的区别
re.match() 和 re.search() 是 Python 中 re 模块中用于正则表达式匹配的两个函数,它们之间有以下区别:
-
re.match():
- re.match() 函数尝试从字符串的开头开始匹配模式。
- 如果字符串开头不符合模式,则匹配失败,返回 None。
- 如果字符串开始部分与模式匹配,返回一个 Match 对象,可以通过 group() 方法获取匹配的内容。
-
re.search():
- re.search() 函数在整个字符串中搜索并找到第一个符合模式的子串。
- 不要求字符串从开头开始匹配,只要找到一个符合模式的子串就返回。
- 返回第一个匹配到的结果,也是一个 Match 对象,可以通过 group() 方法获取匹配的内容。
举例来说,假设有字符串 “hello world”,并使用以下两个正则表达式模式进行匹配:
-
模式为
r'world'
:- re.match() 将会匹配失败,因为 “hello” 不符合该模式,返回 None。
- re.search() 将会匹配成功,在 “world” 中找到了符合的子串,返回 “world”。
-
模式为
r'hello'
:- re.match() 将会匹配成功,因为 “hello” 符合该模式,返回 “hello”。
- re.search() 将会匹配成功,在 “hello world” 中找到了符合的子串,返回 “hello”。
re.match() 适用于需要从字符串开头处进行匹配的场景,而 re.search() 则适用于需要在整个字符串中查找符合模式的子串的场景。根据具体的需求选择使用不同的函数能够更有效地实现匹配目的。
检索和替换
在Python中,您可以使用re模块来进行文本的检索和替换。下面是一个简单的例子来说明如何使用re模块进行检索和替换:
import re# 要操作的字符串
text = "The cat and the hat sat on the mat."# 定义要搜索的模式
pattern = r'cat'# 使用re.sub()进行替换
new_text = re.sub(pattern, 'dog', text)print(new_text)
在上面的示例中,我们使用了re.sub()函数来将文本中所有匹配模式r’cat’的部分替换为’dog’。执行上述代码后,输出结果为:“The dog and the hat sat on the mat.”。
另外,如果想要查找所有匹配的子串,并对其进行特定处理,也可以使用re.findall()和re.finditer()函数来实现。这两个函数可以用于找到所有匹配的子串,并返回它们的位置或者进行进一步的处理。
repl 参数是一个函数
是的,re 模块中的 re.sub() 函数允许使用一个函数作为 repl 参数,以便对每个匹配的子串进行更复杂的替换操作。下面是一个示例,演示了如何使用函数作为 repl 参数:
import re# 要操作的字符串
text = "The cat and the hat sat on the mat."# 定义替换函数
def repl_function(match_obj):word = match_obj.group()if word == 'cat':return 'dog'elif word == 'hat':return 'rug'else:return '***'# 使用re.sub()并将函数作为repl参数
new_text = re.sub(r'\b(cat|hat)\b', repl_function, text)print(new_text)
在这个示例中,我们定义了一个名为 repl_function
的函数,该函数接收一个 Match 对象作为输入,并根据匹配到的子串来决定如何进行替换。然后,我们使用 re.sub()
函数,将这个函数作为 repl
参数传递给它。执行上述代码后,输出结果为:“The dog and the rug sat on the mat.”。
函数作为 repl
参数的用法,可以让你对每个匹配到的子串进行更加灵活和复杂的处理,从而进行更加精细的替换操作。
compile 函数
在 Python 中,re 模块提供了 compile() 函数,用于将正则表达式编译为一个对象,以便在之后的匹配中复用。这种预编译的方式可以提高匹配效率,特别是在需要多次使用同一模式进行匹配时。下面是一个简单的示例来说明 compile() 函数的使用:
import re# 将正则表达式编译为对象
pattern = re.compile(r'hello')# 要匹配的字符串
text = "hello world"# 使用编译后的对象进行匹配
match_obj = pattern.search(text)if match_obj:print("找到匹配:", match_obj.group())
else:print("未找到匹配")
在上述示例中,我们首先使用 re.compile() 函数将正则表达式模式 r’hello’ 编译为一个模式对象 pattern,然后在之后的代码中可以重复使用这个 pattern 对象进行匹配操作。
使用 compile() 函数的优点包括提高匹配效率和可以提前检查正则表达式的有效性(如果有语法错误,会在编译阶段就抛出异常)。
re.compile() 函数允许您事先编译好正则表达式模式,并得到一个可重复使用的模式对象,为之后的匹配操作提供了便利和性能上的提升。
findall
在 Python 的 re 模块中,re.findall()
函数用于在给定的字符串中查找所有匹配指定模式的子串,并以列表的形式返回这些子串。下面是一个简单的示例来说明 re.findall()
函数的使用:
import re# 要匹配的字符串
text = "The cat and the hat sat on the mat."# 使用 re.findall() 查找所有匹配的子串
matches = re.findall(r'\b\w{3}\b', text)print(matches)
使用了 re.findall()
函数来搜索字符串中所有匹配特定模式的子串。具体来说,我们使用的模式是 \b\w{3}\b
,表示匹配长度为 3 的单词。
执行这段代码后,将输出结果作为一个列表:['The', 'cat', 'the', 'hat', 'sat', 'the', 'mat']
,其中包含所有匹配到的长度为3的单词。
re.findall()
函数非常适合在不需要对每个匹配结果做更复杂处理的情况下,快速地获取所有匹配到的子串。当需要获取文本中所有符合特定模式的部分时,这个函数非常实用。
re.finditer
re.finditer()
函数与 re.findall()
类似,但它返回一个迭代器(iterator),该迭代器生成匹配的模式在字符串中的每一次出现。下面是一个简单的示例来说明 re.finditer()
函数的使用:
import re# 要匹配的字符串
text = "The cat and the hat sat on the mat."# 使用 re.finditer() 查找所有匹配的子串
matches = re.finditer(r'\b\w{3}\b', text)for match in matches:print(match.group(), match.start(), match.end())
在这个示例中,我们使用了 re.finditer()
函数来搜索字符串中所有匹配特定模式的子串。具体来说,我们使用的模式是 \b\w{3}\b
,表示匹配长度为 3 的单词。
使用 re.finditer()
返回的迭代器,我们可以迭代处理每次匹配到的结果,从中获取匹配子串的内容以及其在原始文本中的起始和结束位置。执行上述代码后, 将输出每个匹配子串的内容以及起始和结束索引位置。
因此,re.finditer()
是一个非常有用的函数,特别适用于需要对每个匹配结果做更复杂处理的情况,或者在需要获取匹配子串的位置信息时。
re.split
re.split()
函数用于根据指定的模式对字符串进行分割,并返回分割后的子串组成的列表。下面是一个简单的示例来说明 re.split()
函数的使用方式:
import re# 要分割的字符串
text = "apple, banana, cherry, date"# 使用 re.split() 进行分割
result = re.split(r',\s*', text)print(result)
在这个示例中,我们使用了 re.split()
函数来根据逗号加空格的模式 ,\\s*
对字符串进行分割,其含义是以逗号加零或多个空格为分隔符。执行上述代码后,将输出结果作为一个列表:['apple', 'banana', 'cherry', 'date']
,即根据指定的模式成功地将原始字符串分割成了多个子串。
re.split()
是在字符串操作中非常有用的函数,特别适用于需要根据复杂的模式对字符串进行分割的情况,如按照标点符号、空格或其他自定义的分割符号进行分割。
正则表达式对象
正则表达式对象
re.RegexObject
re.compile() 返回 RegexObject 对象。
re.MatchObject
group() 返回被 RE 匹配的字符串。
- start() 返回匹配开始的位置
- end() 返回匹配结束的位置
- span() 返回一个元组包含匹配 (开始,结束) 的位置
在 Python 的 re 模块中,使用re.compile()
函数可以将正则表达式模式编译为一个正则表达式对象。正则表达式对象具有与模式相关联的各种方法,可用于在文本中进行搜索、匹配和替换操作。以下是一些常用的正则表达式对象的方法:
search(string[, pos[, endpos]])
: 在字符串中搜索模式的第一个匹配项,返回一个匹配对象。match(string[, pos[, endpos]])
: 在字符串开头匹配模式,如果匹配成功则返回一个匹配对象。findall(string[, pos[, endpos]])
: 找到所有与模式匹配的子串,并以列表的形式返回这些子串。finditer(string[, pos[, endpos]])
: 返回一个迭代器,用于生成字符串中与模式匹配的每一个匹配对象。split(string[, maxsplit])
: 根据模式对字符串进行分割,返回分割后的子串组成的列表。sub(repl, string, count=0)
: 使用指定的替换字符串替换匹配到的模式,返回替换后的字符串。
正则表达式对象的创建通过re.compile()
函数,其基本语法如下:
import re
pattern = re.compile(r'正则表达式模式')
接下来,您可以使用pattern
对象调用上述列出的方法来进行搜索、匹配或替换操作。例如:
# 使用 compile() 函数将正则表达式模式编译为对象
pattern = re.compile(r'\b\w{4}\b')# 使用 findall() 方法找到所有匹配的子串
matches = pattern.findall("The cat and the hat sat on the mat.")
print(matches)
这将会输出:['cat', 'hat', 'sat']
,即从字符串中找到了所有长度为 4 的单词。
正则表达式修饰符 - 可选标志
正则表达式可以包含一些可选标志修饰符来控制匹配的模式。
以下标志可以单独使用,也可以通过按位或(|)组合使用。例如,re.IGNORECASE | re.MULTILINE 表示同时启用忽略大小写和多行模式。
正则表达式模式
正则表达式模式是由普通字符(例如字符 a 到 z)和特殊字符(称为元字符)组合而成的字符串,用于描述在文本中搜索、匹配或替换特定模式的规则。下面列举了一些常用的正则表达式元字符及其含义:
.
:匹配任意单个字符,除了换行符。^
:匹配字符串的开头。$
:匹配字符串的结尾。*
:匹配前面的元素零次或多次。+
:匹配前面的元素一次或多次。?
:匹配前面的元素零次或一次。\d
:匹配任意数字,相当于 [0-9]。\w
:匹配字母、数字、下划线,相当于 [a-zA-Z0-9_]。[...]
:匹配方括号中的任意一个字符。(x|y)
:匹配 x 或 y。\s
:匹配任意空白字符,包括空格、制表符、换行符等。
除了上述元字符外,正则表达式还支持通过括号来表示分组,使用 {}
来指定重复次数,使用 \
来转义特殊字符等。
例如,正则表达式模式 \b\w{3}\b
可以用于匹配长度为 3 的单词,其中:
\b
表示单词的边界。\w
匹配任意字母、数字或下划线。{3}
表示重复前面的元素三次。- 因此,整个模式就是匹配长度为 3 的单词。
正则表达式模式在对文本进行搜索、匹配或替换时非常强大,可以满足各种复杂的匹配需求。
正则表达式实例
关注我,不迷路,共学习,同进步
关注我,不迷路,共学习,同进步
相关文章:

01 Python进阶:正则表达式
re.match函数 使用 Python 中的 re 模块时,可以通过 re.match() 函数来尝试从字符串的开头匹配一个模式。以下是一个简单的详解和举例: import re# 定义一个正则表达式模式 pattern r^[a-z] # 匹配开头的小写字母序列# 要匹配的字符串 text "h…...
pdf图片识别分类
文章目录 解析pdf数据ocr识别分类方法正则匹配词频统计分类模型 分类完提示 解析pdf数据 试了几种方法 fitz-get_image后面方法不适用,用pixmap分辨率低 用pypdf2版本低方法用不了 用pdf2image还要下依赖工具 用spire.pdf的SaveAsImage分辨率低,Extract…...
24双非考研哈尔滨工程大学计算机(@程程笔记)
前言 个人情况,本科双非考研软件工程。24考研成绩总分369(政治75,英语58,数学102,专业课134),整体各科成绩比较均衡,没有太突出和瘸腿的,初始排名5/19,复试后排名5/13。 政治 政治…...

IO流(2.其他流)
能够高效读写的缓冲流,能够转换编码的转换流,能够持久化存储对象的序列化流 一、缓冲流 缓冲流,也叫高效流,是对4个基本的FileXxx 流的增强,所以也是4个流,按照数据类型分类: 字节缓冲流:Buffe…...

PyTorch之计算模型推理时间
一、参考资料 如何测试模型的推理速度 Pytorch 测试模型的推理速度 二、计算PyTorch模型推理时间 1. 计算CPU推理时间 import torch import torchvision import time import tqdm from torchsummary import summarydef calcCPUTime():model torchvision.models.resnet18()…...

layui后台框架,将左侧功能栏目 集中到一个页面,通过上面的tab切换 在iframe加载对应页面
实现上面的 功能效果。 1 html代码 <form class"layui-form layui-form-pane" action""><div class"layui-tab" lay-filter"demo"><ul class"layui-tab-title"><li id"a0" class"lay…...

【网络原理】使用Java基于TCP搭建简单客户端与服务器通信
目录 🎄API介绍🌸ServerSocket API🌸Socket API 🍀TCP中的长短连接🌳建立TCP回显客户端与服务器🌸TCP搭建服务器🌸TCP搭建客户端 ⭕总结 TCP服务器与客户端的搭建需要借助以下API 🎄…...
Hadoop生态系统主要是什么?
Hadoop生态系统主要由以下几部分组成: Hadoop HDFS:这是Hadoop的核心组件之一,是一个用于存储大数据的分布式文件系统。它可以在廉价的硬件上提供高度的容错性,通过数据复制和故障切换实现数据的高可用性。 MapReduce:…...

GlusterFS分布式文件系统
前言 存储可分为文件存储和对象存储,常见的文件存储相关技术有:nfs、lvm、raid;常见的对象存储相关技术有:gfs、ceph、fdfs、nas、oss、s3、switch。GlusterFS 归类为文件存储系统,它提供了一种强大的方式来管理和存储…...

spark本地模拟多个task时如何启动多个Excutor
1、首先在9090端口下启动Excutor,作为第一个Excutor 2、然后修改9090端口为:9091,如下图点击Edit Configration 3、然后按下图操作 , 4、修改一下名字 5、点击apply,🆗 6、检查下面圈1是否是刚刚我们新建的MyExcutor(2…...
RocketMQ笔记(八)SpringBoot整合RocketMQ广播消费消息
目录 一、简介1.1、消费模式 二、消费者2.1、maven依赖2.2、application配置2.3、消费监听 三、生产者3.1、发送消息3.2、运行结果 四、其他 一、简介 在之前的文章中,我们讲过了,同步发送单条消息,异步发送单条消息,发送单向消息…...

Appium如何自动判断浏览器驱动
问题:有的测试机chrome是这个版本,有的是另一个版本,怎么能让自动判断去跑呢?? 解决办法:使用appium的chromedriverExecutableDir和chromedriverChromeMappingFile 切忌使用chromedriverExecutableDir和c…...
MVCC-多版本并发控制
MVCC(多版本并发控制)简介 在数据库系统中,并发控制是一个非常重要的话题。为了提高系统的并发性能和吞吐量,现代数据库系统通常使用多种技术来实现对数据的安全访问,其中一种重要的技术就是多版本并发控制࿰…...
c++找最高成绩
根据给定的程序,写成相关的成员函数,完成指定功能。 函数接口定义: 定义max函数,实现输出最高成绩对应的学号以及最高成绩值。 裁判测试程序样例: #include <iostream> using namespace std; class Student{…...
前端saas化部署
在项目中难免会遇到一些特殊的需求,例如同一套代码需要同时部署上两个不同的域名A和B。A和B的不同之处仅在于,例如一些背景图片,logo,展示模块的不同,其他业务逻辑是和展示模块是完全一样的。此时我们当然可以考虑单独…...

[Java基础揉碎]Math类
目录 基本介绍 方法一览(均为静态方法) 1) abs 绝对值 2) pow 求幂 3) ceil 向上取整 4) floor 向下取整 5) round 四舍五入 6) sqrt 求开方 7) random求随机数 8) max 求两个数的最大值 9) min 求两个数的最小值 基本介绍 Math类包含用于执行基本数学运算的方法&…...

MyBatis输入映射
1 parameterType parameterType:接口中方法参数的类型,类型必须是完全限定名或别名(稍后讲别名)。该属性非必须,因为Mybatis框架能自行判断具体传入语句的参数,默认值为未设置(unset)。<sel…...
金三银四,程序员求职季
随着春天的脚步渐近,对于许多程序员来说,一年中最繁忙、最重要的面试季节也随之而来。金三银四,即三月和四月,被广大程序员视为求职的黄金时期。在这两个月里,各大公司纷纷开放招聘,求职者们则通过一轮又一…...

[react优化] 避免组件或数据多次渲染/计算
代码如下 点击视图x➕1,导致视图更新, 视图更细导致a也重新大量计算!!这很浪费时间 function App() {const [x, setX] useState(3)const y x 2console.log(重新渲染, x, y);console.time(timer)let a 0for (let index 0; index < 1000000000; index) {a}console.timeE…...

「意」起出发 丨意大利OXO城市展厅盛大启幕,成都设计圈共襄盛举
4月8日,主题为“「意」起出发「智」见OXO”的意大利OXO城市展厅发布会在成都大悦城OXO成都城市展厅隆重举办。 大会现场,成都装饰协会领导,喜尔康董事长吴锡山,天合智能副董事长罗洁,意大利OXO卫浴市场部总监兰彬&…...
[特殊字符] 智能合约中的数据是如何在区块链中保持一致的?
🧠 智能合约中的数据是如何在区块链中保持一致的? 为什么所有区块链节点都能得出相同结果?合约调用这么复杂,状态真能保持一致吗?本篇带你从底层视角理解“状态一致性”的真相。 一、智能合约的数据存储在哪里…...

接口测试中缓存处理策略
在接口测试中,缓存处理策略是一个关键环节,直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性,避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明: 一、缓存处理的核…...
零门槛NAS搭建:WinNAS如何让普通电脑秒变私有云?
一、核心优势:专为Windows用户设计的极简NAS WinNAS由深圳耘想存储科技开发,是一款收费低廉但功能全面的Windows NAS工具,主打“无学习成本部署” 。与其他NAS软件相比,其优势在于: 无需硬件改造:将任意W…...
反向工程与模型迁移:打造未来商品详情API的可持续创新体系
在电商行业蓬勃发展的当下,商品详情API作为连接电商平台与开发者、商家及用户的关键纽带,其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息(如名称、价格、库存等)的获取与展示,已难以满足市场对个性化、智能…...

JavaScript 中的 ES|QL:利用 Apache Arrow 工具
作者:来自 Elastic Jeffrey Rengifo 学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。 想获得 Elastic 认证吗?了解下一期 Elasticsearch Engineer 培训的时间吧! Elasticsearch 拥有众多新功能,助你为自己…...

UE5 学习系列(三)创建和移动物体
这篇博客是该系列的第三篇,是在之前两篇博客的基础上展开,主要介绍如何在操作界面中创建和拖动物体,这篇博客跟随的视频链接如下: B 站视频:s03-创建和移动物体 如果你不打算开之前的博客并且对UE5 比较熟的话按照以…...
Qt Http Server模块功能及架构
Qt Http Server 是 Qt 6.0 中引入的一个新模块,它提供了一个轻量级的 HTTP 服务器实现,主要用于构建基于 HTTP 的应用程序和服务。 功能介绍: 主要功能 HTTP服务器功能: 支持 HTTP/1.1 协议 简单的请求/响应处理模型 支持 GET…...

Spring数据访问模块设计
前面我们已经完成了IoC和web模块的设计,聪明的码友立马就知道了,该到数据访问模块了,要不就这俩玩个6啊,查库势在必行,至此,它来了。 一、核心设计理念 1、痛点在哪 应用离不开数据(数据库、No…...
是否存在路径(FIFOBB算法)
题目描述 一个具有 n 个顶点e条边的无向图,该图顶点的编号依次为0到n-1且不存在顶点与自身相连的边。请使用FIFOBB算法编写程序,确定是否存在从顶点 source到顶点 destination的路径。 输入 第一行两个整数,分别表示n 和 e 的值(1…...

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决
Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决 问题背景 在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中,新增了一个本地验证码接口 /code,使用函数式路由(RouterFunction)和 Hutool 的 Circle…...