当前位置：首页 > article >正文

一文掌握python中正则表达式的各种使用

article 2026/4/6 12:16:58

文章目录

- 1. 正则表达式基础
- - 1.1 常用元字符
  - 1.2 基本用法
- 2. 正则表达式高级功能
- - 2.1 分组捕获
  - 2.2 命名分组
  - 2.3 非贪婪匹配
  - 2.4 零宽断言
  - 2.5 编译正则表达式
  - 2.6 转义字符
- 3. 常见应用场景
- - 3.1 验证邮箱格式
  - 3.2 提取 URL
  - 3.3 提取日期
  - 3.4 提取HTML中的链接
  - 3.5 提取HTML中的图片链接
  - 3.6 提取JSON中的特定字段
- 4. 总结

在Python爬虫中， 正则表达式（ Regular Expression，简称Regex）是一种强大的工具，用于从文本中提取、匹配和替换特定的字符串模式。正则表达式可以帮助我们从HTML、JSON等格式的文本中提取所需的数据。

1. 正则表达式基础

1.1 常用元字符

正则表达式由一系列字符和特殊符号组成，用于定义匹配模式。以下是一些常用的正则表达式元字符：

. 匹配任意字符（除了换行符 \n）
^ 匹配字符串的开头
$ 匹配字符串的结尾
* 匹配前面的字符 0 次或多次
+ 匹配前面的字符 1 次或多次
? 匹配前面的字符 0 次或 1 次
{n} 匹配前面的字符恰好 n 次
{n,} 匹配前面的字符至少 n 次
{n,m} 匹配前面的字符至少 n 次，至多 m 次
\d 匹配数字（等价于 [0-9]）
\D 匹配非数字（等价于 [^0-9]）
\w 匹配字母、数字或下划线（等价于 [a-zA-Z0-9_]）
\W 匹配非字母、数字或下划线
\s 匹配空白字符（空格、制表符、换行符等）
\S 匹配非空白字符
[...] 匹配括号内的任意一个字符
[^...] 匹配不在括号内的任意一个字符

1.2 基本用法

Python提供了re模块来支持正则表达式的操作。以下是re模块中常用的函数：

re.search(pattern, string)：在字符串中搜索匹配正则表达式的第一个位置，返回一个匹配对象。如果没有匹配项，返回None。
re.match(pattern, string)：从字符串的开头开始匹配正则表达式，返回一个匹配对象。如果没有匹配项，返回None。
re.findall(pattern, string)：返回字符串中所有匹配正则表达式的子串，返回一个列表。
re.sub(pattern, repl, string)：将字符串中所有匹配正则表达式的子串替换为repl，返回替换后的字符串。
re.compile(pattern)：将正则表达式编译为一个正则表达式对象，可以重复使用。

Python 的 re 模块使用样例如下：

import re# re.match()
result = re.match(r'hello', 'hello world')
if result:print("匹配成功:", result.group())  # 输出: 匹配成功: hello
else:print("匹配失败")# re.search()
result = re.search(r'world', 'hello world')
if result:print("匹配成功:", result.group())  # 输出: 匹配成功: world
else:print("匹配失败")# re.findall()
result = re.findall(r'\d+', '3 apples, 5 bananas, 10 cherries')
print(result)  # 输出: ['3', '5', '10']#re.finditer()
matches = re.finditer(r'\d+', '3 apples, 5 bananas, 10 cherries')
for match in matches:print(match.group())  # 输出: 3, 5, 10# re.sub()
text = '3 apples, 5 bananas, 10 cherries'
result = re.sub(r'\d+', 'X', text)
print(result)  # 输出: X apples, X bananas, X cherries# re.split()
result = re.split(r'\s+', 'hello   world')
print(result)  # 输出: ['hello', 'world']

2. 正则表达式高级功能

2.1 分组捕获

使用 () 可以将匹配的内容分组，并通过 group() 方法获取。

import retext = 'John: 30, Jane: 25'
result = re.search(r'(\w+): (\d+)', text)
if result:print("姓名:", result.group(1))  # 输出: 姓名: Johnprint("年龄:", result.group(2))  # 输出: 年龄: 30

2.2 命名分组

可以为分组命名，方便后续引用。

import retext = 'John: 30'
result = re.search(r'(?P<name>\w+): (?P<age>\d+)', text)
if result:print("姓名:", result.group('name'))  # 输出: 姓名: Johnprint("年龄:", result.group('age'))  # 输出: 年龄: 30

2.3 非贪婪匹配

正则表达式默认是贪婪匹配，即尽可能多地匹配字符。例如，.*会匹配尽可能多的字符。可以使用.*?进行非贪婪匹配。

import retext = '<div>content1</div><div>content2</div>'
result = re.findall(r'<div>(.*?)</div>', text)
print(result)  # 输出: ['content1', 'content2']

2.4 零宽断言

零宽断言用于指定匹配的位置，但不消耗字符。

正向先行断言：(?=…)，匹配后面是 … 的位置。
负向先行断言：(?!..)，匹配后面不是 … 的位置。
正向后行断言：(?<=…)，匹配前面是 … 的位置。
负向后行断言：(?<!..)，匹配前面不是 … 的位置。

import re# 匹配后面是数字的字母
result = re.findall(r'\w+(?=\d)', 'apple3 banana5 cherry10')
print(result)  # 输出: ['apple', 'banana', 'cherry']# 匹配前面是数字的字母
result = re.findall(r'(?<=\d)\w+', '3apple 5banana 10cherry')
print(result)  # 输出: ['apple', 'banana', 'cherry']

2.5 编译正则表达式

如果需要多次使用同一个正则表达式，可以将其编译为 re.Pattern 对象，以提高效率。

import repattern = re.compile(r'\d+')
result = pattern.findall('3 apples, 5 bananas, 10 cherries')
print(result)  # 输出: ['3', '5', '10']

2.6 转义字符

在正则表达式中，某些字符（如.、*、?等）具有特殊含义。如果要匹配这些字符本身，需要使用反斜杠\进行转义。例如，.匹配实际的.字符。

3. 常见应用场景

3.1 验证邮箱格式

import redef validate_email(email):pattern = r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$'return re.match(pattern, email) is not Noneprint(validate_email('test@example.com'))  # 输出: True
print(validate_email('invalid-email'))    # 输出: False

3.2 提取 URL

import retext = 'Visit https://www.example.com or http://example.org'
urls = re.findall(r'https?://[^\s]+', text)
print(urls)  # 输出: ['https://www.example.com', 'http://example.org']

3.3 提取日期

import retext = 'Today is 2023-10-05, and tomorrow is 2023-10-06.'
dates = re.findall(r'\d{4}-\d{2}-\d{2}', text)
print(dates)  # 输出: ['2023-10-05', '2023-10-06']

3.4 提取HTML中的链接

假设我们要从HTML中提取所有的链接，可以使用正则表达式来匹配标签中的href属性。

import rehtml = """
<a href="https://www.example.com">Example</a>
<a href="https://www.google.com">Google</a>
<a href="https://www.python.org">Python</a>
"""# 正则表达式匹配<a>标签中的href属性
pattern = r'<a href="(.*?)">'# 使用re.findall提取所有匹配的链接
links = re.findall(pattern, html)print(links)
# 输出：['https://www.example.com', 'https://www.google.com', 'https://www.python.org']

3.5 提取HTML中的图片链接

假设我们要从HTML中提取所有的图片链接，可以使用正则表达式来匹配标签中的src属性。

import rehtml = """
<img src="https://www.example.com/image1.jpg" alt="Image 1">
<img src="https://www.google.com/logo.png" alt="Google Logo">
<img src="https://www.python.org/python.png" alt="Python Logo">
"""# 正则表达式匹配<img>标签中的src属性
pattern = r'<img src="(.*?)"'# 使用re.findall提取所有匹配的图片链接
image_links = re.findall(pattern, html)print(image_links)
# 输出：['https://www.example.com/image1.jpg', 'https://www.google.com/logo.png', 'https://www.python.org/python.png']

3.6 提取JSON中的特定字段

假设我们有一个JSON字符串，想要提取其中的某个字段，可以使用正则表达式来匹配。

import rejson_data = '{"name": "Alice", "age": 25, "city": "New York"}'# 正则表达式匹配"name"字段的值
pattern = r'"name": "(.*?)"'# 使用re.search提取匹配的字段值
match = re.search(pattern, json_data)if match:print(match.group(1))

4. 总结

正则表达式是处理文本的强大工具，Python 的 re 模块提供了丰富的功能来支持正则表达式的使用。通过掌握基础语法和高级功能，可以轻松应对各种文本处理任务。

一文掌握python中正则表达式的各种使用

文章目录 1. 正则表达式基础1.1 常用元字符1.2 基本用法 2. 正则表达式高级功能2.1 分组捕获2.2 命名分组2.3 非贪婪匹配2.4 零宽断言2.5 编译正则表达式2.6 转义字符 3. 常见应用场景3.1 验证邮箱格式3.2 提取 URL3.3 提取日期3.4 提取HTML中的链接3.5 提取HTML中的图片链接3.…...

编程日记 2026/3/11 13:31:57

java.2.25

1. 注释注释是对代码的解释和说明文字。 Java中的注释分为三种： 单行注释： // 这是单行注释文字多行注释： /* 这是多行注释文字这是多行注释文字这是多行注释文字 */ 注意：多行注释不能嵌套使用。文档注释：…...

编程日记 2026/4/6 2:07:25

VScode 开发

目录安装 VS Code 创建一个 Python 代码文件安装 VS Code VSCode（全称：Visual Studio Code）是一款由微软开发且跨平台的免费源代码编辑器，VSCode 开发环境非常简单易用。 VSCode 安装也很简单，打开官网 Visual S…...

编程日记 2026/4/3 5:38:22

在llm和agent的背景下，有什么比较好的研究方向或者能解决现在的实际的社会问题

在llm和agent的背景下，有什么比较好的研究方向或者能解决现在的实际的社会问题在LLM（大语言模型）与Agent（智能体）的融合背景下，研究方向和社会应用正呈现出多元化趋势。一、技术研究方向多模态智能体（Multi-modal Agents）方向：将LLM与视觉、语音、触觉等多模态数…...

编程日记 2026/4/3 22:46:31

A Large Recurrent Action Model: xLSTM Enables Fast Inference for Robotics Tasks

奥地利林茨约翰开普勒大学机器学习研究所 ELLIS 小组，LIT 人工智能实验室奥地利林茨 NXAI 有限公司谷歌 DeepMind米拉 - 魁北克人工智能研究所摘要近年来，强化学习（Reinforcement Learning, RL）领域出现了一种趋势，…...

编程日记 2026/4/6 3:04:35

CSS按钮点击效果实战：scale(0.95) 与10个交互动画优化指南

[TOC](CSS按钮点击效果实战：scale(0.95) 与10个交互动画优化指南) 导语在现代 Web 开发中，细腻的交互效果是提升用户体验的关键。通过简单的 CSS 动画（如 transform: scale(0.95)），无需 JavaScript 即可实现高效、流…...

编程日记 2026/4/2 0:43:44

计算机毕业设计SpringBoot+Vue.js学科竞赛管理系统(源码+文档+PPT+讲解)

温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 作者简介：Java领…...

编程日记 2026/3/27 5:11:39

在Spring Boot+Vue前后端分离的项目中使用JWT实现基本的权限校验

说明在 Spring Boot + Vue 前后端分离的项目中，如果不使用第三方服务（如 Spring Security、Shiro 等），可以通过自定义实现基本的权限校验。使用JWT实现步骤以下是实现步骤： 1. 设计权限模型通常权限模型包括：用户（User）：系统的使用者。角色（Role）：用户的权…...

编程日记 2026/3/22 13:28:01

Deep Seek-编码器

1. DeepSeek Coder 简介 DeepSeek Coder 由一系列代码语言模型组成，每个模型都在 2T 令牌上从头开始训练，其中 87% 的代码和 13% 的自然语言在中英文中组成。我们提供各种大小的代码模型，从 1B 到 33B 版本。每个模型都通过采用 16K 的窗口大小和额外的填空任务在项目级代码…...

编程日记 2026/4/5 11:56:25

在 MySQL 的 InnoDB 存储引擎中，部分数据库优化策略

在 MySQL 的 InnoDB 存储引擎中，以下操作是同步的，并且会直接影响数据库执行 SQL 的效率： 1. Redo Log 的同步刷盘（事务提交时） 触发条件： 当 innodb_flush_log_at_trx_commit1 时，事务提交时强…...

编程日记 2026/4/5 21:27:51

一文掌握DrissionPage的详细使用

文章目录 1. 什么是DrissionPage？2. 安装 DrissionPage3. 基本使用3.1 初始化浏览器3.2 打开网页3.3 查找元素3.4 操作元素3.5 获取元素属性3.6 执行 JavaScript3.7 页面对象（Page Object）3.8 元素定位方式3.9 常用操作方法3.10 断言 4. 高级…...

编程日记 2025/3/21 19:16:01

Android平台轻量级RTSP服务模块技术对接说明

一、技术背景随着内网无纸化办公、电子教室等应用场景对超低延迟音视频传输需求的日益增长，为避免用户或开发者单独部署 RTSP 或 RTMP 服务，大牛直播 SDK 推出了轻量级 RTSP 服务 SDK。该 SDK 能够将本地音视频数据（如摄像头、麦克风等&…...

编程日记 2026/4/6 7:43:54

代码随想录第二十天|二叉树part08--669.修建二叉搜索树、108.将有序数组转换为二叉搜索树、538.把二叉搜索树转换为累加树

刷题小记： 上期学习了二叉搜索树的插入和删除操作，这次学习如何按区间修剪二叉搜索树。还有两题，关于借助二叉搜索树的有序特性进行转换。 669.修剪二叉搜索树（669.修剪二叉搜索树） 题目分析： 给定一个…...

编程日记 2026/2/14 14:56:22

RoCEv2 高性能传输协议与 Lossless 无损网络

目录文章目录目录RoCERoCEv2 v.s. IBRoCEv2 协议栈RoCEv2 需要 Lossless NetworkLossless Network 拥塞控制技术网络拥塞的原因PFC 基于优先级的流量控制PFC Unfairness （带宽分配不公平）的问题PFC HOL（队头拥塞）的问题PFC Dead…...

编程日记 2026/4/5 20:18:55

head.h #ifndef __HEAD_H #define __HEAD_H// 常用头文件 #include <stdio.h> #include <stdlib.h> #include <string.h>// 网络编程涉及的头文件 #include <sys/socket.h> #include <netinet/in.h> #include <netinet/ip.h>#include <…...

编程日记 2026/2/16 20:07:50

联想 SR590 服务器 530-8i RAID 控制器更换损坏的硬盘

坏了的硬盘会自动亮黄灯。用一个空的新盘来替换，新盘最好不要有东西。但是有东西可能也没啥，因为我看 RAID 控制器里有格式化的选项 1. 从 IPMI 把服务器关机，电源键进入绿色闪烁状态 2. 断电，推开塑料滑块拉出支架，…...

编程日记 2026/4/3 11:21:14

城电科技｜会追日的智能花，光伏太阳花开启绿色能源新篇章

当艺术与科技相遇，会碰撞出怎样的火花？城电科技推出的光伏太阳花，以其独特的设计与智能化的功能，给出了答案。这款产品不仅具备太阳能发电的实用功能，更是一件充满科技属性的艺术性光伏产品，吸引了广泛关注…...

编程日记 2026/4/5 21:42:22

基于YOLO11深度学习的苹果叶片病害检测识别系统【python源码+Pyqt5界面+数据集+训练代码】

《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…...

编程日记 2026/3/16 12:29:31

FFmpeg 命令行全解析：高效音视频处理从入门到精通

FFmpeg FFmpeg 是一款开源的多媒体处理工具集，支持音视频编解码、格式转换、流媒体处理等全链路操作。核心功能与工具: 多媒体全链路支持支持 1000+ 音视频编解码格式（如 H.264、HEVC、AV1）和协议（RTMP、RTSP、HLS），覆盖录制、转码、流化等全流程。提供三大核心工具： …...

编程日记 2026/4/6 3:32:11

kafka数据拉取和发送

文章目录一、原生 KafkaConsumer1、pom文件引入kafka2、拉取数据3、发送数据二、在spring boot中使用@KafkaListener1、添加依赖2、application.yml3、消息拉取：consumer4、自定义ListenerContainerFactory5、消息发送：producer6、kafka通过clientId鉴权时的鉴权失败问题一、…...

编程日记 2026/2/21 1:26:37

多智能体框架

多个不同的角色的Agent，共同完成一份复杂的工作。由一个统筹管理的智能体，自主规划多个智能体分别做什么，以及执行的顺序。 agent 应该包含的属性执行特定任务根据其角色和目标做出决策能够使用工具来实现目标与其他代理沟通和协作保留…...

编程日记 2026/4/5 20:41:47

C++ 正则表达式分组捕获入门指南

在 C 中，正则表达式（regex）是一种用于匹配字符串模式的强大工具。正则表达式不仅能帮助你查找符合特定模式的字符，还能捕获匹配的子字符串（即分组捕获）。这篇文章将介绍 C 正则表达式中的分组捕获机制&…...

编程日记 2026/2/17 0:20:53

C#中级教程（1）——解锁 C# 编程的调试与错误处理秘籍

一、认识错误：编程路上的 “绊脚石” 在 C# 编程中，错误大致可分为两类：语法错误和语义错误（逻辑错误）。语法错误就像是写作文时的错别字和病句，编译器一眼就能识别出来，比如变量名拼写错误、符…...

编程日记 2026/4/5 2:24:53

Jmeter接口并发测试

Apache JMeter 是一款开源的性能测试工具，广泛用于接口并发测试、负载测试和压力测试。以下是使用 JMeter 进行接口并发测试的详细步骤： 一、准备工作安装 JMeter 下载地址：Apache JMeter 官网确保已安装 Java 环境（JMeter 依…...

编程日记 2026/4/4 1:49:36

MySQL-增删改查

一、Create(创建) 📖 语法： INSERT INTO table_name(value_list); 当我们使用表的时候，就可以使用这个语法来向表中插入元素~ 我们这边创建一个用于示范的表(Student)~ create table student( id int, name varchar(20), chinese int, math…...

编程日记 2026/4/3 11:29:37

开源堡垒机 JumpServer 社区版实战教程：发布机的配置与Website资产配置使用

文章目录开源堡垒机 JumpServer 社区版实战教程：发布机的配置与Website资产配置使用一、功能简述二、应用发布机2.1 版本要求2.2 创建应用发布机2.2.1 通过WinRM的协议进行应用发布机的创建2.2.2 通过OpenSSH的协议进行应用发布机的创建2.2.2.1 下载OpenSSH2.2.2.2…...

编程日记 2026/4/5 4:52:01