Python正则表达式有哪些常用匹配字符?
处理文本数据时,我们经常需要查找、提取或替换特定模式的字符串。这时候正则表达式就成了程序员最强大的武器之一。今天我们就来详细聊聊Python中那些最常用的正则表达式字符和它们的实际用法。
为什么要学正则表达式?
假设你遇到这些场景:
- 从日志中提取所有日期时间
- 验证用户输入的邮箱格式是否正确
- 批量修改代码中的变量名
- 抓取网页中的特定数据
用普通字符串方法处理这些需求会很麻烦! 正则表达式能让你用简洁的模式描述复杂文本规则。先看个简单例子:
import retext = "订单号:12345 金额:¥100.00"
pattern = r"¥(\d+\.\d{2})"
match = re.search(pattern, text)
if match:print(f"找到金额:{match.group(1)}")
这段代码可以轻松提取文本中的金额数字。那么问题来了:正则表达式里那些特殊字符都是什么意思?怎么组合使用?
基础匹配字符
1. 字面字符
最简单的正则就是直接匹配文本:
re.findall(r"apple", "I like apple and apple pie")
# 找到所有"apple"
2. 特殊字符
这些字符有特殊含义,使用时需要转义:
# 匹配真实的点号(.)
re.findall(r"\.com", "example.com test.com")
3. 字符类
用方括号定义匹配的字符范围:
# 匹配所有元音字母
re.findall(r"[aeiou]", "hello world")
常用元字符
1. 匹配任意字符:.
点号匹配除换行符外的任意字符:
re.findall(r"h.llo", "hello hallo h3llo")
2. 匹配数字:\d
相当于[0-9]:
# 提取电话号码
re.findall(r"\d{3}-\d{4}-\d{4}", "电话:138-1234-5678")
3. 匹配单词字符:\w
包括字母、数字和下划线:
re.findall(r"\w+", "user_name123 测试!")
4. 匹配空白字符:\s
包括空格、制表符、换行等:
re.split(r"\s+", "hello world\npython")
量词:控制匹配次数
1. 零次或多次:*
匹配前面的元素零次或多次:
re.findall(r"\d*", "abc 123 xyz")
2. 一次或多次:+
至少匹配一次:
# 匹配连续的数字
re.findall(r"\d+", "abc 123 xyz 456")
3. 零次或一次:?
表示可选元素:
# 匹配color或colour
re.findall(r"colou?r", "color colour")
4. 精确次数:{n}
匹配特定次数:
# 匹配4位数字
re.findall(r"\d{4}", "123 4567 89012")
分组和捕获
圆括号不仅用于分组,还能捕获匹配内容:
# 提取日期各部分
match = re.search(r"(\d{4})-(\d{2})-(\d{2})", "2023-05-20")
if match:print(f"年:{match.group(1)} 月:{match.group(2)} 日:{match.group(3)}")
边界匹配
1. 单词边界:\b
确保匹配整个单词:
re.findall(r"\bpython\b", "python3 pythonic learn python")
2. 字符串边界:^和$
匹配开头和结尾:
# 检查是否以http开头
if re.match(r"^http", url):print("这是网址")
实际应用案例
1. 邮箱验证
def is_valid_email(email):pattern = r"^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$"return bool(re.match(pattern, email))
2. 提取HTML链接
html = '<a href="https://example.com">链接</a>'
links = re.findall(r'href="(https?://[^"]+)"', html)
注意! 解析复杂HTML最好用专门的解析库,正则适合简单场景。
3. 日志分析
log = "ERROR 2023-05-20 14:30:22 模块A 发生了空指针异常"
pattern = r"(ERROR|WARN)\s+(\d{4}-\d{2}-\d{2}\s\d{2}:\d{2}:\d{2})\s+(\w+)\s+(.+)"
match = re.search(pattern, log)
在【程序员总部】这个公众号里,字节跳动的一位高级工程师分享过他们用正则表达式处理TB级日志的实战经验。这个由字节11年技术专家创办的公众号,聚集了阿里、字节、百度等大厂的技术大牛,经常分享这类实用技术。如果你想学习更多正则表达式的高级用法和性能优化技巧,关注他们肯定会有收获。
常见问题与技巧
- 贪婪vs非贪婪匹配:
- 默认是贪婪模式(尽可能多匹配)
- 加?变成非贪婪(尽可能少匹配)
# 贪婪匹配
re.findall(r"<.*>", "<div><p>test</p></div>")[0]
# 匹配整个字符串# 非贪婪匹配
re.findall(r"<.*?>", "<div><p>test</p></div>")
# 匹配每个标签
- 编译正则表达式:
重复使用时应先编译:
pattern = re.compile(r"\d{4}-\d{2}-\d{2}")
dates = pattern.findall(text)
- 性能优化:
- 避免过度使用.*
- 尽量使用具体字符集
- 复杂正则可以拆分为多个简单正则
总结
Python正则表达式常用的匹配字符包括:
- 基础字符:字面字符、特殊字符、字符类
- 元字符:.\d\w\s等
- 量词:* + ? {n}等
- 分组和边界匹配
- 贪婪与非贪婪模式
记住! 正则表达式虽然强大,但也不是万能的。对于特别复杂的文本解析,可能需要结合其他方法。建议先从简单的模式开始练习,逐步掌握更复杂的用法。希望这篇指南能帮你掌握Python正则的核心用法!
相关文章:
Python正则表达式有哪些常用匹配字符?
处理文本数据时,我们经常需要查找、提取或替换特定模式的字符串。这时候正则表达式就成了程序员最强大的武器之一。今天我们就来详细聊聊Python中那些最常用的正则表达式字符和它们的实际用法。 为什么要学正则表达式? 假设你遇到这些场景:…...
List、Set集合通过Stream流求和
目录 一、泛型为Integer、Long、Double、BigDecimal求和 二、泛型为实体类 对单个属性求和 对多个属性分别分组求和 并返回聚合后的对象 多字段乘积求和(基本数据类型) 多字段乘积求和(BigDecimal) 对对象中的多个字段求和…...
Linux:Makefile
编译器gcc 使用方式:gcc [ 选项 ] 要编译的⽂件 [ 选项 ] [ ⽬标⽂件 ] 编译分为以下几个步骤: 1.预处理(进⾏宏替换) 预处理功能主要包括宏定义,⽂件包含,条件编译,去注释等。 预处理指令是以#号开头的代码⾏。 实例: gcc –E hello.c –o hello…...
基于双闭环PID控制器的永磁同步电机控制系统匝间故障Simulink仿真
欢迎微♥关注“电击小子程高兴的MATLAB小屋”获取巨额优惠 1.模型简介 本仿真模型基于MATLAB/Simulink(版本MATLAB 2013Rb)软件。建议采用matlab2013 Rb及以上版本打开。(若需要其他版本可联系代为转换,高于该版本的matlab均可正…...
硬件电路设计之51单片机(2)
声明:绘制原理图和PCB的软件为嘉立创EDA。根据B站尚硅谷嵌入式之原理图&PCB设计教程学习所作个人用笔记。 目录 一、原理图详解 1、TypeC接口 (1)TypeC接口介绍 (2)TypeC原理图 2、5V转3.3V 3、单片机电源开…...
从零开始学习PX4源码20(遥控器模式切换如何执行)
目录 文章目录 目录摘要1.用到的消息和主题2.遥控器切换模式代码流程摘要 本节主要学习PX4的手动遥控器切换模式,具体是如何实现的,具体改变了哪些变量,和模式管理有什么联系。 1.用到的消息和主题 1.行为请求消息:ActionRequest.msg ///时间信息 uint64 timestamp # t…...
SpringAI+DeepSeek大模型应用开发——1 AI概述
AI领域常用词汇 LLM(LargeLanguage Model,大语言模型) 能理解和生成自然语言的巨型AI模型,通过海量文本训练。例子:GPT-4、Claude、DeepSeek、文心一言、通义干问。 G(Generative)生成式: 根据上…...
经济指标学习(一)
系列文章目录 文章目录 系列文章目录1、市净率**一、定义与计算****二、核心意义****三、应用场景****四、局限性****五、分类与衍生指标****总结** 2、市销率**一、定义与计算****二、核心意义****三、优缺点分析****四、适用场景****五、与其他指标的对比****六、实际应用案例…...
理解 results = model(source, stream=True) 的工作原理和优势
1. 核心概念解析 (1) streamTrue 的作用 生成器模式:当处理视频或图像序列时,streamTrue 会将结果包装成一个 生成器(Generator),逐帧生成 Results 对象,而不是一次性返回所有结果。内存优化:…...
国内互联网大厂推出的分布式数据库 的详细对比,涵盖架构、性能、适用场景、核心技术等维度
以下是 国内互联网大厂推出的分布式数据库 的详细对比,涵盖架构、性能、适用场景、核心技术等维度: 一、主流分布式数据库列表 大厂数据库名称类型适用场景发布时间腾讯云TDSQL分布式HTAP金融、电商、游戏、政企2010年阿里云OceanBase分布式HTAP银行核…...
解释`new`关键字的执行过程,并手动实现一个`myNew`函数。
在 JavaScript 中,new 关键字用于创建一个用户定义的对象实例。它的执行过程分为以下步骤: new 关键字的执行过程 创建空对象: 创建一个新的空对象,其 [[Prototype]](即 __proto__)指向构造函数的 prototy…...
Android 项目配置文件解释
Android 项目配置文件解释 目录 Android 项目配置文件解释1. `plugins` 块2. `android` 块3. `dependencies` 块为什么需要 JDK 和 Kotlin1. plugins 块 plugins {id com.android.applicationid org.jetbrains.kotlin.android }id com.android.application:应用 Android 应用…...
亚马逊热销变维权?5步搭建跨境产品的安全防火墙
“产品热卖,引来维权”——这已经悄然成为越来越多跨境卖家的“热销烦恼”。曾经拼品拼量,如今却要步步谨慎。商标侵权、专利投诉、图片盗用……这些问题一旦发生,轻则下架、账号被限,重则冻结资金甚至封店。 别让“热销”变“受…...
C语言——分支语句
在现实生活中,我们经常会遇到作出选择和判断的时候,在C语言中也同样要面临作出选择和判断的时候,所以今天,就让我们一起来了解一下,C语言是如何作出选择判断的。 目录 1.何为语句? 2.if语句 2.1 if语句的…...
绿盟二面面试题
5000篇网安资料库https://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247486065&idx2&snb30ade8200e842743339d428f414475e&chksmc0e4732df793fa3bf39a6eab17cc0ed0fca5f0e4c979ce64bd112762def9ee7cf0112a7e76af&scene21#wechat_redirect 1. 原理深度&…...
deepseek生成流程图
目录 Mermaid流程图需求询问框架交互显示流程图markdown在线网站 可能会出现的问题语法报错 在职场中,借助AI生成图表是提升效率的重要技能,本篇我们讲解如何使用deepseek生成流程图 Mermaid流程图 需求 学习太差劲了,我想要一个比较好的学…...
界面控件DevExpress WPF v25.1新功能预览 - 文档处理类功能升级
DevExpress WPF拥有120个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程序,这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。 无论是Office办公软件…...
大塔集团乔迁开新局 企业赋能贯全程
2025年4月15 日,在佛山市佛山大道北175号,大塔集团乔迁开业盛大启幕,业界目光聚焦于此。 点睛仪式 揭牌仪式 彩绸飘扬、嘉宾云集,现场气氛热烈非凡,这一标志性时刻,宣告着大塔集团正式踏上全新发展征程。 …...
新闻业务--草稿箱
本人之前写的侧边栏渲染有点问题,超级管理员和其他的不兼容,所以修改了一下SideMenu: import React, { useState, useEffect } fromreact; import { Layout, Menu } from antd; import { useNavigate } fromreact-router-dom; import axios …...
Spark-SQL核心编程(二)(三)
Spark-SQL核心编程(二) DSL 语法 DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据。 可以在 Scala, Java, Python 和 R 中使用 DSL,使用 DSL 语法风格不必去创建临时视图了。 1.创建一个 DataFrame val d…...
Spring Boot整合Kafka的详细步骤
1. 安装Kafka 下载Kafka:从Kafka官网下载最新版本的Kafka。 解压并启动: 解压Kafka文件后,进入bin目录。 启动ZooKeeper:./zookeeper-server-start.sh ../config/zookeeper.properties。 启动Kafka:./kafka-server-…...
【EI/Scopus顶会矩阵】2025年5-6月涵盖统计建模、数智转型、信息工程、数字系统、自动化系统领域,硕博生执笔未来!
【EI/Scopus顶会矩阵】2025年5-6月涵盖统计建模、数智转型、信息工程、数字系统、自动化系统领域,硕博生执笔未来! 【EI/Scopus顶会矩阵】2025年5-6月涵盖统计建模、数智转型、信息工程、数字系统、自动化系统领域,硕博生执笔未来࿰…...
Kubernetes 节点摘除指南
目录 一、安全摘除节点的标准流程 1. 确认节点名称及状态 2. 标记节点为不可调度 3. 排空(Drain)节点 4. 删除节点 二、验证节点是否成功摘除 1. 检查节点列表 2. 检查节点详细信息 3. 验证 Pod 状态 三、彻底清理节点(可选…...
ReliefF 的原理
🌟 ReliefF 是什么? ReliefF 是一种“基于邻居差异”的特征选择方法,用来评估每个特征对分类任务的贡献大小。 它的核心问题是: “我怎么知道某个特征是不是重要?是不是有能力把不同类别的数据区分开?” 而…...
继承:(开始C++的进阶)
我们今天来学习C的进阶: 面向对象三大特性:封装,继承,多态。 封装我们在前面已经学了,我们细细理解,我们的类的封装,迭代器的封装(vector的迭代器可以是他的原生指针,li…...
oracle数据库单个表空间达到32G后程序报错表空间不足问题排查、处理
oracle数据库单个表空间达到32G后程序报错表空间不足问题排查、处理 系统宕机tomcat日志报错表空间无法增长,排查发现oralce表空间文件到了32G。 通过AI查了下,“oracle是否支持表空间达到32G后,自动创建新的表空间文件” 答复是oralce不支…...
人工智能——梯度提升决策树算法
目录 摘要 14 梯度提升决策树 14.1 本章工作任务 14.2 本章技能目标 14.3 本章简介 14.4 编程实战 14.5 本章总结 14.6 本章作业 本章已完结! 摘要 本章实现的工作是:首先采用Python语言读取含有英语成绩、数学成绩以及学生所属类型的样本数据…...
数据结构学习笔记 :基本概念、算法特性与线性表实现
目录 数据的逻辑结构数据的物理结构算法的五大特性好的算法目标时间复杂度与空间复杂度线性表的顺序存储(顺序表) 6.1 静态分配 6.2 动态分配 6.3 基本操作及时间复杂度 一、数据的逻辑结构 数据的逻辑结构描述数据元素之间的逻辑关系,分为…...
【leetcode hot 100 136】只出现一次的数字
解法一:(异或XOR)相同的数字出现两次则归零 class Solution {public int singleNumber(int[] nums) {int result 0;for(int num:nums){result ^ num;}return result;} }注意: 其他方法:HashList记录次数再查找数组&a…...
QEMU学习之路(8)— ARM32通过u-boot 启动Linux
QEMU学习之路(8)— ARM32通过u-boot 启动Linux 一、前言 参考文章: Linux内核学习——内核的编译和启动 Linux 内核的编译和模拟执行 Linux内核运行——根文件系统 Linux 内核学习——使用 uboot 加载内核 二、构建Linux内核 1、获取Linu…...
