C++ 正则表达式简介
1. 正则表达式简介
正则表达式(Regular Expression,简称Regex)是一种用于匹配和处理文本的强大工具。它通过特定的符号组合形成匹配规则,常用于表单验证、文本搜索与替换、数据清洗等场景。
C++11标准引入了 <regex>
头文件,提供了对正则表达式的支持。这使得C++程序员能够更加方便地处理字符串。
1.1. 基本组件
- std::regex:表示一个正则表达式对象。
- std::smatch:用于存储匹配结果(字符串的子串)。
- std::regex_match:用于检查一个字符串是否完全匹配一个正则表达式。
- std::regex_search:用于在字符串中搜索与正则表达式部分匹配的子串。
- std::regex_replace:用于替换与正则表达式匹配的部分。
1.2. 常用元字符
元字符 | 描述 | 示例 |
---|---|---|
. | 匹配除换行符外的任意单个字符。 | a.b 匹配 “acb”、“a1b” 等。 |
^ | 匹配字符串的开头。 | ^abc 匹配 “abc”。 |
$ | 匹配字符串的结尾。 | abc$ 匹配 “abc”。 |
* | 匹配前面的元素零次或多次。 | a* 匹配 “a”、“aa”、“aaa” 等。 |
+ | 匹配前面的元素一次或多次。 | a+ 匹配 “a”、“aa”、“aaa” 等。 |
? | 匹配前面的元素零次或一次。 | a? 匹配 “a” 或空字符串。 |
\d | 匹配一个数字 (等价于 [0-9] )。 | \d{2} 匹配两位数字。 |
\D | 匹配一个非数字字符。 | \D{2} 匹配两个非数字字符。 |
\w | 匹配一个单词字符 (字母、数字、下划线)。 | \w{2} 匹配两个单词字符。 |
\W | 匹配一个非单词字符。 | \W{2} 匹配两个非单词字符。 |
\s | 匹配一个空白字符 (空格、制表符、换行符等)。 | \s{2} 匹配两个空白字符。 |
\S | 匹配一个非空白字符。 | \S{2} 匹配两个非空白字符。 |
[abc] | 匹配方括号中的任意一个字符。 | [abc] 匹配 ‘a’、‘b’ 或 ‘c’。 |
[^abc] | 匹配不在方括号中的任意一个字符。 | [^abc] 匹配任何不是 ‘a’、‘b’ 或 ‘c’ 的字符。 |
(...) | 分组,用于捕获子串或应用量词到整个组。 | (abc)* 匹配零个或多个 “abc” 的序列。 |
{n} | 匹配前面的元素恰好 n 次。 | {3} 匹配恰好三个字符。 |
{n,} | 匹配前面的元素至少 n 次。 | {3,} 匹配至少三个字符。 |
{n,m} | 匹配前面的元素至少 n 次,但不超过 m 次。 | {3,5} 匹配至少三个且不超过五个字符。 |
` | ` | 或操作。 |
\ | 转义特殊字符。 | \. 匹配实际的点字符。 |
1.3. 注意事项
- 语法错误:正则表达式的语法本身可能导致运行时错误(
std::regex_error
),即使C++代码编译通过。 - 预编译正则表达式:对于复杂的正则表达式或性能敏感的应用,考虑预编译正则表达式对象(
std::regex
)而不是在循环中重复创建它。
1.4. 原始字符串字面量
原始字符串字面量(Raw String Literals)是C++11引入的一种字符串表示方式,它允许你定义包含特殊字符如反斜杠、换行符等的字符串,而不需要对这些字符进行转义。这使得处理正则表达式、文件路径或其他含有大量转义字符的字符串变得更为方便。
1.4.1. 语法格式
原始字符串字面量的基本语法如下:
R"delimiter(字符串内容)delimiter"
R
:表示这是一个原始字符串字面量。delimiter
:是一个可选的分隔符,可以由最多16个字符组成。如果使用了分隔符,则在开头的(
之前和结尾的)
之后都需要加上这个分隔符。分隔符不能包含空格,并且必须与结束标记相匹配。(字符串内容)
:这是实际的字符串内容,可以跨越多行,不需要对双引号或反斜杠进行转义。
如果没有指定分隔符,则默认情况下没有分隔符,即直接使用 R"(字符串内容)"
的形式。
1.4.2. 基本示例
std::string basic = R"(Hello\nWorld)";
// 结果: Hello\nWorld (而不是换行)std::regex pattern(R"(\d{4})"); // 正则表达式模式,匹配4个数字//与以下写法等价
std::regex pattern2("\\d{4}");
1.4.3. 使用自定义分隔符
当你需要在字符串中包含 )"
这样的序列时,你可以使用自定义分隔符来避免冲突:
std::string with_delimiter = R"hello(World "with" ) special chars\)hello";
// 结果: World "with" ) special chars\
std::regex pattern ( R"xx(20(\d{2}))xx");
在这个例子中,hello
是我们选择的分隔符,确保它可以正确地包围我们的字符串内容而不引起解析错误。
1.4.4. 多行文本
原始字符串字面量非常适合用于编写跨多行的字符串:
std::string multi_line = R"(
这是一个
多行的
字符串
)";
这样就可以轻松创建包含换行符的字符串,而无需手动添加 \n
。
1.5. std::regex_match
正则表达式匹配整个字符串,如果字符串与正则表达式完全匹配,则返回 true
,否则返回 false
。
std::string str ="Hello 2025,Bye 2024"; // 待测试的字符串std::regex pattern(R"(\d{4})"); // 正则表达式模式,匹配4个数字// 尝试匹配整个字符串是否符合模式if(std::regex_match(str,pattern)){// 如果匹配成功,记录日志spdlog::info("regex_match(str,pattern) 查找到后的输出:{}",str);}
当然,也可以在调用中传入std::smatch
str="2025";std::smatch match; // 用于存储匹配结果的对象pattern="20(\\d{2})"; // 新的正则表达式模式,匹配以 "20" 开头,后跟两位数字,并捕获这两位数字// 尝试匹配整个字符串是否符合新模式,并将匹配结果存入 match 对象if(std::regex_match(str,match,pattern)){// 如果匹配成功,记录整个匹配的字符串和第一个捕获组的内容spdlog::info("regex_match(str,match,pattern) 整个匹配的字符串:{}",match.str(0));spdlog::info("regex_match(str,match,pattern) 第一个捕获组:{}",match.str(1));}
1.6. std::regex_search
正则表达式搜索整个字符串,如果字符串中存在与正则表达式匹配的子串,则返回 true
,否则返回 false
。
注意其只返回找到的第一个字串,如果需要搜索所有匹配的子串,需要循环调用。
str="Hello 2025,Bye 2024"; pattern="\\d{4}"; // 正则表达式模式,匹配4个数字// 循环搜索字符串中所有符合模式的子串while(std::regex_search(str,match,pattern)){// 如果找到匹配项,记录匹配到的子串spdlog::info("regex_search(str,match,pattern) 查找后的输出 match.str():{}",match.str());// 更新待搜索的字符串为上一次匹配结果之后的部分str=match.suffix().str();}
1.7. std::regex_replace
进行正则表达式替换,会将所有找到的子串全都进行替换
str="Hello 2025,Hello 2024"; pattern="Hello"; // 新的正则表达式模式,匹配 "Hello"// 将字符串中所有匹配 "Hello" 的子串替换为 "Hi"string replaced_str=std::regex_replace(str,pattern,"Hi");// 记录替换后的字符串spdlog::info("replaced:{}",replaced_str);
如果只要替换某一个子串,可以使用std::regex_replace
的第三个参数,指定要替换的子串的索引
std::string str = "Hello 2025,Bye 2024"; // 待测试的字符串std::regex pattern("(\\d{4})"); // 正则表达式模式,匹配4个数字std::string replacement = "****"; // 替换字符串// 只替换第一个匹配的子串std::string result = std::regex_replace(str, pattern, replacement, std::regex_constants::format_first_only);std::cout << "替换第一个匹配项: " << result << std::endl; // 输出: "Hello ****,Bye 2024"
当然,也可以采用另一种做法,这种做法没有上一种简洁,但可以了解match.prefix()和match.suffix()的使用
str="Hello 2025,Hello 2024"; // 恢复待测试字符串pattern="Hello"; // 恢复之前的正则表达式模式,匹配 "Hello"// 搜索字符串中第一个符合模式的子串if(std::regex_search(str,match,pattern)){string replacement="Hi"; // 替换字符串// 手动构建只替换第一个匹配项后的字符串:匹配项前缀 + 替换字符串 + 匹配项后缀string s2=match.prefix().str()+replacement+match.suffix().str();// 记录只替换第一个匹配项后的输出spdlog::info("只替换第一个后的输出 :{}",s2);}
相关文章:
C++ 正则表达式简介
1. 正则表达式简介 正则表达式(Regular Expression,简称Regex)是一种用于匹配和处理文本的强大工具。它通过特定的符号组合形成匹配规则,常用于表单验证、文本搜索与替换、数据清洗等场景。 C11标准引入了 <regex> 头文件…...
iOS知识复习
block原理 OC block 是个结构体,内部有个一个结构体成员 专门保存 捕捉对象 Swift闭包 是个函数,捕获了全局上下文的常量或者变量 修改数组存储的内容,不需要加_block,修改数组对象本身时需要 weak原理 Weak 哈希表 (散列表&a…...

rce命令执行原理及靶场实战(详细)
2. 原理 在根源上应用系统从设计上要给用户提供一个指定的远程命令操作的接口。漏洞主要出现在常见的路由器、防火墙、入侵检测等设备的web管理界面上。在管理界面提供了一个ping服务。提交后,系统对该IP进行ping,并且返回结果。如果后台服务器并没有对…...

Fuzz 模糊测试篇JS 算法口令隐藏参数盲 Payload未知文件目录
1 、 Fuzz 是一种基于黑盒的自动化软件模糊测试技术 , 简单的说一种懒惰且暴力的技术融合了常见 的以及精心构建的数据文本进行网站、软件安全性测试。 2 、 Fuzz 的核心思想 : 口令 Fuzz( 弱口令 ) 目录 Fuzz( 漏洞点 ) 参数 Fuzz( 利用参数 ) PayloadFuzz(Bypass)…...

展示了一个三轴(X, Y, Z)坐标系!
等轴测投影”(isometric projection)风格的手绘风格三维图,即三条坐标轴(x₁, x₂, x₃)看起来彼此垂直、等角分布(通常是 120 夹角),它是常见于教材和数学书籍的 “假三维”表示法。…...

【b站计算机拓荒者】【2025】微信小程序开发教程 - chapter1 初识小程序 - 3项目目录结构4快速上手
3 项目目录结构 3.1 项目目录结构 3.1.1 目录介绍 # 1 项目主配置文件,在项目根路径下,控制整个项目的-app.js # 小程序入口文件,小程序启动,会执行此js-app.json # 小程序全局配置文件,配置小程序导航栏颜色等信息…...

LLM Tuning
Lora-Tuning 什么是Lora微调? LoRA(Low-Rank Adaptation) 是一种参数高效微调方法(PEFT, Parameter-Efficient Fine-Tuning),它通过引入低秩矩阵到预训练模型的权重变换中,实现无需大规模修改…...

云计算与大数据进阶 | 28、存储系统如何突破容量天花板?可扩展架构的核心技术与实践—— 分布式、弹性扩展、高可用的底层逻辑(下)
在上篇中,我们围绕存储系统可扩展架构详细探讨了基础技术原理与典型实践。然而,在实际应用场景中,存储系统面临的挑战远不止于此。随着数据规模呈指数级增长,业务需求日益复杂多变,存储系统还需不断优化升级࿰…...
SQL每日一练(3)
前言: 难得看到了套好题,没考我,呜呜,今日第三更! 原始表(ai生成) 1. 销售表(sales) 用途:记录每笔销售的产品 ID 及金额。 product_id(产品 …...
Axure高级交互设计:中继器嵌套动态面板实现超强体验感台账
亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢!如有帮助请订阅专栏! Axure产品经理精品视频课已登录CSDN可点击学习https://edu.csdn.net/course/detail/40420 课程主题:中继器嵌套动态面板 主要内容:中继器内部嵌套动态面板,实现可移动式台账,增强数据表现…...

水利数据采集MCU水资源的智能守护者
水利数据采集仪MCU,堪称水资源的智能守护者,其重要性不言而喻。在水利工程建设和水资源管理领域,MCU数据采集仪扮演着不可或缺的角色。它通过高精度的传感器和先进的微控制器技术,实时监测和采集水流量、水位、水质等关键数据&…...
函数式编程思想详解
函数式编程思想详解 1. 核心概念 不可变数据 (Immutable Data) 数据一旦创建,不可修改。任何操作均生成新数据,而非修改原数据。 优点:避免副作用,提升并发安全,简化调试。 Java实现:使用final字段、不可变…...
SAP全面转向AI战略,S/4HANA悄然隐身
在2025年SAP Sapphire大会上,SAP首席执行官Christian Klein提出了一个雄心勃勃的愿景:让人工智能(AI)无处不在,推动企业数字化转型。SAP的AI战略核心是将AI深度融入其业务应用生态,包括推出全新版本的AI助手…...

origin绘图之【如何将横坐标/x设置为文字、字母形式】
在使用 Origin 进行科研绘图或数据可视化的过程中,我们常常会遇到这样一种需求:希望将横坐标(X轴)由默认的数字形式,改为字母(如 A、B、C……)或中文文字(如 一、二、三………...

工业智能网关建立烤漆设备故障预警及远程诊断系统
一、项目背景 烤漆房是汽车、机械、家具等工业领域广泛应用的设备,主要用于产品的表面涂装。传统的烤漆房控制柜采用本地控制方式,操作人员需在现场进行参数设置和设备控制,且存在设备智能化程度低、数据孤岛、设备维护成本高以及依靠传统人…...
cv2.VideoWriter_fourcc(*‘mp4v‘)生成的视频无法在浏览器展
看这个博主的博客,跟我碰到的问题的一致,都是使用AVC1写视频时报编码器不存在的异常,手动编译opencv-python或者使用conda install -c conda-forge opencv安装依赖即可。 博主博客:Python OpenCV生成视频无法浏览器播放问题说明及…...
MySQL 8.0 OCP 1Z0-908 161-170题
Q161.Examine this command, which executes successfully: cluster.addInstance ( ‘:’,{recoveryMethod: ‘clone’ 1}) Which three statements are true? (Choose three.) A)The account used to perform this recovery needs the BACKUP_ ADMIN privilege. B)A target i…...

Kafka Streams 和 Apache Flink 的无状态流处理与有状态流处理
Kafka Streams 和 Apache Flink 与数据库和数据湖相比的无状态和有状态流处理的概念和优势。 在数据驱动的应用中,流处理的兴起改变了我们处理和操作数据的方式。虽然传统数据库、数据湖和数据仓库对于许多基于批处理的用例来说非常有效,但在要求低延迟…...
React从基础入门到高级实战:React 基础入门 - 简介与开发环境搭建
React 简介与开发环境搭建 引言 React 是一个强大的 JavaScript 库,用于构建用户界面(UI),尤其是在单页应用(SPA)开发中表现出色。它由 Facebook(现为 Meta)开发并于 2013 年开源&…...

LM-BFF——语言模型微调新范式
gpt3(GPT3——少样本示例推动下的通用语言模型雏形)结合提示词和少样本示例后,展示出了强大性能。但大语言模型的训练门槛太高,普通研究人员无力,LM-BFF(Making Pre-trained Language Models Better Few-shot Learners)的作者受gp…...

NVMe高速传输之摆脱XDMA设计2
NVMe IP放弃XDMA原因 选用XDMA做NVMe IP的关键传输模块,可以加速IP的设计,但是XDMA对于开发者来说,还是不方便,原因是它就象一个黑匣子,调试也非一番周折,尤其是后面PCIe4.0升级。 因此决定直接采用PCIe设…...
github开源版pymol安装(ubuntu22.04实战版)
1. 克隆 PyMOL 的 GitHub 仓库 首先,你需要从 GitHub 克隆 PyMOL 的源代码: git clone https://github.com/schrodinger/pymol-open-source.git cd pymol-open-source2. 安装依赖项 PyMOL 依赖一些系统库和 Python 包,确保先安装它们&…...

pycharm无需科学上网工具下载插件的解决方案
以下是两种无需科学上网即可下载 PyCharm 插件的解决思路: 方法 1:设置 PyCharm 代理 打开 PyCharm选择菜单:File → Settings → Appearance & Behavior → System Settings → HTTP Proxy在代理设置中进行如下配置: 代理地…...

Halcon计算点到平面的距离没有那么简单
Halcon计算点到平面距离 1. 一些基本概念2. 浅谈有无符号的距离2.1 无符号距离的用武之地2.2 有符号距离的必要性 3. 无符号距离怎么算3.1 创建一个无限延展的基准平面,对距离有什么影响?Halcon代码图示 3.2 创建一个小小小的基准平面,对距离…...
基于DenseNet的医学影像辅助诊断系统开发教程
本文源码地址: https://download.csdn.net/download/shangjg03/90873921 1. 简介 本教程将使用DenseNet开发一个完整的医学影像辅助诊断系统,专注于胸部X光片的肺炎检测。我们将从环境搭建开始,逐步介绍数据处理、模型构建、训练、评估以及最终的系统部署。 2. 环境准备<…...

数据中台如何设计?中台开发技术方案,数据治理方案,大数据建设方案合集
中台的价值与核心理念 中台的核心在于“企业级能力复用”,其价值体现在四大维度: 能力整合:将分散的数字化能力(如营销、供应链)集中管理,形成核心竞争力; 业务创新:通过跨领域融合…...
Python爬虫设置IP代理
设置代理(Proxy) 作用: 当网站检测到某个IP的访问频率过高时,可能会封禁该IP。通过使用代理服务器,可以定期更换IP地址,避免被识别和封锁。 优势: 让网站无法追踪真实请求来源,提升…...

Adminer 连接mssql sqlserver
第一步 docker-compose.yml adminer部分: version: 3.8 services: adminer: image: adminer:latest container_name: adminer restart: unless-stopped volumes: - ./freetds/freetds.conf:/etc/freetds.conf:rw # 确保 :rw 可读写 co…...

C++系统IO
C系统IO 头文件的使用 1.使用系统IO必须包含相应的头文件,通常使用#include预处理指令。 2.头文件中包含了若干变量的声明,用于实现系统IO。 3.头文件的引用方式有双引号和尖括号两种,区别在于查找路径的不同。 4.C标准库提供的头文件通常没…...
利用 Python 爬虫获取唯品会 VIP 商品详情:实战指南
在当今电商竞争激烈的环境中,VIP 商品往往是商家的核心竞争力所在。这些商品不仅代表着品牌的高端形象,更是吸引高价值客户的关键。因此,获取 VIP 商品的详细信息对于市场分析、竞品研究以及优化自身产品策略至关重要。Python 作为一种强大的…...