深入理解正则表达式:为什么它在Java中如此重要?
文章目录
- 一、正则表达式
- 1.1 为什么引入正则表达式
- 1.2 什么是正则表达式
- 二、正则表达式规则
- 2.1 正则表达式的基本语法规则
- 2.2 非贪婪匹配
- 三、正则表达式在java中的应用
- 3.1 String
- 3.2 java.util.regex
- 参考资料
一、正则表达式
1.1 为什么引入正则表达式
在实际编写程序的过程中,我们可能会遇到验证用户输入的数据是否符合特定的格式要求之类的问题:
- 如何判断字符串是否是有效的电话号码?例如:
010-1234567,123ABC456,13510001000等; - 如何判断字符串是否是有效的电子邮件地址?例如:
test@example.com,test#example等; - 如何判断字符串是否是有效的时间?例如:
12:34,09:60,99:99等。
在未引入正则表达式的前提下,一种直观的想法是通过程序判断,这种方法需要为每种用例创建规则,然后用代码实现。比如,如何判断字符串是否是有效的电话号码的代码:
public static boolean isValidPhoneNumber(String phoneNumber) {// 判断号码长度是否在合理范围内if (phoneNumberWithoutHyphen.length() < 7 || phoneNumberWithoutHyphen.length() > 11) {return false;}// 判断号码中是否有非数字字符for (char c : phoneNumberWithoutHyphen.toCharArray()) {if (!Character.isDigit(c)) {return false;}}// 判断号码中是否有连续的连字符if (phoneNumber.contains("--")) {return false;}return true;
}
事实上,上述代码仅仅做了非常粗略的判断,并未考虑首位数字不能为0等更详细的情况。除了判断手机号,我们还需要判断电子邮件地址、电话、邮编等等。可想而知,为每一种判断逻辑编写代码实在是太繁琐了。
为了避免这种情况,我们引入了正则表达式。正则表达式可以用字符串来描述规则,并用来匹配字符串。例如,判断手机号,我们用正则表达式^(\\d{3,4}-?)?\\d{7,8}$:
public static boolean isValidPhoneNumber(String phoneNumber) {// 定义电话号码的正则表达式模式String regex = "^(\\d{3,4}-?)?\\d{7,8}$";// 创建Pattern对象Pattern pattern = Pattern.compile(regex);// 创建Matcher对象Matcher matcher = pattern.matcher(phoneNumber);// 使用Matcher的matches方法进行匹配判断return matcher.matches();
}
正则表达式是一套标准,它可以用于任何语言。Java标准库的
java.util.regex包内置了正则表达式引擎,在Java程序中使用正则表达式非常简单。
1.2 什么是正则表达式
正则表达式(Regular Expressions,简称正则或Regex)是一种强大的文本匹配和处理工具,用于在字符串中查找、匹配和替换特定模式的文本。
正则表达式不仅可以在编程时使用,也可以在word、IDE编辑器等软件的搜索和替换窗口中使用
正则表达式的主要目的是为了解决以下问题:
- 文本匹配:正则表达式可以帮助我们在一大段文本中快速找到符合特定模式的子串。例如,你可以使用正则表达式来查找所有符合邮箱格式的字符串,或者查找包含特定关键词的句子。
- 字符串搜索和查找:当我们需要对包含大量数据的文本进行查找和过滤时,手动实现字符串匹配会很繁琐。使用正则表达式可以通过简单的模式描述来快速地进行查找和过滤。
- 数据验证:在开发应用程序时,我们经常需要验证用户输入的数据是否符合特定的格式要求,如邮箱、电话号码、日期等。通过正则表达式,可以轻松进行输入数据的有效性验证。
- 替换和格式化:正则表达式不仅可以用于查找,还可以用于将匹配的文本替换为其他内容。这在数据处理和文本编辑时特别有用。
- 数据提取:当我们需要从复杂的文本中提取特定信息时,正则表达式可以帮助我们捕获和提取感兴趣的数据。
- 批量操作:如果你需要对多个文本文件进行相似的处理,正则表达式可以帮助你一次性完成批量操作,提高效率。
二、正则表达式规则
2.1 正则表达式的基本语法规则
正则表达式的语法规则如下:
- 字面字符:大多数字符只表示它们自己,例如字母、数字和常见的标点符号。
- 特殊字符:具有特殊含义的字符,需要使用转义字符
\来表示字面含义。常见的特殊字符包括:. ^ $ * + ? { } [ ] \ | ( )。 - 字符类:用方括号
[]表示一个字符类,表示在此位置可以匹配方括号中的任意字符。例如,[abc]表示可以匹配字符a、b或c。 - 范围表示:在字符类内使用连字符
-,可以表示一个字符范围。例如,[0-9]表示可以匹配任意数字。 - 排除字符类:在字符类内使用脱字符
^,可以表示排除的字符类。例如,[^0-9]表示可以匹配任意非数字字符。 - 预定义字符类:用反斜杠
\加上一个预定义字符表示一些常见的字符类。例如,\d表示任意数字,\w表示任意字母、数字和下划线。 - 量词:用于指定前面的字符或子表达式出现的次数。常见的量词包括:
*(零次或多次),+(一次或多次),?(零次或一次),{n}(恰好 n 次),{n,}(至少 n 次),{n,m}(至少 n 次,至多 m 次)。 - 分组:用小括号
()表示一个子表达式,将一组字符视为一个整体,并可以应用量词或其他操作符。例如,(abc)+表示连续出现一次或多次的字符串 “abc”。 - 选择符:用竖线
|表示多个子表达式之间的选择,匹配其中任意一个。例如,abc|def表示匹配 “abc” 或 “def”。 - 边界匹配:用
^表示字符串的开始,用$表示字符串的结尾。例如,^abc表示匹配以 “abc” 开始的字符串。
以上是正则表达式的基本语法规则。正则表达式提供了丰富的功能,可以根据不同的需求进行组合和扩展。然而,由于正则表达式的语法较为复杂和灵活,对于复杂的模式描述,可能需要一定的学习和练习才能熟练运用。
2.2 非贪婪匹配
正则表达式匹配默认使用贪婪匹配,可以使用?表示对某一规则进行非贪婪匹配。
具体详情可以参考非贪婪匹配 - 廖雪峰的官方网站 (liaoxuefeng.com)
三、正则表达式在java中的应用
3.1 String
在Java中,String.matches() 方法要求整个字符串与正则表达式完全匹配。示例代码如下:
public class StringMatchesExample {public static void main(String[] args) {String regex = "[A-Za-z]+\\d+"; // 匹配至少一个字母后面跟着至少一个数字的模式String str1 = "Ab123"; // 符合正则表达式String str2 = "HelloWorld"; // 不符合正则表达式String str3 = "12345"; // 不符合正则表达式System.out.println("str1 matches regex: " + str1.matches(regex));System.out.println("str2 matches regex: " + str2.matches(regex));System.out.println("str3 matches regex: " + str3.matches(regex));}
}
需要注意的是:正则表达式在Java代码中也是一个字符串,所以,对于正则表达式a\&c来说,对应的Java字符串是"a\\&c",因为\也是Java字符串的转义字符,两个\\实际上表示的是一个\。
如果你想要在字符串中查找是否包含符合正则表达式的部分,你可以使用 Pattern 类和 Matcher 类来实现更灵活的匹配操作。事实上,String.matches()方法内部调用的就是Pattern和Matcher类的方法。
3.2 java.util.regex
在 java.util.regex 中,Pattern 类和 Matcher 类是用于处理正则表达式的两个关键类。Pattern 类用于编译和表示正则表达式,而 Matcher 类则用于在文本中执行匹配操作。下面是一个简单的示例代码,演示如何使用 Pattern 和 Matcher 类进行匹配:
import java.util.regex.*;public class PatternMatcherExample {public static void main(String[] args) {String regex = "\\b\\d{3}-\\d{4}\\b"; // 匹配形如 xxx-xxxx 的电话号码模式String text = "这是我的电话号码:123-4567,你的电话号码是:987-6543。";// 创建 Pattern 对象Pattern pattern = Pattern.compile(regex);// 创建 Matcher 对象Matcher matcher = pattern.matcher(text);// 查找匹配的电话号码while (matcher.find()) {System.out.println("找到匹配的电话号码:" + matcher.group());}}
}
输出结果为:
找到匹配的电话号码:123-4567
找到匹配的电话号码:987-6543
在上面的示例中,我们使用正则表达式 \\b\\d{3}-\\d{4}\\b,该正则表达式用于匹配形如 xxx-xxxx 的电话号码模式。其中,\\b 表示单词边界,确保电话号码前后不会与其他字符连在一起;\\d{3} 表示匹配 3 个数字,- 表示匹配一个连字符,\\d{4} 表示匹配 4 个数字。
接着,我们创建了 Pattern 对象并编译正则表达式。然后,使用 Matcher 对象来在文本中执行匹配操作,matcher.find() 方法用于查找匹配的子串。如果找到匹配的电话号码,我们通过 matcher.group() 方法来获取匹配的子串,并输出它们。
matcher.group()方法也可以和分组匹配结合在一起使用。
参考资料
正则表达式简介 - 廖雪峰的官方网站 (liaoxuefeng.com)
使用正则表达式 - Visual Studio (Windows) | Microsoft Learn
相关文章:
深入理解正则表达式:为什么它在Java中如此重要?
文章目录 一、正则表达式1.1 为什么引入正则表达式1.2 什么是正则表达式 二、正则表达式规则2.1 正则表达式的基本语法规则2.2 非贪婪匹配 三、正则表达式在java中的应用3.1 String3.2 java.util.regex 参考资料 一、正则表达式 1.1 为什么引入正则表达式 在实际编写程序的过…...
jmeter实现webservice接口测试
其实可以用jmeter两种sampler进行webservice的测试: 1、SOAP/XML-RPC Request(但是在jmeter3.2以后版本中已经取消了这个取样器) 2、HTTP请求 下面分别介绍两种方式 一、首先需要使用soupUI工具抓取webservice接口的部分需要的信息。 1、新建项目 2、新建成功的…...
js 四舍五入保留一位小数 求百分比
概览:一个数据占一组数据的比率,并且四舍五入保留一位小数。通过Math.round()四舍五入。 参考链接: mdn中文文档Math.round() 实现思路: Math.round(x) 函数返回一个数字四舍五入后最接近的整数。参数x是一个数值 实现代码&a…...
文件上传漏洞总结2
文件上传的大体都已经学习过了 这个假期在给他强化一下 什么是webshell webshell是web入侵的脚本攻击工具。webshell就是一个asp或php木马后门,黑客在入侵了一个网站后,常常在将这些asp或php木马后门文件放置在网站服务器的web目录中,与正常…...
【组内工作】木马回联
文章目录 C2服务器安装和运行方法CrossC2运行方法sliver运行方法empire安装方法DeimosC2安装教程TrevorC2安装教程: C2服务器的流量特征CrossC21. 心跳包2. 命令3. ja3/ja3s Sliver1. http2. https empirehttphttps DeimosC2https TrevorC2 C2服务器安装和运行方法 …...
未来将会有更多基于 Cortana 的设备
在前些日子的 Build 大会首日 Keynote 中,微软正式确认 HP 跟 Intel 也正在开发基于 Cortana 平台的联网家居产品,这是继推出 Invoke 喇叭的 Harman Kardon 后,又有知名大牌加入到 Cortana 的阵营当中,有这样的品牌资源背景&#…...
嵌入式硬件系统的基本组成
嵌入式硬件系统的基本组成 嵌入式系统的硬件是以包含嵌入式微处理器的SOC为核心,主要由SOC、总线、存储器、输入/输出接口和设备组成。 嵌入式微处理器 每个嵌入式系统至少包含一个嵌入式微处理器 嵌入式微处理器体系结构可采用冯.诺依曼(Von Neumann&…...
def __init__(self, **kwargs):中的**kwargs是什么意思
**kwargs是什么意思 在Python中,**kwargs是一种特殊的参数形式,用于接收可变数量的关键字参数(Keyword Arguments)。kwargs是一个字典(dictionary),其中关键字是参数名,对应的值是传…...
web攻击面试|网络渗透面试(三)
Web攻击大纲 常见Web攻击类型: SQL注入攻击:介绍SQL注入攻击的概念、原理和常见的攻击方式,如基于错误消息的注入、基于布尔盲注的注入等。解释攻击者如何利用SQL注入漏洞获取敏感信息或者对数据库进行恶意操作,并提供防御措施&a…...
数据分析方法
常用的数据分析方法有:1、对比分析法;2、分组分析法;3、结构分析法;4、留存分析法;5、交叉分析法;6、漏斗分析法;7、矩阵分析法;8、象限分析法;9、趋势分析法;…...
Spring全家桶---白虎篇
其中包括:Spring、Spring6、Spring Data、Spring Cloud Alibaba、Spring Cloud、Spring Boot、Spring Security、SpringMVC。 👏作者简介:大家好,我是小童,Java开发工程师,CSDN博客博主,Java领域…...
深度优先搜索|79, 695,212
深度优先搜索|79. 单词搜索, 695. 岛屿的最大面积, 212. 单词搜索 II 单词搜索岛屿的最大面积单词搜索II 单词搜索 用的是深度优先搜索,这种判断类型的回溯我就一直不知道要怎么回退,然后勉强写了一个。 这里还有一个注意事项就是,走到最后一…...
论文阅读与管理方法论
文章目录 为什么读论文论文类型综述论文专题论文 论文质量角度关于如何找论文的小Tips如何整理论文读论文的困境如何读论文不同人群阅读差异读论文三部曲:泛读、精读、总结泛读:快速浏览,把握概要。泛读目标及效果自测 精读:选出精…...
基于OAI与Ueransim的5G网络切片平台构成简述
自定义多切片核心网构建 为了实现在同一台机器上同时对每一个切片启动一套单独的核心网,并且可以同时启动多套核心网,我们在官方提供的核心网模板的基础上进行适当的修改,扩展出其他可以正常运行的核心网,由此我们可以实现在同一…...
论文笔记:Adjusting for Autocorrelated Errors in Neural Networks for Time Series
2021 NIPS 原来的时间序列预测任务是根据预测论文提出用一阶自回归误差预测 一阶差分,类似于ResNet的残差思路?记为pred,最终的预测结果...
DataEase开源BI工具安装_数据全量_增量同步_大屏拖拽自动生成_多数据源支持_数据血缘分析---大数据工作笔记0183
我这里用的是Centos7.9安装的 可以通过uname -p来查看一下我们的电脑架构,可以看到是x86_64架构的 我们下第一个,这个是x86架构的,第二个arm架构的 然后解压到/opt/module中 然后再去重命名一下文件夹. 推荐200G 本地模式的功能比较多 推荐100G...
如何提升程序员的软素质
目录 软素质包含哪些方面怎么做总结 软素质包含哪些方面 在项目研发迭代的过程中,确保一次上线顺利不难,难得是每次上线都顺利。对一个人或团队,只要有一次上线有问题,那在领导看来,你这个人或团队的工作是不靠谱的。…...
msvcp100.dll丢失怎么修复,这三个常用的修复方法可以解决
msvcp100.dll是一个动态链接库文件,它是Microsoft Visual C Redistributable软件包的一部分。这个文件的作用是提供在运行C程序时所需的函数和功能。msvcp100.dll是一个非常重要的文件,它为我们提供了许多关键的函数和类,使得我们能够更高效地…...
python实现递推算法解决分鱼问题
一、问题描述 A、B、C、D、E5个人合伙夜间捕鱼,凌晨时都已经疲惫不堪,于是各自在河边的树丛中找地方睡着了。第二天日上三竿时,A第一个醒来,他将鱼平分为5份,把多余的一条扔回河中,然后拿着自己的一份回家…...
【LeetCode】142.环形链表Ⅱ
题目 给定一个链表的头节点 head ,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环,评测系统内部…...
UE5 学习系列(二)用户操作界面及介绍
这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…...
MPNet:旋转机械轻量化故障诊断模型详解python代码复现
目录 一、问题背景与挑战 二、MPNet核心架构 2.1 多分支特征融合模块(MBFM) 2.2 残差注意力金字塔模块(RAPM) 2.2.1 空间金字塔注意力(SPA) 2.2.2 金字塔残差块(PRBlock) 2.3 分类器设计 三、关键技术突破 3.1 多尺度特征融合 3.2 轻量化设计策略 3.3 抗噪声…...
[2025CVPR]DeepVideo-R1:基于难度感知回归GRPO的视频强化微调框架详解
突破视频大语言模型推理瓶颈,在多个视频基准上实现SOTA性能 一、核心问题与创新亮点 1.1 GRPO在视频任务中的两大挑战 安全措施依赖问题 GRPO使用min和clip函数限制策略更新幅度,导致: 梯度抑制:当新旧策略差异过大时梯度消失收敛困难:策略无法充分优化# 传统GRPO的梯…...
【Linux】shell脚本忽略错误继续执行
在 shell 脚本中,可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行,可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令,并忽略错误 rm somefile…...
反向工程与模型迁移:打造未来商品详情API的可持续创新体系
在电商行业蓬勃发展的当下,商品详情API作为连接电商平台与开发者、商家及用户的关键纽带,其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息(如名称、价格、库存等)的获取与展示,已难以满足市场对个性化、智能…...
IGP(Interior Gateway Protocol,内部网关协议)
IGP(Interior Gateway Protocol,内部网关协议) 是一种用于在一个自治系统(AS)内部传递路由信息的路由协议,主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...
uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖
在前面的练习中,每个页面需要使用ref,onShow等生命周期钩子函数时都需要像下面这样导入 import {onMounted, ref} from "vue" 如果不想每个页面都导入,需要使用node.js命令npm安装unplugin-auto-import npm install unplugin-au…...
服务器硬防的应用场景都有哪些?
服务器硬防是指一种通过硬件设备层面的安全措施来防御服务器系统受到网络攻击的方式,避免服务器受到各种恶意攻击和网络威胁,那么,服务器硬防通常都会应用在哪些场景当中呢? 硬防服务器中一般会配备入侵检测系统和预防系统&#x…...
1.3 VSCode安装与环境配置
进入网址Visual Studio Code - Code Editing. Redefined下载.deb文件,然后打开终端,进入下载文件夹,键入命令 sudo dpkg -i code_1.100.3-1748872405_amd64.deb 在终端键入命令code即启动vscode 需要安装插件列表 1.Chinese简化 2.ros …...
ios苹果系统,js 滑动屏幕、锚定无效
现象:window.addEventListener监听touch无效,划不动屏幕,但是代码逻辑都有执行到。 scrollIntoView也无效。 原因:这是因为 iOS 的触摸事件处理机制和 touch-action: none 的设置有关。ios有太多得交互动作,从而会影响…...
