当前位置: 首页 > news >正文

Java 正则表达式【匹配与分组基本原理】

简介

        我们一般使用正则表达式是用来处理字符串的,不管是实际的开发中还是我们的算法竞赛中,使用正则表达式绝对可以大大提升我们的效率。

        正则表达式(regular expression)其实就是对字符串进行模式匹配的技术。


快速入门

我们这里演示一个案例,使用正则表达式匹配下面字符串中的所有英文单词:


import java.util.regex.Matcher;
import java.util.regex.Pattern;public class RegexDemo01 {public static void main(String[] args) {String content = "1995年,互联网的蓬勃发展给了Oak机会。业界为了使死板、单调的" +"静态网页能够“灵活”起来,急需一种软件技术来开发一种程序,这种程序可以通过" +"网络传播并且能够跨平台运行。于是,世界各大IT企业为此纷纷投入了大量的人力" +"、物力和财力。这个时候,Sun公司想起了那个被搁置起来很久的Oak,并且重新审" +"视了那个用软件编写的试验平台,由于它是按照嵌入式系统硬件平台体系结构进行编" +"写的,所以非常小,特别适用于网络上的传输系统,而Oak也是一种精简的语言,程" +"序非常小,适合在网络上传输。Sun公司首先推出了可以嵌入网页并且可以随同网页" +"在网络上传输的Applet(Applet是一种将小程序嵌入到网页中进行执行的技术)" +",并将Oak更名为Java。5月23日,Sun公司在Sun world会议上正式发布Java和" +"HotJava浏览器。IBM、Apple、DEC、Adobe、HP、Oracle、Netscape和微软" +"等各大公司都纷纷停止了自己的相关开发项目,竞相购买了Java使用许可证,并为自" +"己的产品开发了相应的Java平台。";// 提取文章中所有英文单词Pattern pattern = Pattern.compile("[a-zA-Z]+");Matcher matcher = pattern.matcher(content);while (matcher.find()){// 匹配到的内容都会放到 matcher.group(0)里面System.out.println(matcher.group(0));}}
}

运行结果: 

Oak
IT
Sun
Oak
Oak
Sun
Applet
Applet
Oak
Java
Sun
Sun
world
Java
HotJava
IBM
Apple
DEC
Adobe
HP
Oracle
Netscape
Java
Java

同理,如果我们想要获取字符串中所有的数字获取字符串中所有字符串或者数字,只需要这样修改:

        Pattern pattern = Pattern.compile("[0-9]+");Pattern pattern = Pattern.compile("([0-9]+)|([a-zA-Z]+)");

        要知道,我们自己实现的话会很复杂,我自己尝试过,比如实现提取所有英文字符,我们需要这样来设计:

  • 把字符串转为 char 数组
  • 遍历数组,判断字符的 ASCII码是否在 [a,z] , [A,Z]范围内
  • 判断英文字符前的字符是否为非英文字符,如果是在字符前添加空格(防止结果连成一片)
  • 判断英文字符后的字符是否为非英文字符,如果是在字符后添加空格(防止结果连成一片)

        可以看到,我们自己编写程序去实现确实是十分复杂,所以为什么不学习正则表达式呢,取英文字符是比较简单的案例,如果遇到验证邮箱、手机号、身份证号、ip地址、提取字符串等需要各种字符串处理算法的时候,手写算法是十分烧脑的,最好的办法就是找到规律使用正则表达式,提高开发效率!

        除此之外,我们学习的网络爬虫在做数据处理的时候,比如各种新闻标题、产品标题、商品评论,这些文本通常都是在超链接或者一些特殊标签内部,这时候我们直接使用正则表达式就可以很轻松地实现标签内文本的提取,这样,我们只需要专心爬虫的代码,而不需要过于担心爬到数据后的数据处理问题了。



底层实现

        我们这里主要讨论一下 Java正则表达式中,matcher.find()matcher.group(int group) 的底层是怎么实现的。

案例

找出四个数字连在一起的子串

1998年12月8日,第二代Java平台的企业版J2EE发布。1999年6月,Sun公司发布了第二代Java平台(简称为
Java2)的3个版本:J2ME(Java2 Micro Edition,Java2平台的微型版),应用于移动、无线及有限资源的
环境;J2SE(Java 2 Standard Edition,Java 2平台的标准版),应用于桌面环境;J2EE(Java   2Enterprise Edition,Java 2平台的企业版),应用3443于基于Java的应用服务器。Java 2平台的发布
,是Java发展过程中最重要的一个里程碑,标志着Java的应用开始普及9889

代码:

// 1. 找出四个数字连在一起的子串// \\d 代表数字String regex = "\\d\\d\\d\\d";Pattern pattern = Pattern.compile(regex);Matcher matcher = pattern.matcher(content);while (matcher.find()){System.out.println(matcher.group());   // 无参时默认就是 group(0)}

输出结果:

1998
1999
3443
9889

 

我们开始分析代码以及通过debug分析源码:

matcher.find() & matcher.group() 原理

matcher.group(0)

  • 首先,根据我们给它的规则去匹配,定位到满足要求的子字符串位置(比如1998)
  • 然后,将子字符串的开始的索引记录到 matcher 对象的属性中去(int[] groups)。
    •  groups[0] = 0 , 把该子字符串结束的索引+1的值记录到 groups[1]中去,groups[1] = 4

我们Matcher类的属性 int[] groups 的初始大小为 20 ,初始值均为 -1. 

  •  同时记录属性oldLast 的值为 该子字符串结束的索引+1的值, 即 4,即下次执行matcher.find() 的时候从 4 开始。
  • 接下来我们分析 matcher.group(0) 的源码:
public String group(int group) {if (first < 0)throw new IllegalStateException("No match found");if (group < 0 || group > groupCount())throw new IndexOutOfBoundsException("No group " + group);if ((groups[group*2] == -1) || (groups[group*2+1] == -1))return null;return getSubSequence(groups[group * 2], groups[group * 2 + 1]).toString();}
  • 此时我们调用 mactcher.group(0) 的话,很明显会返回 getSubSequence(groups[0],groups[1]).toString(); 相当于根据 groups[0]=0 和 groups[1]=4 记录的位置来截取字符串 ,注意是左闭右开的 [0,4)。 此时,输出 1998.

继续下一次 matcher.find() 方法,这次定位到了 1999 这个位置:

  • 此时,groups[0] = 31, groups[1] = 35 ,oldLast = 35 。
  • 同样再次调用 matcher.group(0) , 输出 1999。

到这里,我们基本了解了 group(0) 的含义,每次调用matcher.group(0) 它都会去查找字符串中的子串首尾下标,这些下标存在 groups数组中 ,而且首下标永远都是 groups[0] ,尾下标永远都是 groups[1] 。

但是如果我们调用的是 group(1)、或者group(n) 又会是怎样的情况呢?

matcher.group(n)

其实,group(n) 涉及到的是一个分组的概念,体现在代码中的匹配语句上就是括号,我们对上面的匹配语句做一个修改:

String regex = "(\\d\\d)(\\d\\d)";Pattern pattern = Pattern.compile(regex);Matcher matcher = pattern.matcher(content);while (matcher.find()){System.out.println(matcher.group());   // 无参时默认就是 group(0)System.out.println(matcher.group(1));System.out.println(matcher.group(2));}

输出结果:

group(0) = 1998
group(1) = 19
group(2) = 98
group(0) = 1999
group(1) = 19
group(2) = 99
group(0) = 3443
group(1) = 34
group(2) = 43
group(0) = 9889
group(1) = 98
group(2) = 89

 此时,我们再从 matcher.find()  开始分析:

  • 首先,根据我们给它的规则去匹配,定位到满足要求的子字符串位置(比如(19)(98)
  • 然后,将子字符串的开始的索引记录到 matcher 对象的属性中去(int[] groups)。
    •  groups[0] = 0 , 把该子字符串结束的索引+1的值记录到 groups[1]中去,groups[1] = 4
    • 记录1组()匹配到的子串下标到 groups[2] = 0 , groups[3] = 2。
    • 记录2组()匹配到的子串下标到 groups[4] = 2 , groups[5] = 4。
    • 如果还有更多组,以此类推...

  • 到这里,我们基本了解了分组的实现原理:groups数组负责存储子字符串的下标以及子字符串内每组子串的首尾下标,我们的 getSubSequence(groups[group * 2], groups[group * 2 + 1]) 方法会去根据 matcher.group(int group) 给的参数 group 去查找对应groups数组的首尾下标,从而调用String.substring(start,end) 截取出每组对应的子串。

 不得不说,getSubSequence(groups[group * 2], groups[group * 2 + 1]),这个参数的设置确实十分巧妙!

总结

如果正则表达式中有() 即分组

取出匹配的字符串规则如下:

  • group(0) 代表匹配到的子字符串,不分组
  • group(1) 代表匹配到的子字符串第1组
  • group(2) 代表匹配到的子字符串第2组
  • ...
  • 但是参数不能越界,不能超过分组数

相关文章:

Java 正则表达式【匹配与分组基本原理】

简介 我们一般使用正则表达式是用来处理字符串的&#xff0c;不管是实际的开发中还是我们的算法竞赛中&#xff0c;使用正则表达式绝对可以大大提升我们的效率。 正则表达式&#xff08;regular expression&#xff09;其实就是对字符串进行模式匹配的技术。 快速入门 我们这里…...

ThreadLocal源码解析

使用ThreadLocal可以为每个线程维护一个线程变量&#xff0c;使用场景为线程间隔离&#xff0c;线程内方法共享&#xff1b; 原理&#xff1a; Thread类中有一个实例属性ThreadLocalMap&#xff0c;ThreadLocalMap中存放的是Entry数组&#xff0c;Entry数组是ThreadLocal和Ob…...

RocketMQ 5.1.0 源码详解 | Producer 发送流程

文章目录 初始化DefaultMQProducer实例发送流程DefaultMQProducer#sendDefaultMQProducerImpl#sendMQClientInstance#updateTopicRouteInfoFromNameServer使用特定 topic 获取路由信息使用默认 topic 获取路由信息 DefaultMQProducerImpl#sendDefaultImpl发送流程总结 初始化De…...

电脑ip地址怎么改 ip地址怎么改到别的城市

一、ip地址怎么改到别的城市 1.ip地址怎么改到别的城市&#xff0c;1、重启WIFI路由设备 一般手机或电脑在家或公司上网时都是接入到路由器的WIFI网络,再由路由器分配上网IP地址,如果要更换上网IP那么重启路由器设备后,路由器会向网络运营商进行宽带的重新拨号,此时手机或电脑设…...

Android Studio实现列表展示图片

效果&#xff1a; MainActivity 类 package com.example.tabulation;import android.content.Intent; import android.os.Bundle; import android.view.View;import androidx.appcompat.app.AppCompatActivity; import androidx.recyclerview.widget.LinearLayoutManager; im…...

每天一道leetcode:300. 最长递增子序列(动态规划中等)

今日份题目&#xff1a; 给你一个整数数组 nums &#xff0c;找到其中最长严格递增子序列的长度。 子序列 是由数组派生而来的序列&#xff0c;删除&#xff08;或不删除&#xff09;数组中的元素而不改变其余元素的顺序。例如&#xff0c;[3,6,2,7] 是数组 [0,3,1,6,2,2,7] …...

【无监督】2、MAE | 自监督模型提取的图像特征也很能打!(CVPR2022 Oral)

文章目录 一、背景二、方法三、效果 论文&#xff1a;Masked Autoencoders Are Scalable Vision Learners 代码&#xff1a;https://github.com/facebookresearch/mae 出处&#xff1a;CVPR2022 Oral | 何凯明 | FAIR 一、背景 本文的标题突出了两个词&#xff1a; masked…...

pytorch单机多卡后台运行

nohup sh ./train_chat.sh > train_chat20230814.log 2>1&参考资料 Pytorch单机多卡后台运行的解决办法...

linux配置上网 linux adsl拨号上网设置

Linux里面配置ADSL上网是件很麻烦的事。但配置完成之后就能开机自动拨号上网&#xff0c;可谓十分的方便。支持的系统有Redhat,CentOS,SuSE,FreeBSD,Ubuntu等常见的Linux。 工具/原料 ADSL网络&#xff0c;电信&#xff0c;网通&#xff0c;移动等常见宽带。 Linux系统的安装光…...

XML学习基础知识归纳(一)

一、XML基本概述 &#xff08;1&#xff09;概念&#xff1a;XML是可扩展的标记语言&#xff0c;xml文档的后缀名为 .xml &#xff08;2&#xff09;作用&#xff1a;用来用来传输和存储数据&#xff0c;不用于表现和展示数据&#xff0c;这点呢相比于HTML来说是不同的&#…...

2023.8.14论文阅读

文章目录 ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation摘要本文方法实验结果 DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection摘要本文方法实验结果 ESPNet: Efficient Spatial Pyramid of Dilated Convo…...

FL Studio for Windows-21.1.0.3713中文直装版功能介绍及系统配置要求

FL Studio 21简称FL水果软件,全称是&#xff1a;Fruity Loops Studio编曲&#xff0c;由于其Logo长的比较像一款水果因此&#xff0c;在大家更多的是喜欢称他为水果萝卜&#xff0c;FL studio21是目前最新的版本&#xff0c;这是一款可以让你的计算机就像是一个全功能的录音室&…...

基于网格变形的二维图像变形算法:C++实现与应用

在计算机图形学中&#xff0c;图像变形是一种常见的技术&#xff0c;它可以改变图像的形状和结构&#xff0c;以满足特定的视觉效果或者应用需求。本文将介绍一种基于网格变形的二维图像变形算法&#xff0c;并使用C进行实现。 一、算法原理 网格变形是一种基于网格的图像变形…...

【数据结构】八大排序详解

&#x1f680; 作者简介&#xff1a;一名在后端领域学习&#xff0c;并渴望能够学有所成的追梦人。 &#x1f40c; 个人主页&#xff1a;蜗牛牛啊 &#x1f525; 系列专栏&#xff1a;&#x1f6f9;数据结构、&#x1f6f4;C &#x1f4d5; 学习格言&#xff1a;博观而约取&…...

VSCode如何设置高亮

一、概述 本文主要介绍在 VSCode 看代码时&#xff0c;怎样使某个单词高亮显示&#xff0c;主要通过以下三步实现&#xff1a; 安装 highlight-words 插件 配置 highlight-words 插件 设置高亮快捷键F8 工作是嵌入式开发的&#xff0c;代码主要是C/C的&#xff0c;之前一直用…...

密钥大全ubuntu

VMware Workstation Tech Preview 20H2 GG1JR-APD1P-0857Q-DQQN9-PU2CA VMware Workstation v16 Pro for Windows&#xff08;反馈失效&#xff09; ZF3R0-FHED2-M80TY-8QYGC-NPKYF YF390-0HF8P-M81RQ-2DXQE-M2UT6 ZF71R-DMX85-08DQY-8YMNC-PPHV8 VMware Workstation v15 f…...

Spring Task入门案例

Spring Task 是Spring框架提供的任务调度工具&#xff0c;可以按照约定的时间自动执行某个代码逻辑。 定位&#xff1a;定时任务框架 作用&#xff1a;定时自动执行某段Java代码 强调&#xff1a;只要是需要定时处理的场景都可以使用Spring Task 1. cron表达式 cron表达式…...

针对Android项目蓝牙如何学习

一、概述(Overview) 蓝牙是一种专有的开放式无线技术标准,用于在固定和移动设备之间进行短距离数据交换(使用2400–2480 MHz ISM波段的短波长无线电传输),从而创建具有高度安全性的个人局域网(PANs)。由电信供应商爱立信(telecoms vendor Ericsson)于1994年创建,[1…...

C++学习笔记总结练习:内存分配器编程实现

内存分配器练习 C内存分配器是用于管理程序运行时内存的工具。它负责分配和释放内存&#xff0c;以满足程序在运行过程中的动态内存需求。在C中&#xff0c;有几种内存分配器可供选择&#xff0c;包括操作系统提供的默认分配器、自定义分配器和第三方库提供的分配器。 默认分配…...

【uniapp】使用Vs Code开发uniapp:

文章目录 一、使用命令行创建uniapp项目&#xff1a;二、安装插件与配置&#xff1a;三、编译和运行:四、修改pinia&#xff1a; 一、使用命令行创建uniapp项目&#xff1a; 二、安装插件与配置&#xff1a; 三、编译和运行: 该项目下的dist》dev》mp-weixin文件导入微信开发者…...

对称与负电源测试:动态直流电子负载的设计、原理与应用

1. 项目概述&#xff1a;对称与负电源的静态与动态直流负载在电子实验室里&#xff0c;测试一个电源的性能&#xff0c;尤其是它的动态响应能力&#xff0c;是件既基础又关键的事。我们常说的“直流电子负载”就是这个领域的核心工具。我之前设计并分享过一个用于正电源测试的静…...

Wechat2RSS:微信公众号转RSS订阅工具

文章目录Wechat2RSS&#xff1a;微信公众号转RSS订阅工具Wechat2RSS&#xff1a;微信公众号转RSS订阅工具 ttttmr开源的Wechat2RSS项目&#xff0c;目前在GitHub上获得1409颗Star&#xff0c;项目地址为https://github.com/ttttmr/Wechat2RSS。该工具的核心作用是将微信公众号…...

Onekey终极指南:如何5分钟快速获取Steam游戏清单的免费神器

Onekey终极指南&#xff1a;如何5分钟快速获取Steam游戏清单的免费神器 【免费下载链接】Onekey Onekey Steam Depot Manifest Downloader 项目地址: https://gitcode.com/gh_mirrors/one/Onekey 还在为复杂的Steam游戏清单下载而头疼吗&#xff1f;想要备份游戏资源却不…...

【DeepSeek事件驱动架构实战指南】:20年架构师亲授5大核心陷阱与避坑清单

更多请点击&#xff1a; https://kaifayun.com 第一章&#xff1a;DeepSeek事件驱动架构全景认知 DeepSeek事件驱动架构&#xff08;Event-Driven Architecture, EDA&#xff09;并非单一技术组件的堆叠&#xff0c;而是一种以事件为第一公民、强调松耦合与异步协作的系统设计…...

内存占用3KB!极致瘦身释放MCU无限可能

极致小体积&#xff0c;给工业领域带来了无限的可能&#xff1a;更低硬件成本&#xff0c;更小芯片体积&#xff0c;更低功耗&#xff0c;更高可靠性&#xff0c;让每一颗小MCU都拥有大系统的完整能力。 https://www.bilibili.com/video/BV1eZLi6PEjc/?spm_id_from333.1387.ho…...

Unity发行版DLL调试实战:DnSpy无源码IL级断点指南

1. 这不是“反编译”&#xff0c;而是Unity游戏开发者的日常调试手段你有没有遇到过这样的情况&#xff1a;接手一个Unity发行版游戏&#xff0c;想快速验证某个功能逻辑是否按预期执行&#xff0c;或者排查一个偶发的崩溃&#xff0c;但手头只有打包后的Assembly-CSharp.dll&a…...

中兴光猫终极管理指南:解锁工厂模式与Telnet权限的实战教程

中兴光猫终极管理指南&#xff1a;解锁工厂模式与Telnet权限的实战教程 【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 掌握中兴光猫的设备管理和权限获取能力是网络管理员和技术爱好者…...

如何快速批量下载高质量歌词:ZonyLrcToolsX跨平台终极解决方案

如何快速批量下载高质量歌词&#xff1a;ZonyLrcToolsX跨平台终极解决方案 【免费下载链接】ZonyLrcToolsX ZonyLrcToolsX 是一个能够方便地下载歌词的小软件。 项目地址: https://gitcode.com/gh_mirrors/zo/ZonyLrcToolsX 还在为本地音乐库缺少歌词而烦恼吗&#xff1…...

用Azure Kinect DK和Body Tracking SDK,5分钟实现一个实时人体骨骼点检测Demo(C++版)

5分钟实战&#xff1a;用Azure Kinect DK实现实时人体骨骼点追踪&#xff08;C版&#xff09; 当你第一次拿到Azure Kinect DK时&#xff0c;最令人兴奋的莫过于它强大的人体追踪能力。这款深度相机不仅能捕捉高清彩色图像&#xff0c;更能通过AI算法实时重建人体骨骼关节点。本…...

特定任务需求场景下的过约束并联机构构型设计与控制方法【附代码】

✨ 长期致力于曲面加工、构型综合、运动学和动力学建模、性能评价、多目标优化、滑模控制、鲁棒控制、视觉传感技术研究工作&#xff0c;擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流&#xff0c;点击《获取方式》 &#xff08;…...