当前位置: 首页 > article >正文

深入了解 Oracle 正则表达式

目录

  • 深入了解 Oracle 正则表达式
    • 一、正则表达式基础概念
    • 二、Oracle 正则表达式语法
      • (一)字符类
      • (二)重复限定符
      • (三)边界匹配符
      • (四)分组和捕获
    • 三、Oracle 正则表达式函数
      • (一)REGEXP\_LIKE 函数
      • (二)REGEXP\_REPLACE 函数
      • (三)REGEXP\_SUBSTR 函数
    • 四、实际应用场景
      • (一)数据清洗
      • (二)数据验证
      • (三)文本分析
    • 五、注意事项
    • 六、总结

深入了解 Oracle 正则表达式

一、正则表达式基础概念

正则表达式是一种用于描述、匹配和处理文本模式的强大工具,它通过特定的字符和符号组合来定义模式,进而在文本中实现查找、替换或提取符合条件的内容。在 Oracle 数据库环境中,正则表达式广泛应用于数据验证、数据清洗以及文本分析等关键场景。

例如,从大量的用户信息中提取邮箱地址,或者验证用户输入的电话号码是否符合规范,正则表达式都能轻松应对,为数据处理工作提供了极大的便利。

二、Oracle 正则表达式语法

(一)字符类

基本字符类

.(点):匹配除换行符外的任意单个字符。例如,‘a.c’ 能够匹配 ‘abc’、‘a1c’ 等字符串,只要中间字符为任意单个字符(换行符除外)即可。

[字符集合]:匹配字符集合中的任意一个字符。比如,‘[aeiou]’ 专门用于匹配元音字母,当处理文本中需要筛选出元音字母相关内容时,这个字符类就非常有用。

[^ 字符集合]:匹配不在指定字符集合中的任意一个字符。例如,‘[^0-9]’ 可以精准匹配任何非数字字符,在处理需要排除数字的数据场景中发挥作用。

预定义字符类

\d:匹配任意一个数字字符,其功能等同于 [0-9]。像 ‘\d {3}’ 就能匹配三位连续的数字,如 ‘123’、‘456’ 等,常用于处理与数字位数相关的匹配需求。

\w:匹配任意一个字母、数字或下划线字符,等价于 [a-zA-Z0-9_]。当我们需要处理包含字母、数字和下划线组成的用户名、文件名等数据时,‘\w+’ 可以匹配由这些字符组成的一个或多个字符的字符串。

\s:匹配任意一个空白字符,包括空格、制表符、换行符等,等价于 [\t\n\r\f]。在处理文本排版、格式整理等任务时,识别和处理空白字符是很常见的操作,‘\s’ 就派上了用场。

(二)重复限定符

{n}:表示前面的字符或表达式恰好出现 n 次。例如,‘a {3}’ 仅能匹配 ‘aaa’,不会匹配 ‘aa’ 或 ‘aaaa’,在需要精确匹配固定次数字符的场景中很实用。

{n,}:意味着前面的字符或表达式至少出现 n 次。例如,‘a {3,}’ 可以匹配 ‘aaa’、‘aaaa’、‘aaaaa’ 等,只要出现次数大于等于 3 次即可,适用于对出现次数有下限要求的匹配。

{n,m}:表示前面的字符或表达式出现次数在 n 到 m 之间(包括 n 和 m)。比如,‘a {3,5}’ 可以匹配 ‘aaa’、‘aaaa’、‘aaaaa’,满足出现次数在 3 到 5 次之间的各种情况。

?:前面的字符或表达式出现 0 次或 1 次,等价于 {0,1}。例如,‘a?’ 可以匹配空字符串,也可以匹配 ‘a’,在处理某些可有可无字符的匹配时非常方便。

+:前面的字符或表达式出现 1 次或多次,等价于 {1,}。例如,‘a+’ 可以匹配 ‘a’、‘aa’、‘aaa’ 等,只要至少出现一次 ‘a’ 即可,常用于匹配至少出现一次的字符或表达式。

*:前面的字符或表达式出现 0 次或多次,等价于 {0,}。例如,‘a*’ 可以匹配空字符串,也可以匹配 ‘a’、‘aa’ 等任意次数出现 ‘a’ 的情况,灵活性较高。

(三)边界匹配符

****:匹配字符串的开头。例如,'abc’ 只会匹配以 ‘abc’ 开头的字符串,在需要筛选特定开头数据时很有效。

** ∗ ∗ :匹配字符串的结尾。例如 , ′ a b c **:匹配字符串的结尾。例如,'abc :匹配字符串的结尾。例如abc’ 仅能匹配以 ‘abc’ 结尾的字符串,对于处理特定结尾的数据场景很有用。

\b:匹配单词边界。例如,‘\bcat\b’ 可以匹配 ‘the cat is here’ 中的 ‘cat’,因为它处于单词边界位置;但不会匹配 ‘category’ 中的 ‘cat’,因为 ‘cat’ 在 ‘category’ 中不是独立的单词。

(四)分组和捕获

( ):用于分组和捕获。将正则表达式的一部分括起来,就可以把这部分当作一个整体进行操作,同时还能捕获匹配到的内容。例如,‘(ab)+’ 可以匹配 ‘ab’、‘abab’、‘ababab’ 等,并且每次匹配到的 ‘ab’ 都会被捕获,方便后续对分组内容进行处理。

\n:用于引用之前捕获的分组。其中 n 是分组的编号,从 1 开始。例如,‘(a (b))\1’ 可以匹配 ‘abab’,这里的 \1 引用了第一个分组 (a (b)) 匹配到的内容,在需要重复使用之前捕获内容进行匹配时非常实用。

三、Oracle 正则表达式函数

(一)REGEXP_LIKE 函数

功能:主要用于判断一个字符串是否匹配指定的正则表达式模式,返回布尔值,方便在数据筛选时进行条件判断。

语法:REGEXP_LIKE(source_string, pattern [, match_parameter])

source_string:待匹配的源字符串,是我们要处理的数据对象。

pattern:定义的正则表达式模式,用于描述匹配规则。

match_parameter:可选参数,用于指定匹配模式,例如 ‘i’ 表示不区分大小写匹配,在处理不关心大小写的数据匹配时使用。

示例

判断一个字符串是否为有效的邮箱地址。

SELECT *
FROM your_table
WHERE REGEXP_LIKE(email, '^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}$');

在这个示例中,正则表达式 ‘^[A-Za-z0-9._%±]+@[A-Za-z0-9.-]+.[A-Za-z]{2,}$’ 详细定义了邮箱地址的格式。它要求邮箱地址以字母、数字、下划线、百分号、加号、减号、点号中的一个或多个字符开头,接着是 ‘@’ 符号,然后是由字母、数字、点号、减号组成的一个或多个字符,最后是一个点号和至少两个字母组成的顶级域名。通过这个函数和正则表达式,能够快速筛选出符合邮箱格式的数据。

(二)REGEXP_REPLACE 函数

功能:在一个字符串中查找匹配正则表达式模式的部分,并将其替换为指定的字符串,常用于数据清洗和格式统一。

语法:REGEXP_REPLACE(source_string, pattern [, replace_string [, position [, occurrence [, match_parameter]]]])

source_string:进行替换操作的源字符串,是要被修改的数据。

pattern:用于查找匹配内容的正则表达式模式。

replace_string:用于替换匹配部分的目标字符串。

position:可选参数,指定从源字符串的第几个字符开始进行匹配,默认值为 1。

occurrence:可选参数,指定要替换的第几次出现的匹配部分,默认值为 0,表示替换所有匹配部分。

match_parameter:可选参数,用于指定匹配模式,如 ‘i’ 表示不区分大小写匹配。

示例

将字符串中的所有数字替换为 ‘#’。

SELECT REGEXP_REPLACE('abc123def456', '\d', '#')
FROM dual;

执行结果为 ‘abc###def###’,正则表达式 ‘\d’ 精准匹配所有数字字符,然后将其替换为 ‘#’,实现了数据的格式转换。

(三)REGEXP_SUBSTR 函数

功能:从一个字符串中提取匹配正则表达式模式的子字符串,在数据提取和分析中经常使用。

语法:REGEXP_SUBSTR(source_string, pattern [, position [, occurrence [, match_parameter]]])

source_string:进行提取操作的源字符串,是数据来源。

pattern:定义提取规则的正则表达式模式。

position:可选参数,指定从源字符串的第几个字符开始进行匹配,默认值为 1。

occurrence:可选参数,指定要提取的第几次出现的匹配部分,默认值为 1。

match_parameter:可选参数,用于指定匹配模式,如 ‘i’ 表示不区分大小写匹配。

示例

从一个包含多个邮箱地址的字符串中提取第一个邮箱地址。

SELECT REGEXP_SUBSTR('user1@example.com;user2@example.net', '[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}')
FROM dual;

执行结果为 ‘user1@example.com’,正则表达式 ‘[A-Za-z0-9._%±]+@[A-Za-z0-9.-]+.[A-Za-z]{2,}’ 匹配邮箱地址格式,然后成功提取出第一个匹配到的邮箱地址。

四、实际应用场景

(一)数据清洗

在数据入库之前,确保数据的准确性和一致性至关重要。例如,统一电话号码格式。

-- 将电话号码格式统一为 (xxx) xxx-xxxx
UPDATE your_table
SET phone_number = REGEXP_REPLACE(phone_number, '(\d{3})(\d{3})(\d{4})', '(\1) \2-\3');

通过这个操作,能将各种不同格式的电话号码统一成规范的格式,方便后续的数据存储和使用。

(二)数据验证

当用户输入数据时,需要验证数据是否符合指定格式。例如,验证身份证号码。

SELECT *
FROM user_info
WHERE REGEXP_LIKE(id_card_number, '^[1-9]\d{5}(18|19|20)\d{2}(0[1-9]|1[0-2])(0[1-9]|[12]\d|3[01])\d{3}[\dXx]$');

利用这个正则表达式,可以快速筛选出符合身份证号码格式的数据,避免错误数据进入系统。

(三)文本分析

在进行文本分析时,提取特定信息是常见需求。例如,从一篇文章中提取所有的 URL 链接。

SELECT REGEXP_SUBSTR(article_content, 'https?://[^\s]+', 1, level) AS url
FROM your_table
CONNECT BY LEVEL <= REGEXP_COUNT(article_content, 'https?://[^\s]+');

通过这个查询,可以将文章中所有的 URL 链接提取出来,为后续的文本分析和数据挖掘提供支持。

五、注意事项

性能问题:正则表达式在处理大量数据时,可能会因为复杂的匹配规则而导致性能下降。因此,在使用时务必谨慎评估,建议先对数据进行适当过滤,减少需要处理的数据量,以提高处理效率。

字符集问题:不同的字符集可能会对正则表达式的匹配结果产生影响。在实际应用中,要确保数据库字符集与处理数据的字符集一致,避免因字符集差异导致匹配错误。

正则表达式的复杂性:复杂的正则表达式虽然功能强大,但往往难以理解和维护。在编写正则表达式时,应尽量保持简洁明了,确保代码的可读性和可维护性。

六、总结

Oracle 正则表达式是数据库开发和管理中不可或缺的强大工具,它为我们在处理和分析文本数据时提供了极大的便利。通过深入掌握正则表达式的基本语法和常用函数,我们能够高效地实现数据清洗、验证、分析等关键任务。在实际应用中,要根据具体需求合理运用正则表达式,并充分考虑性能、字符集等相关问题。希望本文能帮助读者全面理解和熟练运用 Oracle 正则表达式,提升在数据库领域的技术能力和工作效率。

相关文章:

深入了解 Oracle 正则表达式

目录 深入了解 Oracle 正则表达式一、正则表达式基础概念二、Oracle 正则表达式语法&#xff08;一&#xff09;字符类&#xff08;二&#xff09;重复限定符&#xff08;三&#xff09;边界匹配符&#xff08;四&#xff09;分组和捕获 三、Oracle 正则表达式函数&#xff08;…...

傅里叶公式推导(三)

文章目录 周期 2L周期T 周期 2L 周期 T 2 L T2L T2L 的傅里叶变换 即 f ( t ) f ( t 2 L ) f(t) f(t2L) f(t)f(t2L) xt2 π \pi π 2 L 2L 2L 原公式 f ( x ) a 0 2 ∑ n 1 ∞ [ a n cos ⁡ n x b n sin ⁡ n x ] a 0 1 π ∫ − π π f ( x ) d x a n 1 π ∫…...

像取快递一样取文件?

看到一个很有意思的项目&#xff0c;像我们做软件分享的感觉会有用&#xff0c;就是现在服务器费用太贵了&#xff0c;如果自建的话感觉不是很值得。 FileCodeBox FileCodeBox 是一个轻量级的文件分享系统&#xff0c;它基于匿名口令分享文本和文件&#xff0c;无需注册登录&…...

【CXX】1 CXX主要概念概览

本文描述了CXX&#xff08;一个用于在Rust和C之间进行桥接的库&#xff09;中的关键概念&#xff0c;特别是FFI&#xff08;外部函数接口&#xff09;边界所涉及的三种主要类型&#xff1a;共享结构体、不透明类型和函数。 一、示例代码 #[cxx::bridge] mod ffi {// 任何共享…...

PyQT项目如何在Linux中自启显示界面

可以通过systemd服务启动PyQt程序 1. 创建服务文件&#xff1a; 在 /etc/systemd/system/ 目录下创建一个新的服务文件。例如&#xff0c;如果您的程序名为 my_program.py&#xff0c;可以创建一个名为 my_program.service 的文件&#xff1a; sudo nano /etc/systemd/system…...

【信息系统项目管理师-案例真题】2019下半年案例分析答案和详解

更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 试题一【问题 1】(6 分)【问题 2‍ 】(8 分)【问题 3‍ 】(11 分)试题二【问题 1】‍(5分)【问题 2】‍ (14 分)【问题 3‍ 】(6 分)试题三【问题 1】(8 分)【问题 2‍ 】(6 分)【问题 3】‍ (8 分)【问题 4‍ …...

DeepSeek 助力 Vue 开发:打造丝滑的返回顶部按钮(Back to Top)

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享一篇文章&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 目录 Deep…...

【前端开发学习笔记15】Vue_8

手动添加Pinia到Vue项目&#xff1a; 在实际开发中&#xff0c;Pinia配置可在项目创建时自动添加。初次学习从零开始&#xff1a; 1. 用Vite创建空的Vue3项目&#xff0c;命令为npm create vuelatest。 2. 按官方文档将pinia安装到项目中。 import { createApp } from vue im…...

deepin linux UOS AI 使用 deepseek-r1 30B

我们用 ollama 下载 deepseek-r1 3B 执行命令: $ ollama pull models/unsloth/DeepSeek-R1-Distill-Qwen-32B-GGUF 下载完成后 我们就要重新更改目录和文件了 deepseek-r1/gguf (这是目录结构) 然后我把 gguf文件 更名成 DeepSeek-R1.gguf (就是目录下最大的那个文件) …...

通过docker启用rabbitmq插件

创建文件&#xff0c;docker-compose.yml services:rabbitmq:image: rabbitmq:4.0-managementports:- "5672:5672"- "15672:15672"volumes:- ./data/rabbitmq/data:/var/lib/rabbitmq # 持久化数据- ./data/rabbitmq/plugins/rabbitmq_delayed_message_ex…...

对比 LVS 负载均衡群集的 NAT 模式和 DR 模式,比较其各自的优势 与基于 openEuler 构建 LVS-DR 群集

一、 对比 LVS 负载均衡群集的 NAT 模式和 DR 模式&#xff0c;比较其各自的优势 NAT 模式 部署简单&#xff1a;NAT 模式下&#xff0c;所有的服务器节点只需要连接到同一个局域网内&#xff0c;通过负载均衡器进行网络地址转换&#xff0c;就可以实现负载均衡功能。不需要对…...

C++17 中 std::lcm:从入门到精通

文章目录 一、引言二、std::lcm 的基本概念三、入门示例四、计算多个整数的最小公倍数五、std::lcm 的实现原理六、在实际项目中的应用七、注意事项八、总结 一、引言 在 C 编程中&#xff0c;处理数学运算时&#xff0c;计算最小公倍数&#xff08;Least Common Multiple&…...

html 点击弹出视频弹窗

一、效果: 点击视频按钮后,弹出弹窗 播放视频 二、代码 <div class="index_change_video" data-video-src="</...

docker安装mongo,导入、导出数据

1、docker安装mongo docker pull mongo docker run -d -p 27017:27017 --name mongodb mongodocker update mongodb --restartalways ## 开机自启动-d&#xff1a;表示以后台模式运行容器。 -p 27017:27017&#xff1a;将容器内部的 MongoDB 默认端口 27017 映射到宿主机的 27…...

代码随想录算法【Day44】

Day44 1143.最长公共子序列 class Solution { public:int longestCommonSubsequence(string text1, string text2) {vector<vector<int>> dp(text1.size() 1, vector<int>(text2.size() 1, 0));for (int i 1; i < text1.size(); i) {for (int j 1; …...

项目总结:java agent的使用

测试团队会做java agent的事&#xff0c;实现测试模拟&#xff0c;各种数据采集等等工作&#xff0c;而这些不需要开发改代码来做到&#xff0c;只需要挂载下agent。 目录 javaagent认识和例子代码例子&#xff1a;java.lang.instrument自定义实现一个javaagentagent jar测试 回…...

使用 LangChain 对接硅基流动(SiliconFlow)API:构建一个智能对话系统

文章目录 什么是硅基流动&#xff08;SiliconFlow&#xff09;&#xff1f;LangChain 简介在 LangChain 中对接硅基流动步骤 1&#xff1a;安装必要的库步骤 2&#xff1a;设置 API 密钥步骤 3&#xff1a;编写代码代码解析步骤 4&#xff1a;运行代码如何扩展和改进总结 在现代…...

如何借助NoETL指标平台实现数据分析、决策的提效?

通常&#xff0c;企业通过明确分析目标、定位所需分析的数据&#xff0c;再通过多渠道汇集销售数据、客户反馈、市场调研等信息&#xff0c;经过数据清洗、缺失值处理及格式标准化等手段&#xff0c;运用描述性统计、回归分析、聚类分析及关联规则挖掘等多样分析方法&#xff0…...

Java--IO流详解 (上)--字符流

目录 IO流的概念 字符流 输入流 Reader核心方法 1.close() 2.mark(int readAheadLimit) 3.markSupported() 4.read() 5.read(char[] cbuf) 6.read(char[] cbuf, int off, int len) 7.read(CharBuffer target) 8.ready() 9.reset() 10.skip(long n) Reader 的常用…...

大模型语言简介

大模型语言能做什么 信息提取 将长段文字中的信息抽取出来并且以结构化的方式输出。相比起传统NLP的方式&#xff0c;大模型在泛化能力上有非常大的提升&#xff0c;并且开发成本要低2个数量级。应用场景包括&#xff1a;论文论点论据提取、用户画像提取、舆情分析、病例结构…...

手动配置IP

手动配置IP&#xff0c;需要考虑四个配置项&#xff1a; 四个配置项 IP地址、子网掩码、默认网关、DNS服务器 IP地址&#xff1a;格式表现为点分十进制&#xff0c;如192.168.254.1 子网掩码&#xff1a;用于区分网络位和主机位 【子网掩码的二进制表达式一定是连续的&#…...

Golang 进阶训练营

一、Golang 的 slice、map、channel 1.1 slice vs array a : make([]int, 100) //切片 b : [100]int{} //数组array需指明长度&#xff0c;长度为常量且不可改变 array长度为其类型中的组成部分&#xff08;给参数为长度100的数组的方法传长度为101的会报错&#xff09; array在…...

2-使用wifidog实现portal

wifidog是openwrt上面实现portal认证的一个开源工具&#xff0c;从网关端到服务器都帮你搭建好&#xff0c;通过学习wifidog的原理&#xff0c;后面就可以改造成自己需要的逻辑。 1. openwrt安装wifidog 添加源 vim 14.07/feeds.conf.defaultsrc-git wifidog https://github.c…...

Spring Boot + ShardingSphere 踩坑记

最近在准备秋招&#xff0c;偷了个轮子项目之后想改个分表&#xff0c;于是有了这篇文章。 省流&#xff1a;请使用shardingsphere-jdbc 5.5.2&#xff0c;并根据官方5.5.2版本文档进行配置&#xff0c;不要使用starter。此外&#xff0c;如果希望使用INTERVAL分片算法&#x…...

AI时代前端开发的创造力:解放还是束缚?

在人工智能&#xff08;AI&#xff09;快速发展的时代&#xff0c;AI技术的影响已经渗透到各个领域&#xff0c;从医疗保健到金融服务&#xff0c;再到创意产业。AI工具的出现&#xff0c;为前端开发带来了前所未有的效率提升&#xff0c;但也引发了人们对创造力的担忧&#xf…...

有哪些免费的SEO软件优化工具

随着2025年互联网的不断发展&#xff0c;越来越多的企业意识到在数字营销中&#xff0c;网站的曝光度和排名至关重要。无论是想要提高品牌知名度&#xff0c;还是想要通过在线销售增加收益&#xff0c;SEO&#xff08;搜索引擎优化&#xff09;都是一项不可忽视的关键策略。而要…...

FastExcel + Java:打造高效灵活的Excel数据导入导出解决方案

作者&#xff1a;后端小肥肠 &#x1f347; 我写过的文章中的相关代码放到了gitee&#xff0c;地址&#xff1a;xfc-fdw-cloud: 公共解决方案 &#x1f34a; 有疑问可私信或评论区联系我。 &#x1f951; 创作不易未经允许严禁转载。 姊妹篇&#xff1a; 基于AOP的数据字典实现…...

在Vue中,JavaScript数组常用方法,添加,插入,查找,删除等整理

在Vue中&#xff0c;JavaScript数组常用&#xff0c;添加&#xff0c;插入&#xff0c;查找&#xff0c;删除等整理 1.splice()方法可以直接修改原数组&#xff0c;通过指定要删除元素的索引来删除它。 例&#xff1a; let index // 要删除的元素的索引; this.array.splice(i…...

vue知识点2

1.methods和mounted的区别 methods是定义方法&#xff0c;不涉及到调用 mounted涉及到操作 所以methods后面是&#xff1a;&#xff0c;mounted后面是&#xff08;&#xff09; 2.介绍一下emit的用法 如果子控件要调用父页面的方法&#xff0c;在父页面的子控件引用处&…...

node.js + html调用ChatGPTApi实现Ai网站demo(带源码)

文章目录 前言一、demo演示二、node.js 使用步骤1.引入库2.引入包 前端HTML调用接口和UI所有文件总结 前言 关注博主&#xff0c;学习每天一个小demo 今天是Ai对话网站 又到了每天一个小demo的时候咯&#xff0c;前面我写了多人实时对话demo、和视频转换demo&#xff0c;今天…...