深入了解 Oracle 正则表达式
目录
- 深入了解 Oracle 正则表达式
- 一、正则表达式基础概念
- 二、Oracle 正则表达式语法
- (一)字符类
- (二)重复限定符
- (三)边界匹配符
- (四)分组和捕获
- 三、Oracle 正则表达式函数
- (一)REGEXP\_LIKE 函数
- (二)REGEXP\_REPLACE 函数
- (三)REGEXP\_SUBSTR 函数
- 四、实际应用场景
- (一)数据清洗
- (二)数据验证
- (三)文本分析
- 五、注意事项
- 六、总结
深入了解 Oracle 正则表达式
一、正则表达式基础概念
正则表达式是一种用于描述、匹配和处理文本模式的强大工具,它通过特定的字符和符号组合来定义模式,进而在文本中实现查找、替换或提取符合条件的内容。在 Oracle 数据库环境中,正则表达式广泛应用于数据验证、数据清洗以及文本分析等关键场景。
例如,从大量的用户信息中提取邮箱地址,或者验证用户输入的电话号码是否符合规范,正则表达式都能轻松应对,为数据处理工作提供了极大的便利。
二、Oracle 正则表达式语法
(一)字符类
基本字符类
.(点):匹配除换行符外的任意单个字符。例如,‘a.c’ 能够匹配 ‘abc’、‘a1c’ 等字符串,只要中间字符为任意单个字符(换行符除外)即可。
[字符集合]:匹配字符集合中的任意一个字符。比如,‘[aeiou]’ 专门用于匹配元音字母,当处理文本中需要筛选出元音字母相关内容时,这个字符类就非常有用。
[^ 字符集合]:匹配不在指定字符集合中的任意一个字符。例如,‘[^0-9]’ 可以精准匹配任何非数字字符,在处理需要排除数字的数据场景中发挥作用。
预定义字符类
\d:匹配任意一个数字字符,其功能等同于 [0-9]。像 ‘\d {3}’ 就能匹配三位连续的数字,如 ‘123’、‘456’ 等,常用于处理与数字位数相关的匹配需求。
\w:匹配任意一个字母、数字或下划线字符,等价于 [a-zA-Z0-9_]。当我们需要处理包含字母、数字和下划线组成的用户名、文件名等数据时,‘\w+’ 可以匹配由这些字符组成的一个或多个字符的字符串。
\s:匹配任意一个空白字符,包括空格、制表符、换行符等,等价于 [\t\n\r\f]。在处理文本排版、格式整理等任务时,识别和处理空白字符是很常见的操作,‘\s’ 就派上了用场。
(二)重复限定符
{n}:表示前面的字符或表达式恰好出现 n 次。例如,‘a {3}’ 仅能匹配 ‘aaa’,不会匹配 ‘aa’ 或 ‘aaaa’,在需要精确匹配固定次数字符的场景中很实用。
{n,}:意味着前面的字符或表达式至少出现 n 次。例如,‘a {3,}’ 可以匹配 ‘aaa’、‘aaaa’、‘aaaaa’ 等,只要出现次数大于等于 3 次即可,适用于对出现次数有下限要求的匹配。
{n,m}:表示前面的字符或表达式出现次数在 n 到 m 之间(包括 n 和 m)。比如,‘a {3,5}’ 可以匹配 ‘aaa’、‘aaaa’、‘aaaaa’,满足出现次数在 3 到 5 次之间的各种情况。
?:前面的字符或表达式出现 0 次或 1 次,等价于 {0,1}。例如,‘a?’ 可以匹配空字符串,也可以匹配 ‘a’,在处理某些可有可无字符的匹配时非常方便。
+:前面的字符或表达式出现 1 次或多次,等价于 {1,}。例如,‘a+’ 可以匹配 ‘a’、‘aa’、‘aaa’ 等,只要至少出现一次 ‘a’ 即可,常用于匹配至少出现一次的字符或表达式。
*:前面的字符或表达式出现 0 次或多次,等价于 {0,}。例如,‘a*’ 可以匹配空字符串,也可以匹配 ‘a’、‘aa’ 等任意次数出现 ‘a’ 的情况,灵活性较高。
(三)边界匹配符
****:匹配字符串的开头。例如,'abc’ 只会匹配以 ‘abc’ 开头的字符串,在需要筛选特定开头数据时很有效。
** ∗ ∗ :匹配字符串的结尾。例如 , ′ a b c **:匹配字符串的结尾。例如,'abc ∗∗:匹配字符串的结尾。例如,′abc’ 仅能匹配以 ‘abc’ 结尾的字符串,对于处理特定结尾的数据场景很有用。
\b:匹配单词边界。例如,‘\bcat\b’ 可以匹配 ‘the cat is here’ 中的 ‘cat’,因为它处于单词边界位置;但不会匹配 ‘category’ 中的 ‘cat’,因为 ‘cat’ 在 ‘category’ 中不是独立的单词。
(四)分组和捕获
( ):用于分组和捕获。将正则表达式的一部分括起来,就可以把这部分当作一个整体进行操作,同时还能捕获匹配到的内容。例如,‘(ab)+’ 可以匹配 ‘ab’、‘abab’、‘ababab’ 等,并且每次匹配到的 ‘ab’ 都会被捕获,方便后续对分组内容进行处理。
\n:用于引用之前捕获的分组。其中 n 是分组的编号,从 1 开始。例如,‘(a (b))\1’ 可以匹配 ‘abab’,这里的 \1 引用了第一个分组 (a (b)) 匹配到的内容,在需要重复使用之前捕获内容进行匹配时非常实用。
三、Oracle 正则表达式函数
(一)REGEXP_LIKE 函数
功能:主要用于判断一个字符串是否匹配指定的正则表达式模式,返回布尔值,方便在数据筛选时进行条件判断。
语法:REGEXP_LIKE(source_string, pattern [, match_parameter])
source_string:待匹配的源字符串,是我们要处理的数据对象。
pattern:定义的正则表达式模式,用于描述匹配规则。
match_parameter:可选参数,用于指定匹配模式,例如 ‘i’ 表示不区分大小写匹配,在处理不关心大小写的数据匹配时使用。
示例:
判断一个字符串是否为有效的邮箱地址。
SELECT *
FROM your_table
WHERE REGEXP_LIKE(email, '^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}$');
在这个示例中,正则表达式 ‘^[A-Za-z0-9._%±]+@[A-Za-z0-9.-]+.[A-Za-z]{2,}$’ 详细定义了邮箱地址的格式。它要求邮箱地址以字母、数字、下划线、百分号、加号、减号、点号中的一个或多个字符开头,接着是 ‘@’ 符号,然后是由字母、数字、点号、减号组成的一个或多个字符,最后是一个点号和至少两个字母组成的顶级域名。通过这个函数和正则表达式,能够快速筛选出符合邮箱格式的数据。
(二)REGEXP_REPLACE 函数
功能:在一个字符串中查找匹配正则表达式模式的部分,并将其替换为指定的字符串,常用于数据清洗和格式统一。
语法:REGEXP_REPLACE(source_string, pattern [, replace_string [, position [, occurrence [, match_parameter]]]])
source_string:进行替换操作的源字符串,是要被修改的数据。
pattern:用于查找匹配内容的正则表达式模式。
replace_string:用于替换匹配部分的目标字符串。
position:可选参数,指定从源字符串的第几个字符开始进行匹配,默认值为 1。
occurrence:可选参数,指定要替换的第几次出现的匹配部分,默认值为 0,表示替换所有匹配部分。
match_parameter:可选参数,用于指定匹配模式,如 ‘i’ 表示不区分大小写匹配。
示例:
将字符串中的所有数字替换为 ‘#’。
SELECT REGEXP_REPLACE('abc123def456', '\d', '#')
FROM dual;
执行结果为 ‘abc###def###’,正则表达式 ‘\d’ 精准匹配所有数字字符,然后将其替换为 ‘#’,实现了数据的格式转换。
(三)REGEXP_SUBSTR 函数
功能:从一个字符串中提取匹配正则表达式模式的子字符串,在数据提取和分析中经常使用。
语法:REGEXP_SUBSTR(source_string, pattern [, position [, occurrence [, match_parameter]]])
source_string:进行提取操作的源字符串,是数据来源。
pattern:定义提取规则的正则表达式模式。
position:可选参数,指定从源字符串的第几个字符开始进行匹配,默认值为 1。
occurrence:可选参数,指定要提取的第几次出现的匹配部分,默认值为 1。
match_parameter:可选参数,用于指定匹配模式,如 ‘i’ 表示不区分大小写匹配。
示例:
从一个包含多个邮箱地址的字符串中提取第一个邮箱地址。
SELECT REGEXP_SUBSTR('user1@example.com;user2@example.net', '[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}')
FROM dual;
执行结果为 ‘user1@example.com’,正则表达式 ‘[A-Za-z0-9._%±]+@[A-Za-z0-9.-]+.[A-Za-z]{2,}’ 匹配邮箱地址格式,然后成功提取出第一个匹配到的邮箱地址。
四、实际应用场景
(一)数据清洗
在数据入库之前,确保数据的准确性和一致性至关重要。例如,统一电话号码格式。
-- 将电话号码格式统一为 (xxx) xxx-xxxx
UPDATE your_table
SET phone_number = REGEXP_REPLACE(phone_number, '(\d{3})(\d{3})(\d{4})', '(\1) \2-\3');
通过这个操作,能将各种不同格式的电话号码统一成规范的格式,方便后续的数据存储和使用。
(二)数据验证
当用户输入数据时,需要验证数据是否符合指定格式。例如,验证身份证号码。
SELECT *
FROM user_info
WHERE REGEXP_LIKE(id_card_number, '^[1-9]\d{5}(18|19|20)\d{2}(0[1-9]|1[0-2])(0[1-9]|[12]\d|3[01])\d{3}[\dXx]$');
利用这个正则表达式,可以快速筛选出符合身份证号码格式的数据,避免错误数据进入系统。
(三)文本分析
在进行文本分析时,提取特定信息是常见需求。例如,从一篇文章中提取所有的 URL 链接。
SELECT REGEXP_SUBSTR(article_content, 'https?://[^\s]+', 1, level) AS url
FROM your_table
CONNECT BY LEVEL <= REGEXP_COUNT(article_content, 'https?://[^\s]+');
通过这个查询,可以将文章中所有的 URL 链接提取出来,为后续的文本分析和数据挖掘提供支持。
五、注意事项
性能问题:正则表达式在处理大量数据时,可能会因为复杂的匹配规则而导致性能下降。因此,在使用时务必谨慎评估,建议先对数据进行适当过滤,减少需要处理的数据量,以提高处理效率。
字符集问题:不同的字符集可能会对正则表达式的匹配结果产生影响。在实际应用中,要确保数据库字符集与处理数据的字符集一致,避免因字符集差异导致匹配错误。
正则表达式的复杂性:复杂的正则表达式虽然功能强大,但往往难以理解和维护。在编写正则表达式时,应尽量保持简洁明了,确保代码的可读性和可维护性。
六、总结
Oracle 正则表达式是数据库开发和管理中不可或缺的强大工具,它为我们在处理和分析文本数据时提供了极大的便利。通过深入掌握正则表达式的基本语法和常用函数,我们能够高效地实现数据清洗、验证、分析等关键任务。在实际应用中,要根据具体需求合理运用正则表达式,并充分考虑性能、字符集等相关问题。希望本文能帮助读者全面理解和熟练运用 Oracle 正则表达式,提升在数据库领域的技术能力和工作效率。
相关文章:
深入了解 Oracle 正则表达式
目录 深入了解 Oracle 正则表达式一、正则表达式基础概念二、Oracle 正则表达式语法(一)字符类(二)重复限定符(三)边界匹配符(四)分组和捕获 三、Oracle 正则表达式函数(…...
傅里叶公式推导(三)
文章目录 周期 2L周期T 周期 2L 周期 T 2 L T2L T2L 的傅里叶变换 即 f ( t ) f ( t 2 L ) f(t) f(t2L) f(t)f(t2L) xt2 π \pi π 2 L 2L 2L 原公式 f ( x ) a 0 2 ∑ n 1 ∞ [ a n cos n x b n sin n x ] a 0 1 π ∫ − π π f ( x ) d x a n 1 π ∫…...
像取快递一样取文件?
看到一个很有意思的项目,像我们做软件分享的感觉会有用,就是现在服务器费用太贵了,如果自建的话感觉不是很值得。 FileCodeBox FileCodeBox 是一个轻量级的文件分享系统,它基于匿名口令分享文本和文件,无需注册登录&…...
【CXX】1 CXX主要概念概览
本文描述了CXX(一个用于在Rust和C之间进行桥接的库)中的关键概念,特别是FFI(外部函数接口)边界所涉及的三种主要类型:共享结构体、不透明类型和函数。 一、示例代码 #[cxx::bridge] mod ffi {// 任何共享…...
PyQT项目如何在Linux中自启显示界面
可以通过systemd服务启动PyQt程序 1. 创建服务文件: 在 /etc/systemd/system/ 目录下创建一个新的服务文件。例如,如果您的程序名为 my_program.py,可以创建一个名为 my_program.service 的文件: sudo nano /etc/systemd/system…...
【信息系统项目管理师-案例真题】2019下半年案例分析答案和详解
更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 试题一【问题 1】(6 分)【问题 2 】(8 分)【问题 3 】(11 分)试题二【问题 1】(5分)【问题 2】 (14 分)【问题 3 】(6 分)试题三【问题 1】(8 分)【问题 2 】(6 分)【问题 3】 (8 分)【问题 4 …...
DeepSeek 助力 Vue 开发:打造丝滑的返回顶部按钮(Back to Top)
前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 Deep…...
【前端开发学习笔记15】Vue_8
手动添加Pinia到Vue项目: 在实际开发中,Pinia配置可在项目创建时自动添加。初次学习从零开始: 1. 用Vite创建空的Vue3项目,命令为npm create vuelatest。 2. 按官方文档将pinia安装到项目中。 import { createApp } from vue im…...
deepin linux UOS AI 使用 deepseek-r1 30B
我们用 ollama 下载 deepseek-r1 3B 执行命令: $ ollama pull models/unsloth/DeepSeek-R1-Distill-Qwen-32B-GGUF 下载完成后 我们就要重新更改目录和文件了 deepseek-r1/gguf (这是目录结构) 然后我把 gguf文件 更名成 DeepSeek-R1.gguf (就是目录下最大的那个文件) …...
通过docker启用rabbitmq插件
创建文件,docker-compose.yml services:rabbitmq:image: rabbitmq:4.0-managementports:- "5672:5672"- "15672:15672"volumes:- ./data/rabbitmq/data:/var/lib/rabbitmq # 持久化数据- ./data/rabbitmq/plugins/rabbitmq_delayed_message_ex…...
对比 LVS 负载均衡群集的 NAT 模式和 DR 模式,比较其各自的优势 与基于 openEuler 构建 LVS-DR 群集
一、 对比 LVS 负载均衡群集的 NAT 模式和 DR 模式,比较其各自的优势 NAT 模式 部署简单:NAT 模式下,所有的服务器节点只需要连接到同一个局域网内,通过负载均衡器进行网络地址转换,就可以实现负载均衡功能。不需要对…...
C++17 中 std::lcm:从入门到精通
文章目录 一、引言二、std::lcm 的基本概念三、入门示例四、计算多个整数的最小公倍数五、std::lcm 的实现原理六、在实际项目中的应用七、注意事项八、总结 一、引言 在 C 编程中,处理数学运算时,计算最小公倍数(Least Common Multiple&…...
html 点击弹出视频弹窗
一、效果: 点击视频按钮后,弹出弹窗 播放视频 二、代码 <div class="index_change_video" data-video-src="</...
docker安装mongo,导入、导出数据
1、docker安装mongo docker pull mongo docker run -d -p 27017:27017 --name mongodb mongodocker update mongodb --restartalways ## 开机自启动-d:表示以后台模式运行容器。 -p 27017:27017:将容器内部的 MongoDB 默认端口 27017 映射到宿主机的 27…...
代码随想录算法【Day44】
Day44 1143.最长公共子序列 class Solution { public:int longestCommonSubsequence(string text1, string text2) {vector<vector<int>> dp(text1.size() 1, vector<int>(text2.size() 1, 0));for (int i 1; i < text1.size(); i) {for (int j 1; …...
项目总结:java agent的使用
测试团队会做java agent的事,实现测试模拟,各种数据采集等等工作,而这些不需要开发改代码来做到,只需要挂载下agent。 目录 javaagent认识和例子代码例子:java.lang.instrument自定义实现一个javaagentagent jar测试 回…...
使用 LangChain 对接硅基流动(SiliconFlow)API:构建一个智能对话系统
文章目录 什么是硅基流动(SiliconFlow)?LangChain 简介在 LangChain 中对接硅基流动步骤 1:安装必要的库步骤 2:设置 API 密钥步骤 3:编写代码代码解析步骤 4:运行代码如何扩展和改进总结 在现代…...
如何借助NoETL指标平台实现数据分析、决策的提效?
通常,企业通过明确分析目标、定位所需分析的数据,再通过多渠道汇集销售数据、客户反馈、市场调研等信息,经过数据清洗、缺失值处理及格式标准化等手段,运用描述性统计、回归分析、聚类分析及关联规则挖掘等多样分析方法࿰…...
Java--IO流详解 (上)--字符流
目录 IO流的概念 字符流 输入流 Reader核心方法 1.close() 2.mark(int readAheadLimit) 3.markSupported() 4.read() 5.read(char[] cbuf) 6.read(char[] cbuf, int off, int len) 7.read(CharBuffer target) 8.ready() 9.reset() 10.skip(long n) Reader 的常用…...
大模型语言简介
大模型语言能做什么 信息提取 将长段文字中的信息抽取出来并且以结构化的方式输出。相比起传统NLP的方式,大模型在泛化能力上有非常大的提升,并且开发成本要低2个数量级。应用场景包括:论文论点论据提取、用户画像提取、舆情分析、病例结构…...
手动配置IP
手动配置IP,需要考虑四个配置项: 四个配置项 IP地址、子网掩码、默认网关、DNS服务器 IP地址:格式表现为点分十进制,如192.168.254.1 子网掩码:用于区分网络位和主机位 【子网掩码的二进制表达式一定是连续的&#…...
Golang 进阶训练营
一、Golang 的 slice、map、channel 1.1 slice vs array a : make([]int, 100) //切片 b : [100]int{} //数组array需指明长度,长度为常量且不可改变 array长度为其类型中的组成部分(给参数为长度100的数组的方法传长度为101的会报错) array在…...
2-使用wifidog实现portal
wifidog是openwrt上面实现portal认证的一个开源工具,从网关端到服务器都帮你搭建好,通过学习wifidog的原理,后面就可以改造成自己需要的逻辑。 1. openwrt安装wifidog 添加源 vim 14.07/feeds.conf.defaultsrc-git wifidog https://github.c…...
Spring Boot + ShardingSphere 踩坑记
最近在准备秋招,偷了个轮子项目之后想改个分表,于是有了这篇文章。 省流:请使用shardingsphere-jdbc 5.5.2,并根据官方5.5.2版本文档进行配置,不要使用starter。此外,如果希望使用INTERVAL分片算法&#x…...
AI时代前端开发的创造力:解放还是束缚?
在人工智能(AI)快速发展的时代,AI技术的影响已经渗透到各个领域,从医疗保健到金融服务,再到创意产业。AI工具的出现,为前端开发带来了前所未有的效率提升,但也引发了人们对创造力的担忧…...
有哪些免费的SEO软件优化工具
随着2025年互联网的不断发展,越来越多的企业意识到在数字营销中,网站的曝光度和排名至关重要。无论是想要提高品牌知名度,还是想要通过在线销售增加收益,SEO(搜索引擎优化)都是一项不可忽视的关键策略。而要…...
FastExcel + Java:打造高效灵活的Excel数据导入导出解决方案
作者:后端小肥肠 🍇 我写过的文章中的相关代码放到了gitee,地址:xfc-fdw-cloud: 公共解决方案 🍊 有疑问可私信或评论区联系我。 🥑 创作不易未经允许严禁转载。 姊妹篇: 基于AOP的数据字典实现…...
在Vue中,JavaScript数组常用方法,添加,插入,查找,删除等整理
在Vue中,JavaScript数组常用,添加,插入,查找,删除等整理 1.splice()方法可以直接修改原数组,通过指定要删除元素的索引来删除它。 例: let index // 要删除的元素的索引; this.array.splice(i…...
vue知识点2
1.methods和mounted的区别 methods是定义方法,不涉及到调用 mounted涉及到操作 所以methods后面是:,mounted后面是() 2.介绍一下emit的用法 如果子控件要调用父页面的方法,在父页面的子控件引用处&…...
node.js + html调用ChatGPTApi实现Ai网站demo(带源码)
文章目录 前言一、demo演示二、node.js 使用步骤1.引入库2.引入包 前端HTML调用接口和UI所有文件总结 前言 关注博主,学习每天一个小demo 今天是Ai对话网站 又到了每天一个小demo的时候咯,前面我写了多人实时对话demo、和视频转换demo,今天…...
