Hive之正则表达式RLIKE详解及示例
目录
一、RLIKE 语法及核心特性
1. 基本语法
2. 核心特性
二、常见业务场景及示例
场景1:过滤包含特定模式的日志(如错误日志)
场景2:验证字段格式(如邮箱、手机号)
场景3:提取复杂文本中的关键词
场景4:排除无效数据(如非数字字符)
三、高级用法与技巧
1. 忽略大小写匹配
2. 匹配多行文本
3. 组合多个条件
四、性能优化建议
1.避免全表扫描
2.预编译正则模式
3.简化正则表达式
五、常见问题与注意事项
1. 转义字符问题
2. 贪婪匹配陷阱
3. 空值处理
六、常用正则模式速查表
Hive 中的 RLIKE(或 REGEXP)是用于判断字符串 是否匹配正则表达式 的关键操作符,返回布尔值(TRUE/FALSE)。它在数据过滤、模式匹配和条件判断中非常高效
一、RLIKE 语法及核心特性
1. 基本语法
SELECT ...
FROM table
WHERE column RLIKE 'pattern'; -- 或者使用 REGEXP
2. 核心特性
-
返回值:布尔值(
TRUE/FALSE)。 -
匹配规则:基于 Java 正则引擎,需对特殊字符双重转义(如
\\d表示数字)。 -
大小写敏感:默认区分大小写,可通过
(?i)忽略大小写(如'(?i)error'匹配 "ERROR" 或 "error")。 -
贪婪匹配:默认贪婪模式(匹配最长可能字符串)。
二、常见业务场景及示例
场景1:过滤包含特定模式的日志(如错误日志)
需求:筛选包含 ERROR 或 WARN 的日志行。
SELECT log_time, log_message
FROM server_logs
WHERE log_message RLIKE '\\b(ERROR|WARN)\\b'; -- 使用 \\b 匹配单词边界-- 示例匹配:
-- "2023-10-05 [ERROR] Disk full"
-- "2023-10-06 [WARN] High CPU usage"
场景2:验证字段格式(如邮箱、手机号)
需求:校验用户表中邮箱格式是否合法。
SELECT user_id, email
FROM user_info
WHERE email RLIKE '^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$'; -- 合法示例:alice@example.com
-- 非法示例:user@.com 或 alice@domain
场景3:提取复杂文本中的关键词
需求:检测文本中是否包含“支付成功”或“订单完成”的关键词(电商场景)。
SELECT order_id, log_text
FROM order_logs
WHERE log_text RLIKE '支付成功|订单完成'; -- 使用 | 表示逻辑“或”
场景4:排除无效数据(如非数字字符)
需求:过滤掉包含非数字字符的订单ID。
SELECT order_id
FROM orders
WHERE order_id RLIKE '^\\d+$'; -- 仅匹配纯数字-- 有效示例:'12345' → 匹配
-- 无效示例:'A123' → 不匹配
三、高级用法与技巧
1. 忽略大小写匹配
使用 (?i) 标志:
-- 匹配 "error"、"Error"、"ERROR"
SELECT log_message
FROM logs
WHERE log_message RLIKE '(?i)error';
2. 匹配多行文本
使用 (?s) 标志(让 . 匹配换行符):
-- 匹配跨行文本(如包含 "start...end" 的日志)
SELECT log_text
FROM multi_line_logs
WHERE log_text RLIKE '(?s)start.*end';
3. 组合多个条件
-- 匹配同时包含 "login" 和 "fail" 的日志(顺序无关)
SELECT *
FROM auth_logs
WHERE log_message RLIKE '.*login.*fail.*|.*fail.*login.*';
四、性能优化建议
1.避免全表扫描
结合分区字段或索引字段(如日期)缩小扫描范围:
SELECT *
FROM logs
WHERE dt = '2023-10-05' AND log_message RLIKE 'critical';
2.预编译正则模式
SET hivevar:ip_pattern='\\d+\\.\\d+\\.\\d+\\.\\d+';
SELECT *
FROM logs
WHERE log_message RLIKE ${hivevar:ip_pattern};
3.简化正则表达式
优先使用具体字符范围(如 [0-9] 代替 \\d),减少回溯。
五、常见问题与注意事项
1. 转义字符问题
Hive 正则使用 Java 引擎,需双重转义:
-
匹配数字:
\\d(正确) vs\d(错误)。 -
匹配点号(
.):\\.(正确) vs.(错误,会匹配任意字符)。
2. 贪婪匹配陷阱
默认贪婪匹配可能导致意外结果,使用 ? 启用非贪婪模式:
-- 提取最短匹配
SELECT REGEXP_EXTRACT('abc123def456', '\\d+?', 1); -- 输出 '123'(非贪婪)
SELECT REGEXP_EXTRACT('abc123def456', '\\d+', 1); -- 输出 '123456'(贪婪)
3. 空值处理
NULL 值与 RLIKE 结合时返回 NULL,需用 COALESCE 处理:
SELECT *
FROM table
WHERE COALESCE(column, '') RLIKE 'pattern';
六、常用正则模式速查表
| 场景 | 正则表达式 | 示例 |
|---|---|---|
| 手机号(中国) | ^1[3-9]\\d{9}$ | 13812345678 |
| 邮箱 | ^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$ | user@domain.com |
| IP地址(IPv4) | \\b\\d+\\.\\d+\\.\\d+\\.\\d+\\b | 192.168.1.1 |
| URL | https?://[^\\s]+ | http://example.com |
| 日期(YYYY-MM-DD) | \\d{4}-\\d{2}-\\d{2} | 2023-10-05 |
相关文章:
Hive之正则表达式RLIKE详解及示例
目录 一、RLIKE 语法及核心特性 1. 基本语法 2. 核心特性 二、常见业务场景及示例 场景1:过滤包含特定模式的日志(如错误日志) 场景2:验证字段格式(如邮箱、手机号) 场景3:提取复杂文本中…...
fluent-ffmpeg 依赖详解
fluent-ffmpeg 是一个用于在 Node.js 环境中与 FFmpeg 进行交互的强大库,它提供了流畅的 API 来执行各种音视频处理任务,如转码、剪辑、合并等。 一、安装 npm install fluent-ffmpeg二、基本使用 要使用 fluent-ffmpeg,首先需要确保系统中…...
【定昌Linux系统】部署了java程序,设置开启启动
将代码上传到相应的目录,并且配置了一个.sh的启动脚本文件 文件内容: #!/bin/bash# 指定JAR文件的路径(如果JAR文件在当前目录,可以直接使用文件名) JAR_FILE"/usr/local/java/xs_luruan_client/lib/xs_luruan_…...
Java零基础入门笔记:(7)异常
前言 本笔记是学习狂神的java教程,建议配合视频,学习体验更佳。 【狂神说Java】Java零基础学习视频通俗易懂_哔哩哔哩_bilibili 第1-2章:Java零基础入门笔记:(1-2)入门(简介、基础知识)-CSDN博客 第3章…...
【字符串】最长公共前缀 最长回文子串
文章目录 14. 最长公共前缀解题思路:模拟5. 最长回文子串解题思路一:动态规划解题思路二:中心扩散法 14. 最长公共前缀 14. 最长公共前缀 编写一个函数来查找字符串数组中的最长公共前缀。 如果不存在公共前缀,返回空字符…...
【软路由】ImmortalWrt 编译指南:从入门到精通
对于喜欢折腾路由器,追求极致性能和定制化的玩家来说,OpenWrt 无疑是一个理想的选择。而在众多 OpenWrt 衍生版本中,ImmortalWrt 以其更活跃的社区、更激进的特性更新和对新硬件的支持而备受关注。 本文将带你深入了解 ImmortalWrt࿰…...
react 中,使用antd layout布局中的sider 做sider的展开和收起功能
一 话不多说,先展示效果: 展开时: 收起时: 二、实现代码如下 react 文件 import React, {useState} from react; import {Layout} from antd; import styles from "./index.module.less"; // 这个是样式文件&#…...
easyExcel使用案例有代码
easyExcel 入门,完成web的excel文件创建和导出 easyExcel官网 EasyExcel 的主要特点如下: 1、高性能:EasyExcel 采用了异步导入导出的方式,并且底层使用 NIO 技术实现,使得其在导入导出大数据量时的性能非常高效。 2、易于使…...
CPU、SOC、MPU、MCU--详细分析四者的区别
一、CPU 与SOC的区别 1.CPU 对于电脑,我们经常提到,处理器,内存,显卡,硬盘四大部分可以组成一个基本的电脑。其中的处理器——Central Processing Unit(中央处理器)。CPU是一台计算机的运算核…...
机器学习:监督学习、无监督学习和强化学习
机器学习(Machine Learning, ML)是人工智能(AI)的一个分支,它使计算机能够从数据中学习,并在没有明确编程的情况下执行任务。机器学习的核心思想是使用算法分析数据,识别模式,并做出…...
SpringBoot项目注入 traceId 来追踪整个请求的日志链路
SpringBoot项目注入 traceId 来追踪整个请求的日志链路,有了 traceId, 我们在排查问题的时候,可以迅速根据 traceId 查找到相关请求的日志,特别是在生产环境的时候,用户可能只提供一个错误截图,我们作为开发…...
苹果廉价机型 iPhone 16e 影像系统深度解析
【人像拍摄差异】 尽管iPhone 16e支持后期焦点调整功能,但用户无法像iPhone 16系列那样通过点击屏幕实时切换拍摄主体。前置摄像头同样缺失人像深度控制功能,不过TrueTone原彩闪光灯系统在前后摄均有保留。 很多人都高估了 iPhone 的安全性,查…...
视觉图像坐标转换
1. 透镜成像 相机的镜头系统将三维场景中的光线聚焦到一个平面(即传感器)。这个过程可以用小孔成像模型来近似描述,尽管实际相机使用复杂的透镜系统来减少畸变和提高成像质量。 小孔成像模型: 假设有一个理想的小孔,…...
汽车电子电控软件开发中因复杂度提升导致的架构恶化问题
针对汽车电子电控软件开发中因复杂度提升导致的架构恶化问题,建议从以下方向进行架构优化和开发流程升级,以提升灵活性、可维护性和扩展性: 一、架构设计与模块化优化 分层架构与模块解耦 采用AUTOSAR标准的分层架构(应用层、运行…...
2024年第十五届蓝桥杯大赛软件赛省赛Python大学A组真题解析《更新中》
文章目录 试题A: 拼正方形(本题总分:5 分)解析答案试题B: 召唤数学精灵(本题总分:5 分)解析答案试题C: 数字诗意解析答案试题D:回文数组试题A: 拼正方形(本题总分:5 分) 【问题描述】 小蓝正在玩拼图游戏,他有7385137888721 个2 2 的方块和10470245 个1 1 的方块,他需…...
脚本无法获取响应主体(原因:CORS Missing Allow Credentials)
背景: 前端的端口号8080,后端8000。需在前端向后端传一个参数,让后端访问数据库去检测此参数是否出现过。涉及跨域请求,一直有这个bug是404文件找不到。 在修改过程当中不小心删除了一段代码,出现了这个bug࿰…...
leetcode第39题组合总和
原题出于leetcode第39题https://leetcode.cn/problems/combination-sum/description/题目如下: 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target ,找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 ,并以…...
在 macOS 系统上安装 kubectl
在 macOS 系统上安装 kubectl 官网:https://kubernetes.io/zh-cn/docs/tasks/tools/install-kubectl-macos/ 用 Homebrew 在 macOS 系统上安装 如果你是 macOS 系统,且用的是 Homebrew 包管理工具, 则可以用 Homebrew 安装 kubectl。 运行…...
SQLark 数据迁移|断点续迁已上线(Oracle-达梦)
数据迁移是 SQLark 最受企业和个人用户欢迎的功能之一,截止目前已帮助政府、金融、能源、通信等 50 家单位完成从 Oracle、MySQL 到达梦的全量迁移,自动化迁移成功率达 96% 以上。 在 Oracle 到达梦数据库迁移过程中,SQLark V3.3 新增 断点续…...
Element Plus中el-tree点击的节点字体变色加粗
el-tree标签设置 <el-tree class"tree":data"treeData":default-expand-all"true":highlight-current"true"node-click"onTreeNodeClick"><!-- 自定义节点内容,点击的节点字体变色加粗 --><!-- 动…...
vmware安装firepower ftd和fmc
在vmware虚拟机中安装cisco firepower下一代防火墙firepower threat defence(ftd)和管理中心firepower management center(fmc)。 由于没有cisco官网下载账号,无法下载其中镜像。使用eveng模拟器中的ftd和fmc虚拟镜像…...
计算机毕业设计SpringBoot+Vue.js医院资源管理系统(源码+文档+PPT+讲解)
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...
[含文档+PPT+源码等]精品基于Python实现的微信小程序的乡村医疗咨询系统
基于Python实现的微信小程序的乡村医疗咨询系统背景,可以从以下几个方面进行阐述: 一、社会背景 医疗资源分布不均:在我国,城乡医疗资源分布不均是一个长期存在的问题。乡村地区由于地理位置偏远、经济条件有限,往往…...
Python实现GO鹅优化算法优化BP神经网络回归模型项目实战
说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后关注获取。 1.项目背景 传统BP神经网络的局限性:BP(Back Propagation)神经网络作为一种…...
7.1.2 计算机网络的分类
文章目录 分布范围交换方式 分布范围 计算机网络按照分布范围可分为局域网、广域网、城域网。局域网的范围在10m~1km,例如校园网,网速高,主要用于共享网络资源,拓扑结构简单,约束少。广域网的范围在100km,例…...
千峰React:Hooks(上)
什么是Hooks ref引用值 普通变量的改变一般是不好触发函数组件的渲染的,如果想让一般的数据也可以得到状态的保存,可以使用ref import { useState ,useRef} from reactfunction App() {const [count, setCount] useState(0)let num useRef(0)const h…...
设置同一个局域网内远程桌面Ubuntu
1、安装xrdp: 打开终端,运行以下命令来安装xrdp: sudo apt update sudo apt install xrdp 2、启动 XRDP 并设置开机自启 sudo systemctl start xrdp sudo systemctl enable xrdp 3、验证 XRDP 运行状态 sudo systemctl status xrdp 如果显示 active (ru…...
深入 Python:变量与数据类型的奥秘
在 Python 编程的世界里,变量和数据类型是构建程序大厦的基石。它们看似简单,却蕴含着无尽的奥秘和强大的功能。今天,就让我们一起深入探索 Python 中变量与数据类型的奇妙世界。 常量和表达式:数学世界的 Python 映射 在 Pytho…...
LeetCode 718 - 最长重复子数组
LeetCode 718 - 最长重复子数组 是一个典型的数组和字符串问题,适合考察动态规划、滑动窗口和二分查找等多种编程能力。掌握其多种解法及变体能够有效提高处理字符串和数组算法的能力。 题目描述 输入: 两个整数数组 nums1 和 nums2。输出: 两个数组中存在的最长的…...
什么是预训练语言模型下游任务?
问题:Word2Vec模型是预训练模型吗? 由于训练的特性,word2Vec模型一定是与训练模型。给定一个词先使用独热编码然后使用预训练好的Q矩阵得到这个词的词向量。这里指的是词向量本身就是预训练的语言模型。 什么是下游任务? 在自然…...
