大数据之Hive:regexp_extract函数案例
目录
- 一、正则的通配符简介
- 1、正则表达式的符号及意义
- 2、各种操作符的运算优先级:
- 二、案例
- 数据
- 要求
- 分析
- 实现
- 输出结果
- 实现2
- 实现3
- 总结
一、正则的通配符简介
1、正则表达式的符号及意义
| 符号 | 含义 | 实列 |
|---|---|---|
| / | 做为转意,即通常在"/"后面的字符不按原来意义解释 | 如" * “匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了”/"后,/a/* /将只匹配"a* " |
| . | 匹配任何一个字符 | |
| ^ | 匹配一个输入或一行的开头 | /^a/匹配"an A",而不匹配"An a" |
| $ | 匹配一个输入或一行的结尾 | /a$/匹配"An a",而不匹配"an A" |
| * | 匹配前面元字符0次或多次 | /ba*/将匹配b,ba,baa,baaa |
| + | 匹配前面元字符1次或多次 | /ba+/将匹配ba,baa,baaa |
| ? | 匹配前面元字符0次或1次 | /ba?/将匹配b,ba |
| (x) | 匹配x保存x在名为$1…$9的变量中 | |
| x竖y | 匹配x或y | |
| {n} | 精确匹配n次 | |
| {n,} | 匹配n次以上 | |
| {n,m} | 匹配n-m次 | |
| [xyz] | 字符集(character set),匹配这个集合中的任一一个字符(或元字符) | |
| [^xyz] | 不匹配这个集合中的任何一个字符 | |
| /d | 匹配一个字数字符 | //d/ = /[0-9]/ |
| /D | 匹配一个非字数字符 | //D/ = /[^0-9]/ |
| /s | 匹配一个空白字符,包括/n,/r,/f,/t,/v等 | |
| /S | 匹配一个非空白字符,等于/[^/n/f/r/t/v]/ | |
| /w | 匹配一个可以组成单词的字符(alphanumeric,这是我的意译,含数字),包括下划线,如[/w]匹配"$5.98"中的5,等于[a-zA-Z0-9] | |
| /W | 匹配一个不可以组成单词的字符,如[/W]匹配"$5.98"中的 $,等于[^a-zA-Z0-9] |
备注:
‘( )’ 标记一个子表达式的开始和结束位置。
‘[]’ 标记一个中括号表达式。
/num 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。
2、各种操作符的运算优先级:
转义符>圆括号和方括号>限定符>位置和顺序
具体如下:
/ 转义符
(), ( ?: ), (?=), [] 圆括号和方括号
*, +, ?, {n}, {n,}, {n,m} 限定符
^, $, anymetacharacter 位置和顺序
正则表达式的符号及意义
二、案例
数据
with temp as
(select '[{favorite=["电影":杀死比尔,"电视剧":宰相刘罗锅],age=15,gender:男}]' as attributes ---第一行
union all
select '[{favorite="像风一样的女人",age=未知,gender:男}]' as attributes ---第二行
union all
select '[{favorite=28, gender:女,age=15}]' as attributes ---第三行
union all
select '[{gender:女,favorite=["综艺","动漫"],age=15 }]' as attributes ---第四行
)
要求
将favorite的值,age的值和gender的值取出来
分析
- 目前从temp表可知表中可知表里面只有一个attributes(特征)字段,这个字段其实包含三个字段,分别为favorite和age和gender
- 该字段类型不是标准的json格式,哪怕转换成标准的json格式也不太容易,假设转成json,你首先要处理最外层的中括号,其次json里面的key是有双引号的,你需要给key添加双引号,再次字段类型也不一致,age=15和age=未知;
- 综上分析需要使用regexp_extract函数
- 使用regexp_extract函数需要注意什么?注意字段顺序不一样,不是统一的,这是第一点;第二点有些逗号后面有空格,有些没有,花括号前有些有空格,有些没有;第三点favorite和age后面是等号,gender后面是冒号;
实现
select
regexp_extract (attributes,'favorite\\=(.*?)(\\,\\s{0,1}age|\\,\\s{0,1}gender|\\s{0,1}\\})',1) as favorite
,regexp_extract (attributes,'age\\=(.*?)(\\s{0,1}\\}|\\,\\s{0,1}favorite|\\,\\s{0,1}gender)',1) as age
,regexp_extract (attributes,'gender\\:(.*?)(\\s{0,1}\\}|\\,\\s{0,1}favorite|\\,\\s{0,1}age)',1) as gender
from temp
;
输出结果
| favorite | age | gender |
|---|---|---|
| [“电影”:杀死比尔,“电视剧”:宰相刘罗锅] | 15 | 男 |
| “像风一样的女人” | 未知 | 男 |
| 28 | 15 | 女 |
| [“综艺”,“动漫”] | 15 | 女 |
实现2
虽然说转json比较麻烦,但还是可以实现的,需要一些技巧;主要的问题是加引号,其次是去最外层的中括号,其他是一些小细节;
----去除空格字符和里面的引号(会在加引号时有干扰)等,第一个replace去空格,第二个去除双引号
select regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"','')
from temp
----处理最外层的中括号,并加最外层的引号
select regexp_replace(regexp_replace(regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"',''),'\\[\\{','\\{\\"'),'\\}\\]','\\"\\}')
from temp
----最终处理
select regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"',''),'\\[\\{','\\{\\"'),'\\}\\]','\\"\\}'),'gender\\:','gender\\='),'\\=','\\"\\:\\"'),'\\,','\\&'),'\\&age','\\"\\,\\"age'),'\\&gender','\\"\\,\\"gender'),'\\&favorite','\\"\\,\\"favorite') as attributes
from temp
至此终于到最标准的json格式了,处理json可以使用get_json_object,也可以使用json_tuple
select
get_json_object(attributes,'$.favorite')
,get_json_object(attributes,'$.age')
,get_json_object(attributes,'$.gender')
from
(select regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"',''),'\\[\\{','\\{\\"'),'\\}\\]','\\"\\}'),'gender\\:','gender\\='),'\\=','\\"\\:\\"'),'\\,','\\&'),'\\&age','\\"\\,\\"age'),'\\&gender','\\"\\,\\"gender'),'\\&favorite','\\"\\,\\"favorite') as attributes
from temp
) tt
select
json_tuple(attributes,'favorite','age','gender')
from
(select regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"',''),'\\[\\{','\\{\\"'),'\\}\\]','\\"\\}'),'gender\\:','gender\\='),'\\=','\\"\\:\\"'),'\\,','\\&'),'\\&age','\\"\\,\\"age'),'\\&gender','\\"\\,\\"gender'),'\\&favorite','\\"\\,\\"favorite') as attributes
from temp
) tt select
b.favorite
,b.age
,b.gender
from (
select regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"',''),'\\[\\{','\\{\\"'),'\\}\\]','\\"\\}'),'gender\\:','gender\\='),'\\=','\\"\\:\\"'),'\\,','\\&'),'\\&age','\\"\\,\\"age'),'\\&gender','\\"\\,\\"gender'),'\\&favorite','\\"\\,\\"favorite') as attributes
from temp
) tt lateral view
json_tuple(attributes,'favorite','age','gender') b as favorite,age,gender
实现3
select
attributes['favorite'] as favorite
,attributes['gender'] as gender
,attributes['age'] as age
from (
select
str_to_map(attributes,',','=') as attributes
from
(
select
regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"',''),'\\:','\\='),'\\,','\\&'),'\\&age','\\,age'),'\\&favorite','\\,favorite'),'\\&gender','\\,gender'),'(\\[\\{)|(\\}\\])','') as attributes
from temp
) tt
) ttm
总结
首先需要明确的是,上面中的例子是人为制造的,非常不规则,所以导致处理起来非常麻烦,里面有好几个中括号,中括号里面是逗号分割,还有gender专门后面编成冒号,这些无疑加大了处理难度;上述使用三种方法进行处理,优先级:regexp_extract >str_to_map>get_json_object;
相关文章:
大数据之Hive:regexp_extract函数案例
目录 一、正则的通配符简介1、正则表达式的符号及意义2、各种操作符的运算优先级: 二、案例数据要求分析实现输出结果实现2实现3 总结 一、正则的通配符简介 1、正则表达式的符号及意义 符号含义实列/做为转意,即通常在"/"后面的字符不按原来…...
tsconfig.json无法写入文件“XXXX“因为它会覆盖输入文件
在开发ts项目的时候,包错提示无法写入文件: tsconfig.json无法写入文件"XXXX"因为它会覆盖输入文件 这是tsconfig.json文件配置问题,需要加入下面的配置就好了: {"compilerOptions": {"outDir": …...
本周Github有趣项目:draw-a-ui等
有趣的项目、工具和库 gpt-crawler 抓取网站以生成知识文件,从而从 URL 创建您自己的自定义 GPT。 需要步骤: 配置运行爬虫、 将您的数据上传到 OpenAI:使用此选项通过 UI 访问您生成的知识,您可以轻松与他人共享 创建自定义助…...
VBA如何快速识别Excel单元格中的文本数字
Excel中一种非常特殊的数字,这些数字看似数字,其实是文本格式(下文简称为文本数字),在单元格的左上角会有一个绿色小三角作为标志,如B1:B3单元格。 在编程时为什么需要区分普通数字和文本数字呢ÿ…...
Mysql数据库 16.SQL语言 数据库事务
一、数据库事务 数据库事务介绍——要么全部成功要么全部失败 我们把完成特定的业务的多个数据库DML操作步骤称之为一个事务 事务——就是完成同一个业务的多个DML操作 例: 数据库事务四大特性 原子性(A):一个事务中的多个D…...
docker 部署Redis集群(三主三从,以及扩容、缩容)
1:创建6个redis容器 docker run -d --name redis01 --net host --privilegedtrue -v /opt/redis/redis01:/data redis:6.0.8 --cluster-enabled yes --appendonly yes --port 6381 docker run -d --name redis02 --net host --privilegedtrue -v /opt/redis/redis0…...
JavaScript 浮点数运算的精度问题及解决
JavaScript 浮点数运算的精度问题及解决 在 JavaScript 中整数和浮点数都属于 Number 数据类型,当浮点数做数学运算的时候,你经常会发现一些问题,举几个例子: 0.1 0.2 0.30000000000000004 console.log(0.1 0.2) 0.3000000…...
基于STM32的无线传感器网络(WSN)通信方案设计与实现
无线传感器网络(Wireless Sensor Network,简称WSN)是由一组分布式的无线传感器节点组成的网络,用于监测和收集环境中的各类物理信息。本文将基于STM32微控制器,设计并实现一个简单的无线传感器网络通信方案,…...
Flink和Kafka连接时的精确一次保证
Flink写入Kafka两阶段提交 端到端的 exactly-once(精准一次) kafka -> Flink -> kafka 1)输入端 输入数据源端的 Kafka 可以对数据进行持久化保存,并可以重置偏移量(offset) 2)Flink内…...
UE4动作游戏实例RPG Action解析三:实现效果,三连击Combo,射线检测,显示血条,火球术
一、三连Combo 实现武器三连击,要求: 1.下一段Combo可以随机选择, 2.在一定的时机才能再次检测输入 3. 等当前片段播放完才播放下一片段 1.1、蒙太奇设置 通过右键-新建蒙太奇片段,在蒙太奇里创建三个片段,并且移除相关连接,这样默认只会播放第一个片段 不同片段播…...
Linux/麒麟系统上部署Vue+SpringBoot前后端分离项目
目录 1. 前端准备工作 1.1 在项目根目录创建两份环境配置文件 1.2 环境配置 2. 后端准备工作 2.1 在项目resources目录创建两份环境配置文件 2.2 环境配置 3. 前后端打包 3.1 前端打包 3.2 后端打包 4、服务器前后端配置及部署 4.1 下载、安装、启动Nginx 4.2 前端项目部署…...
STM32在FreeRTOS下的us延时
STM32在FreeRTOS下的us延时 前言 freeRTOS下跑SPI时需要微秒级别的延时,但是freeRTOS只提供了毫秒级的,记录一下实现us延时的方法。 前期分析 最简单的方式就是开个定时器或者干脆直接计算一下用nop做都可以实现us延时,但是显然还是使用滴…...
软件测试/人工智能丨深入人工智能软件测试:PyTorch引领新时代
在人工智能的浪潮中,软件测试的角色变得愈发关键。本文将介绍在人工智能软件测试中的一些关键技术,以及如何借助PyTorch深度学习框架来推动测试的创新与升级。 PyTorch:深度学习的引擎 PyTorch作为一种开源的深度学习框架,为软件…...
Android 当中的 Fragment 协作解耦方式
Android 当中的 Fragment 协作解耦方式 文章目录 Android 当中的 Fragment 协作解耦方式第一章 前言介绍第01节 遇到的问题第02节 绘图说明 第二章 核心代码第01节 代理人接口第02节 中间人 Activity第03节 开发者A第04节 开发者B第05节 测试类 第一章 前言介绍 第01节 遇到的…...
城市网吧视频智能监控方案,实现视频远程集中监控
网吧环境较为复杂,电脑设备众多且人员流动性大,极易发生人员或消防事故,亟需改变,TSINGSEE青犀AI智能网吧视频监管方案可以帮助实现对网吧环境和用户活动的实时监控和管理。 1、视频监控系统 在网吧内部布置高清摄像头࿰…...
C#WPF视频播放器实例
本文实例演示C#WPF视频播放器 实例如下: 修改mainwindow的代码 <Windowx:Class="PlayerDemo.MainWindow"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"xml…...
【uniapp】Google Maps
话不多说 直接上干货 提前申请谷歌地图账号一、新建地图 使用h5获取当前定位或者使用三方uniapp插件 var coords ""navigator.geolocation.getCurrentPosition(function(position) {coords {lat: position.coords.latitude,lng: position.coords.longitude};lats …...
C语言变量与常量
跟着肯哥(不是我)学C语言的变量和常量、跨文件访问、栈空间 栈空间还不清楚,期待明天的课程内容 C变量 变量(Variable)是用于存储和表示数据值的名称。 主要包括四个环节:定义、初始化、声明、使用 在我刚…...
AI创作系统ChatGPT网站源码/支持DALL-E3文生图/支持最新GPT-4-Turbo模型+Prompt应用
一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如…...
二维码智慧门牌管理系统升级,异常门牌聚合解决方案助力高效管理
文章目录 前言一、异常门牌聚合解决方案 前言 在今天的数字化时代,智慧城市已成为发展趋势,其中二维码智慧门牌管理系统扮演着至关重要的角色。通过对门牌信息进行数字化管理,该系统极大提升了城市管理的效率和便捷性。然而,随着…...
游戏玩家如何选?网易UU/ToDesk远程控制延迟实测(含手机投屏技巧)
游戏玩家专属远程控制工具深度评测:延迟、画质与投屏技巧全解析 作为一名资深游戏玩家,你是否遇到过这样的场景:出差在外想用手机继续刷副本,却苦于找不到合适的远程控制方案;或是想在平板上玩PC独占的3A大作ÿ…...
nlp_structbert_sentence-similarity_chinese-large实战教程:本地知识库向量化检索完整指南
nlp_structbert_sentence-similarity_chinese-large实战教程:本地知识库向量化检索完整指南 你是不是经常遇到这样的问题:面对公司内部堆积如山的文档、产品手册、客服记录,想找某个特定信息时,却像大海捞针一样困难?…...
Pixel Mind Decoder 多模型协作:与Ollama本地模型联合作业
Pixel Mind Decoder 多模型协作:与Ollama本地模型联合作业 1. 引言:当AI模型开始团队合作 想象一下这样的场景:你手头有一份长达50页的市场调研报告,需要快速提炼核心观点并分析其中的情绪倾向。传统做法可能需要先人工阅读总结…...
feishu2md:飞书文档转Markdown的技术实现与架构解析
feishu2md:飞书文档转Markdown的技术实现与架构解析 【免费下载链接】feishu2md 一键命令下载飞书文档为 Markdown 项目地址: https://gitcode.com/gh_mirrors/fe/feishu2md 飞书文档转Markdown工具feishu2md为技术团队提供了文档格式转换的标准化解决方案。…...
当心“Pin-to-Pin兼容“陷阱:ICM-42688国产替代芯片深度拆解与避坑指南
两句话总结:近期TDK ICM-42688-P价格暴涨至百元且一芯难求,立创商城上出现了华轩阳、Tokmas等"国产替代"。本文通过详细对比三家datasheet数据手册,揭示所谓"兼容"背后的软件陷阱与性能差异。结论可能出乎你意料…...
告别Transformer?手把手复现SegNeXt语义分割模型(附PyTorch代码)
从零实现SegNeXt:用纯卷积架构挑战Transformer的语义分割霸主地位 在计算机视觉领域,语义分割技术正经历着一场静默的革命。当大多数研究者将目光聚焦于Transformer架构时,SegNeXt却用纯粹的卷积神经网络(CNN)设计刷新…...
如何高效使用iOS推送调试工具:SmartPush完整操作指南
如何高效使用iOS推送调试工具:SmartPush完整操作指南 【免费下载链接】SmartPush SmartPush,一款iOS苹果远程推送测试程序,Mac OS下的APNS工具APP,iOS Push Notification Debug App 项目地址: https://gitcode.com/gh_mirrors/smar/SmartPush SmartPush是一款…...
基于springboot家庭影像管理系统设计与开发(源码+精品论文+答辩PPT等资料)
博主介绍:CSDN毕设辅导第一人、靠谱第一人、全网粉丝50W,csdn特邀作者、博客专家、腾讯云社区合作讲师、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交…...
Scarab:空洞骑士模组管理效率提升83%的智能工具
Scarab:空洞骑士模组管理效率提升83%的智能工具 【免费下载链接】Scarab An installer for Hollow Knight mods written in Avalonia. 项目地址: https://gitcode.com/gh_mirrors/sc/Scarab 如何解决模组管理难题?3大创新让你告别手动配置烦恼 对…...
还在手工整理IT报表?这套自动化模板让你彻底解放双手
在不断变化的IT管理环境中,透明度和合规性已成为企业生存和发展的基石。面对日益繁杂的法规与标准,组织需要精细的报表与审计流程来支撑业务稳健运行。作为一款专为现代IT打造的尖端平台,Endpoint Central不仅大幅减轻了合规负担,…...
