当前位置: 首页 > news >正文

hive sql 处理多层 json 数组

1. 背景

json 字符串值数据示例:

{"score": 1,"submitTime": 1712491933,"answerFlag": 1,"groupId": 1755547960,"answers": [{"value": "[1, 2, 3]","ids": [4,5,6],"isPic": 0,"duration": 22314,"status": 1,"tid": 1},{"value": "aabbcc","lessons": [44,55,66],"isPic": 0,"duration": 22314,"status": 2,"tid": 2}],"questionType": 65
}

现在这个 json 字符串形式的字段值在 hive 表的某个字段中,我需要获取到 “answers” 这个 json 数组,然后将其按照数组长度,列转行到多行数据,每行数据一个子 json ,并且从中获取到每个子 json 的 “tid” 和 “status” 值,理想情况下,我需要这行数据处理完之后,结果如下表所示。

tidstatus
11
22

2. 常见方案

通过 ge_json_object 函数,先获取到 “answers” 对应的 json 数组字符串,然后通过正则替换掉 [] 符号,之后将 },{ 符号替换为 }我是分隔符{,最后将 我是分隔符 作为 split 函数的分隔符号,将字符串分割,再通过 lateral view explode() 语法,将数组放到多行。多行数据,都是处理好的 json 对象,之后通过 get_json_object 函数后取需要的字段值即可。具体代码示例如下。

  1. 获取 “answers” 对应的 json 数组。

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"isPic":0,"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select get_json_object(col, '$.answers') as answers
    from table1
    

    结果如下所示,正常获取到 “answers” 下的 json 数组,结果为字符串。

    answers
    [{“value”:“[1, 2, 3]”,“ids”:[4,5,6],“isPic”:0,“duration”:22314,“status”:1,“tid”:1},{“value”:“aabbcc”,“lessons”:[44,55,66],“isPic”:0,“duration”:22314,“status”:2,“tid”:2}]
  2. 将最外层的 [] 符号去掉

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"isPic":0,"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select regexp_replace(answers, '\\[|\\]', '') as answers
    from (select get_json_object(col, '$.answers') as answersfrom table1) as a
    

    结果如下所示。

    answers
    {“value”:“1, 2, 3”,“ids”:4,5,6,“isPic”:0,“duration”:22314,“status”:1,“tid”:1},{“value”:“aabbcc”,“lessons”:44,55,66,“isPic”:0,“duration”:22314,“status”:2,“tid”:2}

    由于第一步处理的结果最外层是 json 数组,左右有 [] 符号,但是由于内层还有子 json 数组,这种直接全局替换的方式,会将内层子 json 数组的 [] 符号也一并去掉,可以查看下面的结果,"ids":4,5,6,,就是因为全局替换,造成整个 json 结构被破坏,之后将无法使用 get_json_object() 函数来获取想要的 key 对应的值了。

由此可见,这种方式只适合于 “answers” 下的 json 数组内的每个 json 对象中都只包含 json 对象才行,不能再包含 json 数组,否则就会造成处理错误,拿不到想要的数据。

3. 推荐方案

3.1 具体步骤

  1. 获取 “answers” 对应的 json 数组。

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"isPic":0,"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select get_json_object(col, '$.answers') as answers
    from table1
    

    结果如下所示,正常获取到 “answers” 下的 json 数组,结果为字符串。

    answers
    [{“value”:“[1, 2, 3]”,“ids”:[4,5,6],“isPic”:0,“duration”:22314,“status”:1,“tid”:1},{“value”:“aabbcc”,“lessons”:[44,55,66],“isPic”:0,“duration”:22314,“status”:2,“tid”:2}]
  2. 通过字符串截取的方式,将第一步的结果最前面和最后面的 [] 符号去掉

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"isPic":0,"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select substring(answers, 2, length(answers) - 2) as answers
    from (select get_json_object(col, '$.answers') as answersfrom table1) as a
    

    结果如下所示,最前面和最后面的 [] 符号已经被去掉。

    answers
    {“value”:“[1, 2, 3]”,“ids”:[4,5,6],“isPic”:0,“duration”:22314,“status”:1,“tid”:1},{“value”:“aabbcc”,“lessons”:[44,55,66],“isPic”:0,“duration”:22314,“status”:2,“tid”:2}
  3. 最重要的一步:通过正则替换,只要匹配到 [.*] 内容,就直接替换为数字 0。

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"isPic":0,"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select substring(answers, 1, length(answers) - 3) as answers
    from (select get_json_object(col, '$.answers') as answersfrom table1) as a
    

    结果如下所示,字符串中所有 [.*] 的部分,都已经被替换为数字 0

    answers
    {“value”:“0”,“ids”:0,“isPic”:0,“duration”:22314,“status”:1,“tid”:1},{“value”:“aabbcc”,“lessons”:0,“isPic”:0,“duration”:22314,“status”:2,“tid”:2}

    将 json 数字替换为数字 0,是为了兼容 "[.*]"[.*] 两种情况,不管 json 数组是不是被英文双引号包围,替换为数字 0,都是没问题的,都可以保证 json 的格式不被破坏。

  4. 由于已经去掉了所有的子 json 数组,之后就可以按照传统的方式,将 },{ 替换为 }我是分隔符号{

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select regexp_replace(a.answers, '\\}\\,\\{', '\\}我是分隔符号{') as answers
    from (select regexp_replace(answers, '\\[.*\\]', '0') as answersfrom (select substring(answers, 2, length(answers) - 2) as answersfrom (select get_json_object(col, '$.answers') as answersfrom table1) as a) as a) as a
    
    answers
    {“value”:“0”,“ids”:0,“isPic”:0,“duration”:22314,“status”:1,“tid”:1}我是分隔符号{“value”:“aabbcc”,“lessons”:0,“isPic”:0,“duration”:22314,“status”:2,“tid”:2}
  5. 通过 我是分隔符号 切换字符串,再通过 lateral view explode() 语法将 json 数组展开,最后通过 get_json_object() 函数,获取需要的值即可。

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select get_json_object(b.answer, '$.tid') as tid, get_json_object(b.answer, '$.status') as status
    from (select regexp_replace(a.answers, '\\}\\,\\{', '\\}我是分隔符号{') as answersfrom (select regexp_replace(answers, '\\[.*\\]', '0') as answersfrom (select substring(answers, 2, length(answers) - 2) as answersfrom (select get_json_object(col, '$.answers') as answersfrom table1) as a) as a) as a) as a
    lateral view explode(split(regexp_replace(a.answers, '\\}\\,\\{', '\\}我是分隔符号{'), '我是分隔符号')) b as answer
    

    结果如下,可以看到,数据处理结果符合预期

    tidstatus
    11
    22

3.2 注意事项

上面的步骤 3,只适用于你想要展开最外层的这个 json 数组,并且完全不需要内部嵌套的子 json 数组才行,否则将内部的子 json 数组全部替换为数字 0 之后,你就获取不到子 json 数组数据了。

如果还想要内部的子 json 数组,单纯的 sql 应该是实现不了的,需要去自定义 udf,然后通过 java 代码一层一层解析了。

相关文章:

hive sql 处理多层 json 数组

1. 背景 json 字符串值数据示例: {"score": 1,"submitTime": 1712491933,"answerFlag": 1,"groupId": 1755547960,"answers": [{"value": "[1, 2, 3]","ids": [4,5,6],"is…...

Dom 元素转换 Image 图片 (截图)

Dom 元素转换 Image 图片 (截图) dom-to-image dom-to-image NPM 官网文档 参考文章码上行舟 dom-to-image 是如何将 html 转换成图片的(文章参考) 安装 npm install dom-to-image --save 使用 /* in ES 6 */ import domtoimage from "dom-to-image"; /* in ES 5 *…...

零售业务产品系统应用架构设计(二)

ETC信用结算系统根据《加快推进高速公路电子不停车快捷收费应用服务实施方案》(发改基础〔2019〕935号),拓宽ETC发行服务渠道。推动建立全网协同服务模式,完善服务规则,鼓励银行业金融机构、非银行支付机构和互联网企业等服务机构紧密合作。允许ETC绑定既有银行账户和支付…...

Linux速成入门教程——从零基础开始快速入门,一文了解Linux用户管理与权限

2.1 用户与组管理 用户与组的基本概念 在Linux系统中,用户和组是管理权限和资源访问的基本单元。每个用户都有一个唯一的用户ID(UID),每个组都有一个唯一的组ID(GID)。用户可以属于一个或多个组&#xff…...

网工内推 | 宁德时代IT运维,晋升空间大,带薪年假,包吃包住

01 宁德时代 🔷招聘岗位:IT运维服务 🔷任职要求 1、大专及以上学历专业不限,应届毕业生或计算机、网络维护等相关专业优先; 2、具备较强的服务意识和良好的语言表达能力、沟通能力、记忆能力、心理承受能力和学习能力…...

Linux---系统安全

文章目录 系统安全系统账号清理密码安全控制命令历史限制终端自动注销如设置时间短的处理方式 使用su命令切换用户用途及用法密码验证限制使用su命令的用户查看su操作记录限制使用su命令的用户查看su操作记录su命令的安全隐患 PAM(Pluggable Authentication Modules)可插拔式认…...

手写数字识别实战

全部代码: import matplotlib.pyplot import torch from torch import nn # nn是完成神经网络相关的一些工作 from torch.nn import functional as F # functional是常用的一些函数 from torch import optim # 优化的工具包import torchvision from matplotlib …...

二叉树遍历

二叉树的遍历是二叉树操作中的一个基本且重要的概念,它指的是按照一定的规则访问二叉树中的每个节点,并且每个节点仅被访问一次。常见的二叉树遍历方式有四种:前序遍历(Pre-order Traversal)、中序遍历(In-…...

uni app 调用前置摄像头

uniapp开发app并没有相关Api调用前置摄像头。只能使用5app的api 调用前置摄像头拍照 plus.camera.getCamera(index) 获取需要操作的摄像头对象,如果要进行拍照或摄像操作,需先通过此方法获取摄像头对象 index指定要获取摄像头的索引值,1表…...

哈工大李治军老师OS课程笔记(4)——内存管理

一 内存使用与分段(实验六) 内存是如何用起来的? 内存使用:将程序放在内存中,PC指向开始地址 重定位:修改程序中的地址(是相对地址) 什么时候完成重定位? 编译时加基址…...

代码随想录算法训练营第43天:动态规划part10:子序列问题

300.最长递增子序列 力扣题目链接(opens new window) 给你一个整数数组 nums ,找到其中最长严格递增子序列的长度。 子序列是由数组派生而来的序列,删除(或不删除)数组中的元素而不改变其余元素的顺序。例如,[3,6,2…...

传智教育引通义灵码进课堂,为技术人才教育学习提效

7 月 17 日,阿里云与传智教育在阿里巴巴云谷园区签署合作协议,双方将基于阿里云智能编程助手通义灵码在课程共建、品牌合作及产教融合等多个领域展开合作,共同推进 AI 教育及相关业务的发展,致力于培养适应未来社会需求的高素质技…...

企业信息化建设搞得好了叫系统工程,搞不好叫面子工程

2024-06-13 09:26贝格前端工场...

程序员如何平衡日常编码工作与提升式学习?

在快速变化的编程领域中,平衡日常编码工作与个人成长确实是一个重要且富有挑战性的议题。以下是我对这一问题的看法和建议: 1. 认识到平衡的重要性 首先,理解两者之间的平衡并非零和游戏,而是相辅相成的。高效的编码工作能够为个…...

Linux---文件系统和日志分析

文章目录 文件系统和日志分析inode和block概述inode包含文件的元信息用stat命令可以查看某个文件的inode信息Linux系统文件三个主要的时间属性 目录文件的结构用户通过文件名打开文件时,系统内部的过程查看inode号码的方法硬盘分区后的结构访问文件的简单流程inode的…...

MySQL 体系架构

文章目录 一. MySQL 分支与变种1. Drizzle2. MariaDB3. Percona Server 二. MySQL的替代1. Postgre SQL2. SQLite 三. MySQL 体系架构1.连接层2 Server层(SQL处理层)3. 存储引擎层1)MySQL官方存储引擎概要2)第三方引擎3&#xff0…...

跨站脚本攻击漏洞

1.JavaScript JavaScript 是一种脚本,一门编程语言,它可以在网页上实现复杂的功能,网页展现给你的不再是简单的静态信息,而是实时的内容更新,交互式的地图,2D/3D动画,滚动播放的视频等等。 &a…...

RabbitMQ入门与进阶

RabbitMQ入门与进阶 基础篇1. 为什么需要消息队列?2. 什么是消息队列?3. RabbitMQ体系结构介绍4. RabbitMQ安装5. HelloWorld6. RabbitMQ经典用法(工作模式)7. Work Queues8. Publish/Subscribe9. Routing10. Topics 进阶篇1. RabbitMQ整合SpringBoot2. 消息可靠性投递故障情…...

Unity新输入系统 之 InputActions(输入配置文件)

本文仅作笔记学习和分享,不用做任何商业用途 本文包括但不限于unity官方手册,unity唐老狮等教程知识,如有不足还请斧正​ 首先你应该了解新输入系统的基本单位Unity新输入系统 之 InputAction(输入配置文件最基本的单位&#xff0…...

Linux运维篇-误删/bin,/sbin目录怎么修复系统

这里写自定义目录标题 前言实例挂载镜像,重启系统进入救援模式拷贝镜像系统中的/bin和/sbin目录到原系统重启系统 总结 前言 当你看到这篇文章的时候,你的系统可能已经无法登录,或者正在处于登录状态但是不能执行任何常规的命令,…...

高效虚拟显示器驱动深度解析:Parsec VDD从原理到实战的完整指南

高效虚拟显示器驱动深度解析:Parsec VDD从原理到实战的完整指南 【免费下载链接】parsec-vdd ✨ Perfect virtual display for game streaming 项目地址: https://gitcode.com/gh_mirrors/pa/parsec-vdd Parsec Virtual Display Driver (Parsec VDD)是一款基…...

收藏 | 从零开始学大模型:6个月完整开发路线图(附免费资源)

本文提供一份从Python基础到企业级大模型应用开发的6-8个月学习路线图,涵盖API调用、提示词工程、RAG知识库问答、Agent智能体开发及模型微调部署。结合近百份招聘需求及专家建议,适合初学者快速构建AI技能体系,附有前沿拓展方向与免费学习资…...

株洲彩钢板厂家

彩钢板 彩色涂层钢板 以冷轧/镀锌钢板为基材,表面脱脂、磷化后,辊涂彩色有机涂层(聚酯、氟碳等),再烘烤成型。二、主要分类(3大类)1. 彩钢压型板(单板/彩钢瓦)• 结构&a…...

【Linux】初见,进程概念

1.冯诺依曼体系结构我们所见的大部分计算机都是遵循的冯诺依曼体系结构我们的计算机都是由一个个硬件所组成的输出设备:显示器、音响、摄像头、网卡.......输入设备:鼠标、键盘 、网卡.......中央处理器(CPU):包含运算…...

开发AI应用时借助Taotoken模型广场快速进行模型选型与测试

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 开发AI应用时借助Taotoken模型广场快速进行模型选型与测试 在开发基于大语言模型的应用或功能时,一个常见的挑战是如何…...

手势传感器技术:原理、实现与应用解析

1. 手势传感器技术解析:从原理到实现手势传感器本质上是一种基于光学原理的交互设备,其核心技术在于利用红外光的发射与接收来捕捉用户手势动作。与传统的电容式触摸技术不同,手势传感器通过主动发射红外光并测量反射信号的变化,实…...

汽车资讯网站|基于springboot+vue的汽车资讯网站(源码+数据库+文档)

汽车资讯网站 目录 基于springbootvue的汽车资讯网站 一、前言 二、系统设计 三、系统功能设计 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️大厂码农|毕设布道师,阿里云开…...

怎样轻松上手yuzu模拟器:3个实用技巧帮你快速畅玩Switch游戏

怎样轻松上手yuzu模拟器:3个实用技巧帮你快速畅玩Switch游戏 【免费下载链接】yuzu 任天堂 Switch 模拟器 项目地址: https://gitcode.com/GitHub_Trending/yu/yuzu 你是不是也想在电脑上玩Switch游戏,但又觉得模拟器配置太复杂?别担心…...

检索增强生成(RAG)实战:Spring AI 集成向量数据库实现知识问答

系列导读 你现在看到的是《Spring AI 企业级集成与场景实践:从零搭建智能应用》的第 4/10 篇,当前这篇会重点解决:从零搭建一个可工作的 RAG 系统,解决 LLM 知识陈旧和幻觉问题。 上一篇回顾:第 3 篇《对话记忆与上下文管理:Spring AI 实现多轮会话与持久化存储》主要聚…...

2026年三款最值得在线预约小程序,解决您的预约难题

本文围绕在线预约小程序这一核心主题展开,系统梳理了2026年主流平台的特性与差异。内容涵盖微信、支付宝、抖音三大平台的功能对比、适用场景及操作流程解析,并结合实际案例深度剖析技术实现原理。同时提供选型指南与实操建议,帮助用户根据业…...