当前位置: 首页 > news >正文

Hive数仓操作(十二)

一、Hive 中的行列转换

1. 行转列: collect_list()

collect_list() 函数用于将一个列中的数据收集成一个数组。

示例数据文件

假设有一个名为 orders.txt 的文件,内容如下:

1,101
1,101
1,103
2,104
2,105
导入数据到 Hive 表

首先,我们创建一个表 orders 并将数据导入到该表中:

-- 创建表
CREATE TABLE orders (user_id INT,order_id INT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/orders.txt' INTO TABLE orders;

然后,我们可以使用 collect_list() 函数收集每个用户的订单 ID:

SELECTuser_id,collect_list(order_id) as order_ids
FROMorders
GROUP BYuser_id;
示例结果
user_idorder_ids
1[101, 101, 103]
2[104, 105]

2. 行转列:collect_set()

collect_set() 函数类似于 collect_list(),但它会移除数组中的重复值。

示例数据文件

使用同一个 orders.txt 文件。

导入数据到 Hive 表

数据已经导入过,因此我们直接使用 collect_set() 函数:

SELECTuser_id,collect_set(order_id) as unique_order_ids
FROMorders
GROUP BYuser_id;
示例结果
user_idunique_order_ids
1[101, 103]
2[104, 105]

3. 列转行:explode()

explode() 函数用于将数组里的元素拆分开来,并用行展示。通常与 lateral view 函数搭配使用。

示例数据文件

假设有一个名为 user_interests.txt 的文件,内容如下:

1,sports,music,art
2,reading,travel
导入数据到 Hive 表

使用 explode() 函数炸裂拆分:

SELECTuser_id,interest
FROMuser_interests
LATERAL VIEWexplode(split(interests, ',')) exploded_table AS interest;
-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/user_interests.txt' INTO TABLE user_interests;
示例结果
user_idinterest
1sports
1music
1art
2reading
2travel

二、Hive 收集切割

1. split()

split() 函数用于将一个字符串按照指定的分隔符切割成一个数组。

示例数据文件

user_interests.txt 的文件,内容如下:

1,sports,music,art
2,reading,travel
导入数据到 Hive 表

user_interests 已创建,然后,使用 split() 将兴趣字符串分割成数组:

SELECTuser_id,split(interests, ',') as interest_array
FROMuser_interests;
示例结果
user_idinterest_array
1[“sports”, “music”, “art”]
2[“reading”, “travel”]

2. split()常和concat_ws() 一起使用

concat_ws() 是一个字符串函数,用于将多列的值合并成一个字符串,使用指定的分隔符。split() 函数则用于将字符串按照指定的分隔符切割成一个数组。

示例数据文件

假设有一个名为 user_info.txt 的文件,内容如下:

1,John,Doe,john.doe@example.com
2,Jane,Smith,jane.smith@example.com
导入数据到 Hive 表

首先,我们创建一个表 user_info 并将数据导入到该表中:

-- 创建表
CREATE TABLE user_info (user_id INT,first_name STRING,last_name STRING,email STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/user_info.txt' INTO TABLE user_info;

然后,使用 concat_ws() 将多列的值合并成一个字符串,并使用 split() 将这个字符串拆分成数组:

SELECTuser_id,split(concat_ws(',', first_name, last_name, email), ',') as info_array
FROMuser_info;
示例结果
user_idinfo_array
1[“John”, “Doe”, “john.doe@example.com”]
2[“Jane”, “Smith”, “jane.smith@example.com”]

更多细节可参考我的sql题专栏中的炸裂函数与恢复

经典sql题(十三)炸裂对应学生的姓名和成绩
经典sql题(十四)炸裂函数的恢复

相关文章:

Hive数仓操作(十二)

一、Hive 中的行列转换 1. 行转列: collect_list() collect_list() 函数用于将一个列中的数据收集成一个数组。 示例数据文件 假设有一个名为 orders.txt 的文件,内容如下: 1,101 1,101 1,103 2,104 2,105导入数据到 Hive 表 首先&…...

计算机毕业设计 基于SpringBoot和Vue的课程教学平台的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…...

有状态(Session) VS 无状态(Token)

目录 概念 JWT Token在项目中使用 概念 有状态和无状态服务是两种不同的服务架构,两者的不同之处在于对于服务状态的处理。 1、有状态服务 是指程序在执行过程中生成的中间数据,服务器端一般都要保存请求的相关信息,每个请求可以默认地使…...

天坑!Spark+Hive+Paimon+Dolphinscheduler

背景: 数据中台项目使用Spark+Hive+Paimon做湖仓底层,调度任务使用的是基于Dolphinscheduler进行二开。在做离线脚本任务开发时,在Paimon库下执行非查询类SQL报错。 INSERT报错 DELETE报错 现状: 原始逻辑为数据中台中选择的Paimon数据源,实际上在Dolphinscheduler中是…...

JAVA——IO框架

目录 一、框架 二、导入框架步骤 三、测试 一、框架 框架就是为了解决某类问题,编写的一套类、接口等。大多数框架都是第三方研发的 好处: 在框架的基础上开发,提高开发效率 框架的形式:一般是把类、接口编译成class形式,再…...

项目管理系统如何实现项目申报流程自动化?

传统的项目申报流程往往繁琐复杂,涉及众多环节和部门间的协作,不仅耗时费力,还容易因人为疏忽而导致错误或延误。随着信息技术的飞速发展,项目管理系统的出现为项目申报流程的自动化提供了可能,极大地提升了申报效率和…...

ndb9300public-ndb2excel简介

1 引言 ndb9300是一个自己定义的机载导航数据库劳作(不敢称为项目)代号,其中3表示是第3种数据库。 多年前,对在役民航客机中的某型机载导航数据库的二进制文件进行分析,弄明白它的数据结构后做了几个工具&#xff0c…...

C++:const成员

const修饰成员变量,要在初始化列表中进行初始化。 const修饰成员函数,要放在函数后,称为常函数。常函数不能修改普通成员变量。 const修饰的对象,称为常对象。常对象不能修改普通成员变量,只能读取。 常对象只能使用…...

基于ROS的激光雷达点云物体检测

环境 RTX 2060(后面关于算力) ubuntu 18.04 ROS melodic (ubuntu 18.04安装ROS melodic可以参看我这篇文章ubuntu 18.04安装ROS系统) CUDA 10.0 cudnn 7.6.5 caffe cmake 3.18.0(不能低于3.12.2) opencv 3…...

大模型训练环境搭建

硬件资源说明 本教程基于GPU 3090的服务器 资源类型 型号 核心指标 CPU Intel(R) Xeon(R) Bronze 3204 CPU 1.90GHz 12核 内存 / 125Gi GPU NVIDIA GeForce RTX 3090 24G显存 注意:接下来的部分命令需要使用科学上网,需要事先配置好。 安…...

使用Java调用GeoTools实现全球国家矢量数据入库实战

目录 前言 一、相关数据介绍 1、无空间参考的数据 2、有空间参考的数据 3、空间信息表物理模型 二、全球国家空间数据入库 1、后台实体类图 2、后台实体对象关键代码 三、时空数据入库实践 1、读取无空间参考数据 2、入库成果及注意事项 四、总结 前言 在当今世界&…...

计算机毕业设计 基于Python的广东旅游数据分析系统的设计与实现 Python+Django+Vue Python爬虫 附源码 讲解 文档

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…...

Springboo通过http请求下载文件到服务器

这个方法将直接处理从URL下载数据并将其保存到文件的整个过程。下面是一个这样的方法示例: import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.HttpURLConnection…...

使用CSS实现酷炫加载

使用CSS实现酷炫加载 效果展示 整体页面布局 <div class"container"></div>使用JavaScript添加loading加载动画的元素 document.addEventListener("DOMContentLoaded", () > {let container document.querySelector(".container&q…...

【STM32-HAL库】AHT10温湿度传感器使用(STM32F407ZGT6配置i2c)(附带工程下载连接)

一、温湿度传感器&#xff1a; 温湿度传感器是一种能够检测环境中的温度和湿度&#xff0c;并将其转化为电信号输出的装置。它在智能家居、工业自动化、气象监测、农业等领域有着广泛的应用。 原理&#xff1a; 温湿度传感器通常基于不同的物理原理&#xff0c;以下是一些常见…...

深入理解网络通信: 长连接、短连接与WebSocket

在现代网络应用开发中,选择合适的通信方式对于应用的性能、效率和用户体验至关重要。本文将深入探讨三种常见的网络通信方式:长连接、短连接和WebSocket,分析它们的特点、区别以及适用场景。 1. 短连接 © ivwdcwso (ID: u012172506) 1.1 定义 短连接是指客户端和服务器…...

Linux·环境变量与进程地址空间

1. 命令行参数 各位可能见过main函数也是有参数的&#xff0c;只是我们平时写的代码都比较简单&#xff0c;用不到main函数的参数&#xff0c;下面我们看一下main函数的参数是什么又是怎么用的 我们看这样一段代码 其编译运行后的效果是这样的 我们将main函数后面的那两个参数叫…...

MYSQL 乐观锁

乐观锁是一种用于处理并发控制的策略&#xff0c;特别适用于读多写少的场景。在 MySQL 数据库中&#xff0c;乐观锁通常通过版本号或时间戳来实现。下面将详细介绍乐观锁的概念、实现方式以及在 MySQL 中的应用。 1. 乐观锁的概念 乐观锁的基本思想是&#xff1a;在对数据进行…...

SpringCloud入门(十二)全局过滤器和跨域

一、全局过滤器 全局过滤器的作用也是处理一切进入网关的请求和微服务响应&#xff0c;与GatewayFilter的作用一样。 区别在于GatewayFilter通过配置定义&#xff0c;处理逻辑是固定的&#xff0c;如果我们希望拦截请求&#xff0c;做自己的业务逻辑则没办法实现。而GlobalFilt…...

51单片机系列-按键检测原理

&#x1f308;个人主页&#xff1a;羽晨同学 &#x1f4ab;个人格言:“成为自己未来的主人~” 独立按键是检测低电平的。 下面我们来看一张对应的电路原理图&#xff1a; 在这张图当中&#xff0c;P1&#xff0c;P2&#xff0c;P3内部都上拉了电阻&#xff0c;但是P0没有&am…...

大模型可解释性技术突破:破解AI黑盒,筑牢人工智能落地根基

生成式大模型快速普及的同时&#xff0c;AI黑盒问题成为制约行业深度落地的核心瓶颈。传统大模型的推理过程隐蔽、决策逻辑不可追溯、输出结果不可控&#xff0c;模型出错无溯源、偏见无修正、风险无预判&#xff0c;在金融、医疗、政务、工业控制等高精、高安全、高合规场景&a…...

乒乓球教程

【课程教程资料】乒乓球入门必看&#xff0c;全方位发球技巧教学 文件大小: 3.9GB内容特色: 3.9GB高清发球拆解&#xff0c;握拍站位旋转全囊括适用人群: 零基础球友、校园社团、陪练家长核心价值: 20课时速成稳定发球&#xff0c;直接提升实战得分率下载链接: https://pan.qu…...

蒙古语TTS准确率仅73%?ElevenLabs 2024Q2基准测试报告曝光:词级准确率91.4%,但需绕过这2个API默认参数坑

更多请点击&#xff1a; https://codechina.net 第一章&#xff1a;蒙古语TTS准确率争议的真相还原 近年来&#xff0c;多款商用及开源蒙古语文本转语音&#xff08;TTS&#xff09;系统在公开评测中报告了92%–97%的词级准确率&#xff0c;但一线教育机构与本地化团队反馈的实…...

vue3+python基于Django的羽毛球场地预约服务管理系统设计与实现869373194

目录同行可拿货,招校园代理 ,本人源头供货商项目概述技术栈核心功能模块系统设计要点扩展功能部署方案项目技术支持源码获取详细视频演示 &#xff1a;同行可合作点击我获取源码->->进我个人主页-->获取博主联系方式同行可拿货,招校园代理 ,本人源头供货商 项目概述 …...

超自动化运维,您需要的是“可信执行平台(TEP)”

在AI智能体与自动化工具蓬勃发展的今天&#xff0c;各类开源框架与轻量工具层出不穷。它们让“用自然语言驱动电脑做事”的愿景触手可及——文件操作、脚本执行、浏览器控制&#xff0c;一切看似高效便捷。然而&#xff0c;当我们将视线从个人桌面转向企业的数据中心、核心生产…...

AI人工智能行业的发展:从机器学习到深度学习的演变历程

在数字化浪潮席卷全球的当下&#xff0c;人工智能&#xff08;AI&#xff09;已然成为推动各行业变革的核心力量。对于软件测试从业者而言&#xff0c;深入了解AI从机器学习到深度学习的演变历程&#xff0c;不仅能把握技术发展脉络&#xff0c;更能为测试工作的智能化转型提供…...

为内容生成平台构建支持多模型备选的 AI 中台

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 为内容生成平台构建支持多模型备选的 AI 中台 在内容创作领域&#xff0c;无论是自媒体运营还是营销团队&#xff0c;对文本生成的…...

明日方舟智能基建管理终极指南:5分钟实现全自动资源生产

明日方舟智能基建管理终极指南&#xff1a;5分钟实现全自动资源生产 【免费下载链接】arknights-mower 《明日方舟》长草助手 项目地址: https://gitcode.com/gh_mirrors/ar/arknights-mower 还在为《明日方舟》繁琐的基建管理而头疼吗&#xff1f;每天花费大量时间手动…...

SleeperX:macOS系统级电源管理架构解析与深度集成方案

SleeperX&#xff1a;macOS系统级电源管理架构解析与深度集成方案 【免费下载链接】SleeperX MacBook prevent idle/lid sleep! Hackintosh sleep on low battery capacity. 项目地址: https://gitcode.com/gh_mirrors/sl/SleeperX 在macOS生态系统中&#xff0c;电源管…...

如何快速掌握Pixel设备刷机:新手完整教程与PixelFlasher刷机工具指南

如何快速掌握Pixel设备刷机&#xff1a;新手完整教程与PixelFlasher刷机工具指南 【免费下载链接】PixelFlasher Pixel™ phone flashing GUI utility with features. 项目地址: https://gitcode.com/gh_mirrors/pi/PixelFlasher 你是否曾经因为复杂的命令行刷机操作而感…...