Apache Hive(三)
一、Apache Hive
1、ETL数据清洗
数据问题
问题1:当前数据中,有一些数据的字段为空,不是合法数据
解决:where 过滤
问题2:需求中,需要统计每天、每个小时的消息量,但是数据中没有天和小时字段,只有整体时间字段,不好处理
解决:Substr函数
问题3:从GPS的经纬度中提取经度和纬度
解决:split函数
问题4:将ETL以后的结果保存到一张新的Hive表中
解决:create table ... as select ....
2、SQL编写与指标计算
需求:
1、统计今日总消息量
-- 按天分组,求总和
select dayinfo,count(*) as tolal_cnt from t_msg group by dayinfo
2、统计今日每小时消息量、发送和接收用户数
-- 按天,小时分组,求发送/接收用户数--一人发送多条消息
select dayinfo,hourinfo,count(*) as tolal_cnt,count(distinct sender_account) as sender_cnt,count(distinct recdiver_account) as recdiver_cntfrom t_msg group by dayinfo,hourinfo
3、统计今日各地区发送消息数据量
4、统计今日发送消息和接收消息的用户数
-- 按天分组,求发送/接收用户数--一人发送多条消息
select dayinfo,count(*) as tolal_cnt,count(distinct sender_account) as sender_cnt,count(distinct recdiver_account) as recdiver_cntfrom t_msg group by dayinfo
5、统计今日发送消息最多的Top10用户
-- 按天和用户分组,求发送用户数--一人发送多条消息
select dayinfo,send_name,count(*) as msg_cntfrom t_msg group by dayinfo,send_name order by msg_cnt desc limit 10;
6、统计今日接收消息最多的Top10用户
-- 按天和用户分组,求发送用户数--一人发送多条消息
select dayinfo,recdiver_name,count(*) as msg_cntfrom t_msg group by dayinfo,recdiver_name order by msg_cnt desc limit 10;
7、统计发送人的手机型号分布情况
8、统计发送人的设备操作系统分布情况
1、实际开发中,拿到业务需求指标,如何下手?
2、SQL层面如何编写查询语句?
例:
需求:统计每个城市男女人数与男女平均年龄(表:t_user[id,name,age,sex,city])
分组字段:每个城市、男女
聚合字段:人数、平均年龄
count(id)就是统计每个分组中的条数--->人数
avg(age)就是统计每个分组中年龄的平均值--->平均年龄
3、FineBI实现可视化报表
Apache Hive(二)
请记住,你当下的结果,由过去决定;你现在的努力,在未来见效;
不断学习才能不断提高!磨炼,不断磨炼自己的技能!学习伴随我们终生!
生如蝼蚁,当立鸿鹄之志,命比纸薄,应有不屈之心。
乾坤未定,你我皆是黑马,若乾坤已定,谁敢说我不能逆转乾坤?
努力吧,机会永远是留给那些有准备的人,否则,机会来了,没有实力,只能眼睁睁地看着机会溜走。
相关文章:
Apache Hive(三)
一、Apache Hive 1、ETL数据清洗 数据问题 问题1:当前数据中,有一些数据的字段为空,不是合法数据 解决:where 过滤 问题2:需求中,需要统计每天、每个小时的消息量,但是数据中没有天和小时字段…...
ORM(对象关系映射)的概念,并说明在Python中如何使用
ORM(对象关系映射)的概念,并说明在Python中如何使用 ORM(对象关系映射)是一种编程技术,它实现了将关系型数据库中的数据映射到程序中的对象模型,使得开发者能够使用面向对象的方式来操作数据…...
Br 算法
基于google的brotli开源,实现Br算法。 #include <brotli/encode.h> #include <brotli/decode.h>namespace br {/*compress unsigned char* content,if ok return non empty unsigned char * */std::string compress_string(const std::string& c…...
GPT实战系列-一种构建LangChain自定义Tool工具的简单方法
GPT实战系列-一种构建LangChain自定义Tool工具的简单方法 LLM大模型: GPT实战系列-探究GPT等大模型的文本生成 GPT实战系列-Baichuan2等大模型的计算精度与量化 GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF …...
【Docker】Memcached 容器化部署
Memcached环境标准软件基于Bitnami Memcached 构建。当前版本为1.6.24 你可以通过轻云UC部署工具直接安装部署,也可以手动按如下文档操作,该项目已经全面开源,可以从如下环境获取 配置文件地址: https://gitee.com/qingplus/qingcloud-platf…...
Langchain-Chatchat本地搭建ChatGLM3模型和提取PDF内容
文章目录 1、软件要求2、安装CUDA2.1、安装gcc2.2、安装CUDA 3、安装Anaconda33.1、下载Anaconda33.2、创建python虚拟环境 4、部署系统4.1、下载源码4.2、安装依赖4.3、下载模型4.4、初始化配置和知识库4.4.1、初始化配置4.4.2、初始化知识库 4.5、运行4.6、运行4.6.1、启动4.…...
案例分析篇03:一篇文章搞定软考设计模式考点(2024年软考高级系统架构设计师冲刺知识点总结系列文章)
专栏系列文章推荐: 2024高级系统架构设计师备考资料(高频考点&真题&经验)https://blog.csdn.net/seeker1994/category_12593400.html 【历年案例分析真题考点汇总】与【专栏文章案例分析高频考点目录】(2024年软考高级系统架构设计师冲刺知识点总结-案例分析篇-…...
套接字的地址结构,IP地址转换函数,网络编程的接口
目录 一、套接字的地址结构 1.1 通用socket地址结构 1.2 专用socket地址结构 1.2.1 tcp协议族 1.2.3 IP协议族 二、IP地址转换函数 三、网络编程接口 3.1 socket() 3.2 bind() 3.3 listen() 3.4 accept() 3.5 connect() 3.6 close() 3.7 recv()、send() 3.8 recv…...
Java回顾总结--RandomAccessFile和NIO
目录 一、RandomAccessFile1.1 为什么要有RandomAccessFile?1.2 常用方法简介1.3 RandomAccessFile 特点和优势1.3.1 既可以读也可以写1.3.2 可以指定位置读写 1.4 示例 二、NIONIO使用示例 一、RandomAccessFile 1.1 为什么要有RandomAccessFile? Ran…...
2024年3月第15届蓝桥杯青少组STEMA考试C++中高级真题试卷
第15届蓝桥杯青少组STEMA考试C中高级真题试卷(2024年3月) 题目总数:11 总分数:400 选择题 第 1 题 单选题 (110010)2(c3)16的结果是( )。 A. (240)10 B. (11110101)2 C. (366)8 D. (f6)16 第 2 题 单选题 …...
Hyperf AOP 和 注解
注解 (hyperf.wiki) AOP 面向切面编程 (hyperf.wiki) 切面 定义切面(Aspect) 根据官方教程定义一个切面。可以指定类、方法、参数和注解上生效。 <?php namespace App\Aspect;use App\Service\SomeClass; use App\Annotation\SomeAnnotation; use Hyperf\Di\Annotatio…...
【C++】string类(介绍、常用接口)
🌈个人主页:秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343🔥 系列专栏:http://t.csdnimg.cn/eCa5z 目录 string类的常用接口说明 string类对象的常见构造 编辑 string字符串的遍历(迭代器…...
SpringBoot项目中同时支持https和http协议
实用干货!看壹哥如何在SpringBoot项目中同时支持https和http协议_springboot http htpps共存-CSDN博客...
三大排序:冒泡、选择、插入
冒泡排序: 冒泡排序(Bubble Sort)是一种简单的排序算法。它通过比较相邻元素的大小,并交换它们的位置,使较大(或较小)的元素逐渐“浮”到数组的一端,从而实现排序的目的。 下面是冒…...
Android中MultiDex优化
MultiDex基本思路 当一个Dex文件太肥的时候(方法数目太多、文件太大),在打包或在安装或运行apk也会出问题。 解决方法就是将这个硕大的Dex文件拆分成若干个小的Dex文件。 刚好一个ClassLoader可以有多个DexFile。 MultiDex主要性能瓶颈 解压缩和Dex优化(…...
MySQL 8.0 的执行计划(EXPLAIN)
MySQL 8.0 的执行计划(也称为“EXPLAIN”计划)是数据库优化器为 SQL 查询生成的步骤序列。解读执行计划可以帮助数据库管理员(DBA)和开发者理解查询如何执行,识别潜在的性能问题,并据此优化查询。 下面是如…...
leetcode——二叉树问题汇总
leetcode 144. 二叉树的前序遍历 ①递归法: /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val,…...
Android基础开发-饿汉式申请权限
1、案例,打开app时,就要申请权限 直接在onCreateView中申请所有权限就可,然后在选择的回调里边判断申请的结果 package com.example.client;import android.Manifest; import android.content.Intent; import android.content.pm.PackageMa…...
java Day7 正则表达式|异常
文章目录 1、正则表达式1.1 常用1.2 字符串匹配,提取,分割 2、异常2.1 运行时异常2.2 编译时异常2.3 自定义异常2.3.1 自定义编译时异常2.3.2 自定义运行时异常 1、正则表达式 就是由一些特定的字符组成,完成一个特定的规则 可以用来校验数据…...
Python算法题集_搜索二维矩阵
Python算法题集_搜索二维矩阵 题74:搜索二维矩阵1. 示例说明2. 题目解析- 题意分解- 优化思路- 测量工具 3. 代码展开1) 标准求解【矩阵展开为列表二分法】2) 改进版一【行*列区间二分法】3) 改进版二【第三方模块】 4. 最优算法5. 相关资源 本文为Python算法题集之…...
如何划分接口文档?
🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快1、首先最主要的就是要分析接口测试文档,每一个公司的测试文档都是不一样的。具体的就要根据自己公司的接口而定,里面缺少的内容自己需要与开…...
uniSDK5.06 HBuilder-Integrate-AS 引入 AeroFFmpeg
用Android Studio 导入 unisdk5.06\Android-SDK5.06.82597_20260401\HBuilder-Integrate-AS 工程需要下载 jdk17 安卓SDK通过网盘分享的文件:unisdk5.06.rar 链接: https://pan.baidu.com/s/1cYeW29xsoqIa6lh4wk16FQ?pwdp8ak 提取码: p8ak...
Qt表格入门(优化篇)成
1. 前言 本文详细介绍如何使用 kylin v10 iso 文件构建出 docker image,docker 版本为 20.10.7。 2. 构建 yum 离线源 2.1. 挂载 ISO 文件 mount Kylin-Server-V10-GFB-Release-030-ARM64.iso /media 2.2. 添加离线 repo 文件 在/etc/yum.repos.d/下创建kylin-local…...
跨平台文件同步:OpenClaw调用Qwen3-32B实现智能归档
跨平台文件同步:OpenClaw调用Qwen3-32B实现智能归档 1. 为什么需要智能文件同步工具 作为一个长期被数字资产混乱困扰的技术从业者,我电脑里的文件就像一座无人管理的图书馆。下载的论文、会议录音、代码片段、临时截图散落在十几个文件夹中࿰…...
某手热门短剧逆向AI直接秒
地址:aHR0cHM6Ly93d3cua3VhaXNob3UuY29tL3NlYXJjaC8lRTclODMlQUQlRTklOTclQTglRTclOUYlQUQlRTUlODklQTc一、为什么要做这个? 你是不是想自动获取快手的搜索结果,却发现直接调用API会被“风控”拦截?别担心,这是因为快手用了加密参…...
Pug模板引擎在StartBootstrap Freelancer中的应用与优化:提升前端开发效率的完整指南
Pug模板引擎在StartBootstrap Freelancer中的应用与优化:提升前端开发效率的完整指南 【免费下载链接】startbootstrap-freelancer A flat design, one page, MIT licensed Bootstrap portfolio theme created by Start Bootstrap 项目地址: https://gitcode.com/…...
同步磁阻电机SynRM滑模控制:提升动态响应的新策略
同步磁阻电机SynRM滑模控制 1.基于FOC策略,其中转速环采用滑模控制器,较PI提高系统的动态响应能力。 2.提供算法对应的参考文献和仿真模型 仿真模型纯手工搭建在电机控制领域,同步磁阻电机(SynRM)以其结构简单、成本低…...
FastAPI单元测试实战:别等上线被喷才后悔,TestClient用对了真香!芯
正文 异步/等待解决了什么问题? 在传统同步I/O操作中(如文件读取或Web API调用),调用线程会被阻塞直到操作完成。这在UI应用中会导致界面冻结,在服务器应用中则造成线程资源的浪费。async/await通过非阻塞的异步操作解…...
Phi-4-reasoning-vision-15B作品集:15类真实办公截图(邮件/PPT/数据库/IDE等)理解效果
Phi-4-reasoning-vision-15B作品集:15类真实办公截图理解效果展示 1. 模型能力概览 Phi-4-reasoning-vision-15B是微软最新发布的视觉多模态推理模型,专门针对办公场景的视觉理解需求进行了优化。这个模型不仅能看懂图片内容,还能像专业人士…...
django基于Spark的南昌房价数据分析系统的设计与实现_45i0b357_c018
前言 系统旨在通过采集和分析南昌地区的房价数据,包括二手房信息、房价走势、区域均价等,为房地产开发商、投资者、购房者以及政府相关部门提供全面、准确、实时的房价信息,辅助其制定更精准的营销策略、投资决策和政策制定。 一、项目介…...
