Hive 数仓及数仓设计方案
数仓(Data Warehouse)
数据仓库存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供一个统一、规范的出口。做数仓就是做方案,是用数据治理企业的方案。
数据仓库的特点
- 面向主题集成
- 公司中不同的部门都会去数据仓库中拿数据,把独立从数据仓库中拿数据的单元,称为一个主题。
- 数据仓库中的数据是从各个分散的数据库中抽取出来的,需要进行完整集合,还要进行数据处理。
- 涉及的数据操作主要是查询
数仓的本质
能够完整记录某个对象在一段时期内的变化情况的存储空间。随着时间变化不断增加新的数据内容,不断删去旧的数据内容。
数仓设计方案
1. 需求分析
- 找谁了解需求?
- 老板:大方向
- 运营人员:具体,多问几个运营人员
- 行业标准规范,行业运营(搜索能力)
- 行业专家
2. 确定主题指标体系
典型领域指标
- 电商:转化
- 新闻:浏览
- 社交媒体:活跃度
- 多媒体:转化、活跃
数据挖掘、人工智能
- 确定历史事实数据间的因果关系
- 筛选出不必要的重复指标
命题:主题
事实数据
- Who + When + Where + How + What
- 谁 何时 何地 方式 做了什么
电商示例
- 传统订单:
- Who + When + Where
order_id, user_id, purchase_time, store_id
- 订单详情:
order_detail_id, order_id, product_id, purchase_count, price
- 订单支付:
pay_id, pay_type, pay_account, pay_time
- 大数据订单(着重对HOW扩展):
- How:
- 搜索直接来源
- 关键词搜索
- 分类检索
- 主页推荐
- 外链引流
- 分析商品搜索过程:
- 在哪些商品处停留?
- 有哪些同样感兴趣的商品?
- 什么时候就开始关注这个商品?
- 是否存在其他行为(收藏、加入购物车、下单、购买)?
- 处理其他行为:
- 定时提醒"XXX商品已被您收藏30天但还没有购买…"
- 搜索直接来源
- How:
3. 确定数据标准
- 原始数据:行为数据(因) RDMBS(果)
- 基于原始数据预聚合数据
4. 数仓设计
数据规模,成本核算
数据埋点获得埋点数据
- 前端埋点:类似于视频浏览过程数据,只能通过前端埋点
- 后端埋点:类似于支付,后端才是直接和第三方支付接口交互的。
- 能用后端埋点就用后端埋点,前端埋点是不得已采用
埋点数据格式与容量
- 公共数据格式
- 事件数据
服务器集群配置
- 买/租
技术选型与服务器环境搭建
- hdfs
- yarn
- hive
- hbase
- zk
- spark
5. 数据采集
- 行为日志 -> flume -> hdfs
- RDBMS -> sqoop -> hbase
6. 操作数仓
- plsql
declare 变量名 数据类型 = 初值;set 变量 = 值;print '常量' || 变量vim ~/pl_demo.ql------------------------------------------------------------create function FUNC_NAME(name TYPE,...) returns RETURN_TYPEbegindeclare VAR = INIT_VALUE;...print 'CONSTANTS' || VAR;end;call FUNC_NAME(...);--------------------------------------------------------------案例:自定义函数生成日期维度表vim pl_demo.ql------------------------------------------------------------------------------------------------------------ 定义存储过程create procedure getSumAmount()begindeclare sum_amount decimal(10,2) = 0.0;select sum(order_amount) into sum_amount from yb12211_2.hive_internal_par_cluster_regex_test1w;print 'sum of order amount : ' || sum_amount;end;-- 调用存储过程call getSumAmount();----------------------------------------------------------------------------------------------------------执行plsql文件hplsql -f FILE_PATH
- hive -e “SHOW DATABASES”
- hive -f QL_FILE_PATH
相关文章:
Hive 数仓及数仓设计方案
数仓(Data Warehouse) 数据仓库存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供一个统一、规范的出口。做数仓就是做方案,是用数据治理企业的方案。 数据仓库的特点 面向主题集成 公司中不同的部门都会去数据仓库中拿数据,把独…...
Ubuntu使用docker-compose安装redis
ubuntu环境搭建专栏🔗点击跳转 Ubuntu系统环境搭建(十三)——使用docker-compose安装redis 文章目录 Ubuntu系统环境搭建(十三)——使用docker-compose安装redis1.搭建文件夹2.docker-compose.yaml配置文件3.redis.co…...
大数据安全 | 期末复习(上)| 补档
文章目录 📚概述⭐️🐇大数据的定义、来源、特点🐇大数据安全的含义🐇大数据安全威胁🐇保障大数据安全🐇采集、存储、挖掘环节的安全技术🐇大数据用于安全🐇隐私的定义、属性、分类、…...
Kylin 安装novnc 远程访问
noVNC可以使用浏览器直接访问服务器,而不需要使用VNC客户端。 1.初始环境 关闭防火墙或允许IP访问本机 2.安装依赖 dnf install -y tigervnc-server git 3.git下载novnc git clone https://github.com/novnc/noVNC.git git clone https://gitee.com/yangyizhao…...
神经网络算法与逻辑回归:优势与差异
神经网络算法和逻辑回归都是预测模型中的重要工具,但它们在处理复杂和非线性问题时表现出不同的性能。本文将深入探讨神经网络算法相对于逻辑回归的优势,以及它们在不同场景下的适用性。 一、引言 神经网络算法和逻辑回归都是预测模型中的重要工具&…...
【蓝桥杯冲冲冲】动态规划初步[USACO2006 OPEN] 县集市
蓝桥杯备赛 | 洛谷做题打卡day13 文章目录 蓝桥杯备赛 | 洛谷做题打卡day13题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示样例说明数据规模与约定 思路:方程: 题解代码我的一些话 [USACO2006 OPEN] 县集市 The County Fair 题目描述 每年…...
C#,入门教程(30)——扎好程序的笼子,错误处理 try catch
上一篇: C#,入门教程(29)——修饰词静态(static)的用法详解https://blog.csdn.net/beijinghorn/article/details/124683349 程序员语录:凡程序必有错,凡有错未必改! 程序出错的原因千千万&…...
操作教程|JumpServer堡垒机结合Ansible进行批量系统初始化
运维人员常常需要对资产进行系统初始化的操作,而初始化服务器又是一项繁琐的工作,需要花费运维人员大量的时间和精力。为了提高效率,许多组织会使用自动化工具和脚本来简化这些任务。自动化工具的运用可以大幅降低运维人员的工作量࿰…...
序列化VS反序列化
序列化、反序列化定义 如果我们需要持久化 Java 对象比如将 Java 对象保存在文件中,或者在网络传输 Java 对象,这些场景都需要用到序列化。 序列化(Serialization)是指将对象转换为字节序列的过程,也可以称之为对象的持…...
新数智空间:阿里云边缘云持续保持中国公有云市场第一
全球领先的 IT 市场研究和咨询公司 IDC 发布 《中国边缘云市场解读(2023H1)》报告 中国边缘公有云服务市场 阿里云持续第一 稳居市场第一,“边缘”逆势生长 近日,全球领先的 IT 市场研究和咨询公司 IDC 最新发布《中国边缘云市…...
【开源】基于JAVA语言的陕西非物质文化遗产网站
目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 设计目标2.2 研究内容2.3 研究方法与过程2.3.1 系统设计2.3.2 查阅文献2.3.3 网站分析2.3.4 网站设计2.3.5 网站实现2.3.6 系统测试与效果分析 三、系统展示四、核心代码4.1 查询民间文学4.2 查询传统音乐4.3 增改传统舞…...
C++(Qt)软件调试---静态分析工具clang-tidy(18)
C(Qt)软件调试—静态分析工具clang-tidy(18) 文章目录 C(Qt)软件调试---静态分析工具clang-tidy(18)1、概述2、clang-tidy基本用法3、目前已有检查项4、Qt Creator中安装clang-tidy5、Qt Creator中使用clang-tidy6、Clang-Tidy配置…...
2401llvm,clang的重构引擎
Clang的重构引擎 展示如何使用重构API中的各种原语来实现不同的重构. LibTooling库提供了几个在开发重构操作时,使用的其他API. 可用重构引擎来实现,用编辑器或IDE中的选择启动的本地重构.可结合AST匹配器和重构引擎,以实现不适合源选择和/或必须查询某些指定节点的AST的重构…...
【C语言深度剖析——第四节(关键字4)】《C语言深度解剖》+蛋哥分析+个人理解
追求本质,不断进步 本文由睡觉待开机原创,转载请注明出处。 本内容在csdn网站首发 欢迎各位点赞—评论—收藏 如果存在不足之处请评论留言,共同进步! 这里写目录标题 一、空间的申请1.变量定义1.1变量定义的概念:1.2变…...
鸿蒙开发系列教程(五)--ArkTS语言:组件开发
1、基础组件 组件API文档:https://developer.huawei.com/consumer/cn/doc/harmonyos-references-V2/84_u58f0_u660e_u5f0f_u5f00_u53d1_u8303_u5f0f_uff09-0000001427744776-V2 查看组件API 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 容…...
Java:正则表达式讲解加举例,简洁易懂
正则表达式定义: 由一些特定的字符组成,代表的是一个规则。 作用:1.校验数据是否合法。2.可以在一段文本中查找满足要求的内容。 先自己写一个方法去校验qq号,比较与正则表达式的区别: 正则表达式的代码暂时可以不…...
2.机器学习-K最近邻(k-Nearest Neighbor,KNN)分类算法原理讲解
2️⃣机器学习-K最近邻(k-Nearest Neighbor,KNN)分类算法原理讲解 个人简介一算法概述二算法思想2.1 KNN的优缺点 三实例演示3.1电影分类3.2使用KNN算法预测 鸢(yuan)尾花 的种类3.3 预测年收入是否大于50K美元 个人简介 🏘️&…...
WordPress顶部管理工具栏怎么添加一二级自定义菜单?
默认情况下,WordPress前端和后台页面顶部都有一个“管理工具栏”,左侧一般就是站点名称、评论、新建,右侧就是您好,用户名称和头像。那么我们是否可以在这个管理工具栏中添加一些一二级自定义菜单呢? 其实,…...
Linux安装ossutil工具且在Jenkins中执行shell脚本下载文件
测试中遇到想通过Jenkins下载OSS桶上的文件,要先在linux上安装ossutil工具,记录安装过程如下: 一、下载安装ossutil,使用命令 1.下载:wget https://gosspublic.alicdn.com/ossutil/1.7.13/ossutil64 2.一定要赋权限…...
Docker命令---搜索镜像
介绍 使用docker命令搜索镜像。 命令 docker search 镜像命令:版本号示例 以搜索ElasticSearch镜像为例 docker search ElasticSearch...
基于树莓派A+与3.5寸PiTFT打造便携式触摸屏设备全攻略
1. 项目概述与核心价值如果你和我一样,对嵌入式开发和硬件DIY有浓厚的兴趣,那么将一块功能强大的单板计算机(比如树莓派)变成一个可以揣在口袋里、随时掏出来就能用的便携式触摸屏设备,绝对是一个充满成就感的项目。这…...
别再为485传感器没文档发愁了!一个USB转485模块+两款免费软件,5分钟搞定Modbus通信测试
5分钟极简方案:用USB转485模块与开源工具破解Modbus传感器通信 当你拿到一个没有文档的485温湿度传感器时,是否曾为如何读取数据而头疼?本文将分享一套经过实战验证的极简工具组合——仅需一个常见的USB转485转换器和两款免费软件,…...
别只盯着密码爆破:身份认证漏洞的3个“非主流”攻击面与防御思考
身份认证安全的隐秘战场:超越密码爆破的三大高阶攻防实践 在网络安全领域,身份认证机制如同数字世界的门锁系统。当大多数安全从业者将注意力集中在传统的密码爆破防御时,攻击者早已将目光转向那些被忽视的认证薄弱环节。本文将深入剖析三个常…...
Redis Sentinel:主从架构的自动保镖详解
Redis 哨兵(Sentinel):主从架构的「自动保镖」 在 Redis 主从复制经典架构当中,主节点(Master)全权负责集群读写核心请求处理,从节点(Slave)仅专注于实时同步主节点数据&…...
【免费下载】 MATLAB从入门到精通教程 - PDF文档下载指南【matlab下载】
MATLAB从入门到精通教程 - PDF文档下载指南 欢迎来到《MATLAB从入门到精通教程》的资源页面!本资源旨在为所有想要深入学习MATLAB编程语言的学者和工程师提供一份详尽、全面的学习资料。这份权威的PDF文档是英文版,非常适合希望掌握MATLAB核心功能及高级…...
【软考高级架构】论文范文19——论软件系统架构风格
论软件系统架构风格 摘要 软件系统架构风格是描述系统结构和行为的抽象模式,为不同应用领域提供了经过验证的设计方案。合理选择与组合架构风格能够有效指导系统分解、组件划分和交互设计,从而提升系统的可维护性、可扩展性和性能等质量属性。本文以笔者主导的某大型制造企…...
5G网优路测数据分析方法:从数据采集到问题定位
路测(Drive Test)是5G网络优化最基础也是最关键的数据采集手段。本文从数据采集、分析方法、问题定位三个层面,系统讲解5G路测数据分析方法论。一、5G路测概述1.1 路测目的目的说明适用场景覆盖验证验证5G网络覆盖是否达标新站开通、优化后验…...
DeaDBeeF音频处理核心:DSP、重采样与均衡器技术详解
DeaDBeeF音频处理核心:DSP、重采样与均衡器技术详解 【免费下载链接】deadbeef DeaDBeeF Player 项目地址: https://gitcode.com/gh_mirrors/de/deadbeef DeaDBeeF Player是一款功能强大的开源音乐播放器,其卓越的音频处理能力离不开三大核心技术…...
基于NirDiamant/agents-towards-production项目:使用RunPod Serverless部署AI智能体实战指南
基于NirDiamant/agents-towards-production项目:使用RunPod Serverless部署AI智能体实战指南 【免费下载链接】agents-towards-production End-to-end, code-first tutorials for building production-grade GenAI agents. From prototype to enterprise deployment…...
Verilog函数封装:提升代码复用与维护性的组合逻辑设计实践
1. 项目概述:为什么要在Verilog中“封装”行为逻辑?写Verilog代码,尤其是行为级描述,最怕的就是看到一段几乎一模一样的组合逻辑或者运算过程,在模块的不同角落里反复出现。比如,一个模块里可能需要三次把输…...
