当前位置: 首页 > news >正文

数据仓库的流程

数据仓库完全用统计分析框架实现:Spark,MR
但是因为实际生产环境中,需求量非常大,
如果每个需求都采用独立c代码开发方式,重复计算会很多.
提高性能的方法: 1.减少数据量 2. 减少重复计算
例如RDD
cache 可以减少重复计算,但是不安全,都在缓存中,
persist 都放内存中,但是慢

而数仓是通过表来保存数据,从而达到减少重复计算的操作.

1.数据仓库的模块流程

1.数据源ODS(Operate Data Store)

1.作用: 汇总数据,为统计分析做准备

2.特点(能不改就不改)

1.行式存储

不需要进行统计分析,所以尽量不改变存储格式,因为修改数据格式需要消耗大量资源.,

2.数据格式

尽量不改变数据格式,消耗资源,影响性能.
JSON,TSV
但是如果必须要修改,就是异构数据的融合,

2.数据加工(Data Warehouse detail)

1.作用

为统计分析做准备

2.什么意思?

对数据的加工如过滤,无效数据筛选,

3.统计(DWS ->Data Warehouse Summary)

1.作用

对加工后的数据进行统计

4.分析(ADS->Application Data Service)

应用程序数据服务

1.作用

分析后的结构是整个数仓的最终结果,最后需要对外提供服务,例如:可视化界面图像.

5.DIM层(Common)

1.什么是维度(Dimension)

看事物的角度

2.层级之间的思考?

每一层执行完,再执行下一层,确保不会出现回环

2.如何控制SQL的执行

通过SQL和任务调度器,由任务调度器来完成调度工作.

相关文章:

数据仓库的流程

数据仓库完全用统计分析框架实现:Spark,MR 但是因为实际生产环境中,需求量非常大, 如果每个需求都采用独立c代码开发方式,重复计算会很多. 提高性能的方法: 1.减少数据量 2. 减少重复计算 例如RDD cache 可以减少重复计算,但是不安全,都在缓存中, persist 都放内存中,但是慢 而…...

MyBatis-Plus深入 —— 条件构造器与插件管理

前言 在前面的文章中,荔枝梳理了一个MyBatis-Plus的基本使用、配置和通用Service接口,我们发现在MyBatis-Plus的辅助增强下我们不再需要通过配置xml文件中的sql语句来实现基本的sql操作了,不愧是最佳搭档!在这篇文章中&#xff0c…...

C语言结构体的初始化方式

逐个初始化字段:这是最直接的方式,你可以逐个为结构体的每个字段进行初始化。 struct Student { char name[50]; int age; float marks; }; struct Student student1 {"Alice", 20, 89.5}; 2.使用结构体字面值初始化:这种方…...

Vue生成多文件pdf准考证

这是渲染的数据 这是生成的pdf文件,直接可以打印 需要安装和npm依赖和引入封装的pdf.js文件 npm install --save html2canvas // 页面转图片 npm install jspdf --save // 图片转pdfpdf.js文件 import html2canvas from "html2canvas"; import jsPDF …...

Rust的derive思考

这几天在Yew的学习实践中,发现derive中的参数中包含了yew自己的东西,比如yew::Properties。习惯使用#[derive(Clone, Debug, PartialEq)]之后,发现还有新的成员,这让我好奇起来。 首先让我们来回顾一下derive是什么。 #[derive(…...

Python常用模块

文章目录 1. time:时间2. calendar:日历3. datetime:可以运算的时间4. sys:系统5. os:操作系统6. random:随机数7. json:序列化8. pickle:序列化9. logging 模块9.1 什么是logging模…...

Java“牵手”京东商品评论数据接口方法,京东商品评论接口,京东商品评价接口,行业数据监测,京东API实现批量商品评论内容数据抓取示例

京东平台商品评论数据接口是开放平台提供的一种API接口,通过调用API接口,开发者可以获取京东商品的标题、价格、库存、月销量、总销量、库存、详情描述、图片、评论内容、评论日期、评论图片、追评内容等详细信息 。 获取商品评论接口API是一种用于获取…...

算法leetcode|75. 颜色分类(rust重拳出击)

文章目录 75. 颜色分类:样例 1:样例 2:提示: 分析:题解:rust:go:c:python:java: 75. 颜色分类: 给定一个包含红色、白色和蓝色、共 n…...

网络安全(黑客)自学笔记学习路线

谈起黑客,可能各位都会想到:盗号,其实不尽然;黑客是一群喜爱研究技术的群体,在黑客圈中,一般分为三大圈:娱乐圈 技术圈 职业圈。 娱乐圈:主要是初中生和高中生较多,玩网恋…...

NoSQL:非关系型数据库分类

NoSQL,全称 Not Only SQL,意为不仅仅是 SQL,泛指非关系型数据库。NoSQL 是基于键值对的,而且不需要经过 SQL 层的解析,数据之间没有耦合性,性能非常高。 非关系型数据库又可细分如下: 键值存储…...

【Eclipse】Project interpreter not specified 新建项目时,错误提示,已解决

目录 0.环境 1)问题截图: 2)错误发生原因: 1.解决思路 2.具体步骤 0.环境 windows 11 64位,Eclipse 2021-06 1)问题截图: 2)错误发生原因: 由于我手欠,将…...

OPENCV实现图像查找

特征匹配+单应性矩阵 # -*- coding:utf-8 -*- """ 作者:794919561 日期:2023/9/4 """ import cv2 import numpy as np# 读图像 img1 = cv2.imread(F:\\learnOpenCV\\openCVLearning\\pictures\\chess...

vue仿企微文档给页面加水印(水印内容可自定义,超简单)

1.在src下得到utils里新建一个文件watermark.js /** 水印添加方法 */let setWatermark (str1, str2) > {let id 1.23452384164.123412415if (document.getElementById(id) ! null) {document.body.removeChild(document.getElementById(id))}let can document.createE…...

“金融级”数字底座:从时代的“源启”,到“源启”的时代

今年初《数字中国建设整体布局规划》正式发布,这代表着数字中国建设迈向了实质的落地阶段,其背后的驱动就是遍及各行各业的数字化转型。 千姿百态、复杂多样的应用场景,可以看作是遍布数字中国的“点”;千行百业、各种类型的行业…...

zabbix自动发现linux系统挂载的nas盘,并实现读写故障的监控告警

一.准备好被监控机器上面执行脚本,以备服务端发现和监控 脚本的内容: ZABBI安装路径可执行文件及配置文件根据实际部署的路径更改 #!/bin/bash >/zabbixconfpath/zbx_nas.conf >/zabbixscriptspath/findnas.sh >/zabbixscriptspath/checknas.sh >/zabbixscripts…...

无涯教程-JavaScript - DAYS函数

描述 DAYS函数返回两个日期之间的天数。 语法 DAYS (end_date, start_date)争论 Argument描述Required/OptionalEnd_dateStart_date and End_date are the two dates between which you want to know the number of days.RequiredStart_dateStart_date and End_date are th…...

48、springboot 的国际化之让用户在程序界面上弄个下拉框,进行动态选择语言

上一篇是直接改浏览器的支持语言。 在浏览器上面直接改国际化语言 这次要实现的功能是直接在程序界面动态选择语言。 Locale 代表语言、国家。 ★ 在界面上动态改变语言 应用之所以能动态呈现不同的语言界面,其实关键在于如何确定客户端的Locale(代…...

FPGA可重配置原理及实现(1)——导论

一、概述 可重配置技术是Xilinx提供的用来高效利用FPGA设计资源实现FPGA资源可重复利用的最新的FPGA设计技术,这种技术的发展为FPGA应用提供了更加广阔的前景。 术语“重构”是指FPGA已经配置后的重新编程。FPGA的重构有两种类型:完全的和部分的。完全重…...

Ubuntu系统下使用宝塔面板实现一键搭建Z-Blog个人博客的方法和流程

文章目录 1.前言2.网站搭建2.1. 网页下载和安装2.2.网页测试2.3.cpolar的安装和注册 3.本地网页发布3.1.Cpolar临时数据隧道3.2.Cpolar稳定隧道(云端设置)3.3.Cpolar稳定隧道(本地设置) 4.公网访问测试5.结语 1.前言 Ubuntu系统作…...

数据结构 | 第一章 绪论

问题求解与程序设计 这一节都是介绍性的内容&#xff0c;但是哥尼斯堡的七桥问题值得写写。 #include <stdio.h>int Euler(int mat[4][4], int n) {int count 0;for (int i 0; i < n; i) {int degree 0;for (int j 0; j < n; j) {degree mat[i][j];}if (degr…...

JAVA无人共享无人机赁柜预约小程序源码代码

JAVA无人共享无人机租赁柜预约小程序源码实现方案采用Uniapp框架开发无人共享无人机租赁柜预约小程序&#xff0c;需整合后端Java服务和前端跨平台技术。以下是核心实现方案&#xff1a;技术栈选择前端&#xff1a;Uniapp Vue.js uView UI后端&#xff1a;Spring Boot MyBat…...

Win11新机Office2021兑换失败?解决老账号Office2016冲突的完整指南

1. 为什么新电脑无法兑换Office2021&#xff1f; 刚拿到Win11新机的小伙伴们&#xff0c;经常会遇到一个让人头疼的问题&#xff1a;明明新电脑预装了Office2021&#xff0c;打开Word却发现显示"Office2016已激活"。这种情况我遇到过不下十次&#xff0c;每次帮朋友处…...

Python机器学习sklearn线性模型完整指南:LinearRegression/Ridge/Lasso详细代码注释

机器学习sklearn模型核心API详解&#xff1a;线性回归、岭回归、Lasso全覆盖&#xff08;详细代码注释&#xff09;scikit-learn 是 Python 机器学习最常用的库&#xff0c;但很多初学者对各模型的参数含义一知半解。本文系统整理了 sklearn 中线性模型家族&#xff08;LinearR…...

济民健康医疗服务占比提升至46%!业务结构调整初见成效

济民健康医疗服务占比提升至46%&#xff01;业务结构调整初见成效济民健康2025年财报显示&#xff0c;公司医疗服务板块收入占比提升至46%&#xff0c;成为业绩重要支撑。尽管全年净利润预亏2.5亿至2.1亿元&#xff0c;但业务结构调整成效显著&#xff0c;医疗服务板块营收同比…...

从修车铺到世界冠军,从废塑料到再生资源:一场关于坚持与价值的时代对话

最近&#xff0c;张雪的故事刷屏了。这个14岁辍学、睡在修车铺阁楼、月薪300元的湖南山村少年&#xff0c;用了整整二十年&#xff0c;将自己亲手打造的摩托车送上了世界超级摩托车锦标赛&#xff08;WSBK&#xff09;的冠军领奖台。当五星红旗在葡萄牙阿尔加维国际赛道升起时&…...

**发散创新:基于Rust的机密计算实践——安全数据处理的新范式**在现代云计算与

发散创新&#xff1a;基于Rust的机密计算实践——安全数据处理的新范式 在现代云计算与边缘计算深度融合的时代&#xff0c;数据隐私保护已成为系统架构设计的核心挑战之一。传统加密方式&#xff08;如TLS/SSL&#xff09;虽能保障传输过程中的安全性&#xff0c;但一旦数据落…...

前端必懂:开发环境、构建打包的核心差异,新手再也不踩坑

前端必懂&#xff1a;开发环境、构建打包的核心差异&#xff0c;新手再也不踩坑 文章目录前端必懂&#xff1a;开发环境、构建打包的核心差异&#xff0c;新手再也不踩坑一、先一句话打通核心逻辑&#xff08;新手必记&#xff09;二、开发环境&#xff1a;怎么舒服怎么写&…...

07_微服务划分与团队人数之渐进式拆分与团队演进

微服务划分与团队人数之渐进式拆分与团队演进 体系内容 演进方法:单体优先、边界识别、服务化拆分、平台能力沉淀 组织演进:小团队、部落-小队、平台团队、架构治理机制 Spring Cloud Alibaba 路线:Nacos、Gateway、Sentinel、RocketMQ、Seata 逐步引入 决策重点:什么时候…...

Maven父子工程搭建:微服务项目模块化架构基础

Maven父子工程搭建&#xff1a;微服务项目模块化架构基础 一、为什么需要Maven父子工程&#xff1f; 在单体应用向微服务架构演进的过程中&#xff0c;项目规模会迅速膨胀。想象一个电商系统&#xff0c;包含用户中心、商品服务、订单服务、支付服务、库存服务等数十个模块—…...

兼容FX3U源码的增强版:支持以太网与串口下载,集成MODBUS-TCP协议,实现相对定位与绝...

18650锂电池高温热失控一、模块概述 FX3U系列PLC CAN网络通信模块是基于STM32F10x系列微控制器开发的专用通信组件&#xff0c;旨在实现多节点PLC设备间的可靠数据交互。该模块采用STM32F10x CAN外设硬件资源&#xff0c;结合自定义应用层协议&#xff0c;支持主从式网络架构&a…...