当前位置：首页 > news >正文

大数据数仓实战项目（离线数仓+实时数仓）2

news 2026/2/9 14:18:07

1.课程目标和课程内容介绍

2.数仓维度建模设计

3.数仓为什么要分层

4.数仓分层思想和作用

下面是阿里的一种分层方式

5.数仓中表的种类和同步策略

6.数仓中表字段介绍以及表关系梳理

订单表itcast_orders

订单明细表 itcast_order_goods

商品信息表 itcast_goods

店铺表 itcast_shops

商品分类表 itcast_goods_cats

组织结构表 itcast_org

订单退货表 itcast_order_refunds

用户表 itcast_users

用户收货地址表 itcast_user_address

支付方式表 itcast_payments

7.项目环境初始化

导入MySQL模拟数据

将SQL文件上传到Linux

登入MySQL并执行命令

已经上传成功

hive分层说明

登入hive，创建表

创建ods层数据表

因为后面要用spark执行，spark对我们的Parquet和Snappy是执行的最好的

粘贴过来执行

数据采集

这里的命令可以帮我们对hive分区表进行一个修复

将小于${dt}（默认时间点）之前的当做全量要采集的数据，直接采集过来

我们打开kettle看一下

这里的${dt}是我们的默认命名参数

我们双击转换的空白处，看一下

上面的三张表是使用${dt}限制的

其余的表都是全量采集

比如

下面看一下字段选择

里面的每一个时间字段都要指定格式

下面看一下字段选择

这里我们要指定路径，

我们要写数据到hive表，使用表输出的方式太慢

我们直接将数据文件生成到hdfs路径上，这个路径就是我们的某一张hive表对应的路径

要指定hadoop cluster的连接

由于我们全是分区表，所以我们要加上分区文件的路径

所有的date类型要改成utf-8，date后面会出现问题

因为我们前面已经指定了格式

这里我们就按照字符串的形式写进去

==================================================================================================================================================

上面设置结束后，我们就可以执行我们的作业

我们再去hive表里面验证一下

8.缓慢变化维问题以及常见解决方案

9.商品案例-每日全量采集方案

10.每日全量案例实现

MySQL&Hive初始化

先创建库

上面表创建成功

增量导入12月20日数据

这里主要是帮我们添加一个分区（如果分区不存在，就添加）

最后双击空白处

调整转换命名参数

上面已经成功导入hive的ods层了，已经查询到

下面再将数据导入维度表，导入dw层

增量导入12月21日数据

运行之后是将数据存储到了ods的12月21号的分区

我们查看一下

如果我们查询的时候没有指定分区，应该有10条数据

增量导入12月22日数据

11.拉链表技术介绍

12.拉链表技术实现-第一次导入数据到拉链表

MySQL&Hive表初始化

这里的表不是分区表了，用一张大表构建

全量导入2019年12月20日数据

13.拉链表技术实现-历史数据更新

增量导入2019年12月21日数据

MySQL数据库导入12月21日数据（6条数据）

这里我们总共要采集001、005、006三条数据

他们的modifytime的字段一定是21号的

使用Kettle开发增量同步MySQL数据到Hive ods层表

这里首先执行的SQL语句是hive进行操作的

这里的SQL操作就是根据modifytime字段，找出新增或者更新的数据

编写SQL处理dw层历史数据，重新计算之前的dw_end_date

=============================

注意：这里很重要，因为有可能我们的表经过多次更新

但我们只需要修改最近一次的更新的那一条数据

14.拉链表技术实现-新增数据插入以及合并

最后的效果

15.

大数据数仓实战项目（离线数仓+实时数仓）2

1.课程目标和课程内容介绍 2.数仓维度建模设计 3.数仓为什么要分层 4.数仓分层思想和作用下面是阿里的一种分层方式 5.数仓中表的种类和同步策略 6.数仓中表字段介绍以及表关系梳理订单表itcast_orders 订单明细表 itcast_order_goods 商品信息表 itcast_goods 店铺表 itcast…...

编程日记 2025/2/5 5:18:08

测试csdn图片发布

测试csdn图片发布 ...

编程日记 2025/2/5 5:16:04

站在JavaScript的视角去看，HTML的DOM和GLTF的Json数据。

很多前端小伙伴没有见过、操作过gltf文件，对非常懵逼，本文从前端小伙伴最熟悉的dom模型为切入口，以类别的方式来学习一下gltf文件。一、结构与组织形式 HTML DOM（文档对象模型）： 树形结构：HT…...

编程日记 2025/2/5 5:15:00

传输层协议 UDP 与 TCP

🌈 个人主页：Zfox_ 🔥 系列专栏：Linux 目录一：🔥 前置复盘🦋 传输层🦋 再谈端口号🦋 端口号范围划分🦋 认识知名端口号 (Well-Know Port Number) 二&#xf…...

编程日记 2025/2/5 5:13:58

VSCode源码分析参考资料

VSCode Architecture Analysis - Electron Project Cross-Platform Best Practices 中文版 VSCode 架构分析 - Electron 项目跨平台最佳实践 Sihan Li博客上的vscode源码分析系列：分析了微服务架构、事件体系、资源管理、配置系统等文召博客上的vscode 源码解析…...

编程日记 2025/2/5 5:11:53

使用VCS对Verilog/System Verilog进行单步调试的步骤

Verilog单步调试： System Verilog进行单步调试的步骤如下： 1. 编译设计使用-debug_all或-debug_pp选项编译设计，生成调试信息。我的4个文件： 1.led.v module led(input clk,input rst_n,output reg led );reg [7:0] cnt;alwa…...

编程日记 2025/2/5 5:10:44

ROS-激光雷达-消息包格式-获取激光雷达数据-激光雷达避障

文章目录激光雷达原理消息包格式获取激光雷达数据激光雷达避障激光雷达原理激光雷达（LiDAR） 是一种利用激光进行距离测量和环境感知的传感器。它通过发射激光束并接收反射光来测量物体的距离，生成点云数据，用于构建环境的三…...

编程日记 2025/2/5 5:09:41

c++之模板进阶

在前面的文章中，我们已经简单的了解了模板的使用，在这篇文章中，我们将继续深入探讨模板 1.模板的特化 1.1 概念通常情况下，使用模板可以实现一些与类型无关的代码，但对于一些特殊类型的可能会得到一些错误的结果&a…...

编程日记 2025/2/5 5:05:37

关于Internet Download Manager(IDM)强制下载合并相关二次开发

目录前言强制下载视频强制合并迁移下载列表免责声明附录前言那个下载工具IDM不说了，确实有很多便捷的功能，不过也有一些限制常见的包括但不限于： 1.无法下载有版权保护的视频（不管真假） 2.有时候下载…...

编程日记 2025/2/5 5:04:36

鸿蒙HarmonyOS Next 视频边播放边缓存- OhosVideoCache

OhosVideoCache 是一个专为OpenHarmony开发(HarmonyOS也可以用)的音视频缓存库，旨在帮助开发者轻松实现音视频的边播放边缓存功能。以下是关于 OhosVideoCache 的详细介绍： 1. 核心功能边播放边缓存：将音视频URL传递给 OhosVideoCache 处理后…...

编程日记 2025/2/5 5:03:35

（10）如何获取 linux 系统上的 TCP 、 UDP 套接字的收发缓存的默认大小，以及代码范例

（1） 先介绍下后面的代码里要用到的基础函数： 以及： （2） 接着给出现代版的读写 socket 参数的系统函数 ： 以及： （3） 给出一言的范例代码，获取…...

编程日记 2025/2/5 5:02:34

程序代码篇---项目目录结构HSV掩膜Opencv图像处理

文章目录前言第一部分：项目目录结构第二部分：HSV提取HSV色调（Hue）含义取值范围饱和度（Saturation）含义取值范围亮度（Value）含义取值范围第三部分：Opencv图像处理1. 读…...

编程日记 2025/2/5 4:59:27

注解与反射基础

注解概述注解（Annotation），从jdk5.0引入。作用不是程序本身，可以对程序作出解释（这一点和注释没什么区别）可以被其他程序读取格式注释是以“注释名”在代码中存在的，还可以添加一些…...

编程日记 2025/2/5 4:54:17

Vue指令v-html

目录一、Vue中的v-html指令是什么？二、v-html指令与v-text指令的区别？ 一、Vue中的v-html指令是什么？ v-html指令的作用是：设置元素的innerHTML，内容中有html结构会被解析为标签。二、v-html指令与v-text指令的区别…...

编程日记 2025/2/5 4:52:15

院校联合以项目驱动联合培养医工计算机AI人才路径探析

一、引言 1.1 研究背景与意义在科技飞速发展的当下，医疗人工智能作为一个极具潜力的新兴领域，正深刻地改变着传统医疗模式。从疾病的早期诊断、个性化治疗方案的制定，到药物研发的加速，人工智能技术的应用极大地提升了医疗服务…...

编程日记 2025/2/5 4:48:05

CDDIS从2025年2月开始数据迁移

CDDIS 将从 2025 年 2 月开始将我们的网站从 cddis.nasa.gov 迁移到 earthdata.nasa.gov，并于 2025 年 6 月结束。期间可能对GAMIT联网数据下载造成影响。...

编程日记 2025/2/5 4:44:56

前端 | JavaScript中的reduce方法

1. 什么是reduce reduce 方法是 JavaScript 中数组的重要方法之一，用于对数组中的元素进行累积计算。它接收一个回调函数作为参数，并返回一个最终计算结果。reduce 在许多场景下都非常有用，比如求和、数组扁平化、对象计数、数据转换等。 2…...

编程日记 2025/2/5 4:43:55

【C++】B2124 判断字符串是否为回文

博客主页： [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 💯前言💯题目描述输入格式：输出格式：样例： 💯方法一：我的第一种做法思路代码实现解析 💯方法二：我…...

编程日记 2025/2/5 4:41:53

人工智能学习（五）之机器学习逻辑回归算法

深入剖析机器学习逻辑回归算法一、引言在机器学习领域，逻辑回归是一种极为经典且应用广泛的算法。虽说名字里带有 “回归”，但它主要用于解决分类问题，在医学、金融、互联网等多个领域都发挥着关键作用。例如，在医学上辅助判断…...

编程日记 2025/2/5 4:37:47

Bash 基础与进阶实践指南

目录 Bash 简介与基础基本命令与文件操作权限管理与用户管理重定向与管道变量与环境变量通配符与正则表达式Shell 脚本结构与控制流常用内建命令与技巧文本处理常用命令作业控制与进程管理别名与函数实用技巧与注意事项更多 Bash 进阶话题参考资源 1. Bash 简介与基础 1.1 什…...

编程日记 2025/2/5 4:35:45

linux之kylin系统nginx的安装

一、nginx的作用 1.可做高性能的web服务器直接处理静态资源（HTML/CSS/图片等），响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器隐藏后端服务器IP地址，提高安全性 3.负载均衡服务器支持多种策略分发流量…...

编程新知 2026/2/8 20:42:56

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

今天呢，博主的学习进度也是步入了Java Mybatis 框架，目前正在逐步杨帆旗航。那么接下来就给大家出一期有关 Mybatis 逆向工程的教学，希望能对大家有所帮助，也特别欢迎大家指点不足之处，小生很乐意接受正确的建议&…...

编程新知 2026/1/31 15:00:15

使用分级同态加密防御梯度泄漏

抽象联邦学习 （FL） 支持跨分布式客户端进行协作模型训练，而无需共享原始数据，这使其成为在互联和自动驾驶汽车 （CAV） 等领域保护隐私的机器学习的一种很有前途的方法。然而，最近的研究表明&…...

编程新知 2026/1/24 6:22:43

涂鸦T5AI手搓语音、emoji、otto机器人从入门到实战

“🤖手搓TuyaAI语音指令 😍秒变表情包大师，让萌系Otto机器人🔥玩出智能新花样！开整！” 🤖 Otto机器人 → 直接点明主体手搓TuyaAI语音 → 强调自主编程/自定义语音控制（TuyaAI…...

编程新知 2026/1/30 16:09:53

数据库分批入库

今天在工作中，遇到一个问题，就是分批查询的时候，由于批次过大导致出现了一些问题，一下是问题描述和解决方案： 示例： // 假设已有数据列表 dataList 和 PreparedStatement pstmt int batchSize 1000; // …...

编程新知 2026/1/8 11:38:36

接口自动化测试：HttpRunner基础

相关文档 HttpRunner V3.x中文文档 HttpRunner 用户指南使用HttpRunner 3.x实现接口自动化测试 HttpRunner介绍 HttpRunner 是一个开源的 API 测试工具，支持 HTTP(S)/HTTP2/WebSocket/RPC 等网络协议，涵盖接口测试、性能测试、数字体验监测等测试类型…...

编程新知 2026/1/29 7:31:17

C语言中提供的第三方库之哈希表实现

一. 简介前面一篇文章简单学习了C语言中第三方库（uthash库）提供对哈希表的操作，文章如下： C语言中提供的第三方库uthash常用接口-CSDN博客本文简单学习一下第三方库 uthash库对哈希表的操作。二. uthash库哈希表操作示例 u…...

编程新知 2025/11/9 14:40:17

Python 高效图像帧提取与视频编码：实战指南

Python 高效图像帧提取与视频编码：实战指南在音视频处理领域，图像帧提取与视频编码是基础但极具挑战性的任务。Python 结合强大的第三方库（如 OpenCV、FFmpeg、PyAV），可以高效处理视频流，实现快速帧提取、压缩编码等关键功能。本文将深入介绍如何优化这些流程，提高处理…...

编程新知 2025/8/31 18:02:53

【1】跨越技术栈鸿沟：字节跳动开源TRAE AI编程IDE的实战体验

2024年初，人工智能编程工具领域发生了一次静默的变革。当字节跳动宣布退出其TRAE项目（一款融合大型语言模型能力的云端AI编程IDE）时，技术社区曾短暂叹息。然而这一退场并非终点——通过开源社区的接力，TRAE在WayToAGI等…...

编程新知 2026/1/31 20:18:53

VSCode 使用CMake 构建 Qt 5 窗口程序

首先，目录结构如下图：运行效果： cmake -B build cmake --build build 运行： windeployqt.exe F:\testQt5\build\Debug\app.exe main.cpp #include "mainwindow.h"#include <QAppli...

编程新知 2026/2/5 4:38:14