当前位置：首页 > news >正文

大数据技术——实战项目：广告数仓（第六部分）报表数据导出至clickhouse

news 2025/7/4 7:00:39

第11章报表数据导出

11.1 Clickhouse安装

11.2 Clickhouse建表

11.2.1 创建database

11.2.2 创建table

11.3 Hive数据导出至Clickhouse

第11章报表数据导出

由于本项目最终要出的报表，要求具备交互功能，以及进行自助分析的能力，所以为保证数据分析的最大灵活度，我们需要提供明细数据。

上述描述对计算引擎提出来了两点要求：

第一点：延迟低，交互式的自助分析，一般都要求低延时。

第二点：支持的数据量大：由于需要计算明细数据，所说数据量相对较大。

综合考虑：我们选择使用clickhouse作为分析引擎。

11.1 Clickhouse安装

Clickhouse的安装和使用可参考以下博客。

大数据技术—— Clickhouse安装-CSDN博客

11.2 Clickhouse建表

11.2.1 创建database

需要先启动hiveserver2，并执行clickhouse-client -m连接server

hadoop102 :)

create database ad_report;

use ad_report;

11.2.2 创建table

drop table if exists dwd_ad_event_inc;
create table if not exists dwd_ad_event_inc
(event_time             Int64 comment '事件时间',event_type             String comment '事件类型',ad_id                  String comment '广告id',ad_name                String comment '广告名称',ad_product_id          String comment '广告产品id',ad_product_name        String comment '广告产品名称',ad_product_price       Decimal(16, 2) comment '广告产品价格',ad_material_id         String comment '广告素材id',ad_material_url        String comment '广告素材url',ad_group_id            String comment '广告组id',platform_id            String comment '推广平台id',platform_name_en       String comment '推广平台名称(英文)',platform_name_zh       String comment '推广平台名称(中文)',client_country         String comment '客户端所处国家',client_area            String comment '客户端所处地区',client_province        String comment '客户端所处省份',client_city            String comment '客户端所处城市',client_ip              String comment '客户端ip地址',client_device_id       String comment '客户端设备id',client_os_type         String comment '客户端操作系统类型',client_os_version      String comment '客户端操作系统版本',client_browser_type    String comment '客户端浏览器类型',client_browser_version String comment '客户端浏览器版本',client_user_agent      String comment '客户端UA',is_invalid_traffic     UInt8 comment '是否是异常流量'
) ENGINE = MergeTree()ORDER BY (event_time, ad_name, event_type, client_province, client_city, client_os_type,client_browser_type, is_invalid_traffic);

11.3 Hive数据导出至Clickhouse

本项目使用spark-sql查询数据，然后通过jdbc写入Clickhouse，具体操作如下：

1）创建Maven项目，pom.xml文件如下

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.atguigu</groupId><artifactId>ad_hive_to_clickhouse</artifactId><version>1.0-SNAPSHOT</version><properties><maven.compiler.source>8</maven.compiler.source><maven.compiler.target>8</maven.compiler.target></properties><dependencies><!-- 引入mysql驱动,目的是访问hive的metastore元数据--><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.0.31</version></dependency><!-- 引入spark-hive模块--><dependency><groupId>org.apache.spark</groupId><artifactId>spark-hive_2.12</artifactId><version>3.3.1</version><scope>provided</scope></dependency><!--引入clickhouse-jdbc驱动,为解决依赖冲突,需排除jackson的两个依赖--><dependency><groupId>ru.yandex.clickhouse</groupId><artifactId>clickhouse-jdbc</artifactId><version>0.2.4</version><exclusions><exclusion><artifactId>jackson-databind</artifactId><groupId>com.fasterxml.jackson.core</groupId></exclusion><exclusion><artifactId>jackson-core</artifactId><groupId>com.fasterxml.jackson.core</groupId></exclusion></exclusions></dependency><!-- 引入commons-cli,目的是方便处理程序的输入参数 --><dependency><groupId>commons-cli</groupId><artifactId>commons-cli</artifactId><version>1.2</version></dependency></dependencies><build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-assembly-plugin</artifactId><version>3.0.0</version><configuration><!--将依赖编译到jar包中--><descriptorRefs><descriptorRef>jar-with-dependencies</descriptorRef></descriptorRefs></configuration><executions><!--配置执行器--><execution><id>make-assembly</id><!--绑定到package执行周期上--><phase>package</phase><goals><!--只运行一次--><goal>single</goal></goals></execution></executions></plugin></plugins></build></project>

2）创建com.atguigu.ad.spark.HiveToClickhouse类，并编辑如下内容

package com.atguigu.ad.spark;import org.apache.commons.cli.*;
import org.apache.spark.SparkConf;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SaveMode;
import org.apache.spark.sql.SparkSession;public class HiveToClickhouse {public static void main(String[] args) {// 使用common-cli处理传入参数// 1 定义能够传入哪些参数Options options = new Options();options.addOption(OptionBuilder.withLongOpt("hive_db").withDescription("hive数据库名称(required)").hasArg(true).isRequired(true).create());options.addOption(OptionBuilder.withLongOpt("hive_table").withDescription("hive表名称(required)").hasArg(true).isRequired(true).create());options.addOption(OptionBuilder.withLongOpt("hive_partition").withDescription("hive分区(required)").hasArg(true).isRequired(true).create());options.addOption(OptionBuilder.withLongOpt("ck_url").withDescription("clickhouse的jdbc url(required)").hasArg(true).isRequired(true).create());options.addOption(OptionBuilder.withLongOpt("ck_table").withDescription("clickhouse表名称(required)").hasArg(true).isRequired(true).create());options.addOption(OptionBuilder.withLongOpt("batch_size").withDescription("数据写入clickhouse时的批次大小(required)").hasArg(true).isRequired(true).create());// 2 解析参数GnuParser gnuParser = new GnuParser();CommandLine cmd = null;try {cmd = gnuParser.parse(options, args);} catch (ParseException e) {e.printStackTrace();return;}// 创建spark-sql环境SparkConf conf = new SparkConf().setAppName("HiveToClickhouse");SparkSession sparkSession = SparkSession.builder().enableHiveSupport().config(conf).getOrCreate();// 读取hive中的数据//5.设置如下参数,支持使用正则表达式匹配查询字段sparkSession.sql("set spark.sql.parser.quotedRegexColumnNames=true");Dataset<Row> dataset = sparkSession.sql("" +"select `(dt)?+.+` from " + cmd.getOptionValue("hive_db") + "." + cmd.getOptionValue("hive_table") + " where dt='" + cmd.getOptionValue("hive_partition") + "'");// 写入到clickhouse中dataset.write().format("jdbc").mode(SaveMode.Append).option("url",cmd.getOptionValue("ck_url")).option("driver","ru.yandex.clickhouse.ClickHouseDriver").option("dbtable",cmd.getOptionValue("ck_table")).option("batch_size",cmd.getOptionValue("batch_size")).save();sparkSession.close();}}

3）上传hive-site.xml、文件到项目的resource目录下

4）打包，并上传xxx-jar-with-dependencies.jar到hadoop102节点/opt/module/spark

5）执行如下命令测试

spark-submit   \
--class com.atguigu.ad.spark.HiveToClickhouse \
--master yarn   \
ad_hive_to_clickhouse-1.0-SNAPSHOT-jar-with-dependencies.jar   \
--hive_db ad   \
--hive_table dwd_ad_event_inc \
--hive_partition 2023-01-07   \
--ck_url  jdbc:clickhouse://hadoop102:8123/ad_report   \
--ck_table dwd_ad_event_inc   \
--batch_size 1000

6) 在clickhouse中运行select * from dwd_ad_event_inc; ，可看到数据已经导入clickhouse

注意事项：

（1）本地安装的Spark，需由原来数仓安装的纯净版，替换为：

https://archive.apache.org/dist/spark/spark-3.3.0/spark-3.3.0-bin-hadoop3.tgz

（2）为保证之前数仓的hive on spark环境可继续使用，需要在$HIVE_HOME/conf/spark-defaults.conf中增加如下参数：

spark.yarn.populateHadoopClasspath true

增加原因如下：

Running Spark on YARN - Spark 3.5.2 Documentation

（3）为保证任务可提交到yarn运行，需在$SPARK_HOME/conf/spark-env.sh文件中增加如下参数：

export HADOOP_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop/

我们此项目安装的不是纯净版，所以不需要执行此操作。

前面章节：

大数据项目——实战项目：广告数仓（第一部分）-CSDN博客

大数据项目——实战项目：广告数仓（第二部分）-CSDN博客

大数据技术——实战项目：广告数仓（第三部分）-CSDN博客

大数据技术——实战项目：广告数仓（第四部分）-CSDN博客

大数据技术——实战项目：广告数仓（第五部分）-CSDN博客

大数据技术——实战项目：广告数仓（第六部分）报表数据导出至clickhouse

目录第11章报表数据导出 11.1 Clickhouse安装 11.2 Clickhouse建表 11.2.1 创建database 11.2.2 创建table 11.3 Hive数据导出至Clickhouse 第11章报表数据导出由于本项目最终要出的报表，要求具备交互功能，以及进行自助分析的能力，…...

编程日记 2024/8/19 9:04:46

Android studio模拟制作-简易的订餐交易小案例

一、最终呈现效果订餐支付小案例效果二、布局设计activity_main.xml <?xml version"1.0" encoding"utf-8"?> <androidx.constraintlayout.widget.ConstraintLayout xmlns:android"http://schemas.android.com/apk/res/android"xml…...

编程日记 2024/8/19 9:01:41

消防隐患在线小程序的设计

管理员账户功能包括：系统首页，个人中心，用户管理，消防隐患举报管理，消防隐患分类管理，统计分类管理，处理结果管理，系统管理微信端账号功能包括：系统首页，我…...

编程日记 2024/8/19 8:57:36

【Vue3】路由Params传参

【Vue3】路由Params传参背景简介开发环境开发步骤及源码总结背景随着年龄的增长，很多曾经烂熟于心的技术原理已被岁月摩擦得愈发模糊起来，技术出身的人总是很难放下一些执念，遂将这些知识整理成文，以纪念曾经努力学习奋斗的日…...

编程日记 2024/8/19 8:56:33

授权cleanmymac访问全部磁盘 Mac授权访问权限 cleanmymac缺少权限

CleanMyMac是Mac系统下的一款专业的苹果电脑清理软件，同时也是一款优秀的电脑系统管理软件。它能有效清理系统垃圾，快速释放磁盘内存，缓解卡顿现象，保障系统顺畅地运行。全磁盘访问权限，就好比机场内进行的安全检查。…...

编程日记 2024/8/19 8:55:31

Ubuntu/18.04 LTS下编译 BoringSSL 库

1、准备一个 Ubuntu/18.04 LTS 系统的设备 2、安装软件 GIT、GCC、CMAKE、G、Golang:1.16 及以上版本 3、克隆仓库源 git clone https://boringssl.googlesource.com/boringssl cd boringssl 4、使用特定版本 git checkout 9fc1c33e9c21439ce5f87855a6591a9324e569fd 5、编…...

编程日记 2024/8/19 8:51:26

【stm32项目】多功能智能家居室内灯光控制系统设计与实现（完整工程资料源码）

多功能智能家居室内灯光控制系统设计与实现目录： 目录： 前言： 一、项目背景与目标二、国内外研究现状： 2.1 国内研究现状： 2.2 国外研究现状： 2.3 发展趋势三、硬件电路设计 3.1 总体概述 3.2 硬件连接总…...

编程日记 2024/8/19 8:43:12

xss靶场详解

目录 1.第一题 2.第二题 3.第三题 4.第四题 5.第五题 6.第六题 7.第七题 8.第八题 1.第一题在源码script标签里边，innerhtml是用于访问或修改 HTML 元素内的 HTML 内容的，这里是访问spaghet这个元素的，并通过括号里面的东西搜索当前…...

编程日记 2024/8/19 8:42:11

华为的流程管理

华为建设流程体系始于2000年，那时华为公司面临着快速扩张和全球化发展的挑战，意识到传统的管理模式已经无法满足业务发展的需求。为了提高公司的管理效率和竞争优势，华为决定启动流程体系的建设。在建设过程中，华为借鉴了业界最佳…...

编程日记 2024/8/19 8:40:08

操作系统Linux

1.Linux命令 ls：查看当前目录下所有目录和文件ps：查看所有正在运行的进程top：显示当前系统中占用资源最多的一些进程，shiftm按照内存查看大小netstat：查看端口的命令vi：查看文件的命令rm：删除文…...

编程日记 2024/8/19 8:37:05

1、.Net UI框架：MAUI - .Net宣传系列文章

.NET MAUI(Multi-platform App UI)是一个跨平台的UI框架，它是.NET统一应用模型的一部分，允许开发者使用C#和.NET来创建适用于iOS、Android、macOS和Windows的应用程序。MAUI继承了Xamarin.Forms的一些概念，但提供了更多的原生平台集成和改进的…...

编程日记 2024/8/19 8:32:00

Spring boot 使用 jSerialComm 对串口使用发送信息并接收

什么是 jSerialComm？ jSerialComm 是一个 Java 库，旨在提供一种独立于平台的方式来访问标准串行端口，而无需外部库、本机代码或任何其他工具。它旨在替代 RxTx 和（已弃用的）Java Communications API，具有更…...

编程日记 2024/8/19 8:30:58

江协科技STM32学习笔记（第10章 SPI通信)

第10章 SPI通信 10.1 SPI通信协议 10.1.1 SPI通信 SPI（Serial Peripheral Interface）是由Motorola公司开发的一种通用数据总线； 串行外设接口； I2C无论是软件还是软件电路，设计的都还是比较复杂的，硬件…...

编程日记 2024/8/19 8:29:55

力扣热题100_回溯_22_括号生成

文章目录题目链接解题思路解题代码题目链接 22. 括号生成数字 n 代表生成括号的对数，请你设计一个函数，用于能够生成所有可能的并且有效的括号组合。示例 1： 输入：n 3 输出：[“((()))”,“(()())”,“(())()…...

编程日记 2024/8/19 8:26:51

【k8s】ubuntu24.04 containerd 手动从1.7.15 换为1.7.20

24.04的这个应该是apt 安装的1.7.20-1 root@k8s-master-pfsrv:~# sudo apt update && sudo apt install containerd.io -y 命中:1 http://mirrors.aliyun.com/docker-ce/linux/ubuntu noble InRelease 命中:2 https://dl.google.com/linux/chrome/deb stable InRelease…...

编程日记 2024/8/19 8:25:50

Java二十三种设计模式-备忘录模式（19/23）

本文深入探讨了备忘录模式，从定义、组成、实现到使用场景、优缺点、与其他模式的比较，以及最佳实践和替代方案，全面解析了如何在软件开发中有效地保存和恢复对象状态，以支持复杂的撤销操作和历史状态管理。备忘录模式&#xff1a…...

编程日记 2024/8/19 8:23:47

js一些杂乱理解

js 的值类型和引用类型引用类型:object,array,function值类型:诸如number,stringboolean,null,Undefined,Symbol js使用变量访问对象属性示例 var myDog "Hunter"; var dogs { Fido: "Mutt", Hunter: "Doberman", Snoopie: "Beagle&q…...

编程日记 2024/8/19 8:21:45

机器学习之线性回归算法

目录线性回归：理解与应用什么是线性回归？ 一元线性回归正态分布的重要性多元线性回归实例讲解数据准备数据分析构建模型训练模型验证模型应用模型代码实现线性回归：理解与应用线性回归是一种广泛使用的统计方法&…...

编程日记 2024/8/19 8:20:43

ThreadLoad如何防止内存溢出

优质博文：IT-BLOG-CN 从 ThreadLocalMap看 ThreadLocal使用不当的内存泄漏问题【1】基础概念 ： 首先我们先看看ThreadLocalMap的类图，我们知道 ThreadLocal只是一个工具类，他为用户提供get、set、remove接口操作实际存放本地变…...

编程日记 2024/8/19 8:19:42

2024.8.19 学习记录 —— 作业

一、TCP机械臂测试 #include <myhead.h>#define SER_PORT 8888 // 与服务器保持一致 #define SER_IP "192.168.0.114" // 服务器ip地址int main(int argc, const char *argv[]) {// 创建文件描述符打开键盘文件int fd open("/dev/input/event1…...

编程日记 2024/8/19 8:16:37

蓝牙 BLE 扫描面试题大全(2)：进阶面试题与实战演练

前文覆盖了 BLE 扫描的基础概念与经典问题蓝牙 BLE 扫描面试题大全(1)：从基础到实战的深度解析-CSDN博客，但实际面试中，企业更关注候选人对复杂场景的应对能力（如多设备并发扫描、低功耗与高发现率的平衡）和前沿技术的…...

编程新知 2025/6/26 11:26:20

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪宝可梦GO游戏自组网系统

目录游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性宝可梦玩法融合设计游戏构想要素1. 地图探索（基于物理空间广播范围）2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法安全性设计技术选…...

编程新知 2025/6/26 5:08:48

Web 架构之 CDN 加速原理与落地实践

文章目录一、思维导图二、正文内容（一）CDN 基础概念1. 定义2. 组成部分 （二）CDN 加速原理1. 请求路由2. 内容缓存3. 内容更新 （三）CDN 落地实践1. 选择 CDN 服务商2. 配置 CDN3. 集成到 Web 架构 &#xf…...

编程新知 2025/6/15 11:17:52

PAN/FPN

import torch import torch.nn as nn import torch.nn.functional as F import mathclass LowResQueryHighResKVAttention(nn.Module):"""方案 1: 低分辨率特征 (Query) 查询高分辨率特征 (Key, Value).输出分辨率与低分辨率输入相同。"""def __…...

编程新知 2025/6/17 23:45:45

给网站添加live2d看板娘

给网站添加live2d看板娘参考文献： stevenjoezhang/live2d-widget: 把萌萌哒的看板娘抱回家 (ノ≧∇≦)ノ | Live2D widget for web platformEikanya/Live2d-model: Live2d model collectionzenghongtu/live2d-model-assets 前言网站环境如下，文章也主…...

编程新知 2025/6/26 22:52:06

Leetcode33（搜索旋转排序数组）

题目表述整数数组 nums 按升序排列，数组中的值互不相同。在传递给函数之前，nums 在预先未知的某个下标 k（0 < k < nums.length）上进行了旋转，使数组变为 [nums[k], nums[k1], …, nums[n-1], nums[0], nu…...

编程新知 2025/6/21 10:07:27

【Veristand】Veristand环境安装教程-Linux RT / Windows

首先声明，此教程是针对Simulink编译模型并导入Veristand中编写的，同时需要注意的是老用户编译可能用的是Veristand Model Framework，那个是历史版本，且NI不会再维护，新版本编译支持为VeriStand Model Generation Suppo…...

编程新知 2025/6/29 16:01:11

多元隐函数偏导公式

我们来推导隐函数 z z ( x , y ) z z(x, y) zz(x,y) 的偏导公式，给定一个隐函数关系： F ( x , y , z ( x , y ) ) 0 F(x, y, z(x, y)) 0 F(x,y,z(x,y))0 🧠 目标： 求 ∂ z ∂ x \frac{\partial z}{\partial x} ∂x∂z、 …...

编程新知 2025/6/16 14:58:05

MeshGPT 笔记

[2311.15475] MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers https://library.scholarcy.com/try 真正意义上的AI生成三维模型MESHGPT来袭！_哔哩哔哩_bilibili GitHub - lucidrains/meshgpt-pytorch: Implementation of MeshGPT, SOTA Me…...

编程新知 2025/7/3 10:28:43

SQL注入篇-sqlmap的配置和使用

在之前的皮卡丘靶场第五期SQL注入的内容中我们谈到了sqlmap，但是由于很多朋友看不了解命令行格式，所以是纯手动获取数据库信息的接下来我们就用sqlmap来进行皮卡丘靶场的sql注入学习，链接：https://wwhc.lanzoue.com/ifJY32ybh6vc…...

编程新知 2025/7/3 10:26:55

第11章 报表数据导出

11.1 Clickhouse安装

11.2 Clickhouse建表

11.2.1 创建database

11.2.2 创建table

11.3 Hive数据导出至Clickhouse

相关文章：

第11章报表数据导出