当前位置：首页 > news >正文

大数据-141 - ClickHouse 集群副本和分片 Zk 的配置 Replicated MergeTree原理详解

news 2026/5/31 17:05:29

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（已更完）
Flink（已更完）
ClickHouse（正在更新···）

章节内容

上节我们完成了如下的内容：

MergeTree 的最后一个：CollapsingMergeTree
ClickHouse 其他数据源：HDFS MySQL
附带实现案例

在这里插入图片描述

副本介绍

ReplicatedMergeTree
ZooKeeper：实现多个实例之间的通信。

副本的特点

作为数据副本的主要载体，ReplicatedMergeTree在设计上有一些缺点：

依赖ZooKeeper: 在执行INSERT和ALTER查询的时候，ReplicatedMergeTree需要借助ZooKeeper的分布式协同功能，以实现多个副本之间的同步。但是在查询副本的时候，并不需要ZooKeeper。
表级别的副本：副本是在表级别定义的，所以每张表的副本配置都可以按照它的实际需求进行个性化定义，包括副本的数量，以及副本在集群内的分布位置等。
多主架构（Multi Master）：可以在任意一个副本上执行INSERT和ALTER查询，他们效果是相同的，这些操作会借助ZooKeeper的协同能力被分发至每个副本以本地的形式执行。
Block数据块，在执行INSERT命令写入数据时，会依据max_block_size的大小（默认1048576行）将数据切分成若干个Block数据块。所以Block数据块是数据写入的基本单元，并且具有写入的原子性和唯一性。
原子性：在数据写入时，一个Block块内的数据要么全部写入成功，要不全部失败。
唯一性：在写一个Block数据块的时候，会按照当前Block数据块的数据顺序、数据行和数据大小等指标，计算Hash信息摘要并记录在案。在此之后，如果某个待写入的Block数据块与先前被写入的Block数据块拥有相同的Hash摘要（Block数据块内数据顺序、数据大小和数据行均相同），则该Block数据块会被忽略，这项设计可以预防由异常原因引起的Block数据块重复写入问题。

ZK的配置

之前配置
之前章节我们已经配置过了ZK，配置好了集群模式。
这里简单提一下，如果你没有做好，你需要回去之前的章节完成。

<yandex><zookeeper-servers><node index="1"><host>h121.wzk.icu</host><port>2181</port></node><node index="2"><host>h122.wzk.icu</host><port>2181</port></node><node index="3"><host>h123.wzk.icu</host><port>2181</port></node></zookeeper-servers>
</yandex>

开启ZK

但是我们没有开启ZK，我们需要在配置文件中开启：

vim /etc/clickhouse-server/config.xml# 在之前配置的地方，再加入一行
<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from>
# 之前没有下面的一行
<zookeeper incl="zookeeper-servers" optional="true" />

配置结果如下图所示：
在这里插入图片描述

重启服务

systemctl restart clickhouse-server

检验结果

# 连接到ClickHouse
clickhouse-client -m --host h121.wzk.icu --port 9001 --user default --password clickhouse@wzk.icu

接着执行SQL检查是否成功链接到了 ZooKeeper

SELECT * FROM system.zookeeper WHERE path = '/';

执行结果如下图，如果你也是这样的没有报错，说明配置ZooKeeper服务成功！
在这里插入图片描述

集群配置

如果有需要，记得将其他的节点都按照如上配置方式配置完毕。

副本定义形式

创建新表

CREATE TABLE replicated_sales_5(`id` String,`price` Float64,`create_time` DateTime
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/01/replicated_sales_5', 'h121.wzk.icu')
PARTITION BY toYYYYMM(create_time)
ORDER BY id;

/clickhouse/tables 约定俗成的路径
/01/ 分片编号
replicated_sales_5 数据表的名字建议与物理表名字相同
h121.wzk.icu 在ZK中创建副本的名称，约定俗成是服务器的名称

执行结果如下图所示：
在这里插入图片描述

查询结果

可以检查刚才的操作结果：

select * from system.zookeeper where path = '/clickhouse';

执行结果内容如下：
在这里插入图片描述

查看ZK

进入到ZK中，对数据进行查看：

zkCli.sh

执行结果如下图所示：
在这里插入图片描述

ReplicatedMergeTree原理

数据结构

[zk: localhost:2181(CONNECTED) 7] ls /clickhouse/tables/01/replicated_sales_5
[alter_partition_version, block_numbers, blocks, columns, leader_election, log, metadata, mutations, nonincrement_block_numbers, part_moves_shard, pinned_part_uuids, quorum, replicas, table_shared_id, temp, zero_copy_hdfs, zero_copy_s3]
[zk: localhost:2181(CONNECTED) 8]

元数据：

metadata：元数信息主键、采样表达式、分区键
columns：列的字段的数据类型、字段名
replicats：副本的名称

标志：

leader_eletion：主副本的选举路径
blocks：hash值（复制数据重复插入）、partition_id
max_insert_block_size: 1048576行
block_numbers：在同一分区下block的顺序
quorum：副本的数据量

操作类：

log：log-000000 常规操作
mutations：delete update

创建新表1

在当前机器上建立新表：

CREATE TABLE a1(id String,price Float64,create_time DateTime
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/01/a1', 'h121.wzk.icu')
PARTITION BY toYYYYMM(create_time)
ORDER BY id;

根据zk_path初始化所有的zk节点
在replicas节点下注册自己的副本实例 h121.wzk.icu
启动监听任务监听LOG日志节点
参与副本选举，选出主副本，选举的方式是向 leader_election 插入子节点，第一个插入成功的副本就是主副本

执行结果如下图所示：
在这里插入图片描述

创建新表2

创建第二个副本实例（注意，当前我们需要连接到 h122 节点上）：

clickhouse-client -m --host h122.wzk.icu --port 9001 --user default --password clickhouse@wzk.icu

执行对应的 SQL：

CREATE TABLE a1(id String,price Float64,create_time DateTime
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/01/a1', 'h122.wzk.icu')
PARTITION BY toYYYYMM(create_time)
ORDER BY id;

执行的结果如下图所示：
在这里插入图片描述

此时参与副本选举，h121.wzk.icu 副本成为了主副本。

插入数据1

目前我们在 h121.wzk.icu 插入数据：

insert into table a1 values('A001',100,'2024-08-20 08:00:00');

执行上述内容结果为：
在这里插入图片描述

查看结果

执行完后，我们在ZK上查看数据：

ls /clickhouse/tables/01/a1/blocks

输出了如下的内容，插入命令执行后，在本地完成分区的目录的写入，接着向Block写入该分区的block_id：

[zk: localhost:2181(CONNECTED) 6] ls /clickhouse/tables/01/a1/blocks
[202408_16261221490105862188_1058020630609096934]
[zk: localhost:2181(CONNECTED) 7]

查看日志

接下来，h121.wzk.icu 副本发起向 log 日志推送操作日志：

[zk: localhost:2181(CONNECTED) 7] ls /clickhouse/tables/01/a1/log
[log-0000000000]
[zk: localhost:2181(CONNECTED) 8]

再次插入一条数据：

insert into table a1 values('A002',200,'2024-08-21 08:00:00');

查看 LOG 日志：

ls /clickhouse/tables/01/a1/log
get /clickhouse/tables/01/a1/log/log-0000000000
get /clickhouse/tables/01/a1/log/log-0000000001

输出内容如下：

[zk: localhost:2181(CONNECTED) 14] ls /clickhouse/tables/01/a1/log
[log-0000000000, log-0000000001][zk: localhost:2181(CONNECTED) 13] get /clickhouse/tables/01/a1/log/log-0000000000
format version: 4
create_time: 2024-08-01 17:10:35
source replica: h121.wzk.icu
block_id: 202408_16261221490105862188_1058020630609096934
get
202408_0_0_0
part_type: Compact[zk: localhost:2181(CONNECTED) 16] get /clickhouse/tables/01/a1/log/log-0000000001
format version: 4
create_time: 2024-08-01 17:16:37
source replica: h121.wzk.icu
block_id: 202408_3260633639629896920_11326802927295833243
get
202408_1_1_0
part_type: Compact

拉取日志

接下来，第二个副本拉取Log日志：
h122.wzk.icu节点会一直监听 /log 节点的变化，当h121.wzk.icu推送了/log/log-000000、0000001之后，h122.wzk.icu节点便会触发日志的拉取任务，并更新 log_pointer。

[zk: localhost:2181(CONNECTED) 18] ls /clickhouse/tables/01/a1/replicas
[h121.wzk.icu, h122.wzk.icu]
[zk: localhost:2181(CONNECTED) 19] ls /clickhouse/tables/01/a1/replicas/h122.wzk.icu
[columns, flags, host, is_active, is_lost, log_pointer, max_processed_insert_time, metadata, metadata_version, min_unprocessed_insert_time, mutation_pointer, parts, queue]
[zk: localhost:2181(CONNECTED) 20] ls /clickhouse/tables/01/a1/replicas/h122.wzk.icu/log_pointer
[]
[zk: localhost:2181(CONNECTED) 21] get /clickhouse/tables/01/a1/replicas/h122.wzk.icu/log_pointer
2
[zk: localhost:2181(CONNECTED) 22] get /clickhouse/tables/01/a1/replicas/h121.wzk.icu/log_pointer
2
[zk: localhost:2181(CONNECTED) 23]

执行结果如下图所示：
在这里插入图片描述

大数据-141 - ClickHouse 集群副本和分片 Zk 的配置 Replicated MergeTree原理详解

点一下关注吧！！！非常感谢！！持续更新！！！ 目前已经更新到了： Hadoop（已更完）HDFS（已更完）MapReduce（已更完&am…...

编程日记 2024/9/21 5:32:21

Django-cookie和session

文章目录前言CookieSession 一、Django 中 Cookie二、Django 中 Session三.区别前言 Cookie Cookie 是由服务器发送到用户浏览器的小文件，用于存储用户的相关信息。每次用户访问网站时，浏览器会将这些 cookie 发送回服务器特点: 1. 数据存储在客户…...

编程日记 2024/9/21 5:31:20

前端进阶，使用Node.js做中间层，实现接口转发和服务器渲染

在Web开发中，Node.js经常被用作中间层（也称为后端或服务器端），用于处理各种任务，包括接口转发（API Gateway）、服务器渲染（Server-Side Rendering, SSR）等。下面我将分别解…...

编程日记 2024/9/21 5:30:17

iPhone 16系列：熟悉的味道，全新的体验

来看看iPhone 16和Plus这两个新成员，实话说，它们和之前曝光的样子几乎完全一致。下面我们就一起来细数一下这次的几大变化吧。外观设计：焕然一新首先，最显眼的变化就是后置镜头模组的布局调整为了垂直排列。这一改变使得整个背…...

编程日记 2024/9/21 5:29:16

改进拖放PDF转换为图片在转换为TXT文件的程序

前段时间我写了Python识别拖放的PDF文件再转成文本文件-CSDN博客最近有2点更新，一是有一些pdf文件转换出来的图片是横的，这样也可以识别文字，但是可能会影响效果，另一个是发现有一些文字识别不出来，看了关于提高Padd…...

编程日记 2024/9/21 5:28:15

在 Flutter 开发中如何选择状态管理：Provider 和 GetX 比较

在 Flutter 开发中，状态管理是一个至关重要的部分。正确的状态管理方案能够提高应用的可维护性和可扩展性。在众多状态管理方案中，Provider 和 GetX 是两种非常流行的选择。本文将对这两者进行比较，并提供代码示例，以帮助开发者选…...

编程日记 2024/9/21 5:27:14

python中ocr图片文字识别样例（二）

一、说明本次解决图片相关出现中文乱码问题，属于上篇文章的优化，前提条件依赖上篇文章的包，当然ocr的具体应用场景很多，根据自身需求进行调整二、具体实现 2.1 代码实现： # -*- coding: utf-8 -*- import easyoc…...

编程日记 2024/9/21 5:24:12

2024 新手指南：轻松掌握 Win10 的录屏操作

之前为了节约成本我们公司都采用录制软件操作都方式来为异地的同事进行远程操作培训的。所以我们尝试了不少的录屏工具，这里我就分享下win10怎么录屏的操作过程。 1.福昕录屏大师链接：www.foxitsoftware.cn/REC/ 这款录屏工具是初学者的理想之选&…...

编程日记 2024/9/21 5:23:08

无人机黑飞打击技术详解

随着无人机技术的普及，无人机“黑飞”（未经授权或违反规定的飞行）现象日益严重，对公共安全、隐私保护及重要设施安全构成了严重威胁。为有效应对这一挑战，各国政府和安全机构纷纷研发并部署了一系列无人机黑飞打击技术…...

编程日记 2024/9/21 5:22:07

GoFly快速开发框架/Go语言封装的图像相似性比较插件使用说明

说明图像相似性搜索应用广泛、除了使用搜索引擎搜索类似图片外，像淘宝可以让顾客直接拍照搜索类似的商品信息、应用在商品购物上，也可以应用物体识别比如拍图识花等领域。还有在调研图片鉴权的方案，通过一张图片和图片库中的图片进行比对&a…...

编程日记 2024/9/21 5:21:06

【牛客】小白赛101-B--tb的字符串问题

题目传送门思路：括号匹配板子反思：我用了模拟打标记的方式但是还是wa了 ac代码用了栈维护当栈里面个数到达1个以上的时候就可以判断栈顶是否匹配然后重复出入栈操作 #include<bits/stdc.h> using namespace std; const int N1e63; string…...

编程日记 2024/9/21 5:20:05

企业专用智能云盘 | 帮助企业便捷管控企业文档 | 天锐绿盘云文档安全管理系统

由于当前多数企业内部的办公文件普遍散落于各员工电脑中，导致存在诸多潜在的文档使用风险。为优化团队协作效率，天锐绿盘是一款集文档统一管理、高效协同于一体的企业云盘，帮助企业解决文档管理中的诸多难题。【地址：点击了解天…...

编程日记 2024/9/21 5:19:04

软件工程专业未来发展方向

1. 前端开发（Front-end Development） 简介： 前端开发者专注于网站和应用程序的用户界面和用户体验设计。他们使用HTML、CSS、JavaScript等基本技术，以及React、Angular、Vue.js等前端框架，来创建互动性强、响应迅速的…...

编程日记 2024/9/21 5:15:01

【204】C++的vector删除重复元素

有些场景下 vector 中会有重复元素，而业务要求 vector 中避免出现重复元素。我的算法如下： 获取当前 vector 的元素数量，并保存到一个 int 类型变量中。开启一个外部循环，把 vector 从后向前循环，循环范围是最后一个…...

编程日记 2024/9/21 5:12:58

模型案例：| 行李检测模型!

导读 2023年以ChatGPT为代表的大语言模型横空出世，它的出现标志着自然语言处理领域取得了重大突破。它在文本生成、对话系统和语言理解等方面展现出了强大的能力，为人工智能技术的发展开辟了新的可能性。同时，人工智能技术正在进入各种应用领…...

编程日记 2024/9/21 5:10:43

【PostgreSQL】PostgreSQL SQL语句整理：掌握核心技能

在数据库管理的世界里，PostgreSQL以其强大的功能和灵活性而闻名。作为一名数据库开发者或者数据分析师，熟练掌握SQL语句是必不可少的。在本文中，我们将梳理一系列常用的PostgreSQL SQL语句，帮助你更高效地管理你的数据库。基础操…...

编程日记 2024/9/21 5:09:30

电风扇制造5G智能工厂物联数字孪生平台，推进制造业数字化转型

电风扇正悄然成为制造业数字化转型浪潮中的一颗璀璨新星。通过构建5G智能工厂物联数字孪生平台，电风扇制造业正以前所未有的速度和精度，推进着整个行业的智能化、网络化与个性化发展。5G技术的飞速发展，为制造业带来了前所未有的通信速度和低…...

编程日记 2024/9/21 5:08:28

Zookeeper安装使用教程

# 安装官网下载安装包 #配置文件端口默认8080，可能需要更改一下 #启动 cd /Users/lisongsong/software/apache-zookeeper-3.7.2-bin/bin ./zkServer.sh start #查看运行状态 ./zkServer.sh status #停止 ./zkServer.sh stop #启动客户端 ./zkCli.sh ls /...

编程日记 2024/9/21 5:07:28

作业 1、 #!/bin/bash mkdir -p ~/dir/dir1 mkdir ~/dir/dir2 cp ./* ~/dir/dir1 cp ./*.sh ~/dir/dir2 cd ~/dir/ tar -cvJf dir2.tar.xz ./dir2 mv dir2.tar.xz ~/dir/dir1/ cd ~/dir/dir1/ tar -xvf dir2.tar.xz 2、 #!/bin/bash head -5 /etc/group | tail -1 sudo mkdi…...

编程日记 2024/9/21 5:06:26

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

章节内容

副本介绍

副本的特点

ZK的配置

开启ZK

重启服务

检验结果

集群配置

副本定义形式

创建新表

查询结果

查看ZK

ReplicatedMergeTree原理

数据结构

创建新表1

创建新表2

插入数据1

查看结果

查看日志

拉取日志

相关文章：