当前位置: 首页 > news >正文

Clickhouse学习(一):MergeTree概述

MergeTree

  • 一、Clickhouse表引擎概述
  • 二、MergeTree表引擎
    • <一>、ReplacingMergeTree引擎
    • <二>、SummingMergeTree引擎
    • <三>、AggregatingMergeTree引擎
  • 三、MergeTree分区

一、Clickhouse表引擎概述

  • MergeTree表引擎:允许根据日期和主键创建索引

    1、ReplacingMergeTree:该引擎和 MergeTree 的不同之处在于它会删除具有相同主键的重复项。数据 的去重只会在合并的过程中出现。因此,ReplacingMergeTree 适用于在后台清除重复的数据以节省空 间,但是它不保证没有重复的数据出现。
    2、SummingMergeTree:把所有具有相同主键的行合并为一行,并添加合并行的聚合值。如果单个键值 对应于大量的行,则可以显著的减少存储空间并加快数据查询的速度。
    3、AggregatingMergeTree:将相同主键的所有行(在一个数据片段内)替换为单个存储一系列聚合函 数状态的行。可以使用 AggregatingMergeTree 表来做增量数据统计聚合,包括物化视图的数据聚合

  • Distributed分布式引擎本身不存储数据,但可以在多个服务器上进行分布式查询

  • 外部存储表引擎,如HDFS、Mysql、JDBC、Kafka、File,相当于外部数据源

  • 内存表引擎,如Memory、Set、Join、Buffer,实现内存加速和各种功能

  • 还有其他如日志表引擎、接口引擎(自定义)、Null表引擎、URL表引擎

二、MergeTree表引擎

在这里插入图片描述
需要注意两点:

  • MergeTree的主键(primary key)只是用来生成一级索引(primary)的,并没有唯一性约束这样的语义;order by决定了每个分区中数据的排序规则,order by可以指代primary key,通常只用声明order by即可
  • 通常只有SummingMergeTree或AggregatingMergeTree的时候,才需要同时设置order by和primary
    key,显式的设置primary key,是为了将主键和排序键设置成不同的值,是进一步优化的体现,比如聚合条件group by a,b,c,过滤条件where A,此时order by a,b,c,primary key a,注意,如果order by和primary key不同,primary key必须是order by的前缀(为了保证分区内数据和逐渐的有序性)

<一>、ReplacingMergeTree引擎

设计为相同分区的数据进行数据去重

  • 使用order by排序键作为唯一键
  • 以分区为单位进行去重,只在分区合并时进行触发
  • 如果参数没设置列,则保留重复数据的最后一行
  • 如果参数设置了列,则保留重复数据中取值最大的一行

<二>、SummingMergeTree引擎

只需要根据group by条件得到汇总结果(sum),不关心明细数据,解决存储和查询的开销

  • 使用order by排序键作为聚合汇总的条件key
  • 以分区为单位进行聚合,只在分区合并时进行触发
  • 如果指定了columns汇总列,则sum汇总这些字段
  • 如果未指定columns汇总列,则sum汇总在所有非主键的数值类型字段
  • 如果order by和primary key的字段不相同,pk列字段必须是order by的前缀,即order by(b,c)
    primary key A不合法
  • 非聚合字段,使用第一行数据的取值

<三>、AggregatingMergeTree引擎

AggregatingMergeTree是SummingMergeTree的升级版。聚合函数通过AggregateFunction实现

  • 使用order by排序键作为聚合数据的条件key
  • 以分区为单位进行聚合,只在分区合并时触发
  • 不需要指定列,但需要通过AggregateFunction声明
  • 写入数据时,需要调用State;读取数据,需要调用Merge
  • 数据不能通过普通的insert插入,而只能通过insert into select

三、MergeTree分区

MergeTree…Partition By toYYYYMM(Date)

  • ClickHouse的表可以根据任意表达式分区
  • 不同分区不会合并
  • 合并可以通过optimize table命令触发
  • 可以对分区进行操作

在MergeTree引擎下,每次insert into,即使数据属于同一个分区,但数据在存储上都会生成一个新的分区目录.目录名为201909_1_1_0
命名规范:
parititionId_minBlockNum_maxBlockNum_level
BlockNum:数据表全局自增,初始值从1开始,新建分区minBlockNum和maxBlockNum相同
Level:合并的次数
在这里插入图片描述

相关文章:

Clickhouse学习(一):MergeTree概述

MergeTree一、Clickhouse表引擎概述二、MergeTree表引擎<一>、ReplacingMergeTree引擎<二>、SummingMergeTree引擎<三>、AggregatingMergeTree引擎三、MergeTree分区一、Clickhouse表引擎概述 MergeTree表引擎:允许根据日期和主键创建索引 1、ReplacingMerge…...

Windows离线安装rust

目前rust安装常用的方式就是通过Rustup安装&#xff0c;此安装方式需要访问互联网。在生产环境中由于网络限制&#xff0c;不能直接访问互联网或者不能访问目标网站&#xff0c;这时候需要用离线安装的方式&#xff0c;本文将详细介绍离线安装步骤&#xff0c;并给出了vscode如…...

Android与flutter混合开发

这里我使用的android studio版本是2020.3.1&#xff1b;flutter版本2.5.3。此前在网上搜索的很多教教程版本都不一样&#xff0c;新版的IDE和SDK让我遇到了很多坑故这里整理一下。一、创建项目1.在Android项目中点击File->New->New Flutter Project。File->New->Ne…...

Linux和C语言的学习方法你真的知道吗?

★Linux的使用 第一天&#xff0c;就给我们讲了为什么要先学c、学linux&#xff1a;因为嵌入式的根本就是软件驱动硬件&#xff0c;而C语言是最接近硬件的语言、有指针的概念、可以直接操作硬件&#xff0c;另外&#xff0c;功能复杂的硬件是含有操作系统的&#xff0c;这就需…...

代码随想录day42

1049. 最后一块石头的重量 II https://leetcode.cn/problems/last-stone-weight-ii/ 这个自己还是没想出来01背包对应。 本题其实就是尽量让石头分成重量相同的两堆&#xff0c;相撞之后剩下的石头最小&#xff0c;这样就化解成01背包问题了。 stones [2,7,4,1,8,1]也就是sum…...

【笔记】两台1200PLC进行S7 通信(1)

使用两台1200系列PLC进行S7通信&#xff08;入门&#xff09; 文章目录 目录 文章目录 前言 一、通信 1.概念 2.PLC通信 1.串口 2.网口 …...

统一网关Gateway

为什么需要网关 网关功能&#xff1a; 身份认证和权限校验服务路由&#xff0c;负载均衡 根据请求判断找到对应的服务路由&#xff0c;然后服务可能有多个实例&#xff0c;这个时候网关就会做一个负载均衡去挑选一个实例调用.请求限流 限制请求的数量&#xff0c;这是微服务的…...

6、kubernetes(k8s)安装

本文内容以语雀为准 文档 等等&#xff0c;Docker 被 Kubernetes 弃用了?容器运行时端口和协议kubeadm initkubeadm config安装网络策略驱动使用 kubeadm 创建集群 控制平面节点隔离 持久卷为容器设置环境变量在CentOS上安装Docker引擎Pod 网络无法访问排查处理 说明 本文…...

python-批量下载某短视频平台音视频标题、评论、点赞数

python-批量下载某短视频平台音视频标题、评论数、点赞数前言一、获取单个视频信息1、获取视频 url2、发送请求3、数据解析二、批量获取数据1、批量导入地址2、批量导出excel文件3、批量存入mysql数据库三、完整代码前言 1、Cookie中文名称为小型文本文件&#xff0c;指某些网…...

【数据结构与算法】单链表的增删查改(附源码)

这么可爱的猫猫不值得点个赞吗&#x1f63d;&#x1f63b; 目录 一.链表的概念和结构 二.单链表的逻辑结构和物理结构 1.逻辑结构 2.物理结构 三.结构体的定义 四.增加 1.尾插 SListpushback 2.头插 SListpushfront 五.删除 1.尾删 SListpopback 2.头删 SListpo…...

华为OD机试 - 回文字符串

题目描述 如果一个字符串正读和反渎都一样(大小写敏感),则称它为一个「回文串」,例如: leVel是一个「回文串」,因为它的正读和反读都是leVel;同理a也是「回文串」art不是一个「回文串」,因为它的反读tra与正读不同Level不是一个「回文串」,因为它的反读leveL与正读不…...

C语言太简单?这14道C语言谜题,你能答对几个

14个C语言的迷题以及答案&#xff0c;代码应该是足够清楚的&#xff0c;而且有相当的一些例子可能是我们日常工作可能会见得到的。通过这些迷题&#xff0c;希望你能更了解C语言。 如果你不看答案&#xff0c;不知道是否有把握回答各个谜题&#xff1f;让我们来试试。 下面的…...

Benchmark测试——fio——源码分析

1. main 1.1 parse_options() 解析选项&#xff0c;更新数据结构 1.1.1 fio_init_options() 1.1.2 fio_test_cconv(&def_thread.o) <cconv.c> 1.1.2.1 convert_thread_options_to_cpu() 传递options给数据结构 1.1.3 parse_cmd_line() switch语句多路选择&am…...

测量 R 代码运行时间的 5 种方法

简介 平常在撰写论文时&#xff0c;会需要比较算法之间的计算时间。本篇文章给出几种测量 R 代码运行时间的方法。本文是小编学习过程中的笔记&#xff0c;主要参考博客1&#xff0c;2。 1. 使用 Sys.time() 小编通常使用 Sys.time() 函数来计算时间。首先记录当前运行时刻&…...

Qt 第9课、计算器中缀转后缀算法

计算器核心算法&#xff1a; 1、将中缀表达式进行数字和运算符的分离 2、将中缀表达式转换成后缀表达式 3、通过后缀表达式计算最后的结果 二、计算器中缀转后缀算法 计算器中缀转后缀算法的意义在于把中缀表达式转换成后缀表达式&#xff0c;能够更好地计算 算法的基本思路…...

docker的使用方法

docker技术 同一个操作系统内跑多套不同版本依赖的业务 docker可以使同一个物理机中进程空间&#xff0c;网络空间&#xff0c;文件系统空间相互隔绝 虚拟机弊端&#xff1a;每个需要安装操作系统&#xff0c;太重量级&#xff0c;资源需要提前分配好 部署程序 开发环境 win…...

Kafka(五)生产者向发送消息的执行流程

&#xff08;1&#xff09;生产者要往 Kafka 发送消息时&#xff0c;需要创建 ProducerRecoder,代码如下&#xff1a; ProducerRecord<String,String> record new ProducerRecoder<>("CostomerCountry","Precision Products","France&q…...

华为OD机试模拟题 用 C++ 实现 - 简易压缩算法(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 最多获得的短信条数(2023.Q1)) 文章目录 最近更新的博客使用说明简易压缩算法题目输入输出示例一输入输出说明示例二输入输出说明示例三输入输出说明...

MATLAB R2022b 安装教程

MATLAB R2022b 安装教程MathWorks 于2022年9月发布了 MATLAB 和 Simulink 产品系列的最新版本 Matlab R2022b版本 &#xff0c;加入两个新产品&#xff1a; Medical Imaging Toolbox — 可视化、配准、分割和标注二维及三维医学图像Simscape Battery — 设计和仿真电池和储能系…...

PCI子系统

很多网络接口卡都是外围组件互联&#xff08;Peripheral Compaonent Interconnect&#xff09;设备&#xff0c;必须与Linux PCI子系统协同工作&#xff0c;并非所有的网络接口都是PCI设备&#xff0c;很多嵌入式设备的网络接口连接的就不是PCI总线&#xff0c;这些设备的初始化…...

Qwen3.5小尺寸模型开源,9B碾压GPT开源版,消费级显卡就能跑

AI圈又出大新闻了✨ 阿里通义千问3.5系列小尺寸模型正式亮相&#xff0c;直接打破“小模型能力弱”的固有认知&#xff0c;甚至实现了“以小胜大”的逆袭&#xff0c;本地部署门槛直接拉到平民级&#xff01; 先上核心干货——这次千问3.5一口气推出了4款小尺寸模型&#xff0c…...

OpenClaw性能优化:降低GLM-4.7-Flash任务Token消耗的5个技巧

OpenClaw性能优化&#xff1a;降低GLM-4.7-Flash任务Token消耗的5个技巧 1. 为什么需要关注Token消耗 当我第一次在本地部署OpenClaw并接入GLM-4.7-Flash模型时&#xff0c;最让我震惊的不是它的自动化能力&#xff0c;而是执行简单任务后查看账单时的Token消耗数字。一个看似…...

League Akari:5大核心解决方案提升英雄联盟游戏体验

League Akari&#xff1a;5大核心解决方案提升英雄联盟游戏体验 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一…...

iMeta入选新锐期刊分区表生物学1区Top

2026年3月24日&#xff0c;2026年新锐期刊分区表正式发布。iMeta被评选为生物学1区Top期刊&#xff0c;标志着iMeta期刊学术声誉与影响力持续提升。自创刊以来&#xff0c;iMeta的每一步成长都离不开期刊编委、审稿专家及广大同行的鼎力支持。未来&#xff0c;iMeta将再接再厉&…...

知识向量化实战指南:从模型选型到混合检索优化

1. 知识向量化的核心价值与应用场景 第一次接触知识向量化这个概念时&#xff0c;我也是一头雾水。直到在医疗知识库项目中亲眼看到"糖尿病治疗"和"血糖控制方案"这两个看似不同的查询&#xff0c;通过向量化后获得了0.92的相似度评分&#xff0c;才真正理…...

CAN总线技术:数字信号与汽车电子应用解析

CAN总线技术解析&#xff1a;从数字信号本质到汽车电子应用1. CAN总线概述1.1 基本定义与技术背景CAN&#xff08;Controller Area Network&#xff09;总线是一种专为工业控制和汽车电子设计的串行通信协议&#xff0c;由德国Bosch公司于1983年开发&#xff0c;后成为国际标准…...

线程池核心参数与拒绝策略深度解析

前言 线程池是Java并发编程中最常用的工具之一&#xff0c;但很多开发者只停留在“会用”层面。面试中&#xff0c;面试官往往通过线程池考察你对并发编程的理解深度——参数如何设置&#xff1f;为什么这样设置&#xff1f;拒绝策略如何选择&#xff1f; 本文将深入剖析线程池…...

基于主从博弈的主动配电网阻塞管理探索

基于主从博弈的主动配电网阻塞管理 首先&#xff0c;在日前市场中&#xff0c;LA&#xff08;负荷聚合商&#xff09;根据历史数据预测次日向上级电网购电的电价信息和预测分布式电源(燃气轮机)出力、风电场出力信息&#xff0c;同时考虑事前与用户签订协议的可中断负荷&#x…...

C++ 内联函数的性能影响

C内联函数的性能影响探析 在追求高效代码的C开发中&#xff0c;内联函数因其消除函数调用开销的特性而备受关注。通过将函数体直接嵌入调用点&#xff0c;内联函数能显著提升程序性能&#xff0c;尤其在频繁调用的场景下。过度或不恰当的内联也可能导致代码膨胀或缓存命中率下…...

51单片机定时器初值计算与Proteus仿真

51单片机定时器初值计算方法详解1. 定时器基础原理1.1 单片机定时器工作模式51系列单片机内置的定时器/计数器模块是嵌入式系统中实现精确时间控制的核心部件。定时器本质上是一个特殊功能的寄存器&#xff0c;通过累加时钟脉冲实现计时功能。根据位数不同&#xff0c;51单片机…...