当前位置：首页 > news >正文

SummingMergeTree

news 2026/2/11 4:33:15

假设有这样⼀种查询需求：终端⽤户只需要查询数据的汇总结果，不关⼼明细数据，并且数据的汇总条件是预先明确的（GROUP BY 条件明确，且不会随意改变）。

对于这样的查询场景，在ClickHouse中如何解决呢？最直接的⽅案就是使⽤MergeTree存储数据，然后通过GROUP BY聚合查询，并利⽤ SUM聚合函数汇总结果。这种⽅案存在两个问题。

1. 存在额外的存储开销：终端⽤户不会查询任何明细数据，只关⼼汇总结果，所以不应该⼀直保存所有的明细数据。

2. 存在额外的查询开销：终端⽤户只关⼼汇总结果，虽然 MergeTree性能强⼤，但是每次查询都进⾏实时聚合计算也是⼀种性能消耗。SummingMergeTree就是为了应对这类查询场景⽽⽣的。顾名思义，它能够在合并分区的时候按照预先定义的条件聚合汇总数据，将同⼀分组下的多⾏数据汇总合并成⼀⾏，这样既减少了数据⾏，⼜降低了后续汇总查询的开销。

1、未指定求和的字段

drop table if exists summing_table;
CREATE TABLE summing_table
(id    String,city  String,sal   UInt32,comm  Float64,ctime DateTime
) ENGINE = SummingMergeTree()PARTITION BY toDate(ctime)ORDER BY (id, city)PRIMARY KEY id;
-- 在合并的时候 ,分区内, 相同排序的⾏数据的所有的数值字段都会求和(sum)
-- 插⼊数据
insert into summing_table
values
(1,'shanghai',10,20,'2021-06-12 01:11:12'),
(1,'shanghai',20,30,'2021-06-12 01:11:12'),
(3,'shanghai',10,20,'2021-11-12 01:11:12'),
(3,'Beijing',10,20,'2021-11-12 01:11:12') ;
optimize table summing_table ;select * from summing_table

2、指定求和的字段

上⾯的例⼦中没有指定sum的字段 ,那么表中符合要求的所有的数值字段都会进⾏求和 ,我们可以在建表的时候指定求和的字段。

drop table if exists summing_table2 ;
CREATE TABLE summing_table2(
id String,
city String,
money UInt32,
num UInt32,
ctime DateTime
)ENGINE = SummingMergeTree(money)
PARTITION BY toDate(ctime)
ORDER BY city ;
--每个城市每天的销售总额
insert into summing_table2 values(1,'BJ',100,11,now()),
(2,'BJ',100,11,now()),
(3,'BJ',100,11,now()),
(4,'NJ',100,11,now()),
(5,'NJ',100,11,now()),
(6,'SH',100,11,now()),
(7,'BJ',100,11,'2021-05-18 11:11:11'),
(8,'BJ',100,11,'2021-05-18 11:11:11') ;SELECT * FROM summing_table2 ;

总结:

（1）⽤ORBER BY排序键作为聚合数据的条件Key。

（2）只有在合并分区的时候才会触发汇总的逻辑。

（3）以数据分区为单位来聚合数据。当分区合并时，同⼀数据分区内聚合Key相同的数据会被合并汇总，⽽不同分区之间的数据则不会被汇总。

（4）如果在定义引擎时指定了columns汇总列（⾮主键的数值类型字段），则SUM汇总这些列字段；如果未指定，则聚合所有⾮主键的数值类型字段。

（5）在进⾏数据汇总时，因为分区内的数据已经基于ORBER BY排序，所以能够找到相邻且拥有相同聚合Key的数据。

（6）在汇总数据时，同⼀分区内，相同聚合Key的多⾏数据会合并成⼀⾏。其中，汇总字段会进⾏SUM计算；对于那些⾮汇总字段，则会使⽤第⼀⾏数据的取值。

（7）⽀持嵌套结构，但列字段名称必须以Map后缀结尾。嵌套类型中，默认以第⼀个字段作为聚合Key。除第⼀个字段以外，任何名称以Key、Id或Type为后缀结尾的字段，都将和第⼀个字段⼀起组成复合 Key。

SummingMergeTree

2、指定求和的字段

相关文章：

SummingMergeTree

JUC并发编程基础篇第一章之进程/并发/异步的概念[理解基本概念]

c语言—指针进阶

总结二分法

二叉搜索树和AVL树

计算机体系结构量化研究方法【2】高速缓存Cache

初识设计模式 - 迭代器模式

三路快排(基于三指针单趟排序的快速排序)+快排时间复杂度再分析

Eyeshot Ultimate 2023 Crack

JAVA-8-[SpringBoot]入门程序案例和原理分析

前端工程化

【redis】单线程 VS 多线程（入门）

2023蓝桥杯Java研究生组赛题

多维时序 | MATLAB实现CNN-BiLSTM-Attention多变量时间序列预测

微积分——Rolle定理的理解(罗尔定理)

linux内核之select/poll/epoll

文件流下载

C语言模拟实现：atoi函数

LeetCode.每日一题 2427. 公因子的数目

蓝牙BQB认证 - HFP profile配置说明

国防科技大学计算机基础课程笔记02信息编码

docker详细操作--未完待续

JVM垃圾回收机制全解析

【机器视觉】单目测距——运动结构恢复

spring：实例工厂方法获取bean

Psychopy音频的使用

GitHub 趋势日报 (2025年06月08日)

Axios请求超时重发机制

SpringCloudGateway 自定义局部过滤器

OpenLayers 分屏对比(地图联动)