当前位置：首页 > news >正文

理解 Databend Cluster key 原理及使用

news 2026/5/26 17:29:14

Databend Cluster Key 是指 Databend 可以按声明的 key 排序存储，主要用于用户对时间响应比较高，同时愿意为这个 cluster key 进行额排序操作的用户。 Databend 只支持一个 Cluster key，Cluster key中可以包含多列及表达式。

基本语法

-- 语法：
alter table T cluster by(c1, fun(c2));-- 例如： 
alter table T cluster by(user_id);  -- 指定数据按 user_id 排序存储-- 日志场景 按 msg_id, 小时 排序存储
alter table T cluster by(msg_id, to_yyyymmddhh(c_timestamp));-- 强制数据排序
optimize table T compact;
alter table T recluster final;  -- 全局排序, 建议第一次创建 Cluster key 后使用，后期如果遇到性能退化，也可以再次使用

更多关于 Databend Cluster key 语法参考：

Understanding Cluster Key | Databend

使用注意事项

目前 Databend 在表有 cluster key 的情况下，使用

copy into
replace into

这两种方式写入数据时，会自动执行 compact 和 recluster 操作。

关于 Databend Cluster Key 你需要了解的：

Databend 中数据分区按： block_size_threshold (default: 100M ) or row_per_block(default 100万）组织，两者任意达到之一就会生成新的 Block
新生成的 Block 中会按定义的 cluster key 排序存储，当该key的 min = max 时，该 block 为 constant_block，同时 cluster key 不保证全局有序
多个 block 之间可能有重叠区间，如，cluster by (age)

不同区间的重叠形成了不同的深度，例如上图：

select * from T where age >30 and age <35;

这样一个查询，需要查找到的深度为 3 ，即为 3 个 Block。

所以表中指定列的重叠block-partitions的平均深度,越小越好。如下所示：

-- 可以通过 clustering_information('db','tbname') 查看该表的 Cluster 信息select * from clustering_information('wubx','sbtest10w')\G;
*************************** 1. row ***************************cluster_by_keys: (id)   -- 定义的 Cluster keytotal_block_count: 451    -- 当前有多少的 blockconstant_block_count: 0      -- min/max 相等 block， 也就说 block 中只包括一个（组） cluster_key 的值  
unclustered_block_count: 0      -- 还没 Cluster 的 Blockaverage_overlaps: 2.1774   -- 在一个 Range 范围内，有多少个 block有重叠比率average_depth: 2.4612   -- cluster key 在分区的重叠分区数的平均深度block_depth_histogram: {"00001":32,"00002":217,"00003":164,"00004":38}
1 row in set (0.02 sec)
Read 1 rows, 448.00 B in 0.015 sec., 67.92 rows/sec., 29.71 KiB/sec.

结果中最重要信息是“average_depth”，数字越小，表的clustering效果越好，上图为： 2.46，属于比较好的状态（小于 total_block_count * 0.1 ) 。block_depth_histogram 告诉更多关于每个深度有多少个分区的详细信息。如果在较低深度中的分区数更多，则表的聚类效果更好。例如"00004" :38 表示 (3,4] 有 38 个 block 有 4 个深度。

其它优化建议

一般来讲声明 Cluster key 后对于区间查询和点查都有较大的优化
如果声明 cluster key 后，还想进一步的提升点查或是区间查询的能力，可以通过调整 block 大小

-- 把 Block 的大小修改为压缩前 50M ，行数不超过 10 万行
alter table T set options(row_per_block=100000,block_size_threshold=52428800);

关于 options 查看： Fuse Engine | Databend

默认数据分布：

优化数据在 Block 中的分布

create table sbtest10w like sbtest1;
alter table sbtest10w set options(row_per_block=100000,block_size_threshold=52428800);
insert into sbtest10w select * from sbtest1;

对于特别宽的表，建议查询中只访问需要的列来减少时间开销

对于复杂的 SQL 里面有大量聚合的操作还是推荐大一点的 Block 及行数

参考

CLUSTERING_INFORMATION | Databend
RECLUSTER TABLE | Databend

理解 Databend Cluster key 原理及使用

基本语法

使用注意事项

其它优化建议

参考

相关文章：

理解 Databend Cluster key 原理及使用

C++day3（类、this指针、类中的特殊成员函数）

Qt中的配置文件：实现个性化应用程序配置与保存加载

Navicat激活时出现rsa public key not find错误

FFmpeg5.0源码阅读——URLContext和URLProtocol

Qt的输出

长胜证券：久违普涨再现大盘回升有望加速

WPF .NET 7.0学习整理（一）

数据分析简介

解读未知：文本识别算法的突破与实际应用

[第七届蓝帽杯全国大学生网络安全技能大赛蓝帽杯 2023]——Web方向部分题详细Writeup

el-backtop返回顶部的使用

Go 官方标准编译器中所做的优化

C语言程序设计——小学生计算机辅助教学系统

SQL自动递增的列恢复至从0开始

介绍一下CDN

2023年最新 Github Pages 使用手册

docker 安装 Nginx

【NLP的python库(01/4) 】： NLTK

Java IDEA Web 项目 1、创建

混合求解器：用神经网络增强传统微分方程数值方法

【DeepSeek开源协议识别权威指南】：20年合规专家亲授3大协议陷阱与5步精准识别法

Transient、QuickEye、VerifyEye傻傻分不清？一文讲透Ansys里三种眼图仿真方法的适用场景与避坑指南

2027考研全套资料免费分享

从零到上机：我的第一个Quest 3空间锚点应用是如何跑起来的（附完整Unity工程）

如何快速上手DeepPurpose？5分钟完成你的第一个药物-靶点相互作用预测模型

通过Taotoken标准OpenAI协议实现分钟级集成现有代码

圈复杂度＞12=技术债炸弹？DeepSeek静态分析实战：从17.8→3.2的重构路径全披露

Arduino打地鼠游戏机：从74HC595矩阵驱动到状态机编程全解析

LinkSwift：九大网盘直链下载助手终极指南，告别限速烦恼