Clickhouse学习笔记(11)—— 数据一致性
使用合并树引擎时,无论是ReplacingMergeTree还是SummingMergeTree,都只能保证数据的最终一致性,因为数据的去重、聚合等操作会在数据合并的期间进行,而合并会在后台以一个不确定的时间进行,因此无法预先计划;
数据准备
建表:
CREATE TABLE test_consistence(user_id UInt64,score String,deleted UInt8 DEFAULT 0,create_time DateTime DEFAULT toDateTime(0)
)ENGINE= ReplacingMergeTree(create_time)
ORDER BY user_id;
其中deleted作为是否删除的标识;create_time 是版本号字段,每组数据中 create_time 最大的一行表示最新的数据
导入数据:
INSERT INTO TABLE test_consistence(user_id,score)
WITH(SELECT ['A','B','C','D','E','F','G']
)AS dict
SELECT number AS user_id, dict[number%7+1] FROM numbers(10000000);
数据结构如下:

通过修改create_time的值,可以更新数据:
INSERT INTO TABLE test_consistence(user_id,score,create_time)
WITH(SELECT ['AA','BB','CC','DD','EE','FF','GG']
)AS dict
SELECT number AS user_id, dict[number%7+1], now() AS create_time FROM
numbers(500000);
now()函数可以获取当前时间
查询发现,此时表中共有10500000条数据,说明还未进行去重;
去重方案
手动 OPTIMIZE
在写入数据后,立刻执行 OPTIMIZE 强制触发新写入分区的合并动作
optimize table test_consistence;
耗费时间:
![]()
可以看到,optimize是一个相对比较耗时的操作(与select、insert相比),因为需要进行大量的数据读写
通过 Group by 去重
执行去重的查询
SELECTuser_id ,argMax(score, create_time) AS score, argMax(deleted, create_time) AS deleted,max(create_time) AS ctime
FROM test_consistence
GROUP BY user_id
HAVING deleted = 0;
函数argMax:argMax(field1,field2):按照 field2 的最大值取 field1 的值
因此argMax(score, create_time)的含义就是,按照create_time的最大值取score的值,因为create_time代表当前数据的更新时间,因此总能取到最新的数据;
同理argMax(deleted, create_time)是取最新的deleted标识,来判断数据是否被删除
创建视图
通过上面的操作我们可以实现数据的去重等操作,从而保证一致性,因此创建视图来保存数据查询的逻辑
CREATE VIEW view_test_consistence AS
SELECTuser_id ,argMax(score, create_time) AS score, argMax(deleted, create_time) AS deleted,max(create_time) AS ctime
FROM test_consistence
GROUP BY user_id
HAVING deleted = 0;
视图创建的格式:create view view_name as select......
注意:这里创建的视图仅仅保存了数据查询的逻辑,并不保存具体的数据;
测试去重效果
插入数据:
insert into test_consistence(user_id, score, create_time) values(0, 'AAAA', now());
然后查询数据:
select * from test_consistence where user_id = '0';

发现并未去重;
而从视图中查询:
select * from view_test_consistence where user_id = '0';
则仅有最新的数据:

通过 FINAL 查询
在查询语句后增加 FINAL 修饰符,这样在查询的过程中将会执行 Merge 的特殊逻辑(例如数据去重,预聚合等)
测试
① 不使用final查询:
select * from visits_v1 WHERE StartDate = '2014-03-17' limit 100;

②使用final查询:
select * from visits_v1 final WHERE StartDate = '2014-03-17' limit 100;

可以看到,查询速度并没有普通的查询快,因此使用final确保数据一致性也是以效率为代价的;
版本说明
早期版本增加 FINAL 之后,查询会变成单线程;但从v20.5.2.7-stable版本之后转为多线程执行,并可以通过max_final_threads 参数控制单个查询的线程数:
explain pipeline select * from visits_v1 final WHERE StartDate = '2014-03-17' limit 100;

可以看到从 CollapsingSortedTransform 这一步开始已经是多线程执行,但是读取 part 部分的动作还是串行
相关文章:
Clickhouse学习笔记(11)—— 数据一致性
使用合并树引擎时,无论是ReplacingMergeTree还是SummingMergeTree,都只能保证数据的最终一致性,因为数据的去重、聚合等操作会在数据合并的期间进行,而合并会在后台以一个不确定的时间进行,因此无法预先计划࿱…...
【uniapp】六格验证码输入框实现
效果图 代码实现 <view><view class"tips">已发送验证码至<text class"tips-phone">{{ phoneNumber }}</text></view><view class"code-input-wrap"><input class"code-input" v-model"…...
【react hook】在react hook组件中,使用Antd Table组件,columns数据异步获取,list数据更新但没有rerender解决办法
情景描述 我们有一个react组件,显示了一个Antd Table组件,设置了一个columns变量并复制给Table的columns属性,由于我们请求的datasource来源是异步的,示例伪代码如下: const [columns, setColumns] useState([]); /…...
ChatGPT的图识别来了
前几天ChatGPT推出了Dall-E 3功能,可以根据文字和描述一段话来生成一个或者一组图。 这次又来重磅了,图识别又来了!换句话说,也即是文生图,图生文都可以实现了,一起来试试 1、解释图中的意思 ࿰…...
java Stream编程笔记
文章目录 Stream介绍什么是 Stream? Stream中间操作过滤操作(filter)映射操作(map)排序操作(sorted)截断操作(limit 和 skip) Stream 的终止操作forEach 和 peek聚合操作…...
顶顶通语音识别使用说明
介绍 顶顶通语音识别软件(asrproxy)是一个对接了多种语音识别接口的语音识别系统。可私有化部署(支持中文英文和方言等,支持一句话识别、实时流识别、多声道录音文件识别。 原理 asrproxy内嵌了阿里达摩院的开源语音识别工具包FunASR,后续我们也会使用自有的预料…...
重磅发布 OpenAI 推出用户自定义版 ChatGPT
文章目录 重磅发布 OpenAI 推出用户自定义版 ChatGPT个人简介 重磅发布 OpenAI 推出用户自定义版 ChatGPT OpenAI 首届开发者大会 (OpenAI DevDay) 于北京时间 11 月 7 日凌晨 02:00 开始,大会上宣布了一系列平台更新。其中一个重要更新是用户可以创建他们自己的自定…...
Java 幼儿园(20231111)读取 json 文件
1、功能场景 (1)多人合作开发一个功能模块时,需要调用外部接口 (2)对方接口的开发工作还没有完成,只能提供一个返回值的示例文件 json 文件。 (3)返回的 json 数据多达几百个字段。 …...
云计算、大数据技术的智慧工地,实现对建筑工地实时监测、管理和控制的一种新型建筑管理方式
智慧工地是利用物联网、云计算、大数据等技术,实现对建筑工地实时监测、管理和控制的一种新型建筑管理方式。 智慧工地架构: 1、终端层: 充分利用物联网技术、移动应用、智能硬件设备提高现场管控能力。通过RFID、传感器、摄像头、手机等终…...
功能案例 -- 通过开关,改变白天和黑夜
效果展示 代码展示 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><style>:root {--default-bac-color: #f…...
Linux编写一个极简版本的Shell
Linux编写一个极简版本的Shell 📟作者主页:慢热的陕西人 🌴专栏链接:Linux 📣欢迎各位大佬👍点赞🔥关注🚓收藏,🍉留言 本博客主要内容在Linux环境下ÿ…...
亚马逊云AI应用科技创新下的Amazon SageMaker使用教程
目录 Amazon SageMaker简介 Amazon SageMaker在控制台的使用 模型的各项参数 pytorch训练绘图部分代码 Amazon SageMaker简介 亚马逊SageMaker是一种完全托管的机器学习服务。借助 SageMaker,数据科学家和开发人员可以快速、轻松地构建和训练机器学习模型&#…...
Eigen:旋转向量(Angle-Axis)转换为四元素和旋转矩阵
0. 在固定欧拉角系下。 绕固定系旋转,旋转的先后顺序为X、Y、Z。当然也支持XYZ的任意顺序旋转。 1. 转为四元素 Eigen::Quaterniond q Eigen::AngleAxisd(yaw, Eigen::Vector3d::UnitZ()) *Eigen::AngleAxisd(pitch, Eigen::Vector3d::UnitY()) *Eigen::AngleAxi…...
C#8.0本质论第十二章--泛型
C#8.0本质论第十二章–泛型 C#通过泛型来促进代码重用,在词义上等价于C模板。 在泛型编程中,数据类型也是一种参数。 12.1如果C#没有泛型 为object的方法使用值类型时,“运行时”将自动对它进行装箱,获取值类型的实例时则需要…...
Python与ArcGIS系列(七)自动化打印地图
目录 0 简述1 获取可用打印机列表2 打印地图3 导出地图至PDF4 导出地图至图像0 简述 本篇介绍如何利用arcpy实现获取可用打印机列表、打印地图、导出地图至PDF和图像。 1 获取可用打印机列表 通过arcpy提供的ListPrinterNames()函数可以生成可用的打印机列表。 import arcpy.m…...
基于STM32单片机抢答器设计
**单片机设计介绍, 基于STM32单片机抢答器设计-Proteus仿真 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于STM32单片机的抢答器设计可以用于教育和培训场景中的抢答游戏或考试环节。以下是一个基本的介绍设计步骤…...
冯·诺伊曼体系结构--操作系统
文章目录 1.认识冯诺依曼系统1.1约翰冯诺依曼1.2冯诺依曼结构1.3存储器的读写速度1.4对冯诺依曼结构的认识1.5冯诺依曼结构在生活中的演示 2.操作系统--“搞管理”的软件2.1概念2.2OS存在的意义2.3管理的方式2.4系统调用和库函数概念 1.认识冯诺依曼系统 1.1约翰冯诺依曼 1.2冯…...
IDEA插件开发--持久化配置信息方案
这里写自定义目录标题 配置信息持久化存储保存配置文件的方式每种方式的实现方案1.PropertiesComponent:2.PersistentStateComponent:3.Project Settings:4.外部文件: 5.数据库:6.加密数据:7,自定义配置文件…...
Vscode禁止插件自动更新
由于电脑的vscode版本不是很新。2022.10月份的版本1.7.2,电脑vscode的python插件装的也是2022年4月份的某个版本,但插件经常自动更新,导致python代码无法Debug,解决办法: 点设置,搜autoUpdate, 把红色框选成无...
Zookeeper篇---第六篇
系列文章目录 文章目录 系列文章目录一、请简述Zookeeper的选主流程二、为什么Zookeeper集群的数目,一般为奇数个?三、知道Zookeeper监听器的原理吗?一、请简述Zookeeper的选主流程 Zookeeper的核心是原子广播,这个机制保证了各个Server之间的同步。实现这个机制的协议叫做…...
Qwen3.5-4B-Claude-Opus商业应用:SaaS产品嵌入式AI助手轻量级方案
Qwen3.5-4B-Claude-Opus商业应用:SaaS产品嵌入式AI助手轻量级方案 1. 产品概述 Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF是一款专为商业场景优化的轻量级AI推理模型,基于Qwen3.5-4B架构进行深度蒸馏优化,特别强化了结构化分析…...
别再死记硬背了!用一张图+实战命令,彻底搞懂STP/RSTP/MSTP的选举过程
一张拓扑图五条命令:动态拆解生成树协议选举全流程 刚接触生成树协议时,我总被各种选举规则绕得头晕——桥ID、路径开销、端口优先级这些概念像天书一样。直到导师在白板上画了个简单的三角形拓扑,用不同颜色标注出阻塞端口,突然一…...
Linux环境下CTC语音唤醒模型的一键部署教程
Linux环境下CTC语音唤醒模型的一键部署教程 1. 引言 语音唤醒技术现在越来越普及了,就像我们平时对智能音箱说"小爱同学"或者"天猫精灵"一样,设备听到特定关键词就会激活响应。今天要介绍的是一个专门为移动端设计的CTC语音唤醒模…...
从ARM到接口:微机原理核心概念与实践应用解析
1. ARM架构:从理论到硬件的桥梁 第一次接触ARM处理器时,我被它精巧的设计哲学震撼了。与传统的x86架构不同,ARM从一开始就采用了RISC(精简指令集)理念,这种设计让芯片在保持高性能的同时,功耗可…...
Qwen2.5-Omni-3B本地部署实战:从环境配置到多模态对话生成
1. Qwen2.5-Omni-3B全模态模型简介 Qwen2.5-Omni-3B是阿里通义千问团队推出的轻量级全模态大模型,相比之前的7B版本,3B版本在保持多模态能力的同时大幅降低了硬件门槛。这个模型最吸引人的地方在于它能同时处理文本、音频、图像和视频输入,还…...
该系统通过AI技术对30%重复率的论文进行智能修正,结合深度学习提升语言表达的独特性
嘿,大家好!我是AI菌。今天咱们来聊聊一个让无数学生头疼的问题:论文重复率飙到30%以上怎么办?别慌,我这就分享5个实用降重技巧,帮你一次搞定,轻松压到合格线以下。这些方法都是我亲身试验过的&a…...
arcgis-利用融合与排序工具高效提取图斑面积最大属性值
1. 为什么需要提取图斑面积最大属性值 在GIS数据处理中,经常会遇到这样的需求:我们需要从复杂的图斑数据中找出每个区域占面积最大的属性值。比如在国土调查中,一个地块可能包含多种房屋质量等别,但我们需要确定该地块最主要的房…...
大模型端侧落地倒计时(仅剩90天窗口期):SITS2026预警2026Q2起GPU厂商将强制启用新量化指令集,现在不掌握这6项核心技术就淘汰
第一章:SITS2026分享:大模型量化压缩技术 2026奇点智能技术大会(https://ml-summit.org) 大模型量化压缩已成为部署百亿参数级语言模型至边缘设备与推理服务集群的关键路径。在SITS2026现场,多家研究团队展示了基于混合精度、通道感知与校准…...
开源IPAM系统实战:从零搭建企业级IP地址管理平台
1. 为什么企业需要专业的IP地址管理系统? 记得三年前我接手某中型企业的IT运维工作时,发现他们用着一个神奇的Excel表格——里面密密麻麻记录着2000多个IP地址分配情况。每次新设备入网都要手动翻查半小时,有次甚至因为复制粘贴错误导致整个部…...
FastbootEnhance:5步掌握Windows平台最强安卓刷机工具
FastbootEnhance:5步掌握Windows平台最强安卓刷机工具 【免费下载链接】FastbootEnhance A user-friendly Fastboot ToolBox & Payload Dumper for Windows 项目地址: https://gitcode.com/gh_mirrors/fa/FastbootEnhance 还在为复杂的Fastboot命令行操作…...
