clickhouse学习笔记(一)入门与安装
目录
一 、入门
简介
核心特性包括
1.1 列式存储
1.2 原生压缩
1.3 向量化执行引擎
1.4 DBMS 功能
1.5 分布式处理
1.6 高吞吐写入能力
1.7 实时分析
1.8 SQL支持
1.9 高度可扩展
1.10 数据分区与线程级并行
1.11 应用场景
1.12 不适用场景
二、ClickHouse单机版安装
2.1 官网
2.2 下载镜像
2.3 启动clickhouse
2.4 使用dbeaver连接测试,新建驱动后、新建连接即可
一 、入门
简介
ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库
(DBMS),使用 C++
语言编写,主要用于在线分析处理查询
(OLAP),能够使用 SQL 查询实时生成分析数据报告。ClickHouse
是一款 MPP
(大规模并行处理)架构的数据库,它没有采用 Hadoop
生态中的主从架构,而是使用了多主对等网络结果,同时它也是基于关系模型的 ROLAP
方案
核心特性包括
1.1 列式存储
与传统的行式存储不同,列式存储在处理分析型查询时能显著提高效率,因为它允许数据库仅读取查询所需的相关列,减少I/O操作。
列式存储的好处是:
- 对于列的聚合,计数,求和等统计操作原因优于行式存储
- 由于某一列的数据类型都是相同的,针对于数据存储更容易进行数据压缩,每一列选择更优的数据压缩算法,大大提高了数据的压缩比重。
- 由于数据压缩比更好,一方面节省了磁盘空间,另一方面对于 cache 也有了更大的发挥空间。
1.2 原生压缩
数据在存储前会进行高效压缩,这不仅能节省存储空间,还能加速数据读取过程,因为从磁盘读取更少的数据量。
1.3 向量化执行引擎
ClickHouse利用SIMD指令集优化数据处理,通过并行处理数据块来加速查询执行。
1.4 DBMS 功能
ClickHouse 拥有完备的管理功能,而不仅是一个数据库。作为一个 DBMS,它具备了一些基本功能。
- DDL:Data Definition Language,数据定义语言,可以动态地创建、修改或删除数据库、表和视图,无须重启服务。
- DML:Data Manipulation Language,数据操作语言,可以动态增删改查数据。
- 权限控制:可以按照用户粒度设置数据库或者表的操作权限,保障数据的安全性。
- 数据备份与恢复:提供了数据备份导出与导入恢复机制,满足生产环境的要求。
- 分布式管理:提供集群模式,自助管理多个数据库节点。
1.5 分布式处理
ClickHouse支持数据的分布式存储和处理,可以通过ReplicatedMergeTree引擎实现数据的复制,确保高可用性。分布式表功能允许跨多个节点并行执行查询,提高整体查询性能。
1.6 高吞吐写入能力
ClickHouse 采用类 LSM Tree
的结构,数据写入后定期在后台 Compaction。
- 通过类 LSM tree 的结构,ClickHouse 在数据导入时全部是顺序 append 写,写入后数据段不可更改,在后台compaction 时也是多个段 merge sort 后顺序写回磁盘。
- 顺序写的特性,充分利用了磁盘的吞吐能力,即便在 HDD 上也有着优异的写入性能。
1.7 实时分析
尽管ClickHouse设计用于大数据分析,但它也能处理实时数据流,支持近实时的数据分析需求。
1.8 SQL支持
ClickHouse提供丰富的SQL支持,包括复杂的查询语句和聚合函数,便于数据分析和报告生成。
1.9 高度可扩展
ClickHouse易于水平扩展,可以通过添加更多节点来线性地提高处理能力。
1.10 数据分区与线程级并行
ClickHouse 将数据划分为多个 partition,每个 partition 再进一步划分为多个 index granularity(索引粒度),然后通过多个 CPU核心分别处理其中的一部分来实现并行数据处理。
在这种设计下,单条 Query 就能利用整机所有CPU(很吃CPU)。极致的并行处理能力,极大的降低了查询延时。
所以,ClickHouse 即使对于大量数据的查询也能够化整为零平行处理。但是有一个弊端就是对于单条查询使用多 cpu,就不利于同时并发多条查询。所以对于高 qps(query per second) 的查询业务,ClickHouse 并不是强项。其适用场景是数据已经处理好的、字段特别多的宽表
1.11 应用场景
- Web分析(如点击流分析)
- 电商数据分析
- 日志处理和分析
- 实时报表和仪表板
- IoT数据分析
- 规模数据分析和聚合:ClickHouse适用于需要处理大规模数据集的场景,特别是在需要进行复杂的数据分析和聚合操作时。它的列式存储和向量化查询引擎能够高效地执行大量的数据操作,并提供快速的查询结果。
- 实时查询和快速响应:ClickHouse具有高性能的查询引擎,能够以低延迟进行实时查询。它适用于需要快速响应的场景,如实时监控、交互式数据探索和仪表盘展示等。
- 时序数据处理:对于时序数据,如传感器数据、日志数据、时间序列数据等,ClickHouse表现出色。它支持按时间范围进行快速查询,并且具有优化的存储和索引策略,适用于时序数据的存储和分析。
- 高并发查询:ClickHouse是一个高度可扩展的数据库系统,能够处理高并发的查询请求。它适用于需要支持多用户同时查询和大规模并发操作的场景。
1.12 不适用场景
- 事务处理和数据一致性要求:ClickHouse不是一个事务型数据库,不适用于强调数据一致性和事务性操作的场景。如果应用需要确保数据的完整性和一致性,并进行复杂的事务处理,其他事务型数据库更适合。
- 实时数据更新和频繁写入操作:ClickHouse的性能重点在于查询操作,对于实时数据更新和频繁的写入操作,其性能可能不如专门设计用于事务处理和实时写入的数据库系统。
- 复杂的关系查询和事务处理:ClickHouse是一种列式数据库,对于复杂的关系查询(如多表关联、递归查询等)和事务处理,其性能可能不如基于行式存储的数据库系统。
- 少量数据的存储和查询:如果应用场景中的数据量较小,并且对于查询性能要求不高,使用ClickHouse可能会过于复杂和冗余。在这种情况下,可以考虑更轻量级的数据库解决方案
二、ClickHouse单机版安装
2.1 官网
Fast Open-Source OLAP DBMS - ClickHouse
2.2 下载镜像
docker pull yandex/clickhouse-server
docker pull yandex/clickhouse-client
2.3 启动clickhouse
① 可正常连接方法(推荐尝试)
docker run -d -p 8123:8123 -p 9000:9000 --name clickhouse yandex/clickhouse-server
② 网上方法:
参考文章:https://blog.csdn.net/lcl_xiaowugui/article/details/104724726
1)启动server端
# 默认直接启动即可
docker run -d --name [启动之后的名称] --ulimit nofile=262144:262144 yandex/clickhouse-server# 如果想指定目录启动,这里以clickhouse-test-server命令为例,可以随意写
mkdir /work/clickhouse/clickhouse-test-db ## 创建数据文件目录
# 使用以下路径启动,在外只能访问clickhouse提供的默认9000端口,只能通过clickhouse-client连接server
docker run -d --name clickhouse-test-server --ulimit nofile=262144:262144 --volume=/work/clickhouse/clickhouse_test_db:/var/lib/clickhouse yandex/clickhouse-server2)docker启动clickhouse-client
docker run -it --rm --link clickhouse-test-server:clickhouse-server yandex/clickhouse-client --host clickhouse-server
2.4 使用dbeaver连接测试,新建驱动后、新建连接即可
首先需要安装连接工具Dbeaver。
Dbeaver安装教程地址:DBeaver安装与使用教程(超详细安装与使用教程)_dbeaver安装步骤-CSDN博客
第一步,新建驱动管理器:
第二步,填写驱动信息:
第三步,设置库:
第一种方法:事先下载好的驱动文件,添加文件即可。
驱动下载链接:Download clickhouse-jdbc JAR files with all dependencies
第二种方法:先不设置库,我们再新建数据库连接时,填写完连接配置信息,点击测试链接,在弹出来的地方选择下载按钮,等它全部下载完驱动后即可测试连接
第四步,新建数据库连接:
第五步,填写数据库连接配置信息:
第六步,测试连接:
到了这一步,说明连接配置信息填写完成,如果库没有设置,就可以按照上面的第二种方法点击测试链接,在弹出来的地方选择下载按钮,等它全部下载完驱动后即可测试连接。
到了这一步,clickhouse已经连接成功了。
相关文章:

clickhouse学习笔记(一)入门与安装
目录 一 、入门 简介 核心特性包括 1.1 列式存储 1.2 原生压缩 1.3 向量化执行引擎 1.4 DBMS 功能 1.5 分布式处理 1.6 高吞吐写入能力 1.7 实时分析 1.8 SQL支持 1.9 高度可扩展 1.10 数据分区与线程级并行 1.11 应用场景 1.12 不适用场景 二、ClickHouse单机版…...

【JavaEE精炼宝库】多线程(4)深度理解死锁、内存可见性、volatile关键字、wait、notify
目录 一、死锁 1.1 出现死锁的常见场景: 1.2 产生死锁的后果: 1.3 如何避免死锁: 二、内存可见性 2.1 由内存可见性产生的经典案例: 2.2 volatile 关键字: 2.2.1 volatile 用法: 2.2.2 volatile 不…...

使用Ollama+OpenWebUI部署和使用Phi-3微软AI大模型完整指南
🏡作者主页: 点击! 🤖AI大模型部署与应用专栏:点击! ⏰️创作时间:2024年6月6日23点50分 🀄️文章质量:96分 欢迎来到Phi-3模型的奇妙世界!Phi-3是由微软…...

k8s的ci/cd实践之旅
书接上回k8s集群搭建完毕,来使用它强大的扩缩容能力帮我们进行应用的持续集成和持续部署,整体的机器规划如下: 1.192.168.8.156 搭建gitlab私服 docker pull gitlab/gitlab-ce:latest docker run --detach --hostname 192.168.8.156 --publ…...

笔记96:前馈控制 + 航向误差
1. 回顾 对于一个 系统而言,结构可以画作: 如果采用 这样的控制策略,结构可以画作:(这就是LQR控制) 使用LQR控制器,可以通过公式 和 构建一个完美的负反馈系统; a a 但是有上…...
延时任务工具类
自定义工具类 package com.sxfoundation.task;import org.springframework.beans.factory.annotation.Autowired; import org.springframework.core.task.TaskRejectedException; import org.springframework.scheduling.concurrent.ThreadPoolTaskScheduler; import org.spri…...

springboot下载grpc编译文件,报错缺少protoc-gen-grpc-java:1.34.1:exe不存在
报错如图所示 [ERROR] Then, install it using the command: [ERROR] mvn install:install-file -DgroupIdio.grpc -DartifactIdprotoc-gen-grpc-java -Dversion1.34.1 -Dclassifierwindows-x86_64 -Dpackagingexe -Dfile/path/to/file [ERROR] [ERROR] Alternatively, if yo…...

【面试干货】 非关系型数据库(NoSQL)与 关系型数据库(RDBMS)的比较
【面试干货】 非关系型数据库(NoSQL)与 关系型数据库(RDBMS)的比较 一、引言二、非关系型数据库(NoSQL)2.1 优势 三、关系型数据库(RDBMS)3.1 优势 四、结论 💖The Begin…...
JAVA学习-练习试用Java实现“简化路径”
问题: 给定一个字符串 path ,表示指向某一文件或目录的 Unix 风格 绝对路径 (以 / 开头),请将其转化为更加简洁的规范路径。 在 Unix 风格的文件系统中,一个点(.)表示当前目录本身…...

STM32——ADC篇(ADC的使用)
一、ADC的介绍 1.1什么是ADC ADC(Analogto-Digital Converter)模拟数字转换器,是将模拟信号转换成数字信号的一种外设。比如某一个电阻两端的是一个模拟信号,单片机无法直接采集,此时需要ADC先将短租两端的电…...

(文章复现)基于主从博弈的售电商多元零售套餐设计与多级市场购电策略
参考文献: [1]潘虹锦,高红均,杨艳红,等.基于主从博弈的售电商多元零售套餐设计与多级市场购电策略[J].中国电机工程学报,2022,42(13):4785-4800. 1.摘要 随着电力市场改革的发展,如何制定吸引用户选择的多类型零售套餐成为提升售电商利润的研究重点。为…...
深度评价GPT-4o:探索人工智能的新里程碑
在人工智能领域,OpenAI的GPT系列自推出以来就备受瞩目。GPT-4o作为该系列的最新版本,无疑是迄今为止最为强大的一代。它不仅在技术性能上有了质的飞跃,而且在应用的广泛性和深度上都展现出了惊人的潜力。本文将从版本对比、技术能力、使用体验…...

Linux命令篇(六):vi/vim专项
💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝您生活愉快! 文章目录 一、什么是vim二…...

Java 还能不能继续搞了?
金三银四招聘季已落幕,虽说行情不是很乐观,但真正的强者从不抱怨。 在此期间,我收到众多小伙伴的宝贵反馈,整理出132道面试题,从基础到高级,有八股文,也有对某个知识点的深度解析。包括以下几部…...

【日记】遇到了一个很奇怪的大爷(845 字)
正文 花了昨天和今天两天时间,把数据转移完了。这块 2T 的硬盘可以光荣退休了。目前是没什么存储焦虑了。 农发行净开发一些垃圾系统。今天没什么业务,但跟 ActiveX 斗智斗勇了一整天,最后实在搞不过 IE 浏览器。我也懒得管了,又不…...

Python 机器学习 基础 之 处理文本数据 【处理文本数据/用字符串表示数据类型/将文本数据表示为词袋】的简单说明
Python 机器学习 基础 之 处理文本数据 【处理文本数据/用字符串表示数据类型/将文本数据表示为词袋】的简单说明 目录 Python 机器学习 基础 之 处理文本数据 【处理文本数据/用字符串表示数据类型/将文本数据表示为词袋】的简单说明 一、简单介绍 二、处理文本数据 三、用…...

GAT1399协议分析(10)--视频定义及解析
一、官方定义 二、字段解析 VideoID 类型BasicObjectID 解析参考GAT1399协议分析(8)--ImageInfo字段详解-CSDN博客 InfoKind 采集类型...

【C语言】学生管理系统:完整模拟与实现
🌈个人主页:是店小二呀 🌈C语言笔记专栏:C语言笔记 🌈C笔记专栏: C笔记 🌈喜欢的诗句:无人扶我青云志 我自踏雪至山巅 🔥引言 本篇文章为修改了在校期间实训报告,使用C…...

pypi 发布自己的包
注册pypi个人用户 网址:https://pypi.org 目录结构dingtalk_utils 必须-pkgs- __init__.py .gitignore LICENSE 必须 README.md 必须 requirements.txt setup.py 必须安装依赖 pip install setuptools wheel安装上传工具 pip install twinesetup.py i…...

关闭windows11磁盘地址栏上的历史记录
关闭windows11的磁盘地址栏上的历史记录 windows11打开磁盘后访问某一个磁盘路径后会记录这个磁盘路径,而且有时候会卡住这个地址栏(关都关不掉),非常麻烦。 如下图所示: 关闭地址栏历史记录 按下windows键打开开…...
树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频
使用rpicam-app通过网络流式传输视频 使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 使用 rpicam-app 通过网络流式传输视频 本节介绍来自 rpica…...

简易版抽奖活动的设计技术方案
1.前言 本技术方案旨在设计一套完整且可靠的抽奖活动逻辑,确保抽奖活动能够公平、公正、公开地进行,同时满足高并发访问、数据安全存储与高效处理等需求,为用户提供流畅的抽奖体验,助力业务顺利开展。本方案将涵盖抽奖活动的整体架构设计、核心流程逻辑、关键功能实现以及…...
基于服务器使用 apt 安装、配置 Nginx
🧾 一、查看可安装的 Nginx 版本 首先,你可以运行以下命令查看可用版本: apt-cache madison nginx-core输出示例: nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...

渗透实战PortSwigger靶场-XSS Lab 14:大多数标签和属性被阻止
<script>标签被拦截 我们需要把全部可用的 tag 和 event 进行暴力破解 XSS cheat sheet: https://portswigger.net/web-security/cross-site-scripting/cheat-sheet 通过爆破发现body可以用 再把全部 events 放进去爆破 这些 event 全部可用 <body onres…...
C++中string流知识详解和示例
一、概览与类体系 C 提供三种基于内存字符串的流,定义在 <sstream> 中: std::istringstream:输入流,从已有字符串中读取并解析。std::ostringstream:输出流,向内部缓冲区写入内容,最终取…...
OpenLayers 分屏对比(地图联动)
注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能,和卷帘图层不一样的是,分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...

零基础在实践中学习网络安全-皮卡丘靶场(第九期-Unsafe Fileupload模块)(yakit方式)
本期内容并不是很难,相信大家会学的很愉快,当然对于有后端基础的朋友来说,本期内容更加容易了解,当然没有基础的也别担心,本期内容会详细解释有关内容 本期用到的软件:yakit(因为经过之前好多期…...

佰力博科技与您探讨热释电测量的几种方法
热释电的测量主要涉及热释电系数的测定,这是表征热释电材料性能的重要参数。热释电系数的测量方法主要包括静态法、动态法和积分电荷法。其中,积分电荷法最为常用,其原理是通过测量在电容器上积累的热释电电荷,从而确定热释电系数…...

Git 3天2K星标:Datawhale 的 Happy-LLM 项目介绍(附教程)
引言 在人工智能飞速发展的今天,大语言模型(Large Language Models, LLMs)已成为技术领域的焦点。从智能写作到代码生成,LLM 的应用场景不断扩展,深刻改变了我们的工作和生活方式。然而,理解这些模型的内部…...
怎么让Comfyui导出的图像不包含工作流信息,
为了数据安全,让Comfyui导出的图像不包含工作流信息,导出的图像就不会拖到comfyui中加载出来工作流。 ComfyUI的目录下node.py 直接移除 pnginfo(推荐) 在 save_images 方法中,删除或注释掉所有与 metadata …...