ClickHouse配置Hdfs存储数据
文章目录
- 背景
- 配置单机
- 配置HA高可用Hdfs集群
- 性能测试
- 统计trait最多的10个trait term
- 统计性状xxx minValue > 500 0000的数量
- 结论
- 参考文档
背景
由于公司初始使用Hadoop这一套,所以希望ClickHouse也能使用Hdfs作为存储
看了下ClickHouse的文档,拿Hdfs举例来说,有两种方式来完成,一种是直接关联Hdfs上的数据文件,比如说TSV格式的文件,这种模式不支持插入数据。第二种是将Hdfs作为存储,可以理解为云存储方式,这篇文章讲解第二种方式的配置
官方文档:External Disks for Storing Data
配置单机
修改config.xml文件,一般路径在/etc/clickhouse-server/config.xml
<storage_configuration><disks><hdfs><type>hdfs</type><endpoint>hdfs://hdfs1:9000/clickhouse/</endpoint></hdfs></disks><policies><hdfs><volumes><main><disk>hdfs</disk></main></volumes></hdfs></policies></storage_configuration><merge_tree><min_bytes_for_wide_part>0</min_bytes_for_wide_part></merge_tree>
配置后重启
配置HA高可用Hdfs集群
- 复制
hadoop下的配置文件hdfs-site.xml到/etc/clickhouse-server/下 - 修改
config.xml配置文件,将endpoint中的标签内容,替换为cluster
<disks><hdfs><type>hdfs</type><endpoint>hdfs://cluster1/clickhouse/</endpoint></hdfs></disks>
这种方式的配置是没有端口的
- 拷贝了
hdfs-site.xml文件,但是ClickHouse还不能识别到该文件,所以需要配置在config.xml的配置文件下
<hdfs><libhdfs3_conf>/etc/clickhouse-server/hdfs-site.xml</libhdfs3_conf></hdfs>
这里在官方文档的另外一处有提到
地址:HDFS

配置完成,重启
这里配置集群模式有些折腾,看到之前有讲如果是hdfs-client.xml这种的,可以参考下。中间还设置过环境变量:
How do I use an HDFS engine in HA mode
性能测试
使用hdfs作为外部存储的时候,需要在建表时,设置存储策略,举例如下:
CREATE TABLE trait_term
(id UUID,termName String
)
ENGINE = MergeTree
PRIMARY KEY (id)
ORDER BY id
SETTINGS index_granularity = 1024, storage_policy='hdfs', index_granularity_bytes = 0;
需要添加storage_policy='hdfs', 这样数据就会存储到hdfs中,在hdfs文件系统中查看

查询性能对比:


trait表大概有1700w条数据,这里主要和之前不使用外部存储,使用clickhouse当前机器的存储做对比
统计trait最多的10个trait term
| 场景 | 内部存储 | hdfs存储 |
|---|---|---|
| 直接查询 | 0.767s | 0.723s |
| 创建视图查询 | 0.495s | 0.471s |
| 子查询优化 | 0.157s | 0.172s |
统计性状xxx minValue > 500 0000的数量
| 场景 | 内部存储 | hdfs存储 |
|---|---|---|
| 直接查询 | 0.263s | 0.353s |
| 子查询优化 | 0.131s | 0.207s |
| 创建视图走索引 | 0.01s | 0.023s |
| 降低稀疏索引粒度 | 0.007s | 0.015s |
结论
根据测试结果,hdfs外部存储会比直接内部存储性能差一点点,但是也差不了多少,使用hdfs可以避免单机存储不够的问题,与公司的技术栈也会保持一致
参考文档
clickhouse之HDFS云存储
clickhouse hive/hdfs引擎由于HDFS-HA报错问题解决
How do I use an HDFS engine in HA mode
相关文章:
ClickHouse配置Hdfs存储数据
文章目录 背景配置单机配置HA高可用Hdfs集群性能测试统计trait最多的10个trait term统计性状xxx minValue > 500 0000的数量结论 参考文档 背景 由于公司初始使用Hadoop这一套,所以希望ClickHouse也能使用Hdfs作为存储 看了下ClickHouse的文档,拿Hdf…...
zabbix监控网络设备和zabbix proxy
监控linux主机 [rootrocky8 conf]# yum -y install net-snmp vim /etc/snmp/snmpd.conf com2sec notConfigUser default 123456##修改此行,设置团体密码,默认为public,此处 改为123456 view systemview included .1. ##添加此行,自定义授权,否则 zabbix 无法获取数据 [rootr…...
halcon双目标定双相机标定
halcon双目标定 *取消更新 dev_update_off () *获取窗体句柄 dev_get_window (WindowHandle) *设置窗体字体样式 set_display_font (WindowHandle, 16, mono, true, false) *设置线条粗细 dev_set_line_width (3) *创建空对象 gen_empty_obj (ImageL) *读取指定文件内子集 li…...
Vue框架学习记录之环境安装与第一个Vue项目
Node.js的安装与配置 首先是Node.js的安装,安装十分简单,只需要去官网下载安装包后,一路next即可。 Node.js是一个开源的、跨平台的 JavaScript 运行时环境 下载地址,有两个版本,一个是推荐的,一个是最新…...
【DockerCE】Docker-CE 24.0.6正式版发布
官网下载地址(For RHEL/CentOS 7.9): https://download.docker.com/linux/centos/7/x86_64/stable/Packages/ 相对于24.0.5版本,本次24.0.6版本更新的rpm包有 5 个,使用目录对比软件对比的结果如下: 在Lin…...
【管理运筹学】第 7 章 | 图与网络分析(1,图论背景以及基本概念、术语、矩阵表示)
文章目录 引言一、图与网络的基本知识1.1 图与网络的基本概念1.1.1 图的定义1.1.2 图中相关术语1.1.3 一些特殊图类1.1.4 图的运算 1.2 图的矩阵表示1.2.1 邻接矩阵1.2.2 可达矩阵1.2.3 关联矩阵1.2.4 权矩阵 写在最后 引言 按照正常进度应该学习动态规划了,但我想…...
支持CAN FD的Kvaser PCIEcan 4xCAN v2编码: 73-30130-01414-5如何应用?
这里是引用 Kvaser PCIEcan 4xCAN v2(编码: 73-30130-01414-5)是一款小巧而先进的多通道实时CAN接口,可发送和接收CAN总线上的标准和扩展CAN消息,时间戳精度高。其与所有使用Kvaser CANlib的应用程序兼容。 主要特性 PCI Express…...
经济2023---风口
改革开放以来,中国共有12次比较好的阶级跃迁的机会: 包括80年代选部委院校、办乡镇企业、倒卖商品;90年代下海、选外语外贸、炒股;00年代从事资源品行业、选金融、炒房;10年代选计算机、搞互联网、买比特币。 从这里…...
JWFD开源工作流-矩阵引擎设计-高维向量空间分析法
JWFD开源工作流-矩阵引擎设计-高维向量空间分析法 在把已知的流程节点查找到之后,输出下标,但是我们发现,还有一些节点并未被 探测到,遍历并没有完全的完成,仍然有泄露的节点在其中,这个问题…...
WIN10访问Ubuntu的Samba
WIN10访问Ubuntu的Samba 在Ubuntu中安装好Samba后,如果无法在Win10里访问共享目录或者无法进行写操作,可以进行如下检查: 检查用户是否添加到共享和共享组 $ sudo adduser yourname sambashare 可以编辑:,查看文件/etc…...
AbstractExecutorService 抽象类
java.util.concurrent.AbstractExecutorService 是 Java 并发编程中的一个抽象类,它定义了 ExecutorService 接口的基本行为。ExecutorService 是一个接口,它提供了一种以异步方式执行任务的方法。 AbstractExecutorService 类包含以下一些重要的方法: void execute(Runnab…...
Android12 ethernet和wifi共存
1.修改网络优先走wifi packages/modules/Connectivity/service/src/com/android/server/connectivity/NetworkRanker.java -44,7 44,7 import java.util.Arrays;import java.util.Collection;import java.util.List;import java.util.function.Predicate; - import andro…...
记录使用layui弹窗实现签名、签字
一、前言 本来项目使用的是OCX方式做签字的,因为项目需要转到国产化,不在支持OCX方式,需要使用前端进行签字操作 注:有啥问题看看文档,或者换着思路来,本文仅供参考! 二、使用组件 获取jSign…...
【AIGC系列】Stable Diffusion 小白快速入门课程大纲
一、前言 本文是《Stable Diffusion 从入门到企业级应用实战》系列课程的前置学习引导部分,《Stable Diffusion新手完整学习地图课程》的课程大纲。该课程主要的培训对象是: 没有人工智能背景,想快速上手Stable Diffusion的初学者;想掌握St…...
在kali环境下安装Beef-Xss靶场搭建
目录 一、更新安装包 二、安装beef-xss 三、启动Beef-Xss工具 1、查看hook.js 2、查看后台登录地址 3、查看用户名和登录密码 4、登录页面 5、点击 Hook me:将配置的页面导入BEEF中 一、更新安装包 ┌──(root㉿kali)-[/home/kali] └─# apt-get update 二、安装be…...
【Apollo】自动驾驶技术的介绍
阿波罗是百度发布的名为“Apollo(阿波罗)”的向汽车行业及自动驾驶领域的合作伙伴提供的软件平台。 帮助汽车行业及自动驾驶领域的合作伙伴结合车辆和硬件系统,快速搭建一套属于自己的自动驾驶系统。 百度开放此项计划旨在建立一个以合作为中…...
HTML emoji整理 表情符号
<!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><title>测试</title></head><body><div style"font-size: 50px;">🔔</div><script>let count 0d…...
【蒸汽冷凝器型号和PI控制】具有PID控制的蒸汽冷凝器的动力学模型(MatlabSimulink)
💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...
mall :hutool项目源码解析
文章目录 一、mall开源项目1.1 来源1.2 项目转移1.3 项目克隆 二、Hutool工具类库2.1 Hutool 简介 三、源码解析3.1 集成与配置3.1.1 导入依赖3.1.2 添加配置 3.2 核心工具类3.2.1 AnnotationUtil使用:注解工具类3.2.2 BeanUtil使用:JavaBean的工具类3.2…...
【网络编程】TCP传输控制协议(Transmission Control Protocol)
(꒪ꇴ꒪ ),Hello我是祐言QAQ我的博客主页:C/C语言,数据结构,Linux基础,ARM开发板,网络编程等领域UP🌍快上🚘,一起学习,让我们成为一个强大的攻城狮࿰…...
PROJECT MOGFACE开源社区贡献指南:从代码阅读到提交PR的全流程
PROJECT MOGFACE开源社区贡献指南:从代码阅读到提交PR的全流程 你是不是也遇到过这样的情况:在GitHub上看到一个很酷的开源项目,比如最近挺火的PROJECT MOGFACE,心里痒痒的,也想贡献点代码,但一打开那庞大…...
告别复杂状态机:用C语言结构体数组为STM32设计可维护的多级菜单
用结构体数组重构STM32菜单系统:从状态机到模块化设计的进阶之路 在嵌入式开发中,菜单系统是许多产品不可或缺的交互界面。传统的状态机或switch-case实现方式虽然直接,但随着功能迭代,代码往往会变得臃肿难维护。我曾接手过一个使…...
告别临时表!MySQL8窗口函数优化复杂统计查询的3种典型方案
MySQL8窗口函数实战:3种替代临时表的高效统计方案 在数据分析与报表生成场景中,开发人员经常需要处理复杂的多维度统计需求。传统解决方案往往依赖临时表和多次查询拼接,不仅代码冗长,还存在显著的性能瓶颈。MySQL8引入的窗口函数…...
AMP实战:对抗运动先验在物理驱动角色控制中的风格化应用
1. AMP框架如何革新角色动作控制 想象一下你在玩一款开放世界游戏,主角需要从悬崖边缘精准跳到对面平台。传统动画系统可能会直接播放预设的跳跃动画,但物理引擎计算发现距离不够时,就会出现角色悬空滑行的诡异画面。这正是AMP(Ad…...
避坑指南:ThingsBoard部件开发中5个常见错误与优化方案(附跑马灯Demo代码)
ThingsBoard部件开发实战:5个高频踩坑点与性能优化技巧(含跑马灯完整实现) 最近在技术社区看到不少开发者讨论ThingsBoard部件开发中的"玄学问题"——明明按照文档操作却出现各种诡异现象。作为经历过完整产品开发周期的技术负责人…...
PVC绑定背后的秘密:图解K8s存储卷匹配规则与优先级机制
PVC绑定背后的秘密:图解K8s存储卷匹配规则与优先级机制 当你在Kubernetes集群中部署一个有状态应用时,最令人头疼的问题之一就是存储资源的管理。为什么有些PVC(PersistentVolumeClaim)能快速绑定到合适的PV(Persisten…...
一篇看懂原理、工作流与实战落地:收藏这份 AI Agent 学习指南,小白也能轻松入门大模型!
本文深入浅出地介绍了 AI Agent 的核心概念、工作原理以及实际应用。文章首先明确了 Agent 的本质是一个循环,由 LLM、工具和记忆三部分组成,并强调了 Agent 并不神秘,只是“增强版 LLM”。接着,文章指出了并非所有问题都需要 Age…...
AWS Shell异步操作:非阻塞命令执行的终极指南
AWS Shell异步操作:非阻塞命令执行的终极指南 【免费下载链接】aws-shell An integrated shell for working with the AWS CLI. 项目地址: https://gitcode.com/gh_mirrors/aw/aws-shell AWS Shell是一款专为AWS CLI设计的强大交互式生产力工具,它…...
Codesys电子凸轮Cam表两种设置方法对比:可视化拖拽 vs 程序动态配置
Codesys电子凸轮Cam表设置方法深度对比:可视化拖拽与程序动态配置实战解析 在工业自动化领域,电子凸轮技术正逐步取代传统机械凸轮,成为运动控制系统的核心组件。作为Codesys平台下的重要功能,Cam表的设置方法直接关系到运动轨迹…...
六足机器人如何自己“学会”走路?手把手教你用Q-learning实现自适应步态
六足机器人如何自己“学会”走路?手把手教你用Q-learning实现自适应步态 想象一下,当你把一只六足机器人放在崎岖不平的地面上时,它能够像昆虫一样迅速调整自己的步伐,找到最稳定的行走方式。这种看似简单的行为背后,隐…...
