Apache Kylin最简单的解析、了解
官网:Overview | Apache Kylin
一、Apache Kylin是什么?
由中国团队研发具有浓厚的中国韵味,使用神兽麒麟(kylin)为名
的一个OLAP多维数据分析引擎:(据官方给出的数据)
- 亚秒级响应(亚秒内查询巨大的hive表)
- 支持超大数据集(PB级以上,千亿条数据)
- 标准SQL接口、简短易用的即席查询工具
- 拥有丰富的工具集成支持标准数据库协议、各种BI分析工具
可伸缩性和高吞吐量:单节点Kylin可实现每秒70个查询,还可以结合Zookeeper分布式协调服务搭建Kylin集群,速度更快。
二、Kylin架构:

三、环境、依赖、配置
Kylin版本对应最低依赖图(官方数据)

环境
- Hadoop:Kylin 依赖 Hadoop 进行数据存储和计算。
- Hive:用于数据源的管理和访问。
- HBase:作为 Kylin 的默认存储引擎。
- Spark:用于加速 Cube 构建。
- Kylin:Apache Kylin 的核心服务。
注意:在MySQL中手动创建kylin数据库(官方默认连接mysql设置的是kylin这个数据库)
或更改配置
硬件要求:
Yarn内存设置
Kylin4.0使用Spark作为计算引擎和查询引擎,因此对spark任务运行的yarn容器内存有所要求,要求yarn容器内存不能低于4G,因此需要将Yarn容器内存调为8G,否则kylin启动会报错。 注意:yarn容器内存都调为了8G,所以三台虚拟机内存一定要大于8G,否则Kylin运行会报错,此处建议学者最低要将三台虚拟机内存设置为12G,8G,8G。(电脑内存不能低于32G)
增加ApplicationMaster 资源比例
因为Kylin的查询会生成一个在后台长期运行的Sparder任务,占用Default队列,因此一定要调大此参数,否则Kylin无法正常使用。
需要对 Kylin 进行配置。主要配置文件为:
kylin.properties:Kylin 的核心配置文件,包含元数据存储、查询引擎和存储引擎的配置。
hive-site.xml:Hive 配置文件,Kylin 需要访问 Hive 进行数据抽取。
hbase-site.xml:HBase 配置文件,Kylin 需要访问 HBase 进行数据存储。
四、Kylin的核心特点
- 分布式分析引擎:Kylin是一个基于Hadoop/Spark等分布式计算平台的分析引擎,能够充分利用集群的计算资源,实现大规模数据的并行处理。
- 高效的多维分析能力:Kylin支持多维数据分析,用户可以轻松地对数据进行切片、切块、汇总等操作。这种能力在处理复杂的数据分析任务时非常有用,能够帮助用户从多个角度审视数据,发现其中的规律和趋势。
- 预计算与实时查询的平衡:Kylin采用了预计算技术,通过在离线阶段对数据进行预处理和计算,生成多维数据立方体(Cube)。这使得在实时查询阶段能够迅速返回结果,实现了预计算与实时查询之间的平衡。这种平衡既保证了查询效率,又满足了用户对实时性的需求。
相关文章:
Apache Kylin最简单的解析、了解
官网:Overview | Apache Kylin 一、Apache Kylin是什么? 由中国团队研发具有浓厚的中国韵味,使用神兽麒麟(kylin)为名 的一个OLAP多维数据分析引擎:(据官方给出的数据) 亚秒级响应ÿ…...
MySQL——连接
一.引入库 我们已经分享了很多通过命令行方式去操作数据库,那么数据库该怎么通过语言去访问呢? 这里分享怎么通过C/C来连接数据库。 首先需要到MySQL官网,下载专门用于C/C连接数据库的库,但是一般不需要再去官网下载。 因为在…...
前端微服务实战:大型应用的拆分与治理
"这个系统已经无法维护了..."周五的架构评审会上,我盯着屏幕上那张错综复杂的依赖关系图发愁。作为一个运行了三年的企业级中后台系统,代码量已经超过 50 万行,构建时间长达 40 分钟,任何修改都可能引发连锁反应。 更让人头疼的是,随着业务的快速发展,不同业务线之间…...
Linux shell的七大功能 --- history
1.直接输入“history” 这个命令可以显示出曾经使用过的命令(最近时间的500条) history 2.“history”命令也可以搭配其他命令一起使用。 例:history | grep "vim",找出所有包含“vim”的记录; 也可以搭配…...
C++ webrtc开发(非原生开发,linux上使用libdatachannel库)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、libdatachannel库的下载和build二、开始使用 1.2.引入库3.开始使用 总结 前言 使用c开发webrtc在互联网上留下的资料甚少,经过我一段时间的探…...
C语言刷题
1. 题目描述 根据给出的三角形3条边a:b.c(a.b,c<100.000),计算三角形的周长和面积。 输入描述: 一行,三角形3条边(能构成三角形),中间用一个空格隔开. 输出描述: 一行,三角形周长和面积保留两位小数,中问用一个空…...
LabVIEW实现RFID通信
目录 1、RFID通信原理 2、硬件环境部署 3、程序架构 4、前面板设计 5、程序框图设计 6、测试验证 本专栏以LabVIEW为开发平台,讲解物联网通信组网原理与开发方法,覆盖RS232、TCP、MQTT、蓝牙、Wi-Fi、NB-IoT等协议。 结合实际案例,展示如何利用LabVIEW和常用模块实现物联网系…...
Linux 网络流量控制 - 实现概述
摘要 Linux 提供了一整套丰富的流量控制(traffic control)功能。本文档概述了相应的内核代码设计,描述了其结构,并通过描述一种新的排队策略来说明新元素的添加。 1 引言 最近的Linux内核提供了多种流量控制功能。Alexey Kuznetsov(kuznet…...
分布式 令牌桶算法 总结
前言 相关系列 《分布式 & 目录》《分布式 & 令牌桶算法 & 总结》《分布式 & 令牌桶算法 & 问题》 参考文献 《【算法】令牌桶算法》 概述 简介 TBA Token Bucket Algorithm 令牌桶算法是一种流行于网络通信领域的流量控制/频率限制算法。令牌…...
FFMPEG视频转图片
用FFMPEG视频转图片,并且for循环 import os import subprocess# 输入文件夹和输出文件夹路径 input_folder r"I:\xxx" output_base_folder r"D:\xxx\YOLO\data\video" output_subfolder_name "20240609"# 创建输出子文件夹 output…...
docker入门实践---虚拟机环境配置
文章目录 1.检查内核版本2.确定centos7可以上网3.关闭防火墙4.关闭防火墙5.更换阿里云6.安装gcc7.设置镜像仓库(阿里云)8更新软件包9.安装docket-ce10.启动docker11.普通用户权限设置 1.检查内核版本 2.确定centos7可以上网 3.关闭防火墙 下面的这个表示…...
java要防止重复序列化的问题JSON.toJSONString转义问题
要防止重复序列化的问题JSON.toJSONString(entity) 20241213 10:29 背景: 我在设计业务实现echart图标渲染,业务接口实时性查询耗时很长,为了提高系统可用性和用户体验,采用中间表的方案——即在中间表中存储大JSON。 但是在自测…...
TS的类型守卫、类型约束实践
类型守卫 // 基础类型判断 const arr [30, 50] console.log(typeof arr) // object const set new Set(arr) console.log(typeof set) // object const map new Map() console.log(typeof map) // objectclass Customer {constructor() {}buy(method:string) {console.log(…...
文件转曲,限制PDF文件编辑的最佳方案!
随着数字化进程的推进,PDF文件凭借其多样化的功能和优越的兼容性已经被广泛使用,成为了现代文档交流和存储的重要工具,满足了不同用户和行业的需求。 虽然PDF格式文件的功能很多,常见的比如阅读、编辑、加密、转换、还可用于印刷…...
MySQL系列之数据授权(安全)
导览 前言Q:如何对MySQL数据库进行授权管理一、MySQL的“特权”1. 权限级别2. 权限清单 二、授权操作1. 查看权限2. 分配权限3. 回收权限 结语精彩回放 前言 看过博主上一篇的盆友,可以Get到一个知识点:数据授权(eg:g…...
用 Python 实现经典的 2048 游戏:一步步带你打造属于你的小游戏!
用 Python 实现经典的 2048 游戏:一步步带你打造属于你的小游戏!(结尾附完整代码) 简介 2048 是一个简单而又令人上瘾的数字拼图游戏。玩家通过滑动方块使相同数字的方块合并,目标是创造出数字 2048!在这篇…...
Vue vs. React:两大前端框架的深度对比与分析(一)
前言 在当今快速发展的前端领域中,Vue和React作为两个备受瞩目的前端框架,已经成为许多开发者的首选。这两个框架凭借其出色的设计和强大的功能,在构建现代化、高效性能的Web应用方面扮演着重要角色。 Vue和React都以其独特的特点吸引了众多开…...
React 进阶深入理解核心概念与高阶实践
在上一节中,我们学习了 React 的基础知识,包括组件、状态管理和基本操作。接下来,我们将进一步探索 React 的高级功能和实战技巧,例如 组件间通信、高阶组件、Context API、React Router 等。这些内容将帮助你构建更复杂、功能更丰…...
Linux shell的七大功能 ---自动补齐、管道机制、别名
1、自动补齐---TAB 输入命令的前几个字符,按下tab键,会自动补齐完整的字符,若有多个命令、文件或目录的前几个字符相同,按下tab将会全部列举出来 2、管道机制---| 例如:ls -- help |more 将有关ls的帮助内容传递给“|…...
XML 在线格式化 - 加菲工具
XML 在线格式化 打开网站 加菲工具 选择“XML 在线格式化” 输入XML,点击左上角的“格式化”按钮 得到格式化后的结果...
一站式B站直播录制解决方案:零基础掌握BililiveRecorder高效使用指南
一站式B站直播录制解决方案:零基础掌握BililiveRecorder高效使用指南 【免费下载链接】BililiveRecorder 录播姬 | mikufans 生放送录制 项目地址: https://gitcode.com/gh_mirrors/bi/BililiveRecorder 在数字内容爆炸的时代,如何永久保存喜爱的…...
从演示到实战:基于快马平台构建一个功能完整的AI绘画社区应用
今天想和大家分享一个很有意思的实战项目 - 在InsCode(快马)平台上构建一个功能完整的AI绘画社区应用。这个想法来源于阿里悟空官网展示的AI绘画应用场景,但我们要做的是更贴近真实产品的综合性解决方案。 项目整体规划 首先需要明确,一个完整的AI绘画社…...
工厂化循环水产养殖系统:数据驱动,养殖更精准
工厂化循环水产养殖系统解决方案,以物联网感知、智能控制、大数据分析、智能决策为核心,构建“水质精准调控智能投喂生长监测病害报警运维管理循环水处理”全链路闭环,实现高密度、零换水(或微换水)、高产出、低风险的现代化养殖。 通过物联网…...
从RGB合并到多传感器融合:深入拆解AXI4-Stream Combiner IP在Zynq平台上的两种典型应用
从RGB合并到多传感器融合:深入拆解AXI4-Stream Combiner IP在Zynq平台上的两种典型应用 在FPGA开发中,数据流的高效处理一直是工程师面临的核心挑战之一。当系统需要同时处理多个并行数据源时,如何将这些数据流有序、高效地合并为单一数据流…...
JIT加速不生效?你漏掉了这4个强制启用开关,3.14新增--enable-jit-unsafe-mode正在被92%团队忽略
第一章:JIT加速不生效?你漏掉了这4个强制启用开关,3.14新增--enable-jit-unsafe-mode正在被92%团队忽略Go 3.14 引入了激进的 JIT 编译优化路径,但默认关闭全部 JIT 后端。大量团队在升级后观察到 GOMAXPROCS8 下 CPU 利用率未提升…...
2026年成都上门回收黄金新趋势:安全便捷更放心
随着经济的发展和人们生活水平的提高,黄金作为一种重要的投资和保值手段,越来越受到人们的青睐。然而,在黄金回收的过程中,用户常常面临诸多痛点,如价格不透明、流程复杂、门店选择困难等。为了解决这些问题࿰…...
如何分析和改善网站的SEO效果
如何分析和改善网站的SEO效果 在当今互联网时代,一个优秀的网站不仅需要内容丰富,还需要有良好的搜索引擎优化(SEO)效果。SEO是提升网站在搜索引擎中排名的关键手段,本文将详细探讨如何分析和改善网站的SEO效果&#…...
Domain Randomization不只是“乱调参数”:一份给自动驾驶感知开发的避坑指南
Domain Randomization不只是“乱调参数”:一份给自动驾驶感知开发的避坑指南 在自动驾驶感知算法的开发过程中,仿真环境训练已经成为不可或缺的一环。许多团队在Carla或LGSVL等仿真平台上投入大量精力进行模型训练,却在真实路测时遭遇性能断崖…...
第198章 万物编译(秀秀)
弦光研究院物质科学中心的环形实验室内,空气仿佛凝固成了某种可见的期待,每一立方厘米都承载着对技术突破的深切盼望。秀秀独自站立在主控制台前,目光穿透层层防护屏障,聚焦在那个被超导磁体环绕的圆柱形真空腔内。腔内࿰…...
OpenClaw多模型对比:Phi-3-mini-128k-instruct与Qwen在自动化任务中的表现
OpenClaw多模型对比:Phi-3-mini-128k-instruct与Qwen在自动化任务中的表现 1. 测试背景与实验设计 去年夏天,当我第一次尝试用OpenClaw自动化处理日常办公任务时,最困扰我的问题就是模型选择。不同的模型在理解能力、响应速度和资源消耗上差…...
