Kylin系列(一)入门
Kylin系列(一)入门
目录
- 简介
- Kylin的特点
- 安装与配置
- 环境要求
- 安装步骤
- 基本概念
- Cube
- 维度与度量
- Kylin的基本操作
- 数据准备
- Cube设计
- Cube构建
- 查询与分析
- 最佳实践
- 常见问题
- 总结
简介
Apache Kylin 是一个开源的分布式分析引擎,提供 SQL 查询接口及多维分析(OLAP)能力。它能够处理超大规模数据集,并提供亚秒级的查询响应时间。Kylin 最初由 eBay 开发,并于 2015 年捐赠给 Apache 基金会。
Kylin 的主要目标是解决大数据分析中的查询性能问题,通过预计算和存储数据立方体(Cube),实现对超大规模数据集的快速查询。
Kylin的特点
- 高性能:通过预计算和存储数据立方体(Cube),实现对超大规模数据集的亚秒级查询响应。
- 易于使用:提供了简单的 SQL 查询接口和多维分析能力,用户可以使用熟悉的 SQL 进行数据分析。
- 高度集成:与 Hadoop 生态系统紧密集成,支持 HBase、Hive 等。
- 灵活的扩展性:可以根据需求灵活扩展,支持多种计算和存储引擎。
安装与配置
环境要求
- 操作系统:Linux(推荐),Windows
- Hadoop:2.x 或以上版本
- Hive:0.13 或以上版本
- HBase:0.98.1 或以上版本
- Spark:2.x 或以上版本
- Java:1.8 或以上版本
安装步骤
- 下载 Kylin:从 Apache Kylin 官网 下载最新版本的 Kylin。
- 解压文件:
tar -zxvf apache-kylin-*.tar.gz cd apache-kylin-* - 配置环境变量:
export KYLIN_HOME=/path/to/kylin export PATH=$KYLIN_HOME/bin:$PATH - 配置 Kylin:编辑
$KYLIN_HOME/conf/kylin.properties文件,根据实际环境配置相关参数,例如 Hadoop 和 HBase 的连接信息。kylin.metadata.url=kylin_hbase kylin.storage.url=kylin_hbase kylin.engine.spark.conf.spark.executor.memory=2g # 其他配置项根据需要修改 - 启动 Kylin:
kylin.sh start - 验证安装:打开浏览器,访问
http://<kylin-server>:7070/kylin,查看 Kylin 的 Web 界面,登录默认管理员账号(用户名:admin,密码:KYLIN)。
基本概念
Cube
Cube 是 Kylin 中的核心概念,代表了预计算的数据模型。通过预计算,可以大幅提升查询速度。Cube 由多个维度和度量组成。每个 Cube 定义了一个特定的查询空间,通过预计算所有可能的查询组合,实现在查询时的快速响应。
维度与度量
- 维度(Dimension):用于描述数据切片的属性,如时间、地区、产品等。维度通常是数据中用于分组、过滤和排序的字段。
- 度量(Measure):用于对数据进行汇总计算的指标,如销售额、订单数量等。度量通常是数值字段,支持各种聚合函数(如 SUM、COUNT、MAX 等)。
Kylin的基本操作
数据准备
在使用 Kylin 前,需要准备好源数据。通常,源数据存储在 Hive 表中。以下是一个简单的 Hive 表创建示例:
CREATE TABLE sales (date STRING,region STRING,product STRING,amount DOUBLE
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';
将数据导入 Hive 表中:
hive -e "LOAD DATA LOCAL INPATH '/path/to/data.csv' INTO TABLE sales;"
Cube设计
-
创建项目:在 Kylin 的 Web 界面中创建一个新的项目:
- 登录 Kylin Web 界面,点击左上角的
Projects。 - 点击
New Project,输入项目名称,点击Save。
- 登录 Kylin Web 界面,点击左上角的
-
数据模型:定义数据模型,选择维度和度量:
- 在项目中,点击
Models,然后点击New Model。 - 输入模型名称,选择数据源表(如
sales表)。 - 定义维度和度量,点击
Save保存。
- 在项目中,点击
-
Cube设计:基于数据模型设计 Cube,配置维度和度量:
- 在模型中,点击
Cubes,然后点击New Cube。 - 输入 Cube 名称,选择数据模型,配置维度和度量,点击
Save保存。
- 在模型中,点击
Cube构建
- 构建Cube:在 Web 界面中启动 Cube 构建任务:
- 在 Cube 列表中,点击
Build按钮,选择构建范围(全量构建或增量构建),点击Start。
- 在 Cube 列表中,点击
- 监控进度:通过 Web 界面监控 Cube 构建的进度和状态:
- 在
Monitor页面中,可以查看 Cube 构建的任务列表和详细信息。
- 在
查询与分析
- SQL查询:通过 Kylin 提供的 SQL 查询接口执行查询:
- 在 Web 界面中,点击
Query,输入 SQL 查询语句,点击Run。 - 例如:
SELECT date, region, SUM(amount) FROM sales_cube WHERE date >= '2024-01-01' GROUP BY date, region; - 在 Web 界面中,点击
- 多维分析:使用 BI 工具(如 Tableau、Power BI)连接 Kylin 进行多维分析:
- 在 BI 工具中,添加 Kylin 数据源,配置连接信息。
- 通过 BI 工具的界面,拖拽维度和度量,进行多维分析和可视化展示。
最佳实践
- 合理设计 Cube:避免过多维度和度量,以减少 Cube 的构建和存储成本。设计时应考虑查询需求,选择最常用的维度和度量。
- 数据分区:利用数据分区提升查询性能。例如,可以按时间分区,以减少查询时扫描的数据量。
- 定期维护:定期对 Cube 进行维护和优化,确保查询性能。可以定期重新构建 Cube,清理过期数据,调整配置参数等。
常见问题
- Cube构建失败:检查日志文件,确认配置和环境是否正确。例如,检查 HBase 和 Hadoop 的连接信息,确认所有服务是否正常运行。
- 查询性能不佳:优化 Cube 设计,减少不必要的维度和度量。调整 Kylin 配置参数,如内存设置、缓存设置等。
- 数据不一致:确保源数据的一致性和完整性。在数据加载和 Cube 构建过程中,避免数据变更。
总结
本文详细介绍了 Apache Kylin 的基本概念、安装与配置、基本操作及最佳实践。通过 Kylin,用户可以实现对超大规模数据集的快速查询和分析。希望这篇文章能帮助你更好地理解和使用 Apache Kylin。后续文章将深入探讨 Kylin 的高级功能和应用场景,如高级 Cube 设计、实时数据分析等。
如果有任何问题,欢迎留言讨论。
相关文章:
Kylin系列(一)入门
Kylin系列(一)入门 目录 简介Kylin的特点安装与配置 环境要求安装步骤 基本概念 Cube维度与度量 Kylin的基本操作 数据准备Cube设计Cube构建查询与分析 最佳实践常见问题总结 简介 Apache Kylin 是一个开源的分布式分析引擎,提供 SQL 查询接口及多维分析&#x…...
pmp学习交流组队~
首先,来看看什么是PMP PMP指的是项目管理专业人士资格认证。它是由美国项目管理协会(Project Management Institute(PMI)发起的,严格评估项目管理人员知识技能是否具有高品质的资格认证考试。 pmp备考攻略本人推荐的参考资料比较多࿰…...
公司常用的监控软件有哪些?2024年六大公司监控软件良心推荐!
在现代企业管理中,监控软件不仅可以帮助提高员工生产力,还可以确保企业数据的安全和保护。小编分享六款公司监控软件,能够满足不同企业的需求,提升管理效率和信息安全。 一、值得推荐的监控软件 1. 固信软件 固信软件https://ww…...
DNS解析异常--排查验证
目录 1.脚本 2.解析结果 3.脚本详解 1.脚本 for j in {1..100}; do for i in $domain1 $domain2; do echo $i; dig $i $dns服务器1 short; sleep 1; dig $i $dns服务器2 short ; sleep 1; done; sleep 2; done; 2.解析结果 ## 域名的解析实际IP: ## $domain1 $IP1 ## $do…...
OpenCV库学习之Canny边缘检测模块
OpenCV库学习之Canny边缘检测模块 一、简介 Canny边缘检测是OpenCV库中一个非常著名的边缘检测算法模块,由John F. Canny在1986年提出。该算法通过多个步骤来确定图像中的边缘,包括噪声降低、梯度计算、非极大值抑制、双阈值检测和边缘跟踪等。Canny边缘…...
Python 教程(七):match...case 模式匹配
目录 专栏列表前言基本语法match 语句case 语句 模式匹配的类型示例具体值匹配类型匹配序列匹配星号表达式命名变量复杂匹配 模式匹配的优势总结 专栏列表 Python教程(一):环境搭建及PyCharm安装Python 教程(二)&…...
Python小项目实战:杨辉三角
题目要求 编写python程序,实现输入正整数n,输出一个n层的杨辉三角,要求打印显示的时候左右对称 比如,输入7,返回结果如图所示 解决思路 generate_pascals_triangle(n) 函数: 生成一个包含 n 层的杨辉三角。 初始化第…...
java注解与反射(非常详细, 带有很多样例)
下面是详细地讲解 Java 中的注解与反射,并提供了很多的示例来帮助理解。 Java 注解(Annotations) 1. 注解的基本概念 注解(Annotation)是 Java 5 引入的一种用于为代码元素(类、方法、字段、参数等&…...
模拟实现短信登录功能 (session 和 Redis 两种代码实例) 带前端演示
目录 整体流程 发送验证码 短信验证码登录、注册 校验登录状态 基于 session 实现登录 实现发送短信验证码功能 1. 前端发送请求 2. 后端处理请求 3. 演示 实现登录功能 1. 前端发送请求 2. 后端处理请求 校验登录状态 1. 登录拦截器 2. 注册拦截器 3. 登录完整…...
C# Parallel设置最大并发度
背景 以前用Parallel都是直接用,今天在处理pdf时发现不是很快,特别是有时居然卡死了,异常是有处理的,但没有爆出来,不知道问题在哪。 老老实实不用多线程,一个多小时觉得还是太累。 用的话,部…...
【java】力扣 反转字符串中的单词
目录 题目描述题目描述思路代码 题目描述 151.反转字符串中的单词 题目描述 思路 主要是利用快慢指针和字符串的截取 还要了解去掉首尾空格的函数是trim 那s"the sky is blue"举例 这个例子是没有首尾空格的,以防万一,我们不管有没有&#…...
科学设计程序员面试内容,破解“八股文”之弊
“八股文”在实际工作中是助力、阻力还是空谈? 作为现在各类大中小企业面试程序员时的必问内容,“八股文”似乎是很重要的存在。但“八股文”是否能在实际工作中发挥它“敲门砖”应有的作用呢?有IT人士不禁发出疑问:程序员面试考…...
蓝牙BlueZ验证使用记录
最近使用的一款AICSemi AIC8800D8芯片做的WiFiBT二合一模组,该模组WiFi使用SDIO通信,BT使用UART通信,供应商丢了一份驱动,包含了三个目录:aic8800_bsp、aic8800_fdrv和aic8800_btlpm,而蓝牙部分提供了lbh_s…...
【从0制作自己的ros导航小车:上位机篇】02、ros1多机通讯与坐标变换可视化
从0制作自己的ros导航小车 前言一、ros1多机通讯二、rviz可视化小车坐标系 前言 上节课完成了里程计数据与坐标变换发布,但是还没有测试,本节进行测试,测试之前需要知道一件事,上位机也就是开发板一般不做可视化用,因…...
JumpServer关闭admin mfa验证
背景 因为上一次启动了mfa验证,但是没有验证就关机重启,导致再开机输入密码后需要mfa绑定,但是怎么也无法绑定成功,导致无法登录。 故希望通过后台取消mfa的验证 解决方法 1. 进入docker docker exec -it jms_core /bin/bash…...
Kafka知识总结(选举机制+控制器+幂等性)
文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 选举机制 控制器(Broker)选举 控制器就是…...
2024非常全的接口测试面试题及参考答案-软件测试工程师没有碰到算我输!
一、前言 接口测试最近几年被炒的火热了,越来越多的测试同行意识到接口测试的重要性。接口测试为什么会如此重要呢? 主要是平常的功能点点点,大家水平都一样,是个人都能点,面试时候如果问你平常在公司怎么测试的&#…...
python 写一个年会抽奖的demo
使用while 进行循环,进行三轮之后,停止。random.sample() 抽样不重复查询数据 import random name_list [] for i in range(0,100): name_list .append(员工{i}) winnerNum [30,6,3] //每个中奖人数 count 0 while count < 3: choice i…...
C++ OpenCV 实现多张图片叠加 叠加文字
C OpenCV 实现多张图片叠加 叠加文字 在C中使用OpenCV叠加多张图片以及添加文字的基本步骤如下: 加载多张图片。 确定叠加位置。 使用cv::addWeighted叠加图片,可以为叠加的图片添加透明度。 使用cv::putText在图片上添加文字。 显示或保存结果图片…...
用 apifox cli 命令行运行本地接口出现TypeError:Invalid IP address: undefined
用 apifox cli 命令行运行本地接口出现TypeError:Invalid IP address: undefined,客户端运行是通过的但命令行运行会报错 修改端口也是一样报错,地址修改为127.0.0.1会报错connect ECONNREFUSED 127.0.0.1:8080 解决方法:不用localhost&…...
基于Uniapp开发HarmonyOS 5.0旅游应用技术实践
一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架,支持"一次开发,多端部署",可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务,为旅游应用带来…...
在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module
1、为什么要修改 CONNECT 报文? 多租户隔离:自动为接入设备追加租户前缀,后端按 ClientID 拆分队列。零代码鉴权:将入站用户名替换为 OAuth Access-Token,后端 Broker 统一校验。灰度发布:根据 IP/地理位写…...
macOS多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用
文章目录 问题现象问题原因解决办法 问题现象 macOS启动台(Launchpad)多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用。 问题原因 很明显,都是Google家的办公全家桶。这些应用并不是通过独立安装的…...
高等数学(下)题型笔记(八)空间解析几何与向量代数
目录 0 前言 1 向量的点乘 1.1 基本公式 1.2 例题 2 向量的叉乘 2.1 基础知识 2.2 例题 3 空间平面方程 3.1 基础知识 3.2 例题 4 空间直线方程 4.1 基础知识 4.2 例题 5 旋转曲面及其方程 5.1 基础知识 5.2 例题 6 空间曲面的法线与切平面 6.1 基础知识 6.2…...
[10-3]软件I2C读写MPU6050 江协科技学习笔记(16个知识点)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...
Mobile ALOHA全身模仿学习
一、题目 Mobile ALOHA:通过低成本全身远程操作学习双手移动操作 传统模仿学习(Imitation Learning)缺点:聚焦与桌面操作,缺乏通用任务所需的移动性和灵活性 本论文优点:(1)在ALOHA…...
USB Over IP专用硬件的5个特点
USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中,从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备(如专用硬件设备),从而消除了直接物理连接的需要。USB over IP的…...
虚拟电厂发展三大趋势:市场化、技术主导、车网互联
市场化:从政策驱动到多元盈利 政策全面赋能 2025年4月,国家发改委、能源局发布《关于加快推进虚拟电厂发展的指导意见》,首次明确虚拟电厂为“独立市场主体”,提出硬性目标:2027年全国调节能力≥2000万千瓦࿰…...
Selenium常用函数介绍
目录 一,元素定位 1.1 cssSeector 1.2 xpath 二,操作测试对象 三,窗口 3.1 案例 3.2 窗口切换 3.3 窗口大小 3.4 屏幕截图 3.5 关闭窗口 四,弹窗 五,等待 六,导航 七,文件上传 …...
MySQL 8.0 事务全面讲解
以下是一个结合两次回答的 MySQL 8.0 事务全面讲解,涵盖了事务的核心概念、操作示例、失败回滚、隔离级别、事务性 DDL 和 XA 事务等内容,并修正了查看隔离级别的命令。 MySQL 8.0 事务全面讲解 一、事务的核心概念(ACID) 事务是…...
