Apache Kylin 系列入门教程
Apache Kylin 是一款开源的分布式分析引擎,主要用于提供SQL接口及多维分析(OLAP)能力以支持超大规模数据集。它能在亚秒级时间内完成PB级别的数据查询。本文将带你一步步了解如何安装、配置和使用Apache Kylin来构建数据仓库,并执行基本的查询操作。
准备工作
- Java环境:Kylin需要Java 8或更高版本。
- Hadoop集群:Kylin依赖于Hadoop进行数据存储和处理。你可以使用Hadoop 2.7.3或更高版本。
- HBase集群:Kylin使用HBase作为存储层,以实现高效的多维数据存储。
- Apache ZooKeeper:用于协调Kylin集群中的进程。
- MySQL:用于存储元数据。
确保这些环境已经准备好,并且可以正常使用。
安装与配置
步骤1: 安装Java
确保你的系统上已经安装了Java 8或更高版本。你可以通过以下命令来检查Java版本:
bash
深色版本
1java -version
步骤2: 安装Hadoop
- 下载Hadoop:从Apache Hadoop官网下载Hadoop 2.7.3或更高版本。
- 安装Hadoop:按照官方文档安装Hadoop。
- 配置Hadoop:确保
core-site.xml、hdfs-site.xml和yarn-site.xml等配置文件已经正确配置。
步骤3: 安装HBase
- 下载HBase:从Apache HBase官网下载HBase 1.2.6或更高版本。
- 安装HBase:按照官方文档安装HBase。
- 配置HBase:确保
hbase-site.xml等配置文件已经正确配置。
步骤4: 安装ZooKeeper
- 下载ZooKeeper:从Apache ZooKeeper官网下载ZooKeeper。
- 安装ZooKeeper:按照官方文档安装ZooKeeper。
- 配置ZooKeeper:确保
zoo.cfg配置文件已经正确配置。
步骤5: 安装MySQL
- 安装MySQL:安装MySQL数据库。
- 创建数据库:创建一个名为
kylin_metadata的数据库。
步骤6: 安装Apache Kylin
-
下载Apache Kylin:从Apache Kylin官网下载最新版本的Apache Kylin。
-
解压Apache Kylin:将下载的文件解压到一个合适的位置。
-
配置Apache Kylin:编辑
conf/kylin.properties文件,配置Hadoop、HBase、ZooKeeper和MySQL的相关路径和连接信息。例如:
properties深色版本
1# Hadoop Configuration 2hadoop.job.ugi=hdfs 3hadoop.job.history.location=file:///opt/hadoop/tmp/history 4hadoop.tmp.dir=/opt/hadoop/tmp 5hadoop.home.dir=/opt/hadoop 6hadoop.common.lib.native.path=/opt/hadoop/lib/native 7hadoop.mapred.job.tracker=localhost:8021 8hadoop.yarn.resourcemanager.address=localhost:8032 9hadoop.yarn.resourcemanager.scheduler.address=localhost:8030 10hadoop.yarn.resourcemanager.resource-tracker.address=localhost:8031 11hadoop.yarn.resourcemanager.admin.address=localhost:8033 12hadoop.hdfs.client.retries=10 13hadoop.hdfs.namenode.rpc-address=localhost:9000 14hadoop.hdfs.namenode.http-address=localhost:50070 15hadoop.hdfs.namenode.shared.edits.dir=hdfs://localhost:9000/hadoop/hdfs/namesecondary/current/edits 16hadoop.hdfs.client.failover.proxy.provider.hdfs=com.hadoop.internal.client.failover.HAProxyProvider 17hadoop.hdfs.client.failover.proxy.retries=1 18hadoop.security.authentication=simple 19hadoop.security.authorization=false 20 21# HBase Configuration 22hbase.zookeeper.quorum=localhost 23hbase.zookeeper.property.clientPort=2181 24 25# ZooKeeper Configuration 26zookeeper.connect=localhost:2181 27 28# MySQL Configuration 29kylin.metadata.url=jdbc:mysql://localhost:3306/kylin_metadata?useSSL=false&useUnicode=true&characterEncoding=UTF-8 30kylin.metadata.user=root 31kylin.metadata.password=root -
启动Apache Kylin:运行
bin/kylin.sh start命令来启动Kylin服务。
使用Apache Kylin
步骤1: 创建模型
- 登录Kylin Web界面:打开浏览器,访问
http://localhost:7070。 - 创建项目:在Kylin Web界面中创建一个新的项目。
- 创建模型:在项目中创建一个模型,指定数据源、表结构、维度和度量。
步骤2: 构建Cube
- 定义Cube:在模型的基础上定义一个Cube,指定时间范围、分区策略等。
- 构建Cube:提交构建任务,等待构建完成。
步骤3: 查询Cube
- 编写SQL查询:使用标准SQL语句查询Cube。
- 执行查询:在Kylin Web界面或通过REST API执行查询。
示例
假设你已经创建了一个名为sales的模型,该模型包含了销售数据表sales_fact,现在你想要构建一个Cube来统计每个月的销售额。
创建模型
- 登录Kylin Web界面:打开浏览器,访问
http://localhost:7070。 - 创建项目:点击
Projects->New Project,输入项目名sales_project。 - 创建模型:点击
Models->New Model,选择项目sales_project,输入模型名sales_model。 - 添加表:添加数据表
sales_fact。 - 定义维度:定义维度如
date_dim(日期维度)、product_dim(产品维度)等。 - 定义度量:定义度量如
sales_amount(销售额)。
构建Cube
- 定义Cube:点击
Cubes->New Cube,选择模型sales_model,定义Cube名为sales_cube。 - 配置Cube:配置Cube的时间范围、分区策略等。
- 构建Cube:提交构建任务。
查询Cube
-
编写SQL查询:在Kylin Web界面中编写SQL查询,例如:
sql深色版本
1SELECT product_dim.product_name, SUM(sales_amount) AS total_sales 2FROM sales_cube 3GROUP BY product_dim.product_name 4ORDER BY total_sales DESC 5LIMIT 10; -
执行查询:点击
Run执行查询。
总结
通过以上步骤,你现在已经了解了如何安装、配置和使用Apache Kylin来构建数据仓库,并执行基本的查询操作。Apache Kylin非常适合处理大规模的数据集,并能够提供快速的查询响应。如果你需要进一步的功能或遇到任何问题,请查阅官方文档或寻求社区支持。
相关文章:
Apache Kylin 系列入门教程
Apache Kylin 是一款开源的分布式分析引擎,主要用于提供SQL接口及多维分析(OLAP)能力以支持超大规模数据集。它能在亚秒级时间内完成PB级别的数据查询。本文将带你一步步了解如何安装、配置和使用Apache Kylin来构建数据仓库,并执…...
如何识别并防御漏洞扫描类攻击
随着网络安全威胁的不断演变,漏洞扫描已成为黑客常用的手段之一,旨在发现目标系统中的弱点以便进行后续攻击。高防服务作为一种专业的安全防护措施,能够在一定程度上识别并阻止这类攻击行为。本文将深入探讨高防服务是如何识别并防御漏洞扫描…...
冷思考:低代码的AI Agent构建平台能创造价值吗?
当前AI 圈中热点讨论的产品,除了以ChatGPT为代表的Chatbot领域,以及以Character.ai 为代表的AI虚拟社交领域,另一个热度较高的领域就是AI Agent领域。 大模型发展到今天,已经基本达成了一个共识:错综复杂的工作任务无…...
Spring Boot如何自定义注解?
1.什么是注解 注解(Annotation),也叫元数据。一种代码级别的说明。它是JDK1.5及以后版本引入的一个特性,与类、接口、枚举是在同一个层次。它可以声明在包、类、字段、方法、局部变量、方法参数等的前面,用来对这些元…...
gin框架传入的gin.context参数是池化的
1. gin.context参数不但是池化的,而且是指针 2. 但是gin.context又实现了context的接口。因此,可以当作context去使用 3. 这就会导致一个很严重的问题: 1. 池化导致了复用后的ctx将会将之前使用的ctx中的内容进行覆盖。 2. 实现了context接…...
AWS注册是否必须使用美元银行卡
亚马逊网络服务(AWS)作为全球领先的云计算平台,吸引了众多企业和个人用户。然而,不少人在注册AWS账户时会产生疑问:是否必须使用美元银行卡?实际上,这种说法并不准确。虽然AWS的主要结算货币是美元,但用户在注册和使用过程中有多种支付方式可供选择。我们结合九河云的分析来告…...
Spring IOC 注入的3种方式
Spring IOC 注入的3种方式 1. 构造器注入(Constructor Injection)2. Setter方法注入(Setter Injection)3. 字段注入(Field Injection) 💖The Begin💖点点关注,收藏不迷路…...
无人机影像基于机器学习的遥感反演及其结果可视化,定量遥感反演结果出图,相关性分析,指标筛选,特征选择
无人机影像或者卫星遥感反演分类模型的建立,反演模型的可视化制图出图,相关性分析,指标筛选,特征选择。代码太多,可企鹅联系: 指标的相关性分析。572 特征选择,贡献性最大的特征。412 LAI反演&…...
Eclipse插件之Java Dependency Viewer(显示类和包的关系图)
Java Dependency Viewer 插件的作用 Eclipse插件Java Dependency Viewer是一个为Java项目提供依赖关系可视化功能的工具。 在复杂的Java项目中,理解和分析类与类之间、包与包之间的依赖关系是非常有用的。Java Dependency Viewer插件通过生成依赖关系图,…...
H5小游戏出海,如何流量变现?
根据数据显示, 90%的轻度休闲游戏收入来自广告,即IAA(In-App Advertising)。使用这种形式进行变现的游戏类型大多以超休闲游戏为主,玩法简单、游戏内容轻度、风格简洁、游戏时间碎片化且即时娱乐性较高,收益…...
轻空间六大专利优势:引领气膜建筑新时代
在绿色建筑和科技创新的驱动下,轻空间不断突破传统建筑的限制,推出了一系列具有前瞻性和高性能的专利技术。通过这些技术,轻空间不仅为建筑行业注入了新动力,也为未来的气膜建筑设定了更高的标准。 低碳建材:“clearsk…...
LeetCode-day37-2940. 找到 Alice 和 Bob 可以相遇的建筑
LeetCode-day37-2940. 找到 Alice 和 Bob 可以相遇的建筑 题目描述示例示例1:示例2: 思路代码 题目描述 给你一个下标从 0 开始的正整数数组 heights ,其中 heights[i] 表示第 i 栋建筑的高度。 如果一个人在建筑 i ,且存在 i &…...
unity 判断平台
原文链接 Unity中判断平台的方法 Unity提供了一些方法来判断当前运行的平台,其中包括了判断是否为i0S平台。以下是几种常用的方法1.Application.platform Applicaion,platom 是Unity中的一个枚举类型,用于表示当前运行的平台。可以通过比较 Apication,p…...
PyCharm找不到Python了咋办
Python发生了重装的,且新的路径和原有路径不同,就会出现如下的错误: 解决办法: 点开PyCharm菜单的File/Setting 然后: 有上图的提示,说明需要将原来的venv进行清空。 如此操作之后,原来的红色…...
BRC-100 协议
BRC-100 协议 BRC-100 是一种基于序数理论的可扩展的去中心化计算协议。 BRC-100 协议会以下面的方式定义。未来所有的 BRC-100 协议栈都应该使用类似的规范来定义。 1. 摘要 BRC-100 协议是一种基于序数理论的可扩展的去中心化计算协议。 2. 抽象 BRC-100 协议本质上描述…...
茶余饭后(六)
年少成长的时候,多遇到一些所谓的“坏人”,“烂人”,其实是好的,因为这些人让你见识到了人性最丑陋的一面,他们让你磨炼了心性,在以后遇到难处理的人或事的时候,能够有一定的心理承受能力。遇见…...
秋招复习笔记——八股文部分:网络IP
终于来到了网络的最后一篇,继续加油! IP 知识全家桶 IP 基本认识 IP 在 TCP/IP 参考模型中处于第三层,也就是网络层。 网络层的主要作用是:实现主机与主机之间的通信,也叫点对点(end to end)…...
量化投资基础(四)之AR、MA、ARMA与ARIMA模型
点赞、关注,养成良好习惯 Life is short, U need Python 量化投资基础系列,不断更新中 1 引言 时间序列经典模型主要有: 自回归模型(Auto Regressive,AR)移动回归模型(Moving Average,MA&…...
LVS(Linux Virtual Server)详解
LVS(Linux Virtual Server)是一个用于负载均衡的开源软件项目,旨在通过集群技术实现高性能、高可用的服务器系统。它运行在Linux操作系统上,并且可以利用内核级的资源来提高性能和稳定性。 思维导图 LVS的工作原理 LVS主要基于Ne…...
uniapp版本更新除了plus.runtime.getProperty的解决办法
以下是展示图 带尺寸的图片: 首先把以下代码放到想要更新弹出的页面 //template部分<uni-popup ref"popup" background-color"#fff"><versionUp handleCloseVersion"closeVersion"></versionUp></uni-popup>//script…...
铭豹扩展坞 USB转网口 突然无法识别解决方法
当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…...
Linux应用开发之网络套接字编程(实例篇)
服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...
多模态2025:技术路线“神仙打架”,视频生成冲上云霄
文|魏琳华 编|王一粟 一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,…...
shell脚本--常见案例
1、自动备份文件或目录 2、批量重命名文件 3、查找并删除指定名称的文件: 4、批量删除文件 5、查找并替换文件内容 6、批量创建文件 7、创建文件夹并移动文件 8、在文件夹中查找文件...
IGP(Interior Gateway Protocol,内部网关协议)
IGP(Interior Gateway Protocol,内部网关协议) 是一种用于在一个自治系统(AS)内部传递路由信息的路由协议,主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...
基于数字孪生的水厂可视化平台建设:架构与实践
分享大纲: 1、数字孪生水厂可视化平台建设背景 2、数字孪生水厂可视化平台建设架构 3、数字孪生水厂可视化平台建设成效 近几年,数字孪生水厂的建设开展的如火如荼。作为提升水厂管理效率、优化资源的调度手段,基于数字孪生的水厂可视化平台的…...
C# 类和继承(抽象类)
抽象类 抽象类是指设计为被继承的类。抽象类只能被用作其他类的基类。 不能创建抽象类的实例。抽象类使用abstract修饰符声明。 抽象类可以包含抽象成员或普通的非抽象成员。抽象类的成员可以是抽象成员和普通带 实现的成员的任意组合。抽象类自己可以派生自另一个抽象类。例…...
04-初识css
一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...
html-<abbr> 缩写或首字母缩略词
定义与作用 <abbr> 标签用于表示缩写或首字母缩略词,它可以帮助用户更好地理解缩写的含义,尤其是对于那些不熟悉该缩写的用户。 title 属性的内容提供了缩写的详细说明。当用户将鼠标悬停在缩写上时,会显示一个提示框。 示例&#x…...
Linux离线(zip方式)安装docker
目录 基础信息操作系统信息docker信息 安装实例安装步骤示例 遇到的问题问题1:修改默认工作路径启动失败问题2 找不到对应组 基础信息 操作系统信息 OS版本:CentOS 7 64位 内核版本:3.10.0 相关命令: uname -rcat /etc/os-rele…...
