当前位置: 首页 > article >正文

中小型企业大数据平台全栈搭建:Hive+HDFS+YARN+Hue+ZooKeeper+MySQL+Sqoop+Azkaban 保姆级配置指南

目录

  • 背景‌
  • 一、环境规划与依赖准备‌
    • 1. 服务器规划(3节点集群)
    • 2. 系统与依赖‌
    • 3. Hadoop生态组件版本与下载路径
    • 4. 架构图
  • 二、Hadoop(HDFS+YARN)安装与配置‌
    • 1. 下载与解压(所有节点)
    • 2. HDFS高可用配置
    • 3. YARN资源配置‌
    • 4. 启动Hadoop集群
  • 三、MySQL安装与Hive元数据配置‌
    • 1. 安装MySQL(Master节点)
    • 2. Hive配置连接MySQL
    • 3. 初始化Hive元数据
  • 四、Sqoop安装与数据迁移实战‌
    • 1. 下载与配置(Master节点)
    • 2. 配置环境变量
  • 五、Azkaban工作流调度系统部署‌
    • 1. 安装Azkaban(Master和Worker1节点)
    • 2. 配置Azkaban‌
    • 3. 启动服务
  • 六、Hue可视化平台与ZooKeeper配置‌
    • 1. Hue安装与配置(Master节点)‌
    • 2. ZooKeeper集群配置‌
  • 六、常见问题解决方案
  • 七、总结与维护指南‌
    • 1. 核心组件配置表
    • 2. 维护建议‌
    • 3. ‌部署建议‌

背景‌

对于中小企业,构建一套完整的本地化大数据平台需兼顾成本(5w内)、易用性和扩展性。基于Hadoop生态的组件(HDFS、YARN、Hive)结合数据工具(Sqoop、Azkaban)、可视化工具(Hue)和协调服务(ZooKeeper),能够实现从数据存储、计算、调度到可视化的全链路管理。
本文基于生产环境实践,详细讲解以下组件的安装、配置与联动:

  • 存储与计算‌:HDFS、YARN、Hive
  • 数据迁移‌:Sqoop(Hive与MySQL数据互通)
  • 调度系统‌:Azkaban
  • 可视化与协调‌:Hue、ZooKeeper
  • 元数据管理‌:MySQL

(一、环境规划与依赖准备‌中)提供全组件官方下载地址‌ 和 ‌配置模板‌,助您快速搭建企业级数据平台!

一、环境规划与依赖准备‌

1. 服务器规划(3节点集群)

节点角色IP地址部署服务
Master‌192.168.1.101NameNode、ResourceManager、Hive、Hue、ZooKeeper、Azkaban Web Server、MySQL
Worker1‌‌192.168.1.102DataNode、NodeManager、ZooKeeper、Azkaban Executor
Worker2‌‌192.168.1.103DataNode、NodeManager、ZooKeeper

2. 系统与依赖‌

  • 操作系统‌:CentOS 7.9(所有节点)
  • JDK‌:JDK 8u381(下载地址)
  • ‌MySQL‌:5.7.44(存储Hive元数据)
  • Python‌:3.6+(Hue依赖)

3. Hadoop生态组件版本与下载路径

组件稳定版本官方下载路径
HDFS3.3.6Apache Hadoop Releases
YARN3.3.6同上
Hive3.1.3Apache Hive Downloads
Hue4.11.0Gethue Releases
ZooKeeper3.7.1Apache ZooKeeper
MySQL5.7.44MySQL Community Server
Sqoop1.4.7Apache Sqoop
Azkaban4.0.0Azkaban GitHub Releases
Python 3.6+EPEL 仓库安装1. sudo yum install -y epel-release
2. sudo yum install -y python36 python36-devel

4. 架构图

在这里插入图片描述

二、Hadoop(HDFS+YARN)安装与配置‌

1. 下载与解压(所有节点)

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz  
tar -zxvf hadoop-3.3.6.tar.gz -C /opt  
mv /opt/hadoop-3.3.6 /opt/hadoop  

2. HDFS高可用配置

1)core-site.xml‌

<configuration>  <property>  <name>fs.defaultFS</name>  <value>hdfs://mycluster</value>  </property>  <property>  <name>hadoop.tmp.dir

相关文章:

中小型企业大数据平台全栈搭建:Hive+HDFS+YARN+Hue+ZooKeeper+MySQL+Sqoop+Azkaban 保姆级配置指南

目录 背景‌一、环境规划与依赖准备‌1. 服务器规划(3节点集群)2. 系统与依赖‌3. Hadoop生态组件版本与下载路径4. 架构图二、Hadoop(HDFS+YARN)安装与配置‌1. 下载与解压(所有节点)2. HDFS高可用配置3. YARN资源配置‌4. 启动Hadoop集群三、MySQL安装与Hive元数据配置…...

Tomcat、Open Liberty 和 WebSphere Application Server (WAS) 的配置、调试和跟踪

一、Tomcat Tomcat 是一个轻量级的开源 Java Servlet 容器。 1、配置 Tomcat 的主要配置文件位于其安装目录下的 conf 文件夹中。 server.xml: 这是 Tomcat 的核心配置文件&#xff0c;包含了服务器的基本设置&#xff0c;例如端口号、连接器配置、虚拟主机配置、以及全局的…...

使用yolov8+flask实现精美登录界面+图片视频摄像头检测系统

这个是使用flask实现好看登录界面和友好的检测界面实现yolov8推理和展示&#xff0c;代码仅仅有2个html文件和一个python文件&#xff0c;真正做到了用最简洁的代码实现复杂功能。 测试通过环境&#xff1a; windows x64 anaconda3python3.8 ultralytics8.3.81 flask1.1.2…...

Go语言环境搭建(Day1) 常见问题及解决方案指南

Go语言环境搭建&#xff08;Day1&#xff09;整理的 常见问题及解决方案指南&#xff1a; Go环境搭建问题排查手册 一、安装阶段问题 问题现象原因分析解决方案安装包下载失败网络问题或官网访问慢使用国内镜像下载&#xff1a;- Go中文网提示"Access Denied"Window…...

微软OneNote无法同步解决方案

目录 前言原因UWP特性 解决方案C***h注册表 参考链接 前言 假设有多台Windows电脑&#xff0c;最方便且免费的多设备笔记同步方案就是微软自家的OneNote&#xff0c;使用OneDrive自带的5G云存储。 但是在国内大陆的OneNote&#xff0c;经常会出现无法同步、同步失败&#xff1…...

Log4j2漏洞实战

1&#xff0c;打开环境后访问该ip 2&#xff0c;打开dnslog.cn&#xff0c;获取一个域名&#xff0c;我们这里是2bfvl6.dnslog.cn 3&#xff0c;访问http://47.122.51.245:8983/solr/admin/coresaction${jndi:ldap://${sys:java.version}.2bfvl6.dnslog.cn} 4&#xff0c;返回d…...

【蓝桥杯速成】| 6.背包问题(01版)

01 背包 有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i]&#xff0c;得到的价值是value[i] 。每件物品只能用一次&#xff0c;求解将哪些物品装入背包里物品价值总和最大。 接下来让我们从题目入手&#xff0c;看看这个背包到底是怎么个事 题目&#xff…...

【含文档+PPT+源码】基于小程序的智能停车管理系统设计与开发

项目介绍 本课程演示的是一款基于小程序的智能停车管理系统设计与开发&#xff0c;主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。 1.包含&#xff1a;项目源码、项目文档、数据库脚本、软件工具等所有资料 2.带你从零开始部署运行本套系统 3…...

idea 编译打包nacos2.0.3源码,生成可执行jar 包常见问题

目录 问题1 问题2 问题3 问题4 简单记录一下nacos2.0.3&#xff0c;编译打包的步骤&#xff0c;首先下载源码&#xff0c;免积分下载&#xff1a; nacos源码&#xff1a; https://download.csdn.net/download/fyihdg/90461118 protoc 安装包 https://download.csdn.net…...

YOLOv8 OBB 旋转目标检测模型详解与实践

引言 在计算机视觉领域&#xff0c;目标检测是至关重要的任务之一。YOLO&#xff08;You Only Look Once&#xff09;系列算法因其高效性和准确性而广受欢迎。YOLOv8 作为稳定版本&#xff0c;在目标检测领域取得了显著成果&#xff0c;依旧能打。本文将深入探讨 YOLOv8 OBB&a…...

机器学习之支持向量机(SVM)算法详解

文章目录 引言一、 什么是支持向量机&#xff08;SVM&#xff09;二、 SVM的基本原理三、数学推导1.线性可分情况2. 非线性可分情况3. 核函数 四、SVM的优缺点优点&#xff1a;缺点&#xff1a; 五、 应用场景六、 Python实现示例七、 总结 引言 支持向量机&#xff08;Suppor…...

Linux系统移植篇(十一)Linux 内核启动流程

要分析 Linux 启动流程&#xff0c;同样需要先编译一下 Linux 源码&#xff0c;因为有很多文件是需要编译才 会生成的。首先分析 Linux 内核的连接脚本文件 arch/arm/kernel/vmlinux.lds&#xff0c;通过链接脚本可以 找到 Linux 内核的第一行程序是从哪里执行的。vmlinux.lds …...

功能强大的电脑硬件检测及驱动安装工具

今天给大家带来一款超实用的电脑硬件检测软件——入梦工具箱。它是开源的&#xff0c;全程无广告干扰&#xff0c;使用起来清爽又安心。 打开入梦工具箱&#xff0c;进入“硬件信息”选项&#xff0c;电脑各个配件的详细参数一目了然。 无论是CPU的型号、频率&#xff0c;还是…...

springBoot中使用事务的隔离与回滚

在 Spring Boot 中&#xff0c;事务的隔离和回滚是保障数据一致性和完整性的重要机制。下面将详细介绍如何在 Spring Boot 里使用事务的隔离和回滚。 1. 环境准备 首先要确保 Spring Boot 项目中添加了 Spring Data JPA 或其他持久化框架的依赖&#xff0c;同时配置好数据库连…...

HHJS项目记录

1、插入 支出合同 与 进项发票的上下车关系 MERGE INTO T_BOT_Relation a USING (SELECT invoice.fid AS invoiceID, contract.fid AS contractid FROM T_CON_Invoice invoice INNER JOIN T_CON_Contract AS contract ON contract.FNUMBER invoice.FContractNo ) t ON (a.FDe…...

【Altium Designer】设计技巧

目录 技巧一&#xff1a;铺铜连接方式 技巧二&#xff1a;铺铜连接方式 技巧一&#xff1a;铺铜连接方式 Design -> Rules -> PolygonConnect 三种选择&#xff1a; 1&#xff09;Relief Connect&#xff1a;十字连接&#xff0c;可选择是45还是90 2&#xff09;Direct…...

基于FPGA的3U机箱模拟量高速采样板ADI板卡,应用于轨道交通/电力储能等

板卡简介&#xff1a; 本板为模拟量高速采样板&#xff08;ADI&#xff09;&#xff0c;主要用于电机转速和相电流检测&#xff0c;以实现电机闭环控制。 性能规格&#xff1a; 电源&#xff1a;DC5V&#xff0c;DC3.3V&#xff0c;DC15V&#xff0c;DC24V FPGA&#xff1a;…...

6. 顺序表和链表*****

目录 1. 顺序表 1.1 原理 1.2 常见的增删查改 1.3 顺序表的问题 2. 链表 2.1 原理 2.2 无头单向非循环的增删查改 2.3 链表面试题 1. 删除链表中等于给定值val的所有节点203. 移除链表元素 2. 链表逆置206. 反转链表&#xff08;考的最多&#xff09; 3.给你单链表的…...

Vue3 + TS组件封装指南

在 Vue 3 TypeScript 中封装组件时&#xff0c;需要注意以下几点&#xff1a; 1. Props 定义 使用 defineProps 或 PropType 定义组件的 props&#xff0c;并为其添加类型。 示例&#xff1a; import { defineComponent, PropType } from vue;export default defineComponen…...

【AVRCP】蓝牙协议栈深度解析:AVCTP互操作性核心机制与实现细节

目录 一、事务标签&#xff08;Transaction Label&#xff09;机制 1.1 事务标签核心规则 1.2 事务标签作用域与并发性 1.3 实现建议与陷阱规避 1.4 协议设计思考 1.5 调试与验证 二、消息分片&#xff08;Fragmentation&#xff09;机制 2.1 分片触发条件 2.2 分片支…...

【MySQL】基本查询(下)

文章目录 1.筛选分页结果2.Update3.Delete4.截断表5.插入查询结果6.聚合函数6.1什么是聚合函数6.2常见的聚合函数 7.group by7.1如何显示每个部门的平均工资和最高工资7.2显示每个部门的每种岗位的平均工资和最低工资7.3显示平均工资低于2000的部门和它的平均工资 8.总结 1.筛选…...

Xpath Helper 替代 - XPath 测试器

Xpath Helper 最近开始&#xff08;2025.03&#xff09;无法使用了&#xff0c;选找了几款替代品&#xff0c;XPath 测试器 是目前看来最好的。 XPath 测试器 市场地址&#xff1a; https://chromewebstore.google.com/detail/xpath-测试器/cneomjecgakdfoeehmmmoiklncdiodmh …...

C++学习之云盘项目nginx

1.复习 2.知识点概述 1. 一些基本概念 1.1 Nginx 初步认识 1.2 正向 / 反向代理 1.3 域名和 IP 2. Nginx 安装和配置 2.1 安装 2.2 配置 3. Nginx 的使用 3.1 部署静态网页 3.2 反向代理和负载均衡 课外知识导读 1. URL 和 URI 2. DNS 解析过程 1. 一些基…...

JAVA学习*抽象类

抽象类 在Java中&#xff0c;被abstract关键字修饰的类被称为抽象类。 特点 1、当一个类继承了抽象类&#xff0c;一定要重写抽象方法&#xff01;&#xff01;&#xff01; public abstract class Animal {public int age;public String name;//抽象方法public abstract v…...

数据库管理-第303期 数据库相关硬件文章汇总(20250319)

数据库管理303期 2025-03-19 数据库管理-第303期 数据库相关硬件文章汇总&#xff08;20250319&#xff09;1 CPU & 内存2 SSD3 RDMA4 存储5 CXL6 硬件采购7 数据库一体机总结 数据库管理-第303期 数据库相关硬件文章汇总&#xff08;20250319&#xff09; 作者&#xff1…...

WPF 开发从入门到进阶(五)

一、WPF 简介与开发环境搭建 1.1 WPF 概述 Windows Presentation Foundation&#xff08;WPF&#xff09;是微软推出的用于构建 Windows 桌面应用程序的强大 UI 框架。它融合了矢量图形、动画、多媒体等多种技术&#xff0c;能让开发者创建出具有高度视觉吸引力和交互性的应用…...

高级java每日一道面试题-2025年3月04日-微服务篇[Eureka篇]-Eureka是什么?

如果有遗漏,评论区告诉我进行补充 面试官: Eureka是什么&#xff1f; 我回答: 在Java高级面试中&#xff0c;关于Eureka的讨论通常会涵盖其基本概念、组件与架构、工作原理、高级特性以及与其他服务发现工具的比较等多个方面。以下是结合提供的内容对Eureka进行的详细解析和…...

OctoTools:一个具有复杂推理可扩展工具的智体框架

25年2月来自斯坦福大学的论文“OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning”。 解决复杂的推理任务可能涉及视觉理解、域知识检索、数值计算和多步骤推理。现有方法使用外部工具增强大语言模型 (LLM)&#xff0c;但仅限于专业领域、有限的…...

uniapp-x web 开发警告提示以及解决方法

defineModel props...

html5表格实战-跨行跨列

效果如图 代码如图...