当前位置：首页 > news >正文

Hadoop3.0大数据处理学习1（Haddop介绍、部署、Hive部署）

news 2026/5/17 13:11:24

Hadoop3.0快速入门

学习步骤：

三大组件的基本理论和实际操作
Hadoop3的使用，实际开发流程
结合具体问题，提供排查思路

开发技术栈：

Linux基础操作、Sehll脚本基础
JavaSE、Idea操作
MySQL

Hadoop简介

Hadoop是一个适合海量数据存储与计算的平台。是基于Google的GoogleFS、Map Reduce、BigTable实现的。

分布式存储介绍

分布式计算介绍

移动数据：数据 -> 计算程序
移动计算：计算程序 -> 数据
分布式计算：各个节点局部计算 -> 第二阶段汇总程序

Hadoop三大核心组件

HDFS（分布式存储系统）

架构分析：

HDFS负责海量数据的分布式存储。
支持主从架构，主节点支持多个NameNode，从节点支持多个DataNode。
NameNode负责接收用户请求，维护目录系统的目录结构。DataNode主要负责存储数据。

MapReduce（分布式计算框架）

架构分析：

MapReduce是一个编程模型，主要负责海量数据计算，主要由两个阶段组成：Map和Reduce。
Map阶段是一个独立的程序，会在很多个节点上同时执行，每个节点处理一部分数据。
Reduce节点也是一个独立的程序，在这先把Reduce理解为一个单独的聚合程序即可。

Yarn（资源管理与调度）

架构分析：

主要负责集权资源的管理和调度，支持主从架构，主节点最多可以有2个，从节点可以有多个。
主节点（ResourceManager）进程主要负责集群资源的分配和管理。
从节点（NodeManager）主要负责单节点资源管理。

大数据生态圈

Hadoop安装部署

Hadoop发行版介绍

官方版本：Apache Hadoop，开源，集群安装维护比较麻烦
第三方发行版：Cloudera Hadoop（CDH），商业收费，使用Cloudera Manager安装维护比较方便
第三方发行版：HortonWorks（HDP），开源，使用Ambari安装维护比较方便。

伪分布式集群安装部署（使用1台Linux虚拟机安装伪分布式集群）

1. 静态IP设置

192.168.56.101

2. 主机名设置（临时、永久）

cent7-1

3. hosts文件修改（配置IP与主机名映射关系）

cent7-1 localhost

4. 关闭防火墙（临时、永久）

systemctl status firewalld.service
systemctl stop firewalld
systemctl status firewalld.service

5. ssh免密登录

ssh-keygen -t rsa
cd /root
cd .ssh/
cat id_rsa
cat id_rsa.pub >> authorized_keys
ssh cent7-1

6. JDK1.8安装

tar -zxvf jdk-8u191-linux-x64.tar.gz 
vi /etc/profile
source /etc/profile# profile配置内容
export JAVA_HOME=/home/jdk8
export PATH=.:$JAVA_HOME/bin:$PATH

7. Hadoop伪分布式安装

# 解压Hadoop
tar -zxvf hadoop-3.2.4.tar.gz 
# 进入配置文件目录
cd /home/hadoop-3.2.4/etc/hadoopvi core-site.xml vi hdfs-site.xml

配置core-site.xml

<property><name>fs.defaultFS</name><value>hdfs://cent7-1:9000</value><final>true</final>
</property>
<property><name>hadoop.tmp.dir</name><value>/home/hadoop_repo</value>
</property>

配置hdfs-site.xml

<!-- 指定HDFS副本的数量,伪分布式集群最多一个，也不支持多个 -->
<property><name>dfs.replication</name><value>1</value>
</property>

配置hdfs-site.xml

<!-- 指定MR运行在Yarn上 -->
<property><name>mapreduce.framework.name</name><value>yarn</value>
</property>

配置yarn-site.xml

<!-- Reducer获取数据的方式 -->
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager白名单 -->
<property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>

配置 hadoop-env.sh

export JAVA_HOME=/home/jdk8
export HADOOP_LOG_DIR=/home/hadoop_repo/logs/hadoop

初始化hdfs

# 在Hadoop的目录下执行以下命令，
bin/hdfs namenode -format

看到以下内容说明执行成功！注意：hdfs格式化只能执行一次，如果失败需要删除文件夹后再进行格式化。

启动

[root@cent7-1 hadoop-3.2.4]# sbin/start-all.sh
Starting namenodes on [cent7-1]
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
Starting secondary namenodes [cent7-1]
ERROR: Attempting to operate on hdfs secondarynamenode as root
ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.
Starting resourcemanager
ERROR: Attempting to operate on yarn resourcemanager as root
ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting operation.
Starting nodemanagers
ERROR: Attempting to operate on yarn nodemanager as root
ERROR: but there is no YARN_NODEMANAGER_USER defined. Aborting operation.
# 提示缺少hdfs、yarn的用户信息

配置start-dfs.sh、stop-dfs.sh

vi sbin/start-dfs.sh
vi sbin/stop-dfs.sh 
#增加配置
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

配置

vi sbin/start-yarn.sh 
vi sbin/stop-yarn.sh 
#增加配置
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

再次启动

[root@cent7-1 hadoop-3.2.4]# sbin/start-all.sh 
WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HADOOP_SECURE_DN_USER.
Starting namenodes on [cent7-1]
上一次登录：三 8月 30 19:05:12 CST 2023从 192.168.56.1pts/1 上
Starting datanodes
上一次登录：三 8月 30 21:02:51 CST 2023pts/0 上
localhost: Warning: Permanently added 'localhost' (ECDSA) to the list of known hosts.
Starting secondary namenodes [cent7-1]
上一次登录：三 8月 30 21:02:56 CST 2023pts/0 上
Starting resourcemanager
上一次登录：三 8月 30 21:03:49 CST 2023从 192.168.56.1pts/3 上
Starting nodemanagers
上一次登录：三 8月 30 21:04:13 CST 2023pts/0 上
[root@cent7-1 hadoop-3.2.4]# jps
10146 NameNode
10386 DataNode
10883 SecondaryNameNode
11833 ResourceManager
12954 Jps
12155 NodeManager
# 展示除了jps外的五个Hadoop组件进程表示启动成功

浏览器确认启动成功
- 访问HDFS：http://192.168.56.101:9870/
- 访问Hadoop：http://192.168.56.101:8088/

停止

sbin/stop-all.sh

分布式集群安装部署（使用3台Linux虚拟机安装分布式集群）

客户端节点安装介绍

HIVE安装部署

mysql安装部署

yum install mysql

hive下载与部署

apache-hive-hive-3.1.3安装包下载_开源镜像站-阿里云 (aliyun.com)
source /etc/profile

export HIVE_HOME=/home/hive
export PATH=$HIVE_HOME/bin:$PATH

配置hive/conf/hive-site.xml文件

<configuration>  
<property>  <name>javax.jdo.option.ConnectionURL</name>  <value>jdbc:mysql://cent7-1:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false</value>  
</property>  
<property>  <name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value>  
</property>  
<property>  <name>javax.jdo.option.ConnectionUserName</name><value>hdp</value>  
</property>  
<property>  <name>javax.jdo.option.ConnectionPassword</name><value>admin</value>  
</property>  
<!--自定义远程连接用户名和密码-->
<property><name>hive.server2.authentication</name><value>CUSTOM</value><!--默认为none，修改成CUSTOM-->
</property>
<!--指定解析jar包-->
<property><name>hive.server2.custom.authentication.class</name><value>com.ylw.CustomHiveServer2Auth</value>
</property>  
<property><name>hive.server2.custom.authentication.file</name><value>/home/hive/user.pwd.conf</value>
</property>
<!--设置用户名和密码-->
<property><name>hive.jdbc_passwd.auth.root</name><!--用户名为最后一个:root--><value>admin</value>
</property>  
<property><name>hive.metastore.port</name><value>9083</value><description>Hive metastore listener port</description>
</property>
<property><name>hive.server2.thrift.port</name><value>10000</value><description>Port number of HiveServer2 Thrift interface when hive.server2.transport.mode is 'binary'.</description>
</property>
<property><!-- <value>新的最大工作线程数</value>--><name>hive.server2.thrift.max.worker.threads</name><value>200</value>
</property>
<property><name>hive.metastore.local</name><value>false</value><description>controls whether to connect to remote metastore server or open a new metastore server in Hive Client JVM</description>
</property>
<property><name>hive.server2.transport.mode</name><value>binary</value><description>Expects one of [binary, http].Transport mode of HiveServer2.</description>
</property>
</configuration>

启动与停止hive

nohup hive --server metastore &
nohup hive --service hiveserver2 &
jps
#看到是否有两个runJar ，如果有说明启动成功
# 查看端口占用
netstat -anop |grep 10000
ps -aux|grep hive

Hadoop3.0大数据处理学习1（Haddop介绍、部署、Hive部署）

Hadoop3.0快速入门学习步骤： 三大组件的基本理论和实际操作Hadoop3的使用，实际开发流程结合具体问题，提供排查思路开发技术栈： Linux基础操作、Sehll脚本基础JavaSE、Idea操作MySQL Hadoop简介 Hadoop是一个适合海量数据存…...

编程日记 2023/10/26 6:12:45

C笔记：引用调用，通过指针传递

代码 #include<stdio.h> int max1(int num1,int num2) {if(num1 < num2){num1 num2;}else{num2 num1;} } int max2(int *num1,int *num2) {if(num1 < num2){*num1 *num2; // 把 num2 赋值给 num1 }else{*num2 *num1;} } int main() {int num1 0,num2 -2;int…...

编程日记 2023/10/26 6:11:44

【方法】如何给PDF文件添加“打开密码”？

PDF文件可以在线浏览，但如果想要给文件添加“打开密码”，就需要用到软件工具，下面小编分享两种常用的工具，小伙伴们可以根据需要选择。工具一：PDF编辑器 PDF阅读器一般是没有设置密码的功能模块，PDF编辑器…...

编程日记 2023/10/26 6:10:43

单源最短路径 -- Dijkstra

Dijkstra算法就适用于解决带权重的有向图上的单源最短路径问题 -- 同时算法要求图中所有边的权重非负（这个很重要） 针对一个带权有向图G ， 将所有节点分为两组S和Q ， S是已经确定的最短路径的节点集合，在初始时为空&…...

编程日记 2023/10/26 6:09:41

Java--多态及抽象类与接口

1.多态以不同参数调用父类方法，可以得到不同的处理，子类中无需定义相同功能的方法，避免了重复代码编写，只需要实例化一个继承父类的子类对象，即可调用相应的方法，而只需要维护附父类方法即可。 package c…...

编程日记 2023/10/26 6:08:40

Python手搓C4.5决策树+Azure Adult数据集分析

前言课上的实验由于不想被抄袭，所以暂时不放完整代码 Adult数据集可以在Azure官网上找到 Azure 开放数据集中的数据集 - Azure Open Datasets | Microsoft Learn 数据集预处理删除难以处理的权重属性fnlwgt与意义重复属性educationNum去除重复行与空行删除…...

编程日记 2023/10/26 6:07:40

【tg】6： MediaManager的主要功能

【tg】2：视频采集的输入和输出的管理者是 media manager‘ media 需要 network的支持：NetworkInterface friend class MediaManager::NetworkInterfaceImpl;NetworkInterfaceImpl 直接持有 MediaManager 的指针即可：发送rtp包、rtcp包、设置socket选项？...

编程日记 2023/10/26 6:06:39

NPM-安装报错connect ETIMEDOUT

报错信息request to https://registry.npm.taobao.org/yarn failed, reason: connect ETIMEDOUT 解决方案： 1、npm set strict-ssl false 2、设置代理 npm config set proxy http://xxx:xxxopenproxy.ali.com:8080npm如何在安装的时候指定源 npm install -g yarn1.…...

编程日记 2023/10/26 6:04:37

机器学习之查准率、查全率与F1

文章目录查准率（Precision）：查全率（Recall）：F1分数（F1 Score）：实例P-R曲线F1度量python实现查准率（Precision）： 定义： …...

编程日记 2023/10/26 6:03:36

＊Django中的Ajax 纯js的书写样式1

搭建项目建立一个Djano项目，建立一个app，建立路径，视图函数大多为render, Ajax的创建 urls.py path(index/,views.index), path(index2/,views.index2), views.py def index(request):return render(request,01.html) def index2(requ…...

编程日记 2023/10/26 6:02:35

谈谈node架构中的线程进程的应用场景、事件循环及任务队列

本文作者系360奇舞团前端开发工程师文章标题：谈谈node架构中的线程进程的应用场景、事件循环及任务队列 Node.js是一个基于Chrome V8引擎的JavaScript运行时环境，nodejs是单线程执行的，它基于事件驱动和非阻塞I/O模型进行多任务的执行。在理…...

编程日记 2023/10/26 6:01:34

http代理IP它有哪些应用场景？如何提升访问速度？

随着互联网的快速发展，越来越多的人开始关注网络速度和安全性。其中，代理IP技术作为一种有效的网络加速和安全解决方案，越来越受到人们的关注。那么，http代理IP有哪些应用场景？又如何提升访问速度呢？ 一、h…...

编程日记 2023/10/26 6:00:33

Armv8/Armv9的VIPT的别名问题是如何解决的

https://www.cse.unsw.edu.au/~cs9242/02/lectures/03-cache/node8.html https://developer.arm.com/documentation/ddi0406/b/System-Level-Architecture/Virtual-Memory-System-Architecture–VMSA-/Address-mapping-restrictions...

编程日记 2023/10/26 5:59:33

java/javaswing/窗体程序，人脸识别系统，人脸追踪，计算机视觉

源码下载地址支持：远程部署/安装/调试、讲解、二次开发/修改/定制源码下载地址...

编程日记 2023/10/26 5:58:32

设计模式（16）迭代器模式

一、介绍： 1、定义：迭代器模式 (Iterator Pattern) 是一种行为型设计模式，它提供一种顺序访问聚合对象（如列表、集合等）中的元素，而无需暴露聚合对象的内部表示。迭代器模式将遍历逻辑封装在一个迭代器对象…...

编程日记 2023/10/26 5:57:31

Openssl数据安全传输平台011：秘钥协商服务端

0. 代码仓库 https://github.com/Chufeng-Jiang/OpenSSL_Secure_Data_Transmission_Platform/tree/main/Preparation 编译protobuf类文件 VS2022 protobuf3.17 Message.proto protoc Message.proto --cpp_out./...

编程日记 2023/10/26 5:56:29

【23种设计模式】里氏替换原则

个人主页：金鳞踏雨个人简介：大家好，我是金鳞，一个初出茅庐的Java小白目前状况：22届普通本科毕业生，几经波折了，现在任职于一家国内大型知名日化公司，从事Java开发工作我的博客&am…...

编程日记 2023/10/26 5:55:29

嵌入式系统设计师考试笔记之操作系统基础复习笔记一

目录 1、嵌入式软件基础 （1）嵌入式软件的特点： （2）嵌入式软件分类： （3）无操作系统的嵌入式软件的两种实现方式： （4）有操作系统的三大优点&am…...

编程日记 2023/10/26 5:54:28

Unity开发之观察者模式（事件中心）

观察者模式是一种对象行为模式。它定义对象间的一种一对多的依赖关系，当一个对象的状态发生改变时，所有依赖于它的对象都得到通知并被自动更新。在观察者模式中，主体是通知的发布者，它发出通知时并不需要知道谁是它的观察者&#…...

编程日记 2023/10/26 5:53:27

16、window11+visual studio 2022+cuda+ffmpeg进行拉流和解码（RTX3050）

基本思想：需要一个window11 下的gpu的编码和解码代码，逐开发使用，先上个图几乎0延迟的，使用笔记本的显卡 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.0\extras\demo_suite>deviceQuery.exe deviceQuery.exe Starting...CUDA Device Query (Runtime API…...

编程日记 2023/10/26 5:52:26

ChatGPT资源宝库：从提示工程到项目实践的完整指南

1. 项目概述：一份关于ChatGPT的“Awesome”清单意味着什么？如果你最近在GitHub上搜索过任何与ChatGPT、AI或提示工程相关的内容，那么你大概率见过一个以“awesome-”开头的仓库。而sindresorhus/awesome-chatgpt无疑是这个领域里最知名、最常…...

编程新知 2026/5/17 11:06:01