当前位置：首页 > news >正文

大数据技术-Hadoop（一）Hadoop集群的安装与配置

news 2025/11/8 21:45:40

一、准备工作

1、安装jdk（每个节点都执行）

2、修改主机配置（每个节点都执行）

3、配置ssh无密登录（每个节点都执行）

二、安装Hadoop（每个节点都执行）

三、集群启动配置（每个节点都执行）

1、core-site.xml

2、hdfs-site.xml

3、yarn-site.xml

4、mapred-site.xml

5、workers

四、启动集群和测试（每个节点都执行）

1、配置java环境

2、指定root启动用户

3、启动

3.1、如果集群是第一次启动

3.2、启动HDFS 在hadoop1节点

3.3、启动YARN在配置ResourceManager的hadoop2节点

3.4、查看 HDFS的NameNode

3.5、查看YARN的ResourceManager

4、测试

4.1、测试

4.2、文件存储路径

4.3、统计文本个数

五、配置Hadoop脚本

1、启动脚本hadoop.sh

2、查看进程脚本jpsall.sh

3、拷贝到其他服务器

一、准备工作

	hadoop1	hadoop2	hadoop3
IP	192.168.139.176	192.168.139.214	192.168.139.215
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

1、安装jdk（每个节点都执行）

tar -zxf jdk-8u431-linux-x64.tar.gz
mv jdk1.8.0_431 /usr/local/java#进入/etc/profile.d目录
vim java_env.sh#编辑环境变量
#java
JAVA_HOME=/usr/local/java
JRE_HOME=/usr/local/java/jre
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
PATH=$JAVA_HOME/bin:$PATH
export PATH JAVA_HOME CLASSPATH#刷新
source /etc/profile

2、修改主机配置（每个节点都执行）

vim /etc/hosts192.168.139.176 hadoop1
192.168.139.214 hadoop2
192.168.139.215 hadoop3#修改主机名(每个节点对应修改）
vim /etc/hostname 
hadoop1

注意：这里本地的host文件也要修改一下，后面访问配置的是主机名，如果不配置，需修改为ip

3、配置ssh无密登录（每个节点都执行）

#生成密钥
ssh-keygen -t rsa#复制到其他节点
ssh-copy-id hadoop1
ssh-copy-id hadoop2
ssh-copy-id hadoop3

二、安装Hadoop（每个节点都执行）

tar -zxf hadoop-3.4.0.tar.gz
mv hadoop-3.4.0 /usr/local/#配置环境变量进入/etc/profile.d目录vim hadoop_env.sh#添加如下内容
#hadoop
export HADOOP_HOME=/usr/local/hadoop-3.4.0
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin#查看版本
hadoop version

三、集群启动配置（每个节点都执行）

修改/usr/local/hadoop-3.4.0/etc/hadoop目录下

1、core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may not use this file except in compliance with the License.You may obtain a copy of the License athttp://www.apache.org/licenses/LICENSE-2.0Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License. See accompanying LICENSE file.
--><!-- Put site-specific property overrides in this file. --><configuration><!-- 指定NameNode的地址 --><property><name>fs.defaultFS</name><value>hdfs://hadoop1:8020</value></property><!-- 指定hadoop数据的存储目录 --><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop-3.4.0/data</value></property><!-- 配置HDFS网页登录使用的静态用户为root ,实际生产请创建新用户--><property><name>hadoop.http.staticuser.user</name><value>root</value></property></configuration>

2、hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may not use this file except in compliance with the License.You may obtain a copy of the License athttp://www.apache.org/licenses/LICENSE-2.0Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License. See accompanying LICENSE file.
--><!-- Put site-specific property overrides in this file. --><configuration>
<!-- nn web端访问地址--><property><name>dfs.namenode.http-address</name><value>hadoop1:9870</value></property><!-- 2nn web端访问地址--><property><name>dfs.namenode.secondary.http-address</name><value>hadoop3:9868</value></property></configuration>

3、yarn-site.xml

<?xml version="1.0"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may not use this file except in compliance with the License.You may obtain a copy of the License athttp://www.apache.org/licenses/LICENSE-2.0Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License. See accompanying LICENSE file.
-->
<configuration><!-- Site specific YARN configuration properties --><!-- 指定MR走shuffle --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 指定ResourceManager的地址--><property><name>yarn.resourcemanager.hostname</name><value>hadoop2</value></property><!-- 环境变量的继承 --><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME</value></property><!-- 开启日志聚集功能 --><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- 设置日志聚集服务器地址 --><property><name>yarn.log.server.url</name><value>http://hadoop102:19888/jobhistory/logs</value></property><!-- 设置日志保留时间为7天 --><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>
</configuration>

4、mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may not use this file except in compliance with the License.You may obtain a copy of the License athttp://www.apache.org/licenses/LICENSE-2.0Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License. See accompanying LICENSE file.
-->
<!-- Put site-specific property overrides in this file. -->
<configuration><!-- 指定MapReduce程序运行在Yarn上 --><property><name>mapreduce.framework.name</name><value>yarn</value></property><!-- 历史服务器端地址 --><property><name>mapreduce.jobhistory.address</name><value>hadoop1:10020</value></property><!-- 历史服务器web端地址 --><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop1:19888</value></property>
</configuration>

5、workers

hadoop1
hadoop2
hadoop3注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行

四、启动集群和测试（每个节点都执行）

1、配置java环境

#修改这个文件/usr/local/hadoop/etc/hadoop/hadoop-env.shexport JAVA_HOME=/usr/local/java

2、指定root启动用户

#在start-dfs.sh，stop-dfs.sh 添加如下内容 方法上面HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root在 start-yarn.sh stop-yarn.sh 添加如下内容 方法上面
YARN_RESOURCEMANAGER_USER=root
YARN_NODEMANAGER_USER=root

注：hadoop默认情况下的是不支持root账户启动的，在实际生产请创建用户组和用户，并且授予该用户root的权限

3、启动

3.1、如果集群是第一次启动

需要在hadoop1节点格式化NameNode（注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。）

hdfs namenode -format

3.2、启动HDFS 在hadoop1节点

/usr/local/hadoop-3.4.0/sbin/start-dfs.sh

3.3、启动YARN在配置ResourceManager的hadoop2节点

/usr/local/hadoop-3.4.0/sbin/start-yarn.sh

3.4、查看 HDFS的NameNode

http://192.168.139.176:9870/

3.5、查看YARN的ResourceManager

http://192.168.139.214:8088

4、测试

4.1、测试

#创建文件
hadoop fs -mkdir /input#创建文件
touch text.txt#上传文件
hadoop fs -put  text.txt /input#删除
hadoop fs -rm -r /output

4.2、文件存储路径

/usr/local/hadoop-3.4.0/data/dfs/data/current/BP-511066843-192.168.139.176-1734965488199/current/finalized/subdir0/subdir0

4.3、统计文本个数

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.0.jar wordcount /input  /output

五、配置Hadoop脚本

1、启动脚本hadoop.sh

#!/bin/bashif [ $# -lt 1 ]
thenecho "No Args Input..."exit ;
ficase $1 in
"start")echo " =================== 启动 hadoop集群 ==================="echo " --------------- 启动 hdfs ---------------"ssh hadoop1 "/usr/local/hadoop-3.4.0/sbin/start-dfs.sh"echo " --------------- 启动 yarn ---------------"ssh hadoop2 "/usr/local/hadoop-3.4.0/sbin/start-yarn.sh"echo " --------------- 启动 historyserver ---------------"ssh hadoop1 "/usr/local/hadoop-3.4.0/bin/mapred --daemon start historyserver"
;;
"stop")echo " =================== 关闭 hadoop集群 ==================="echo " --------------- 关闭 historyserver ---------------"ssh hadoop1 "/usr/local/hadoop-3.4.0/bin/mapred --daemon stop historyserver"echo " --------------- 关闭 yarn ---------------"ssh hadoop2 "/usr/local/hadoop-3.4.0/sbin/stop-yarn.sh"echo " --------------- 关闭 hdfs ---------------"ssh hadoop1 "/usr/local/hadoop-3.4.0/sbin/stop-dfs.sh"
;;
*)echo "Input Args Error..."
;;
esac

#授权
chmod +x hadoop.sh

2、查看进程脚本jpsall.sh

#!/bin/bashfor host in hadoop1 hadoop2 hadoop3
doecho =============== $host ===============ssh $host jps 
done

3、拷贝到其他服务器

scp root@hadoop1:/usr/local/hadoop-3.4.0 hadoop.sh jpsall.sh root@hadoop2:/usr/local/hadoop-3.4.0/scp root@hadoop1:/usr/local/hadoop-3.4.0 hadoop.sh jpsall.sh root@hadoop3:/usr/local/hadoop-3.4.0/

大数据技术-Hadoop（一）Hadoop集群的安装与配置

目录一、准备工作 1、安装jdk（每个节点都执行） 2、修改主机配置 （每个节点都执行） 3、配置ssh无密登录 （每个节点都执行） 二、安装Hadoop（每个节点都执行） 三、集群启动配置&a…...

编程日记 2024/12/30 7:13:56

04.HTTPS的实现原理-HTTPS的混合加密流程

04.HTTPS的实现原理-HTTPS的混合加密流程简介1. 非对称加密与对称加密2. 非对称加密的工作流程3. 对称加密的工作流程4. HTTPS的加密流程总结简介主要讲述了HTTPS的加密流程，包括非对称加密和对称加密两个阶段。首先，客户端向服务器发送请求&#xf…...

编程日记 2024/12/30 7:09:52

flutter插件开发-ios

flutter插件开发是一个重要的技能，拓展flutter与原生的通信，将一些公用的东西封装，给不同的项目使用。阅读前置： flutter基本通道调用 objective-c基础语法 ios项目基础知识目录 1、创建一个插件项目2、项目结构3、编写原生代码…...

编程日记 2024/12/30 7:04:48

【AI日记】24.12.29 kaggle 比赛 2-17

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】工作参加：kaggle 比赛 Regression with an Insurance Dataset时间：6 小时读书书名：教育的本质时间：1 小时律己工作时间：优作息&#xff1a…...

编程日记 2024/12/30 7:03:47

设计模式-创建型-工厂方法模式

什么是工厂方法模式？ 工厂方法模式（Factory Method Pattern）是创建型设计模式之一，目的是通过定义一个用于创建对象的接口，让子类决定实例化哪个类。简而言之，工厂方法模式通过延迟对象的创建过程到子类来…...

编程日记 2024/12/30 6:58:42

解决opencv在windows环境下读取中文图片名问题

在Windows系统下，cv2读取中文图片名时可能会报错，主要是因为OpenCV的imread函数在处理文件路径时，默认使用的是系统的编码格式，而Windows的默认编码可能与文件名的编码不匹配。具体原因包括： 编码不匹配：Wi…...

编程日记 2024/12/30 6:53:38

Apache Commons Pool ：介绍与使用

Apache Commons Pool ：介绍与使用什么是 commons-pool2？ commons-pool2 是 Apache Commons 提供的一个开源对象池实现框架。它旨在为应用程序提供通用的对象池支持，方便开发者管理资源（如数据库连接、网络连接等）复…...

编程日记 2024/12/30 6:52:37

sentinel-请求限流、线程隔离、本地回调、熔断

请求限流：控制QPS来达到限流的目的线程隔离：控制线程数量来达到限流的目录本地回调：当线程被限流、隔离、熔断之后、就不会发起远程调用、而是使用本地已经准备好的回调去提醒用户熔断：熔断也叫断路器，当失败、或者…...

编程日记 2024/12/30 6:51:36

微信小程序 app.json 配置文件解析与应用

目录一、什么是 app.json？ 二、app.json 文件的基本结构三、详细解析 app.json 配置项 1. pages：小程序页面路径配置 2. window：窗口样式配置 3. tabBar：底部标签栏配置 4. networkTimeout：网络请求超时配置 …...

编程日记 2024/12/30 6:50:35

C语言-共用体(联合体)

1.共用体(联合体) 1.共用体union是一个能在同一个存储空间存储不同类型数据的类型 2.共用体所占的内存长度等于其最长成员的长度。 3.同一内存段可以用来存放几种不同类型的成员，但每一瞬时只有一种起作用 4.共用体变量中起作用的成员是最后一次存放的成员&#xff…...

编程日记 2024/12/30 6:48:32

C++算法知识点

创建队列： 关于队列的一些常用方法： 创建栈： 将字符串换成整数：...

编程日记 2024/12/30 6:46:30

芝法酱学习笔记（2.3）——shardingsphere分库分表

一、前言之前的例子中，我们以一个简化了的销售单报表查询，展示了大数据量查询时，在索引和变量类型层面可以做的一些优化。可我们发现，无论怎么优化，一次查询都要好几秒。这是一个现实问题，只要一个系统用…...

编程日记 2024/12/30 6:45:29

vue3+vite+nginx打包

在开发环境下，已经可以正常地运行一个有增删改查功能的页面了，但如何把它发布到运行服务器呢？仍有许多的问题需要探索。网上很多文章给了很大的帮助，但总是没有说明原理，对于像我这样的初学者来说，不知其…...

编程日记 2024/12/30 6:42:25

爬虫与反爬虫实现全流程

我选取的网页爬取的是ppt nba版需要的工具:pycharm,浏览器爬虫需要观察它的网页信息,然后开始首先爬取它的html,可以看到有人气,标题,日期,咨询可以看到用get方法 import requests url"https://img-home.csdnimg.cn/images/20230724024159.png?origin_urlhttps%3A%2…...

编程日记 2024/12/30 6:41:24

Kimi进行学术方向选择精讲！

目录 1.文献搜索 2.辅助选题 3.选题判断在我们之前的文章中，小编都强调了选题在文章价值中的核心作用。一篇优秀的文章背后，肯定有一个精心挑选的选题。选题的好坏直接影响着文章能够发表的期刊等级。许多宝子们却采取了相反的做法，将大量…...

编程日记 2024/12/30 6:40:23

湖北产教融合教育研究院重庆分院揭牌成立

百年大计，教育为本。为积极响应重庆市人才培养的迫切需求，充分发挥中国同等学力申硕综合服务领航者的专业优势，12月26日，湖北产教融合教育研究院重庆分院启动仪式在渝北区龙山一路278号祈年悦城4栋24层隆重举行。湖北产教融合教育…...

编程日记 2024/12/30 6:39:22

探索CSS Houdini：下一代样式与动画技术

随着前端开发对用户体验的要求不断提高，传统的CSS在某些场景下难以满足开发者的高阶需求。在这种背景下，CSS Houdini 技术应运而生，为开发者提供了更高自由度和更强大的功能，开创了现代Web动画与样式的新可能。什么是CSS Houdin…...

编程日记 2024/12/30 6:36:19

winserver搭建域环境

域环境的搭建 7.1理论知识 Windows Server 2008网络类型工作组（Work Group） 在安装Windows系统的时候 ，工作组名一般为“workgroup”,也可以任意起个名字，在同一工作组或不同工作组在访问时也没有什么分别，在使用时&a…...

编程日记 2024/12/30 6:35:18

鸿蒙开发工程师成长的五个阶段

在科技日新月异的今天，鸿蒙（HarmonyOS）作为华为自主研发的操作系统，正以其独特的魅力和广阔的应用前景吸引着越来越多的开发者加入。鸿蒙不仅承载着华为对未来智能设备互联互通的愿景，也为开发者提供了一个充满挑战与机…...

编程日记 2024/12/30 6:34:17

Redis集成到SpingBoot 的数据结构常见操作

一.环境配置 1.依赖注入 2.yaml文件配置 3.启动本地Redis服务 (或在虚拟机上启动,这里为了方便演示在本地启动) 4.启动成功案例 5.创建一个Controller我们开始演示 RestController public class MyController {Autowiredprivate StringRedisTemplate redisTemplate;} 二 …...

编程日记 2024/12/30 6:32:15

地震勘探——干扰波识别、井中地震时距曲线特点

目录干扰波识别反射波地震勘探的干扰波井中地震时距曲线特点干扰波识别有效波：可以用来解决所提出的地质任务的波；干扰波：所有妨碍辨认、追踪有效波的其他波。地震勘探中，有效波和干扰波是相对的。例如，在反射波…...

编程新知 2025/11/8 18:21:32

K8S认证|CKS题库+答案| 11. AppArmor

目录 11. AppArmor 免费获取并激活 CKA_v1.31_模拟系统题目开始操作： 1）、切换集群 2）、切换节点 3）、切换到 apparmor 的目录 4）、执行 apparmor 策略模块 5）、修改 pod 文件 6）、…...

编程新知 2025/11/7 20:13:34

阿里云ACP云计算备考笔记 (5)——弹性伸缩

目录第一章概述第二章弹性伸缩简介 1、弹性伸缩 2、垂直伸缩 3、优势 4、应用场景 ① 无规律的业务量波动 ② 有规律的业务量波动 ③ 无明显业务量波动 ④ 混合型业务 ⑤ 消息通知 ⑥ 生命周期挂钩 ⑦ 自定义方式 ⑧ 滚的升级 5、使用限制第三章主要定义 …...

编程新知 2025/11/7 20:04:06

如何将联系人从 iPhone 转移到 Android

从 iPhone 换到 Android 手机时，你可能需要保留重要的数据，例如通讯录。好在，将通讯录从 iPhone 转移到 Android 手机非常简单，你可以从本文中学习 6 种可靠的方法，确保随时保持连接，不错过任何信息。第 1…...

编程新知 2025/11/8 6:13:30

在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的？

uni-app 中 Web-view 与 Vue 页面的通讯机制详解一、Web-view 简介 Web-view 是 uni-app 提供的一个重要组件，用于在原生应用中加载 HTML 页面： 支持加载本地 HTML 文件支持加载远程 HTML 页面实现 Web 与原生的双向通讯可用于嵌入第三方网页或 H5 应…...

编程新知 2025/8/6 2:19:46

C语言中提供的第三方库之哈希表实现

一. 简介前面一篇文章简单学习了C语言中第三方库（uthash库）提供对哈希表的操作，文章如下： C语言中提供的第三方库uthash常用接口-CSDN博客本文简单学习一下第三方库 uthash库对哈希表的操作。二. uthash库哈希表操作示例 u…...

编程新知 2025/7/27 8:17:48

【学习笔记】erase 删除顺序迭代器后迭代器失效的解决方案

目录使用 erase 返回值继续迭代使用索引进行遍历我们知道类似 vector 的顺序迭代器被删除后，迭代器会失效，因为顺序迭代器在内存中是连续存储的，元素删除后，后续元素会前移。但一些场景中，我们又需要在执行删除操作…...

编程新知 2025/9/30 8:10:20

LLaMA-Factory 微调 Qwen2-VL 进行人脸情感识别（二）

在上一篇文章中，我们详细介绍了如何使用LLaMA-Factory框架对Qwen2-VL大模型进行微调，以实现人脸情感识别的功能。本篇文章将聚焦于微调完成后，如何调用这个模型进行人脸情感识别的具体代码实现，包括详细的步骤和注释。模型调用步骤环境准备：确保安装了必要的Python库。…...

编程新知 2025/11/4 0:47:29

《Offer来了：Java面试核心知识点精讲》大纲

文章目录一、《Offer来了：Java面试核心知识点精讲》的典型大纲框架Java基础并发编程JVM原理数据库与缓存分布式架构系统设计二、《Offer来了：Java面试核心知识点精讲（原理篇）》技术文章大纲核心主题：Java基础原理与面试高频考点Java虚拟机（JVM）原理Java并发编程原理Jav…...

编程新知 2025/9/14 13:51:48

医疗AI模型可解释性编程研究：基于SHAP、LIME与Anchor

1 医疗树模型与可解释人工智能基础医疗领域的人工智能应用正迅速从理论研究转向临床实践，在这一过程中，模型可解释性已成为确保AI系统被医疗专业人员接受和信任的关键因素。基于树模型的集成算法（如RandomForest、XGBoost、LightGBM）因其卓越的预测性能和相对良好的解释性…...

编程新知 2025/11/7 19:31:26

一、准备工作

1、安装jdk（每个节点都执行）

2、修改主机配置 （每个节点都执行）

3、配置ssh无密登录 （每个节点都执行）

二、安装Hadoop（每个节点都执行）

三、集群启动配置（每个节点都执行）

1、core-site.xml

2、hdfs-site.xml

3、yarn-site.xml

4、mapred-site.xml

5、workers

四、启动集群和测试（每个节点都执行）

1、配置java环境

2、指定root启动用户

3、启动

3.1、如果集群是第一次启动

3.2、启动HDFS 在hadoop1节点

3.3、启动YARN在配置ResourceManager的hadoop2节点

3.4、查看 HDFS的NameNode

3.5、查看YARN的ResourceManager

4、 测试

4.1、测试

4.2、文件存储路径

4.3、统计文本个数

五、配置Hadoop脚本

1、启动脚本hadoop.sh

2、查看进程脚本jpsall.sh

3、拷贝到其他服务器

相关文章：

2、修改主机配置（每个节点都执行）

3、配置ssh无密登录（每个节点都执行）

4、测试