当前位置：首页 > news >正文

Hadoop集群配置

news 2026/2/8 15:27:03

一、系统文件配置

集群部署规划

NameNode和SecondaryNameNode不要安装在同一台服务器

ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode放在同一台机器上。

这里装了四台机器，ant151,ant152,ant153,ant154。

ant151	ant152	ant153	ant154
NameNode	NameNode
DataNode	DataNode	DataNode	DataNode
NodeManager	NodeManager	NodeManager	NodeManager
		ResourceManager	ResourceManager
JournalNode	JournalNode	JournalNode
DFSZKFController	DFSZKFController
zk0	zk1	zk2

配置文件说明

Hadoop配置文件分为默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件。

core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml四个配置文件放在$HADOOP_HOME/etc/hadoop路径下。

3.配置集群

core-site.xml

    <property><name>fs.defaultFS</name><value>hdfs://gky</value><description>逻辑名称，必须与hdfs-site.xml中的dfs.nameservices值保持一致</description></property><property><name>hadoop.tmp.dir</name><value>/opt/soft/hadoop313/tmpdata</value><description>namenode上本地的hadoop临时文件夹</description></property><property><name>hadoop.http.staticuser.user</name><value>root</value><description>默认用户</description></property><property><name>hadoop.proxyuser.root.hosts</name><value>*</value><description></description></property><property><name>hadoop.proxyuser.root.groups</name><value>*</value><description></description></property><property><name>io.file.buffer.size</name><value>131072</value><description>读写文件的buffer大小为：128K</description></property><property><name>ha.zookeeper.quorum</name><value>ant151:2181,ant152:2181,ant153:2181</value><description></description></property><property><name>ha.zookeeper.session-timeout.ms</name><value>10000</value><description>hadoop链接zookeeper的超时时长设置为10s</description></property>

hdfs-site.xml

    <property><name>dfs.replication</name><value>3</value><description>Hadoop中每一个block的备份数</description></property><property><name>dfs.namenode.name.dir</name><value>/opt/soft/hadoop313/data/dfs/name</value><description>namenode上存储hdfs名字空间元数据目录</description></property><property><name>dfs.datanode.data.dir</name><value>/opt/soft/hadoop313/data/dfs/data</value><description>datanode上数据块的物理存储位置</description></property><property><name>dfs.namenode.secondary.http-address</name><value>ant151:9869</value><description></description></property><property><name>dfs.nameservices</name><value>gky</value><description>指定hdfs的nameservice,需要和core-site.xml中保持一致</description></property><property><name>dfs.ha.namenodes.gky</name><value>nn1,nn2</value><description>gky为集群的逻辑名称，映射两个namenode逻辑名</description></property><property><name>dfs.namenode.rpc-address.gky.nn1</name><value>ant151:9000</value><description>namenode1的RPC通信地址</description></property><property><name>dfs.namenode.http-address.gky.nn1</name><value>ant151:9870</value><description>namenode1的http通信地址</description></property><property><name>dfs.namenode.rpc-address.gky.nn2</name><value>ant152:9000</value><description>namenode2的RPC通信地址</description></property><property><name>dfs.namenode.http-address.gky.nn2</name><value>ant152:9870</value><description>namenode2的http通信地址</description></property><property><name>dfs.namenode.shared.edits.dir</name><value>qjournal://ant151:8485;ant152:8485;ant153:8485/gky</value><description>指定NameNode的edits元数据的共享存储位置(JournalNode列表)</description></property><property><name>dfs.journalnode.edits.dir</name><value>/opt/soft/hadoop313/data/journaldata</value><description>指定JournalNode在本地磁盘存放数据的位置</description></property>    <!-- 容错 --><property><name>dfs.ha.automatic-failover.enabled</name><value>true</value><description>开启NameNode故障自动切换</description></property><property><name>dfs.client.failover.proxy.provider.gky</name><value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value><description>失败后自动切换的实现方式</description></property><property><name>dfs.ha.fencing.methods</name><value>sshfence</value><description>防止脑裂的处理</description></property><property><name>dfs.ha.fencing.ssh.private-key-files</name><value>/root/.ssh/id_rsa</value><description>使用sshfence隔离机制时，需要ssh免密登陆</description></property>    <property><name>dfs.permissions.enabled</name><value>false</value><description>关闭HDFS操作权限验证</description></property><property><name>dfs.image.transfer.bandwidthPerSec</name><value>1048576</value><description></description></property>    <property><name>dfs.block.scanner.volume.bytes.per.second</name><value>1048576</value><description></description></property>

mapred-site.xml

    <property><name>mapreduce.framework.name</name><value>yarn</value><description>job执行框架： local, classic or yarn</description><final>true</final></property><property><name>mapreduce.application.classpath</name><value>/opt/soft/hadoop313/etc/hadoop:/opt/soft/hadoop313/share/hadoop/common/lib/*:/opt/soft/hadoop313/share/hadoop/common/*:/opt/soft/hadoop313/share/hadoop/hdfs/*:/opt/soft/hadoop313/share/hadoop/hdfs/lib/*:/opt/soft/hadoop313/share/hadoop/mapreduce/*:/opt/soft/hadoop313/share/hadoop/mapreduce/lib/*:/opt/soft/hadoop313/share/hadoop/yarn/*:/opt/soft/hadoop313/share/hadoop/yarn/lib/*</value></property><property><name>mapreduce.jobhistory.address</name><value>ant151:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>ant151:19888</value></property><property><name>mapreduce.map.memory.mb</name><value>1024</value><description>map阶段的task工作内存</description></property><property><name>mapreduce.reduce.memory.mb</name><value>2048</value><description>reduce阶段的task工作内存</description></property>

yarn-site.xml

    <property><name>yarn.resourcemanager.ha.enabled</name><value>true</value><description>开启resourcemanager高可用</description></property><property><name>yarn.resourcemanager.cluster-id</name><value>yrcabc</value><description>指定yarn集群中的id</description></property><property><name>yarn.resourcemanager.ha.rm-ids</name><value>rm1,rm2</value><description>指定resourcemanager的名字</description></property><property><name>yarn.resourcemanager.hostname.rm1</name><value>ant153</value><description>设置rm1的名字</description></property><property><name>yarn.resourcemanager.hostname.rm2</name><value>ant154</value><description>设置rm2的名字</description></property><property><name>yarn.resourcemanager.webapp.address.rm1</name><value>ant153:8088</value><description></description></property><property><name>yarn.resourcemanager.webapp.address.rm2</name><value>ant154:8088</value><description></description></property>    <property><name>yarn.resourcemanager.zk-address</name><value>ant151:2181,ant152:2181,ant153:2181</value><description>指定zk集群地址</description></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value><description>运行mapreduce程序必须配置的附属服务</description></property><property><name>yarn.nodemanager.local-dirs</name><value>/opt/soft/hadoop313/tmpdata/yarn/local</value><description>nodemanager本地存储目录</description></property><property><name>yarn.nodemanager.log-dirs</name><value>/opt/soft/hadoop313/tmpdata/yarn/log</value><description>nodemanager本地日志目录</description></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>2048</value><description>resource进程的工作内存</description></property><property><name>yarn.nodemanager.resource.cpu-vcores</name><value>2</value><description>resource工作中所能使用机器的内核数</description></property><property><name>yarn.scheduler.minimum-allocation-mb</name><value>256</value><description></description></property><property><name>yarn.log-aggregation-enable</name><value>true</value><description></description></property><property><name>yarn.log-aggregation.retain-seconds</name><value>86400</value><description>日志保留多少秒</description></property><property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value><description></description></property><property><name>yarn.application.classpath</name><value>/opt/soft/hadoop313/etc/hadoop:/opt/soft/hadoop313/share/hadoop/common/lib/*:/opt/soft/hadoop313/share/hadoop/common/*:/opt/soft/hadoop313/share/hadoop/hdfs/*:/opt/soft/hadoop313/share/hadoop/hdfs/lib/*:/opt/soft/hadoop313/share/hadoop/mapreduce/*:/opt/soft/hadoop313/share/hadoop/mapreduce/lib/*:/opt/soft/hadoop313/share/hadoop/yarn/*:/opt/soft/hadoop313/share/hadoop/yarn/lib/*</value><description></description></property><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value><description></description></property>

hadoop-env.sh

export JAVA_HOME=/opt/soft/jdk180
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

workers

ant151
ant152
ant153
ant154

二、集群首次启动

启动zk集群

可以直接运行脚本文件

代码：

[root@ant151 shell]# ./zkop.sh start

启动ant151,ant152,ant153的journalnode服务：

[root@ant151 shell]# hdfs --daemon start journalnode

在ant151格式化hfds namenode:

[root@ant151 shell]# hdfs namenode -format

在ant151启动namenode服务：hdfs --daemon start namenode

[root@ant151 shell]# hdfs --daemon start namenode

在ant152机器上同步namenode信息

[root@ant151 shell]# hdfs namenode -bootstrapStandby

在ant152启动namenode服务：hdfs --daemon start namenode

[root@ant152 soft]# hdfs --daemon start namenode

查看namenode节点状态：hdfs haadmin -getServiceState nn1|nn2

[root@ant152 soft]# hdfs haadmin -getServiceState nn1

关闭所有dfs有关的服务

[root@ant151 soft]# stop-dfs.sh

格式化zk

[root@ant151 soft]# hdfs zkfc -formatZK

启动dfs

[root@ant151 soft]# start-dfs.sh

启动yarn: [root@ant151 soft]# start-yarn.sh

[root@ant151 soft]# start-yarn.sh

查看resourcemanager节点状态

[root@ant151 soft]# yarn rmadmin -getServiceState rm1

rm1状态：standby

rm2状态：active

当前进程状态：

kill掉active进程

尝试访问，无法链接

恢复ant152的namenode进程

Hadoop集群配置

一、系统文件配置集群部署规划NameNode和SecondaryNameNode不要安装在同一台服务器ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode放在同一台机器上。这里装了四台机器，ant151,ant152,ant153,ant154。ant151ant152ant153ant154NameNode…...

编程日记 2023/2/16 13:59:42

【C语言】程序环境和预处理|预处理详解|定义宏（下）

主页：114514的代码大冒 qq:2188956112（欢迎小伙伴呀hi✿(。◕ᴗ◕。)✿ ） Gitee：庄嘉豪 (zhuang-jiahaoxxx) - Gitee.com 文章目录目录文章目录前言 2.5带副作用的宏参数 2.6宏和函数的对比 3#undef 编辑 4 命令行定义…...

编程日记 2023/2/16 13:58:35

MySQL主从复制

操作流程准备两个服务器主服务器配置1>修改主配置文件 /etc/my.cnf[mysald] log-binmysql-bin //[必须]启用二进制日志server-id12>重启 mysql 服务3>创建mysql用户并授权mysql> GRANT REPLICATION SLAVE ON ** to slaver% identified by 123456;4>查看当前主服…...

编程日记 2023/2/16 13:57:29

做自媒体视频变现的三大要素！

大家都知道做自媒体可以赚钱，做得好的话收入会远超自己的工资！ 但有些关键点你真的知道吗？有几点是新手很容易忽略的！ 1、内容价值我们所创作的内容是否是用户所需要的？用户是不是有强烈的需求？这一点你…...

编程日记 2023/2/16 13:56:23

软件测试如何获得高薪？

软件测试如何获得高薪？ 目录：导读测试基础理论/测试设计能力业务知识行业技术知识数据库掌握编程语言搞定自动化测试质量流程管理下面谈谈不同level的测试工程师应具备的基本能力第一个：我们称之为测试员/测试工程师第二…...

编程日记 2023/2/16 13:55:16

《真象还原》读书笔记——第五章保护模式进阶，向内核迈进（特权级，更新）

5.4 特权级深入浅出 5.4.1 特权级哪点事计算机访问可分为访问者和被访问者。建立特权机制为了通过特权来检查合法性。 0、1、2、3级，数字越小，权力越大。 0特权级是系统内核特权级。用户程序是3特权级，被设计为“有需求就找操作系统”…...

编程日记 2023/2/16 13:54:05

艾德卡EDEKA EDI 需求分析

艾德卡Edeka 是德国最大的食品零售商，因其采用“指纹付款”的方式进行结算，成为德国超市付款方式改革的先驱。2022年8月，入选2022年《财富》世界500强排行榜，位列第256位。艾德卡EDEKA EDI需求分析传输协议在传输协议层面&a…...

编程日记 2023/2/16 13:53:00

python如何使用最简单的方式将PDF转换成Word？

由于PDF的文件大多都是只读文件，有时候为了满足可以编辑的需要通常可以将PDF文件直接转换成Word文件进行操作。看了网络上面的python转换PDF文件为Word的相关文章感觉都比较复杂，并且关于一些图表的使用还要进行特殊的处理。本篇文章主要讲解关于如何…...

编程日记 2023/2/16 13:51:52

HashMap如何避免内存泄露问题

HashMap对于Java开发人员来说，应该是一种非常非常熟悉的数据结构了，应用场景相当广泛。本文重点不在于介绍如何使用HashMap，而是关注在使用HashMap过程中，可能会导致内存泄露的情况，下面将以示例的形式展开具体介绍。…...

编程日记 2023/2/16 13:50:42

crontab -e定时任务

大家好，我是空空star，本篇带你了解下crontab -e定时任务。文章目录前言一、crontab介绍二、crontab文件的含义四、crontab用法1.每隔5分钟执行一次命令2.每个小时的第5分执行一次命令3.每天9:05执行一次命令4.每隔9小时在第5分执行一次命令5.每月5号9号…...

编程日记 2023/2/16 13:49:34

JavaSE学习day7_01 面向对象

1. 类和对象 1.1 类和对象的理解客观存在的事物皆为对象 ，所以我们也常常说万物皆对象。即各个对象的总称，比如学生是一个类，但是学生有很多个，每一个称之为对象。类类的理解类是对现实生活中一类具有共同属性和行为的事物的…...

编程日记 2023/2/16 13:48:29

有趣的HTML实例（十二）早安、晚安动画（css+js）

这话在我心里已经复习了几千遍。我深恨发明不来一个新鲜飘忽的说法，只有我可以说只有你可以听，我说过，我听过，这说法就飞了，过去、现在和未来没有第二个男人好对第二个女人这样说。 ——《围城》目录一、前言二、…...

编程日记 2023/2/16 13:47:22

入行测试已经4年了，进华为后迷茫了3个月，做完这个项目我决定离职....

转行测试我是大专非计科，我转行之前从事的工作是商场管理，努力了4年左右的时间才做到楼层经理，但是工资太低并且事情太多，薪资才6K。更多的是坚定了自己的想法，我要改变自己恰好有几个大学同学在互联网公司工作&a…...

编程日记 2023/2/16 13:46:15

【halcon】灰度直方图直观理解与应用

灰度直方图横坐标：是 0~255 表示灰度值的范围纵坐标：是在不同灰度值下像素的个数！ 那么灰度直方图的本质就是统计不同灰度下像素的个数！ 它的直观目的，就是查看灰度的分布情况！ 与之相关的函数&#xff…...

编程日记 2023/2/16 13:45:06

Android笔记：动画

文章目录1.View Animation（视图动画）1.1 Tween Animation（补间动画）Animation 继承属性透明度alpha缩放scale移动translate旋转rotateset标签Animation父类共有函数1.2Frame Animation （逐帧动画）2.Propert…...

编程日记 2023/2/16 13:43:55

Git学习总结

目录 Git工作的基本流程图 git基本配置配置SSH公钥查看提交日志（log） 版本回退为常用指令配置别名添加文件至忽略列表 Git操作的基本指令编辑 Git远程仓库的操作把黑马的Git视频看完了黑马程序员Git全套教程，完整的git项目管…...

编程日记 2023/2/16 13:42:50

第四天笔记

1. 简述自定义转换器的使用过程？ 第一步：定义一个类，实现 Converter 接口，该接口有两个泛型。第二步：在 spring配置文件中配置类型转换器。　Spring配置类型转换器的机制是将自定义的转换器注册到类型转换服务中去…...

编程日记 2023/2/16 13:41:42

《MySQL学习》全局锁和表锁

一.MySQL锁的分类二.全局锁全局锁对整个数据库加锁，可以执行如下命令，整个数据库都将处于只读状态。 Flush tables with read lock ;我们可以执行 unlock table进行解锁 unlock table ;读操作非读操作（阻塞） 全局锁的典型使…...

编程日记 2023/2/16 13:40:34

Altium Designer输出生产文件Gerber、IPC、NC Drill、坐标文件--AD

AD软件版本：22.2.1 gerber文件输出共有两部分： 1、Gerber Files:铜皮和外形分别导出 2、Nc Drill Files 分3次导出一、Gerber Files 导出2次设定原点 ** Edit->Origin->Set** 一般板边左下角为原点，可以根据自己板子形状确定导…...

编程日记 2023/2/16 13:39:26

用VSCode搭建Vue.js开发环境及Vue.js第一个应用

目录一、VSCode安装二、VSCode简单配置三、Vue.js的下载和引入四、Vue.js第一个应用一、VSCode安装 Visual Studio Code是一个轻量级但功能强大的源代码编辑器，可在您的桌面上运行，可用于Windows，macOS和Linux。它内置了对JavaScrip…...

编程日记 2023/2/16 13:38:19

XCTF-web-easyupload

试了试php，php7，pht，phtml等，都没有用尝试.user.ini 抓包修改将.user.ini修改为jpg图片在上传一个123.jpg 用蚁剑连接，得到flag...

编程新知 2026/2/8 3:54:15

docker详细操作--未完待续

docker介绍 docker官网: Docker：加速容器应用程序开发 harbor官网：Harbor - Harbor 中文使用docker加速器: Docker镜像极速下载服务 - 毫秒镜像是什么 Docker 是一种开源的容器化平台，用于将应用程序及其依赖项（如库、运行时环…...

编程新知 2026/2/5 4:33:24

【Oracle APEX开发小技巧12】

有如下需求： 有一个问题反馈页面，要实现在apex页面展示能直观看到反馈时间超过7天未处理的数据，方便管理员及时处理反馈。我的方法：直接将逻辑写在SQL中，这样可以直接在页面展示完整代码： SELECTSF.FE…...

编程新知 2026/2/7 17:35:15

IGP（Interior Gateway Protocol，内部网关协议）

IGP（Interior Gateway Protocol，内部网关协议） 是一种用于在一个自治系统（AS）内部传递路由信息的路由协议，主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...

编程新知 2025/10/12 11:54:26

从深圳崛起的“机器之眼”：赴港乐动机器人的万亿赛道赶考路

进入2025年以来，尽管围绕人形机器人、具身智能等机器人赛道的质疑声不断，但全球市场热度依然高涨，入局者持续增加。以国内市场为例，天眼查专业版数据显示，截至5月底，我国现存在业、存续状态的机器人相关企…...

编程新知 2026/2/8 7:23:45

dedecms 织梦自定义表单留言增加ajax验证码功能

增加ajax功能模块，用户不点击提交按钮，只要输入框失去焦点，就会提前提示验证码是否正确。一，模板上增加验证码 <input name"vdcode"id"vdcode" placeholder"请输入验证码" type"text&quo…...

编程新知 2026/2/5 17:51:52

Java入门学习详细版（一）

大家好，Java 学习是一个系统学习的过程，核心原则就是“理论实践坚持”，并且需循序渐进，不可过于着急，本篇文章推出的这份详细入门学习资料将带大家从零基础开始，逐步掌握 Java 的核心概念和编程技能。 …...

编程新知 2025/12/14 14:47:02

【Oracle】分区表

个人主页：Guiat 归属专栏：Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...

编程新知 2026/1/20 21:59:36

HashMap中的put方法执行流程（流程图）

1 put操作整体流程 HashMap 的 put 操作是其最核心的功能之一。在 JDK 1.8 及以后版本中，其主要逻辑封装在 putVal 这个内部方法中。整个过程大致如下： 初始判断与哈希计算： 首先，putVal 方法会检查当前的 table（也就…...

编程新知 2026/2/8 3:32:52

IP如何挑？2025年海外专线IP如何购买？

你花了时间和预算买了IP，结果IP质量不佳，项目效率低下不说，还可能带来莫名的网络问题，是不是太闹心了？尤其是在面对海外专线IP时，到底怎么才能买到适合自己的呢？所以，挑IP绝对是个技…...

编程新知 2026/1/28 3:04:35

一、系统文件配置

集群部署规划

配置文件说明

3.配置集群

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

hadoop-env.sh

workers

二、集群首次启动

启动zk集群

启动ant151,ant152,ant153的journalnode服务：

在ant151格式化hfds namenode:

在ant151启动namenode服务：hdfs --daemon start namenode

在ant152机器上同步namenode信息

在ant152启动namenode服务：hdfs --daemon start namenode

关闭所有dfs有关的服务

格式化zk

启动dfs

启动yarn: [root@ant151 soft]# start-yarn.sh

查看resourcemanager节点状态

相关文章：