当前位置：首页 > news >正文

MapReduce YARN 的部署

news 2025/10/26 7:42:55

1、部署说明

Hadoop HDFS分布式文件系统，我们会启动：

NameNode进程作为管理节点
DataNode进程作为工作节点
SecondaryNamenode作为辅助

同理，Hadoop YARN分布式资源调度，会启动：
ResourceManager进程作为管理节点
NodeManager进程作为工作节点
ProxyServer、JobHistoryServer这两个辅助节点

MapReduce运行在YARN容器内，无需启动独立进程。

所以关于MapReduce和YARN的部署，其实就是2件事情：

关于MapReduce：修改相关配置文件，但是没有进程可以启动。
关于YARN：修改相关配置文件，并启动ResourceManager、NodeManager进程以及辅助进程（代理服务器、历史服务器）。

在这里插入图片描述

2、部署

2.1、MapReduce配置文件

2.1.1、配置mapred-env.sh文件

在 $HADOOP_HOME/etc/hadoop 文件夹内，修改mapred-env.sh文件

vim mapred-env.sh

在这里插入图片描述

添加如下环境变量

## 设置jdk路径
export JAVA_HOME=/export/server/jdk
## 设置JobHistoryServer进程内存为1G
export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000
## 设置日志级别为INF
export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA

2.1.2、配置mapred-site.xml文件

mapred-site.xml文件，添加如下配置信息

vim mapred-site.xml

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value><description></description></property><property><name>mapreduce.jobhistory.address</name><value>bigdatanode1:10020</value><description></description></property><property><name>mapreduce.jobhistory.webapp.address</name><value>bigdatanode1:19888</value><description></description></property><property><name>mapreduce.jobhistory.intermediate-done-dir</name><value>/data/mr-history/tmp</value><description></description></property><property><name>mapreduce.jobhistory.done-dir</name><value>/data/mr-history/done</value><description></description></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value></property>
</configuration>

2.2、YARN配置文件

2.2.1、配置yarn-env.sh文件

在 $HADOOP_HOME/etc/hadoop 文件夹内，修改：
yarn-env.sh文件

vim yarn-env.sh

yarn-env.sh文件，添加如下4行环境变量内容：

export JAVA_HOME=/export/server/jdk
export HADOOP_HOME=/export/server/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_LOG_DIR=$HADOOP_HOME/logs

2.2.2、配置yarn-site.xml文件

yarn-site.xml文件，配置如下

<property><name>yarn.log.server.url</name><value>http://bigdatanode1:19888/jobhistory/logs</value><description></description>
</property><property><name>yarn.web-proxy.address</name><value>bigdatanode1:8089</value><description>proxy server hostname and port</description></property><property><name>yarn.log-aggregation-enable</name><value>true</value><description>Configuration to enable or disable log aggregation</description></property><property><name>yarn.nodemanager.remote-app-log-dir</name><value>/tmp/logs</value><description>Configuration to enable or disable log aggregation</description></property><property><name>yarn.resourcemanager.hostname</name><value>bigdatanode1</value><description></description></property><property><name>yarn.resourcemanager.scheduler.class</name><value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value><description></description></property><property><name>yarn.nodemanager.local-dirs</name><value>/data/nm-local</value><description>Comma-separated list of paths on the local filesystem where intermediate data is written.</description></property><property><name>yarn.nodemanager.log-dirs</name><value>/data/nm-log</value><description>Comma-separated list of paths on the local filesystem where logs are written.</description></property><property><name>yarn.nodemanager.log.retain-seconds</name><value>10800</value><description>Default time (in seconds) to retain log files on the NodeManager Only applicable if log-aggregation is disabled.</description></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value><description>Shuffle service that needs to be set for Map Reduce applications.</description></property>

2.3、分发到node2，node3节点

MapReduce和YARN的配置文件修改好后，需要分发到其它的服务器节点中。

scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml bigdatanode2:`pwd`/

scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml bigdatanode3:`pwd`/

在这里插入图片描述

查看其他节点是否分发成功
在这里插入图片描述

2.4、集群启动命令介绍

2.4.1、介绍

常用的进程启动命令如下：

一键启动YARN集群： $HADOOP_HOME/sbin/start-yarn.sh
- 会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager
- 会基于workers文件配置的主机启动NodeManager
一键停止YARN集群： $HADOOP_HOME/sbin/stop-yarn.sh
在当前机器，单独启动或停止进程
- $HADOOP_HOME/bin/yarn --daemon start|stop resourcemanager|nodemanager|proxyserver
- start和stop决定启动和停止
- 可控制resourcemanager、nodemanager、proxyserver三种进程
历史服务器启动和停止
- $HADOOP_HOME/bin/mapred --daemon start|stop historyserver

2.4.2、启动

在node1服务器，以hadoop用户执行

首先执行

start-yarn.sh

在这里插入图片描述

其次执行

mapred --daemon start historyserver

在这里插入图片描述

一键停止

stop-yarn.sh

2.4.3、查看YARN的WEB UI页面

打开 http://bigdatanode1:8088 即可看到YARN集群的监控页面（ResourceManager的WEB UI）
在这里插入图片描述

3、提交MapReduce任务到YARN执行

3.1、提交MapReduce程序至YARN运行

在部署并成功启动YARN集群后，我们就可以在YARN上运行各类应用程序了。

YARN作为资源调度管控框架，其本身提供资源供许多程序运行，常见的有：

MapReduce程序
Spark程序
Flink程序

Hadoop官方内置了一些预置的MapReduce程序代码，我们无需编程，只需要通过命令即可使用。

常用的有2个MapReduce内置程序：

wordcount：单词计数程序。
统计指定文件内各个单词出现的次数。
pi：求圆周率
通过蒙特卡罗算法（统计模拟法）求圆周率。

这些内置的示例MapReduce程序代码，都在：
$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar 这个文件内。

可以通过 hadoop jar 命令来运行它，提交MapReduce程序到YARN中。

语法： hadoop jar 程序文件 java类名 [程序参数] … [程序参数]

3.2、提交wordcount示例程序

3.2.1、单词计数示例程序

单词计数示例程序的功能很简单：

给定数据输入的路径（HDFS）、给定结果输出的路径（HDFS）
将输入路径内的数据中的单词进行计数，将结果写到输出路径

我们可以准备一份数据文件，并上传到HDFS中。

创建两个文件夹

 hdfs dfs -mkdir -p /input/wordcount

hdfs dfs -mkdir -p /output

在这里插入图片描述

创建一个文件，输入一些内容

vim words.txt

在这里插入图片描述

上传到/input/wordcount/

hdfs dfs -put words.txt /input/wordcount/

在这里插入图片描述

执行如下命令，提交示例MapReduce程序WordCount到YARN中执行

hadoop jar /export/server/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount hdfs://bigdatanode1:8020/input/wordcount/ hdfs://bigdatanode1:8020/output/wc

在这里插入图片描述

执行完成后，可以查看HDFS上的输出结果

hdfs dfs -cat /output/wc/part-r-00000

在这里插入图片描述

_SUCCESS文件是标记文件，表示运行成功，本身是空文件
part-r-00000，是结果文件，结果存储在以part开头的文件中

3.2.2、查看运行日志

此功能基于：

配置文件中配置了日志聚合功能，并设置了历史服务器
启动了代理服务器和历史服务器
历史服务器进程会将日志收集整理，形成可以查看的网页内容供我们查看。

在这里插入图片描述

3.2.3、提交求圆周率示例程序

可以执行如下命令，使用蒙特卡罗算法模拟计算求PI（圆周率）

hadoop jar /export/server/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar pi 3 1000

参数pi表示要运行的Java类，这里表示运行jar包中的求pi程序
参数3，表示设置几个map任务
参数1000，表示模拟求PI的样本数（越大求的PI越准确，但是速度越慢）

在这里插入图片描述

3.3、蒙特卡罗算法求PI的基础原理

Monte Carlo蒙特卡罗算法（统计模拟法）

Monte Carlo算法的基本思想是：以模拟的”实验”形式、以大量随机样本的统计形式，来得到问题的求解。
比如，求圆周率，以数学的方式是非常复杂的，但是我们可以以简单的形式去求解：
在这里插入图片描述

示例代码

import java.util.Random;  public class MonteCarloPi {  public static void main(String[] args) {  int totalPoints = 1000000; // 总共投点次数  int insidePoints = 0; // 落在圆内的点数  Random rand = new Random();  for (int i = 0; i < totalPoints; i++) {  // 在-1到1之间随机生成x, y值  double x = 2.0 * rand.nextDouble() - 1.0;  double y = 2.0 * rand.nextDouble() - 1.0;  // 判断该点是否在单位圆内（圆心在(0, 0)，半径为1）  if (x * x + y * y <= 1.0) {  insidePoints++;  }  }  // 使用蒙特卡罗方法估算π的值，公式来源于圆的面积公式πr^2，这里r=1，所以π=4*(圆内点数/总点数)  double piEstimate = 4.0 * insidePoints / totalPoints;  System.out.println("π的估计值为: " + piEstimate);  }  
}

结束！！！！！！！
hy:37

						人最大的痛苦，就是无法跨越“知道”和“做到”的鸿沟。

MapReduce YARN 的部署

1、部署说明 Hadoop HDFS分布式文件系统，我们会启动： NameNode进程作为管理节点DataNode进程作为工作节点SecondaryNamenode作为辅助同理，Hadoop YARN分布式资源调度，会启动：ResourceManager进程作为管理节点NodeM…...

编程日记 2023/9/18 4:55:18

下载js包解压后找个地方放文件夹内引入 import "/common/zTree/js/jquery-1.4.4.min" import "/common/zTree/js/jquery.ztree.core.min.js" import "/common/zTree/js/jquery.ztree.excheck.min.js" import "/common/zTree/css/metroSt…...

编程日记 2023/9/18 4:54:17

链队列的基本操作（带头结点，不带头结点）

结构体 typedef struct linknode{int data;struct linknode* next;后继指针 }linknode; typedef struct {linknode* front, * rear;//队头队尾指针 }linkquene; 初始化队列（带头结点） int initquene(linkquene* q)//初始化队列 {q->front q->r…...

编程日记 2023/9/18 4:53:16

深入学习 Redis Cluster - 基于 Docker、DockerCompose 搭建 Redis 集群，处理故障、扩容方案

目录一、基于 Docker、DockerCompose 搭建 Redis 集群 1.1、前言 1.2、编写 shell 脚本 1.3、执行 shell 脚本，创建集群配置文件 1.4、编写 docker-compose.yml 文件 1.5、启动容器 1.6、构建集群 1.7、使用集群 1.8、如果集群中，有节点挂了&am…...

编程日记 2023/9/18 4:51:14

C现代方法（第3、4章）笔记

文章目录 C现代方法笔记（chapter3&4）第3章格式化输入/输出3.1 printf函数3.1.1 转换说明3.1.2 转义序列 3.2 scanf函数3.2.1 scanf函数的工作方法3.2.2 格式串中的普通字符3.2.3 易混淆的printf函数和scanf函数问与答编程题第4章表达式4.1 算术运…...

编程日记 2023/9/18 4:50:13

R语言绘制染色体变异位置分布图，RIdeogram包

变异位点染色体分布图今天分享的内容是通过RIdeogram包绘制染色体位点分布图，并介绍一种展示差异位点的方法。在遗传学研究中，通过测序等方式获得了基因组上某些位置的基因型信息。如下表，第一列是变异位点的ID，第二列是染色体…...

编程日记 2023/9/18 4:49:12

Vue知识系列（7）每天10个小知识点

目录系列文章目录Vue知识系列（1）每天10个小知识点Vue知识系列（2）每天10个小知识点Vue知识系列（3）每天10个小知识点Vue知识系列（4）每天10个小知识点Vue知识系列（5&#x…...

编程日记 2023/9/18 4:44:06

5分钟就能实现的API监控，有什么理由不做呢？

API深度影响着你的应用今天的数字应用世界其实是一个以API为中心的世界，我们只是没有意识到这些API的重要性。比如在电子商务交易、社交媒体等对交互高度依赖的领域，可以说API决定了应用的质量一点也不为过。以京东为例，用户的每一次操作背…...

编程日记 2023/9/18 4:43:05

Jmeter引入外部jar包以满足加密数据的Post请求

目录一、把项目打成jar包 1、创建一个Maven项目，并保证可以正常运行。 2、把工具类放置项目中，确保无报错且能够正常使用。 3、打包 4、验证 jar包是否有效 5、你想打多个工具类的包二、在jmeter中使用 1、把jar包放到jmeter仓库下，…...

编程日记 2023/9/18 4:41:02

了解冒泡排序

package com.mypackage.array;import java.util.Arrays;public class Demo07 {public static void main(String[] args) {int[] a {3,2,6,7,4,5,6,34,56,7};int[] sort1 sort1(a); //调用我们自己写的排序方法后，返回一个排序后的数组System.out.println(Array…...

编程日记 2023/9/18 4:35:57

群辉 Synology NAS Docker 安装 RustDesk-server 自建服务器只要一个容器

from https://blog.zhjh.top/archives/M8nBI5tjcxQe31DhiXqxy 简介之前按照网上的教程，rustdesk-server 需要安装两个容器，最近想升级下版本，发现有一个新镜像 rustdesk-server-s6 可以只安装一个容器。 The S6-overlay acts as a supervi…...

编程日记 2023/9/18 4:34:56

为什么要有override

多态一定会成功吗因为逻辑是用户编写的，那么肯定会有遗漏的地方，那就要规则来限制。就比如多态，都知道条件之一是子类重写了父类的虚函数，但是如果子类没有严格遵守这个规则，就无法达到目的。就比如这个代码&#xf…...

编程日记 2023/9/18 4:33:55

Linux界的老古董

Slackware 是由 Patrick Volkerding 制作的 Linux 发行版，从 1993 年发布至今也一直在 Patrick 带领下进行维护。7 月 17 日，Slackware 才刚刚过完它 24 岁的生日，看似年纪轻轻的它，已然是 Linux 最古老的发行版。 Slackware 的发…...

编程日记 2023/9/18 4:31:52

安卓逆向 - Xposed入门教程

一、引言 Xposed框架，是Android中Hook技术的一个著名的框架，拥有非常丰富的模块，给我们分析app提供了极大的便利，Xposed框架是开源的。最高支持到Android 8（重要） github地址：GitHub - rovo89…...

编程日记 2023/9/18 4:29:48

【嵌入式】2024届校招岗位汇总

公司岗位博世嵌入式自动化测试工程师博世嵌入式开发（软件刷写及启动）工程师博世Linux/C软件工程师博世自动驾驶软件开发工程师博世嵌入式软件工程师(BSP)博世嵌入式电子工程师 （BMS&电源）博世物联网嵌入式开发工程师 &#xf…...

编程日记 2023/9/18 4:26:44

Docker搭建ELK日志采集服务及Kibana可视化图表展示

架构 ES docker network create elkmkdir -p /opt/ELK/es/datachmod 777 /opt/ELK/esdocker run -d --name elasticsearch --net elk -p 9200:9200 -p 9300:9300 -e "discovery.typesingle-node" -v /opt/ELK/es/plugins:/usr/share/elasticsearch/plugins -v /opt/…...

编程日记 2023/9/18 4:25:43

SpringBoot结合MyBatis实现多数据源配置

SpringBoot结合MyBatis实现多数据源配置一、前提条件 1.1、环境准备 SpringBoot框架实现多数据源操作，首先需要搭建Mybatis的运行环境。由于是多数据源，也就是要有多个数据库，所以，我们创建两个测试数据库，分别是…...

编程日记 2023/9/18 4:24:43

单个vue echarts页面

<template> <div ref"history" class"echarts"></div> </template> <script> export default{ data () { return {}; }, methods: { history(){ let myChart this.$echarts.init(this.$refs.history); // 绘制图表 myCha…...

编程日记 2023/9/18 4:23:41

【web开发】6、Django(1)

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、Django是什么？二、使用步骤1.安装Django2.创建项目3.创建app4.快速上手5.模板继承数据库操作1.安装第三方模块2.自己创建数据库3.DJango链接数据库…...

编程日记 2023/9/18 4:21:39

第29节-PhotoShop基础课程-滤镜库

文章目录前言1.滤镜库2.Camera Raw滤镜 （用来对图片进行预处理，最全面的一个）3.神经滤镜（2022插件需要先下载）4.液化（胖-> 瘦矮->高）5.其它滤镜1.自适应广角2.镜头矫正把图片放正3.消…...

编程日记 2023/9/18 4:20:38

在软件开发中正确使用MySQL日期时间类型的深度解析

在日常软件开发场景中，时间信息的存储是底层且核心的需求。从金融交易的精确记账时间、用户操作的行为日志，到供应链系统的物流节点时间戳，时间数据的准确性直接决定业务逻辑的可靠性。MySQL作为主流关系型数据库，其日期时间类型的…...

编程新知 2025/10/16 13:22:06

Vue记事本应用实现教程

文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展：显示创建时间8. 功能扩展：记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...

编程新知 2025/9/20 5:20:12

云启出海，智联未来｜阿里云网络「企业出海」系列客户沙龙上海站圆满落地

借阿里云中企出海大会的东风，以**「云启出海，智联未来｜打造安全可靠的出海云网络引擎」为主题的阿里云企业出海客户沙龙云网络&安全专场于5.28日下午在上海顺利举办，现场吸引了来自携程、小红书、米哈游、哔哩哔哩、波克城市、…...

编程新知 2025/10/15 14:10:21

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具

文章目录 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染2. 插值表达式{{}}3. 访问数据和修改数据4. vue响应式5. Vue开发者工具--方便调试 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染准备容器引包创建Vue实例 new Vue()指定配置项 ->渲染数据准备一个容器,例如: …...

编程新知 2025/10/21 3:16:48