当前位置：首页 > news >正文

Hadoop的一些高频面试题 --- hdfs、mapreduce以及yarn的面试题

news 2026/2/9 0:30:21

文章目录

一、HDFS
- 1、Hadoop的三大组成部分
- 2、本地模式和伪分布模式的区别是什么
- 3、什么是HDFS
- 4、如何单独启动namenode
- 5、hdfs的写入流程
- 6、hdfs的读取流程
- 7、hdfs为什么不能存储小文件
- 8、secondaryNameNode的运行原理
- 9、hadoop集群启动后离开安全模式的条件
- 10、hdfs集群的开机启动流程
二、MapReduce
- 1、MapReduce的原理
- 2、MapReduce的shuffer过程
- 3、块和片的区别
- 4、Combiner
- 5、环形缓冲区
三、Yarn
- 1、Yarn的三种调度器

一、HDFS

1、Hadoop的三大组成部分

1、HDFS（分布式文件系统）：用于存储大规模的数据，具有高容错性和可扩展性
2、MapReduce（分布式计算框架）：用于处理大规模数据的编程模型和计算框架
3、YARN（资源管理框架）：负责管理集群中的资源分配和任务调度

2、本地模式和伪分布模式的区别是什么

本地模式是在单个节点上运行所有的进程，资源利用相对简单，通常将数据存储在本地文件系统中
而伪分布模式虽然也是在单个节点上运行，但会模拟出分布式环境，分配和管理多个进程所需的资源，会按照分布式的架构来组织和存储数据

3、什么是HDFS

HDFS（Hadoop 分布式文件系统）是 Hadoop 生态系统中的核心组件之一，它是一种用于大规模数据存储的分布式文件系统，具有高容错性和可扩展性，其中
namenode负责管理datanode节点，记录各个块的信息；
secondarynamenode负责帮助namenode完成fsimage和edits文件的合并
datanode负责存储数据

4、如何单独启动namenode

hdfs --daemon start namenode

5、hdfs的写入流程

在这里插入图片描述

客户端发送写请求，namenode接收后先校验权限，然后通过机架算法，计算出三个节点，将这三个节点发送给客户端，客户端通过pipeline通道向这三个节点写入数据，传递的单位是packet，一个packet大小为64KB，各个节点传递完成后，给客户端响应

6、hdfs的读取流程

在这里插入图片描述

客户端发送读请求，namenode接收后先校验权限，然后从自己内存中查看文件放在哪几个节点，并将其详细信息发送给客户端，客户端到对应datanode节点去拉取数据，然后将拉取的数据整合，再发送给客户端。

7、hdfs为什么不能存储小文件

HDFS文件系统中，默认需要将存储的数据进行切割存储的，每一个块是128M，不管一个块中存放的是大文件还是小文件，都有元数据，这个元数据大约占用内存150字节，如果存放过多的小文件，会占用过多的块，从而消耗过多内存。

8、secondaryNameNode的运行原理

1、SecondaryNameNode 每隔一个小时，去nameNode中拉取数据
2、拉取的时候，会终止当前的edits文件，生成一个新的edits_inprogress_XXX.
3、接着会将edits文件和最新的fsiamge文件拉取到SecondaryNameNode的服务器上进行合并，生成一个最新的fsimage.ckpt
4、将fsimage.ckpt传递给nameNode ，NameNode 修改一下名字，变为新的fsimage ,删除掉之前的倒数第二个文件。因为fsimage只保留两个最新的文件。

9、hadoop集群启动后离开安全模式的条件

解除安全模式需要满足两个条件：

1、每个数据块的副本数量达到了设定的阈值
2、并且加载出来的副本总数和所有数据块的所有副本数之和的比值需要大于99.99%

10、hdfs集群的开机启动流程

初始化 NameNode：与SecondaryNameNode配合，读取fsimage和edits文件，加载元数据，并重新生成一个新的edits文件
启动 DataNode，并与NameNode建立心跳机制
进入安全模式：只读模式，不能删除和修改文件
达到条件后，解除安全模式

二、MapReduce

1、MapReduce的原理

AppMaster: 整个Job任务的核心协调工具
MapTask: 主要用于Map任务的执行 ReduceTask:
主要用于Reduce任务的执行

一个任务提交 --> AppMaster–> 根据切片的数量统计出需要多少个MapTask任务 -->向ResourceManager(Yarn平台的老大)索要资源 --> 执行Map任务，先读取一个分片的数据，传递给map方法。–> map 方法不断的溢写 --> reduce 方法 --> 将统计的结果存放在磁盘上。

2、MapReduce的shuffer过程

1、Shuffle 过程是 MapReduce 框架中连接 Map 阶段和 Reduce 阶段的中间环节，它的主要作用是对 Map
阶段的输出结果进行整理和分区，以便 Reduce 任务能够高效地获取和处理数据。
2、map端写出数据到环形缓冲区中，环形缓冲区默认阈值为100MB，达到该阈值的80%，就开始溢写数据到磁盘，map会将这些小的磁盘文件进行归并和快排，变成一个大文件。
3、reduce端根据不同的分区，拉取map写到磁盘中对应的数据
4、而这个过程被称为shuffle过程，简单来说就是reduce对map端数据的各种拉取，就是数据的拉来拉去

3、块和片的区别

1、块是物理概念，片是逻辑概念。一般片 = 块，但是到最后一次的时候，有可能片> 块，但是绝对不能超过块的1.1倍。
2、mapreduce 启动多少个MapTask任务跟片有关系，有多少个片，就启动多少个map任务。跟块儿无关。

4、Combiner

Combiner其实就是运行在mapTask中的reducer。 Reducer其实就是合并代码的。Combiner是作用在Map端的。
Combiner 只能用于对统计结果没有影响的场景下。一般只用于统计之和，统计最大值最小值的场景下。统计平均值等情况是不能用的。

5、环形缓冲区

1、环形缓冲区，其实是一个数组，将数组分为两部分，分割的这个点就称之为轴心。
2、存储KV真实数据，是顺时针存储
3、每一个KV真实数据都有对应的元数据，元数据是逆时针存储。
4、当两者数据占用空间达到80%的时候，需要清理数据，清理完之后，轴心发生了变化

三、Yarn

1、Yarn的三种调度器

1、FIFO Scheduler（FIFO调度器）：先进先出，先进去的任务先执行
缺点：假如第一个任务很大，就会阻塞后面的小任务
2、Capacity Scheduler（容量调度器）：将cpu资源分为多个队列，将不同类型的任务分到不同队列中
缺点：如果真遇到了大任务，执行的时间会稍微长一些。因为要时刻给小的任务预留资源
3、Fair Scheduler（公平调度器）：根据当前正在运行的任务数量和资源使用情况，为新任务分配适当的资源
缺点：资源分配可能不够精准，对小任务响应可能不及时

Hadoop的一些高频面试题 --- hdfs、mapreduce以及yarn的面试题

文章目录一、HDFS1、Hadoop的三大组成部分2、本地模式和伪分布模式的区别是什么3、什么是HDFS4、如何单独启动namenode5、hdfs的写入流程6、hdfs的读取流程7、hdfs为什么不能存储小文件8、secondaryNameNode的运行原理9、hadoop集群启动后离开安全模式的条件10、hdfs集群的开机…...

编程日记 2024/9/18 22:28:41

Day99 代码随想录打卡|动态规划篇--- 01背包问题

题目（卡玛网T46）： 小明是一位科学家，他需要参加一场重要的国际科学大会，以展示自己的最新研究成果。他需要带一些研究材料，但是他的行李箱空间有限。这些研究材料包括实验设备、文献资料和实验样本等等&am…...

编程日记 2024/9/18 22:27:40

往证是什么意思

“往证”通常是在数学证明中使用的一种方法，尤其是在证明某个结论的相反（即否定）是错误的情况下。具体来说，就是假设结论不成立，然后通过逻辑推理展示出这种假设导致矛盾，从而得出原结论必然成立。举例说…...

编程日记 2024/9/18 22:24:36

Camunda流程引擎并发性能优化

文章目录 Camunda流程引擎一、JobExecutor1、工作流程2、主要作用二、性能问题1、实际场景：2、性能问题描述3、总结三、优化方案方案一：修改 Camunda JobExecutor 源码以实现租户 ID 隔离方案二：使用 max-jobs-per-acquisition 参数控制上锁…...

编程日记 2024/9/18 22:23:35

spring springboot 日志框架

一、常见的日志框架 JUL、JCL、Jboss-logging、logback、log4j、log4j2、slf4j.... 注意：SLF4j 类似于接口 Log4j ，Logback 都是出自同一作者之手 JUL 为apache 公司产品 Spring（commons-logging）、Hibernate（jboss…...

编程日记 2024/9/18 22:21:30

【D3.js in Action 3 精译_022】3.2 使用 D3 完成数据准备工作

当前内容所在位置第一部分 D3.js 基础知识第一章 D3.js 简介（已完结） 1.1 何为 D3.js？1.2 D3 生态系统——入门须知1.3 数据可视化最佳实践（上）1.3 数据可视化最佳实践（下）1.4 本章小结第二章…...

编程日记 2024/9/18 22:20:29

电脑怎么禁用软件?5个方法速成，小白必入！

电脑禁用软件的方法多种多样，以下是五种简单易行的方法. 适合不同需求的用户，特别是电脑小白。 1. 使用任务管理器禁用启动项操作步骤：按下“Ctrl Shift Esc”组合键，打开任务管理器。切换到“启动”选项卡，找到…...

编程日记 2024/9/18 22:18:26

文章目录 1. 181.超过经理收入的员工1.1 题干1.2 准备数据1.3 题解1.4 结果截图 1. 181.超过经理收入的员工 1.1 题干表：Employee -------------------- | Column Name | Type | -------------------- | id | int | | name | varchar | | salary | int | | mana…...

编程日记 2024/9/18 22:12:02

C++语法应用：从return机制看返回指针，返回引用

前言编程是极其注重实践的工作,学习的同时要伴随代码引入此前对返回指针和引用有一些纠结，从return角度来观察发生了什么。 return机制函数中return表示代码结束，如果return后面有其他代码将不被执行。 return发生了值转移，return后面的…...

编程日记 2024/9/18 22:09:50

Linux5-echo,＞,tail

1.echo命令 echo是输出命令，类似printf 例如：echo "hello world"，输出hello world echo pwd，输出pwd的位置。是键盘上~ 2.重定向符> >> >指把左边内容覆盖到右边 echo hello world>test.txt >…...

编程日记 2024/9/18 22:08:49

sqlgun靶场训练

1.看到php？id ，然后刚好有个框，直接测试sql注入 2.发现输入1 union select 1,2,3#的时候在2处有回显 3.查看表名 -1 union select 1,group_concat(table_name),3 from information_schema.tables where table_schemadatabase()# 4.查看列名…...

编程日记 2024/9/18 22:05:44

简化登录流程，助力应用建立用户体系

随着智能手机和移动应用的普及，用户需要在不同的应用中注册和登录账号，传统的账号注册和登录流程需要用户输入用户名和密码，这不仅繁琐而且容易造成用户流失。华为账号服务(Account Kit)提供简单、快速、安全的登录功能，让用户快…...

编程日记 2024/9/18 22:02:40

【研发日记】嵌入式处理器技能解锁(六)——ARM的Cortex-M4内核

文章目录前言背景介绍指令集架构 ARM起源 ARM分类 Cortex-M4 内核框架指令流水线实践应用总结参考资料前言见《【研发日记】嵌入式处理器技能解锁(一)——多任务异步执行调度的三种方法》见《【研发日记】嵌入式处理器技能解锁(二)——TI C2000 DSP的SCI(…...

编程日记 2024/9/18 22:01:39

深度学习经典模型之T5

T5(Text-to-Text Transfer Transformer) 是继BERT之后Google的又外力作，它是一个文本到文本迁移的基于Transformer的NLP模型，通过将所有任务统一视为一个输入文本并输出到文本(Text-to-Text)中，即将任务嵌入在输入文本中，用文本的…...

编程日记 2024/9/18 22:00:38

10.第二阶段x86游戏实战2-反编译自己的程序加深堆栈的理解

免责声明：内容仅供学习参考，请合法利用知识，禁止进行违法犯罪活动！ 本次游戏没法给内容参考于：微尘网络安全工具下载： 链接：https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…...

编程日记 2024/9/18 21:58:36

ARM总复习

1.计算机的组成输入设备输出设备存储设备运算器控制器、总线 2.指令和指令集 2.1 机器指令机器指令又叫机器码，在运算器内部存在各种运算电路，当处理器从内存中获取一条机器指令，就可以按照指令让运算器内部的指定的运算电路进行运…...

编程日记 2024/9/18 21:57:34

使用ENVI之大气校正（下）

再根据遥感影像的拍摄时间将Flight ate与Flight Time GMT (H:M:SS)填写，如要查询按如下方法这里按照表中的内容修改根据影像范围的经纬度与拍摄时间更改Atmospheric Model，更改完成后点击Multispectral Settings...在跳出的界面中选择GUI再点击Default…...

编程日记 2024/9/18 21:53:28

C++（学习）2024.9.18

目录 C基础介绍 C特点面向对象的三大特征面向对象与面向过程的区别 C拓展的非面向对象的功能引用引用的性质引用的参数指针和引用的区别赋值键盘输入 string字符串类遍历方式字符串与数字转换函数内联函数函数重载overload 哑元函数面向对象基…...

编程日记 2024/9/18 21:52:26

认知小文2《成功之路：习惯、学习与实践》

内容摘要： 在这个充满机遇的时代，成功不再是偶然，而是可以通过培养良好习惯、持续学习和实践来实现的目标。一、肌肉记忆：技能的基石成功往往需要像运动员一样，通过日复一日的练习来形成肌肉记忆。无论是健身…...

编程日记 2024/9/18 21:49:20

【数据仓库】数据仓库层次化设计

一、基本概念 **1. RDS（RAW DATA STORES，原始数据存储）** RDS作为原始数据存储层，用于存储来自各种源头的未经处理的数据。这些数据可能来自企业内部的业务系统、外部数据源或各种传感器等。RDS确保原始数据的完整性和可访问性&…...

编程日记 2024/9/18 21:47:16

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧一、链表基础概念与内核链表优势1.1 为什么使用链表？1.2 Linux 内核链表与用户态链表的区别二、内核链表结构与宏解析常用宏/函数三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

编程新知 2025/12/3 20:14:32

rknn优化教程（二）

文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK，开始写第二篇的内容了。这篇博客主要能写一下： 如何给一些三方库按照xmake方式进行封装，供调用如何按…...

编程新知 2025/6/11 15:25:30

【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现（服务端执行命令请求的过程 - 初始化服务器）

服务端执行命令请求的过程【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...

编程新知 2026/2/2 0:45:02

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

引言：为什么 Eureka 依然是存量系统的核心？ 尽管 Nacos 等新注册中心崛起，但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制，是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

编程新知 2026/1/31 7:23:48

以光量子为例，详解量子获取方式

光量子技术获取量子比特可在室温下进行。该方式有望通过与名为硅光子学（silicon photonics）的光波导（optical waveguide）芯片制造技术和光纤等光通信技术相结合来实现量子计算机。量子力学中，光既是波又是粒子。光子本…...

编程新知 2026/2/7 11:51:32

vue3 daterange正则踩坑

<el-form-item label"空置时间" prop"vacantTime"> <el-date-picker v-model"form.vacantTime" type"daterange" start-placeholder"开始日期" end-placeholder"结束日期" clearable :editable"fal…...

编程新知 2025/12/27 19:12:09

Windows 下端口占用排查与释放全攻略

Windows 下端口占用排查与释放全攻略在开发和运维过程中，经常会遇到端口被占用的问题（如 8080、3306 等常用端口）。本文将详细介绍如何通过命令行和图形化界面快速定位并释放被占用的端口，帮助你高效解决此类问题。一、准…...

编程新知 2025/10/5 19:22:12

HTTPS证书一年多少钱？

HTTPS证书作为保障网站数据传输安全的重要工具，成为众多网站运营者的必备选择。然而，面对市场上种类繁多的HTTPS证书，其一年费用究竟是多少，又受哪些因素影响呢？ 首先，HTTPS证书通常在PinTrust这样的专业平…...

编程新知 2026/1/24 23:35:51

华为OD机考- 简单的自动曝光/平均像素

import java.util.Arrays; import java.util.Scanner;public class DemoTest4 {public static void main(String[] args) {Scanner in new Scanner(System.in);// 注意 hasNext 和 hasNextLine 的区别while (in.hasNextLine()) { // 注意 while 处理多个 caseint[] arr Array…...

编程新知 2026/2/3 15:25:15

使用VMware克隆功能快速搭建集群

自己搭建的虚拟机，后续不管是学习java还是大数据，都需要集群，java需要分布式的微服务，大数据Hadoop的计算集群，如果从头开始搭建虚拟机会比较费时费力，这里分享一下如何使用克隆功能快速搭建一个集群先把…...

编程新知 2026/1/24 19:08:58