Hadoop+Zookeeper+HA错题总结(一)
题目3:
下列哪项通常是hadoop集群运行时的最主要瓶颈?() [单选题]
A、CPU
B、网络
C、磁盘 IO
D、内存
【参考答案】: C
【您的答案】: D
这道题的答案取决于集群的性能,一般来说运行时的主要瓶颈是网络。但是如果集群的磁盘IO性能较差,磁盘IO也可能是主要瓶颈。
题目5:
MapReduce的MapTask工作机制中最后要执行的步骤是?[单选题]
A、溢写
B、分区
C、排序
D、合并
【参考答案】: D
【您的答案】: A
MapTask工作机制中总共分为四步:
-
输入数据分片(Input Split):将输入数据按照指定的分片规则划分成多个片段,每个片段由一个MapTask处理。这些数据分片通常存储在分布式文件系统(如HDFS)中。
-
映射(Map):对每个输入数据片段应用用户定义的映射函数。映射函数将输入数据解析为一组键值对,并对每个键值对执行操作,生成中间键值对。这一步是将原始数据转换为中间数据的阶段。
-
排序和分区(Shuffle):将映射阶段生成的中间键值对按照键的排序规则进行排序。然后,根据用户定义的分区函数,将排序后的键值对划分成若干个分区。每个分区将被发送给一个Reduce任务。
-
本地合并和规约(Combine,可选):在Map阶段结束后,可以对每个分区中的键值对进行本地合并和规约操作,以减少数据传输量。这一步是可选的,并不是所有的MapReduce作业都会使用本地合并和规约。
所以本题答案是D选项,合并。
题目7:
下列关于hadoop中partition描述正确的是?
A、reduce的个数小于分区个数且不等于1的时候会报错
B、默认只有一个reduce,虽然自定义了分区,但不会使用自定义分区类
C、分区个数小于reduce的个数时,会有空文件出现
D、自定义分区的分区号默认从0开始
【参考答案】: ABCD
【您的答案】: ACD
B选项的描述有点模糊,默认情况Hadoop只有一个reduce,前半句是对的。后半句,如果自定义了分区器,还需要设置使用自定义的分区器,否则默认还是使用Hash分区器。
题目12:
HDFS-HA工作要点中元数据管理,描写正确的是?[多选]
A、俩个namenode内存中各自保存一份元数据
B、Edits日志只有Active状态的NameNode节点可以做写操作
C、两个NameNode都可以读取Edits
D、共享的Edits放在一个共享存储中管理(qjournal和NFS两个主流实现)
【参考答案】: ABCD
【您的答案】: AB
A、俩个namenode内存中各自保存一份元数据:正确。HDFS-HA中的两个NameNode分别管理自己的内存中元数据,以实现高可用性。
B、Edits日志只有Active状态的NameNode节点可以做写操作:正确。在HDFS-HA中,只有Active状态的NameNode节点允许进行写操作,Standby节点只能接收复制的元数据信息。
C、两个NameNode都可以读取Edits:在HDFS-HA中,只有Active状态的NameNode节点允许读取和写入Edits,Standby节点只能读取复制的元数据信息,以保持数据的一致性,从某个角度来说,两个NameNode确实都可以读取Edits.
D、共享的Edits放在一个共享存储中管理(qjournal和NFS两个主流实现):正确。在HDFS-HA中,共享的Edits日志通常存储在一个共享的存储系统中,这可以通过qjournal(QuorumJournalManager)或NFS(Network File System)等主流实现来实现。
所以,正确的选项是A、B、C和D。
题目15:
NameNode故障后,采用什么方法恢复数据?[单选题]
A、将SecondaryNameNode中数据拷贝到NameNode存储数据的目录
B、使用-importCheckpoint选项启动NameNode守护进程,从而将SecondaryNameNode中数据拷贝到NameNode目录中。
C、AB都可以
D、AB都不可以
【参考答案】: C
【您的答案】: D
A 选项不是常用方法,但也是恢复方式之一。
B选项是最常用的恢复方式,也更为可靠和方便。
通过执行上述操作,可以将SecondaryNameNode的镜像数据导入到NameNode,从而恢复文件系统的状态。
所以,正确的选项是C
题目18:
Namenode在启动时自动进入安全模式,在安全模式阶段,说法错误的是 [单选题]
A、安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B、 根据策略对数据块进行必要的复制或删除
C、当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
D、文件系统允许有修改
【参考答案】: D
【您的答案】: B
A选项:检查数据块的有效性是安全模式的目的之一,安全模式的主要目的是确保数据的稳定和一致的状态。
B选项:
- 数据块复制:安全模式可以触发数据块的复制操作,以确保数据块的副本数量达到或超过配置的最小副本数。
- 数据块删除:安全模式可以触发删除多余的数据块副本,以确保数据块的副本数量不超过配置的最大副本数。
C选项:安全模式退出策略:安全模式可以根据不同的策略来决定何时退出。例如,可以配置在满足一定条件(如数据块最小百分比数满足的最小副本数)时自动退出安全模式。
D选项:在安全模式下,文件系统通常不允许进行写入操作。这是为了确保文件系统的元数据和数据块的一致性和稳定性。修改时必须进行写入,故无法进行修改,D错误。
题目21:
MapTask工作机制描述不正确的是?
A、Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。
B、Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲区中。
C、Spill阶段:即“溢写”,当环形缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作
D、Merge阶段:在远程拷贝数据的同时,MapTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。
【参考答案】: D
【您的答案】: C
D选项,是ReduceTask的sort阶段启动了两个后台线程程对内存和磁盘上的文件进行合并。
题目22:
Hadoop的优势,下面描述正确的是?[多选题]
A、高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
B、高扩展性:在集群间分配任务数据,可方便的扩展数以干计的节点。
C、高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
D、高容错性:能够自动将失败的任务重新分配。
【参考答案】: ABCD
【您的答案】: ACD
hadoop有四高特性, 答案为ABCD
题目23:
hadoop的namenode格式化时需要注意什么?[多选题]
A、格式化NameNode,会产生新的集群id,导致DataNode中记录的的集群id和刚生成的NameNode的集群id不 一致,所以需要观察对比id是否一样。
B、格式NameNode时,一定要先删除每个节点的data目录和logs日志,然后再格式化NameNode。
C、格式NameNode的命令是 hdfs namenode -format
D、格式化时报错,无法格式化成功,可以查看/tmp下是否有hadoop相关文件,需要删掉再重新格式化
【参考答案】: ABCD
【您的答案】: ABC
A、格式化NameNode,会产生新的集群id,导致DataNode中记录的集群id和新生成的NameNode的集群id不一致,所以需要观察对比id是否一样。这是正确的,因为集群id的一致性对于正常的集群运行非常重要。
B、格式化NameNode时,一定要先删除每个节点的data目录和logs日志,然后再格式化NameNode。这是正确的,清除旧的数据和日志可以确保新的NameNode处于干净的状态。
C、格式NameNode的命令是 hdfs namenode -format。这是正确的格式化NameNode的命令。
D、格式化时报错,无法格式化成功,可以查看/tmp下是否有hadoop相关文件,需要删掉再重新格式化。这也是正确的,如果格式化过程中出现错误,可以检查临时目录(例如/tmp)下是否残留有Hadoop相关文件,需要删除它们后再重新尝试格式化。
所以正确的选项是A、B、C、D。
相关文章:

Hadoop+Zookeeper+HA错题总结(一)
题目3: 下列哪项通常是hadoop集群运行时的最主要瓶颈?() [单选题] A、CPU B、网络 C、磁盘 IO D、内存 【参考答案】: C 【您的答案】: D 这道题的答案取决于集群的性能,一般来说运行时的主要瓶颈是网络。但是如果集群的磁盘IO性能较差&am…...

React高级特性之context
例1: createContext // 跨组件通信Context引入createContext import React, { createContext } from react// App传数据给组件C App -- A -- C// 1. 创建Context对象 const { Provider, Consumer } createContext()function SonA () {return (<div>我是…...

【OS】操作系统课程笔记 第五章 并发性——互斥、同步和通信
并发性:并发执行的各个进程之间,既有独立性,又有制约性; 独立性:各进程可独立地向前推进; 制约性:一个进程会受到其他进程的影响,这种影响关系可能有3种形式: 互斥&am…...

RabbitMQ概述原理
RabbitMQ是一种消息队列中间件,其主要作用是在应用程序之间传输数据。它基于AMQP(高级消息队列协议)实现,可以用于不同语言和不同操作系统之间的通信。 RabbitMQ的工作原理是生产者将消息发送到队列中,消费者从队列中接…...

8.Covector Transformation Rules
上一节已知,任意的协向量都可以写成对偶基向量的线性组合,以及如何通过计算基向量穿过的协向量线来获得协向量分量,且看到 协向量分量 以 与向量分量 相反的方式进行变换。 现要在数学上确认协向量变换规则是什么。 第一件事:…...

RustDay04------Exercise[21-30]
21.使用()对变量进行解包 // primitive_types5.rs // Destructure the cat tuple so that the println will work. // Execute rustlings hint primitive_types5 or use the hint watch subcommand for a hint.fn main() {let cat ("Furry McFurson", 3.5);// 这里…...

OpenAI科学家谈GPT-4的潜力与挑战
OpenAI Research Scientist Hyung Won Chung 在首尔国立大学发表的一场演讲。 模型足够大,某些能力才会显现,GPT-4 即将超越拐点并在其能力上实现显着跳跃。GPT-3 和 GPT-4 之间的能力仍然存在显着差距,并且尝试弥合与当前模型的差距可能是无…...

Java电子病历编辑器项目源码 采用B/S(Browser/Server)架构
电子病历(EMR,Electronic Medical Record)是用电子技术保存、管理、传输和重现的数字化的病人的医疗记录,取代手写纸张病历,将医务人员在医疗活动过程中,使用医疗机构管理系统生成的文字、符号、图表、图形、数据、影像等数字化内…...

使用 AWS DataSync 进行跨区域 AWS EFS 数据传输
如何跨区域EFS到EFS数据传输 部署 DataSync 代理 在可以访问源 EFS 和目标 EFS 的源区域中部署代理。转至AWS 代理 AMI 列表并按 AWS 区域选择您的 AMI。对于 us-west-1,单击 us-west-1 前面的启动实例。 启动实例 2. 选择您的实例类型。AWS 建议使用以下实例类型之…...

设计模式~解释器模式(Interpreter)-19
解释器模式(Interpreter Pattern)提供了评估语言的语法或表达式的方式,它属于行为型模式。这种模式实现了一个表达式接口,该接口解释一个特定的上下文。这种模式被用在 SQL 解析、符号处理引擎等。 【俺有一个《泡MM真经》&#x…...

对象混入的实现方式
对象混入(Object mixins)是一种在面向对象编程中用于组合和重用代码的技术。它允许你将一个对象的属性和方法混合(或合并)到另一个对象中,从而创建一个具有多个来源的对象,这些来源可以是不同的类、原型或其…...

Mac 远程 Ubuntu
1. Iterm2 添加ssh 参考:https://www.javatang.com/archives/2021/11/29/13063392.html 2. Finder 添加远程文件管理 2.1 ubuntu 配置 安装samba sudo apt-get install samba配置 [share]path /home/USER_NAME/shared_directoryavailable yesbrowseable ye…...

黑豹程序员-h5前端录音、播放
H5支持页面中调用录音机进行录音 H5加入录音组件,录音后可以进行播放,并形成录音文件,其采样率固化48000,传言是google浏览器的BUG,它无法改动采样率。 大BUG,目前主流的支持16000hz的采样率。 录音组件 …...

Leetcode622.设计循环队列
本专栏内容为:leetcode刷题专栏,记录了leetcode热门题目以及重难点题目的详细记录 💓博主csdn个人主页:小小unicorn ⏩专栏分类:Leetcode 🚚代码仓库:小小unicorn的代码仓库🚚 &…...

二十二、【形状工具组】
文章目录 基础图形多边形直线工具自定义形状工具 形状工具组画的图形是矢量图形,在放大和缩小后像素不变看起来不会模糊,位图和矢量图形的存储方式不一样,位图的存储方式是按各个像素的数据来进行存储的,而矢量图形是根据算法来进…...

设计模式~迭代器模式(Iterator)-20
目录 迭代器模式(Iterator) (1)优点 (2)缺点 (3)使用场景 (4)注意事项 (5)应用实例: 代码 迭代器模式(Iterator) 迭代器模式(…...

亳州市的自然风光与旅游资源:欣赏安徽省中部的壮丽景色
亳州市是中国安徽省的一个地级市,位于该省的中部。 亳州市辖区包括谯城区、涡阳县、蒙城县和利辛县等地。亳州市拥有悠久的历史和丰富的文化遗产,同时也以其独特的自然风光而闻名。 首先,让我们来了解一下亳州的历史和景点。亳州的历史可以…...

windows安装nvm以及解决yarn问题
源代码 下载 下一步一下步安装即可 检查是否安装成功 nvm出现上面的代码即可安装成功 常用命令 查看目前安装的node版本 nvm list [available]说明没有安装任何版本,下面进行安装 nvm install 18.14使用该版本 node use 18.14.2打开一个新的cmd输入node -…...

【TA 挖坑04】薄膜干涉 镭射材质 matcap
镭射材质,相对物理的实现? 万物皆可镭射,个性吸睛的材质渲染技术 - 知乎 (zhihu.com) 薄膜干涉材质,matcap更trick的方法?matcapremap, MatCap原理介绍及应用 - 知乎 (zhihu.com) 庄懂的某节课也做了mat…...

OpenCV13-图像噪声:椒盐噪声和高斯噪声
OpenCV13-图像噪声:椒盐噪声和高斯噪声 1.噪声种类2.椒盐噪声3.高斯噪声 1.噪声种类 图像噪声是指图像中的随机或非随机的不希望的视觉扰动。它可以出现在数字图像中的各种形式,例如颗粒状噪声、条纹、斑点、模糊、失真等。图像噪声可能是由于图像采集过…...

天堂2服务器基本设置
[system] server_nameLocal Server ——〉服务器名称 server_rulesPvP http_host127.0.0.1 ——〉HTTP注册页面(需先搭建IIS服务器) http_port8080 rs_host127.0.0.1——〉填你IP rs_port3724 ws_host127.0.0.1 ——〉填你的IP就对啦 ws_port8085 wor…...

如何解决网站被攻击的问题
在当今数字化时代,网站攻击已经成为互联网上的一个常见问题。这些攻击可能会导致数据泄漏、服务中断和用户信息安全问题。然而,我们可以采取一些简单的措施来解决这些问题,以确保网站的安全性和可用性。 使用强密码和多因素认证 密码是保护网…...

python爬虫入门详细教程-采集云南招聘网数据保存为csv文件
python爬虫之User-Agent大全、随机获取User-Agent 网站地址数据提取技术介绍采集目标流程分析python代码实现 网站地址 https://www.ynzp.com/ 这个网址特别适合新手拿来练习,你采集多了还有个验证码页面,验证码是4位数字,很清晰,…...

1.13.C++项目:仿muduo库实现并发服务器之TcpServer模块的设计
文章目录 一、LoopThreadPool模块二、实现思想(一)管理(二)流程(三)功能设计 三、代码 一、LoopThreadPool模块 TcpServer模块: 对所有模块的整合,通过 tcpserver 模块实例化的对象&…...

Spring(17) AopContext.currentProxy() 类内方法调用切入
目录 一、简介二、代码示例2.1 接口类2.2 接口实现类2.3 AOP切面类2.4 启动类(测试)2.5 执行结果 一、简介 背景: 在之前 Spring 的 AOP 用法中,只有代理的类才会被切入。例如:我们在 Controller 层调用 Service 的方式…...

自己的类支持基于范围的for循环 (深入探索)
自己的类支持基于范围的for循环 (深入探索) 编译器实际运行伪代码为: auto && __range range_expression; auto __begin begin_expr; auto __end end_expr; for (; __begin ! __end; __begin) {range_declaration *__begin;loop_statement }观察伪代码࿰…...

Multi Scale Supervised 3D U-Net for Kidney and Tumor Segmentation
目录 摘要1 引言2 方法2.1 预处理和数据增强2.2 网络的体系结构2.3 训练过程2.4 推理与后处理 3 实验与结果4 结论与讨论 摘要 U-Net在各种医学图像分割挑战中取得了巨大成功。一些新的、带有花里胡哨功能的架构可能在某些数据集中在使用最佳超参数时取得成功,但它们…...

《操作系统真象还原》第一章 部署工作环境
ref:https://www.bilibili.com/video/BV1kg4y1V7TV/?spm_id_from333.999.0.0&vd_source3f7ae4b9d3a2d84bf24ff25f3294d107 https://www.bilibili.com/video/BV1SQ4y1A7ZE/?spm_id_from333.337.search-card.all.click&vd_source3f7ae4b9d3a2d84bf24ff25f32…...

SpringCloud-Config
一、介绍 (1)服务注册中心 (2)管理各个服务上的application.yml,支持动态修改,但不会影响客户端配置 (3)一般将application.yml文件放在git上,客户端通过http/https方式…...

劣币驱良币的 pacing 之殇
都说 pacing 好 burst 孬(参见:为啥 pacing),就像都知道金币好,掺铁金币孬一样。可现实中掺铁的金币流通性却更好,劣币驱良币。劣币流通性好在卖方希望收到别人的良币而储存,而自己作为买方只使用劣币。 burst 和 pac…...