hadoop面试题
一、单项选择题
1、目前,Hadoop的最高版本是哪个( A )
A、Hadoop3.x B、Hadoop2.x C、Hadoop4.x D、Hadoop1.x
2、大数据的4V特征是指? ( B )
A、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、技术发展速度快(Velocity)
B、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)
C、数据量大(Volume)、类型繁多(Variety)、价值密度高(Value)、数据产生速度快(Velocity)
D、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、数据变化速度快(Velocity)
3、HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?( D )
A、一个map读取64MB,另外一个map读取11MB
B、128MB C、64MB D、75MB
4、HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?( A )
A、一个map读取64MB,另外一个map读取11MB
B、64MB C、75MB D、128MB
5、关于SecondaryNameNode哪项是正确的? ( A )
A、它目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间
B、它对内存没有要求 C、它是NameNode的热备
D、SecondaryNameNode应与NameNode部署到一个节点
6、把本地文件放到集群里,可以使用下面哪个hadoop shell的命令? ( C )
A、hadoop fs –put B、hadoop fs –push /
C、hadoop fs –put / D、hadoop -push /
7、如果想要修改集群的备份数量,可以修改下面哪个配置文件? ( C )
A、mapred-site.xml B、core-site.xml
C、hdfs-site.xml D、hadoop-env.sh
8、在Centos7中,如果想要查看本机的主机名可以使用下面哪个命令? ( B )
A、reboot B、hostname C、pwd D、tail
9、Hadoop-2.x集群中的HDFS的默认的副本块的个数是? ( A )
A、3 B、2 C、1 D、4
10、以下哪个不是HDFS的守护进程( C )
A、SecondaryNameNode B、NameNode C、MrappMaster/YarnChild D、DataNode
11、大数据至少为以下哪种存储量级? ( B )
A、EB B、PB C、TB D、ZB
12、关于HDFS集群中的DataNode的描述不正确的是? ( A )
A、一个DataNode上存储的所有数据块可以有相同的
B、存储客户端上传的数据的数据块
C、DataNode之间可以互相通信
D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑
13、MapReduce的Shuffle过程以下中哪个操作是最后做的?( B )
A、排序 B、合并 C、分区 D、溢写
14、Hadoop起始于以下哪个阶段?( D )
A、2004年,Nutch的开发者开发了NDFS。
B、2004年,Google发表了关于MapReduce的论文。
C、2003年,Google发布了GFS论文。 D、2002年,Apach项目的Nutch。
15、下面哪个程序负责HDFS数据存储。( C )
A、NameNode B、Jobtracker C、Datanode D、tasktracker
16、配置机架感知的下面哪项正确?( C )
A、MapReduce会根据机架获取离自己比较近的网络数据
B、写入数据的时候会写到不同机架的DataNode
C、都正确 D、如果一个机架出问题,不会影响数据读写
17、下列关于HDFS的描述正确的是? ( A )
A、NameNode磁盘元数据不保存Block的位置信息
B、DataNode通过长连接与NameNode保持通信
C、HDFS集群支持数据的随机读写
D、如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作
18、一个gzip文件大小75MB,客户端设置Block大小为64MB,请问其占用几个Block?( B )
A、3 B、2 C、4 D、1
19、按照所处理的数据形式和得到结果的时效性分类,大数据处理框架可以分为三类,以下系统中哪一项不是? ( B )
A、混合处理系统 B、分布式键值系统 C、批处理系统 D、流处理系统
20、关于大数据的价值密度描述正确的是以下哪个? ( A )
A、大数据由于其数据量大,所以其价值密度低。
B、大数据由于其数据量大,所以其价值也大。
C、大数据的价值密度是指其数据类型多且复杂。
D、大数据由于其数据量大,所以其价值密度高。
二、多选题
1、下面哪个组件可以在Hadoop集群中代替MR做一些计算? ( AC )
A、Spark B、Sqoop C、Hive D、Avro
2、大数据的计算模式主要有哪些? ( ABCD )
A、图计算模式 B、流计算模式 C、查询分析计算模式 D、批处理计算模式
3、Hadoop MapReduce对外提供了5个可编程组件,以下哪对中的方法或任务不全在这
5个编程组件中。( AB )
A、Partitioner和Combiner B、Split和Sort
C、InputFormat和OutputFormat D、Mapper和Reducer
4、YARN主要包含的模块有以下哪些?( ABC )
A、ApplicationMaster B、ResourceManager
C、NodeManager D、QuorumJournalManager
5、下面哪些是Hadoop 2.x的组件? ( ABC )
A、Spark B、Hive C、HBase D、GFS
6、Hadoop的三种安装模式包括以下哪种? ( BCD )
A、两分布式模式 B、完全分布式模式
C、伪分布模式 D、单机模式
7、VMware提供了哪几种工作模式?( ABD )
A、host-only仅主机模式 B、NAT模式
C、自定义除以上3种其他模式 D、桥接(bridged)模式
8、Hadoop集群具有以下哪个优点? ( ACD )
A、高容错性 B、高成本性 C、高可靠性 D、高扩展性
9、关于数据副本的存放策略正确的有些? ( ABCD )
A、第三个副本:与第一个副本相同机架的其他节点上;
B、更多副本:随机节点。
C、第一个副本,放置在上传文件的数据节点;
D、第二个副本,放置在与第一个副本不同的机架的节点上;
10、以下关于SSH免密码配置的描述正确的选项有哪个?( ABCD )
A、SSH专为远程登录会话和其他网络服务提供安全性的协议。
B、SSH是Secure Shell的缩写,则IETF的网络工作小组制定。
C、SSH是建立 在应用层和传输导上的安全协议。
D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉需要输入密码才能登录的步骤。
11、大数据采集中面临的主要问题有以下哪些? ( ABCD )
A、如何避免重复数据 B、数据源多种多样,数据量大、变化快
C、如何保证数据的质量 D、如何保证数据采集的可靠性
12、以下关于文件块的说法正确的是? ( ABCD )
A、文件的所有Block为了容错都会被冗余复制。
B、除了最后一个Block,所有的Block都是同样的大小。
C、每个文件的Block大小和复制(Replication)因子都是可配置的。
D、HDFS将文件存储成块序列。
13、MapRecue的优点有哪些?( ACD )
A、可扩展性强 B、计算机性能高 C、容错性强 D、开发简单
14、以下关于HDFS体系结构的描述正确的有哪几项?( ABCD )
A、NameNode作为主结点,用来管理文件系统的元数据(命名空间和访问操作等信息)。
B、DataNode作为从结点,用来管理存储的数据。
C、HDFS采用主从结构模型。
D、一个HDFS集群是由一个NameNode和若干个DataNode组成的。
15、HDFS中常用命令有下面哪些? ( ABCD )
A、hadoop fs –rm B、hadoop fs –ls
C、hadoop fs –mv D、hadoop fs –put
16、在新的Hadoop MapReduce框架YARN产生之前,MapReduce架构存在的问题有哪些?
( ABCD )
A、容易造成TaskTracker端内存溢出 B、JobTrack单点故障问题
C、JobTrack任务过重 D、容易造成资源浪费
17、常用的HDFS API有哪些? ( ABCD )
A、rename() B、copyFromLocalFile() C、mkdirs() D、delete()
18、以下关于序列化Writable的说法正确的是?( ABCD )
A、反序列化也称反串行化,它是指将字节流转回结构化对象的逆过程。
B、Hadoop中使用自己开发的类:IntWritable、FloatWritable、Text等,都是Writable的实现类。
C、序列化和反序列化在分布式数据处理中,主要于进程间通信和永久存储两个领域。
D、Writable接口是一个序列化对象的接口,能够将数据写入流或者从流中读出。
19、大数据关键技术包括哪些? ( ABCD )
A、大数据存储 B、大数据预处理 C、大数据采集 D、大数据分析挖掘
20大数据中常见的类型有哪些? ( ABCD )
A、视频 B、图片 C、音频 D、日志
三、判断题
1、Hadoop实现了一个分布式文件系统,简称HDFS。(√ )
2、在大数据框架中,批处理系统一般不适用于对延时要示较高的场景。( √ )
3、HDFS既适合超大数据集存储,也适合小数据集的存储。( × )
4、Hadoop下使用MapRecue。用户只要继承MapReduceBase,提供分别实现Map和Reduce的两个类,并注册Job即可自动分布式运行。( √ )
5、我国的大数据产业政策一直在有序推进,工业和信息化部在2017年1月正式印发了《大数据产业发展规划》。( √ )
6、HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。( √ )
7、Hadoop的框架最核心的设计就是:HDFS和MapReduce。( √ )
8、HDFS以流的形式访问文件系统中的数据。( √ )
9、HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。( √ )
10、MapRecue在shuffle阶段基于排序的方法会将key相同的数据聚集在一起。(√ )
四、填空题
1、( datanode )负责HDFS数据存储。
2、hadoop运行的模式有:单机模式 、( 伪分布模式 ) 、( 伪分布模式 )。
3、Hadoop集群搭建中常用的4个配置文件为core-site.xml 、( hdfs-site.xml )
、mapred-site.xml、( ,yarn-site.xml ) 。
4、一个HDFS集群包括两大部分,即 ( namenode ) 与( datanode )。
5、格式化HDFS系统的命令为:( hdfs namenode –format )。
6、hadoop创建多级目录(如:/a/b/c)的命令为( hadoop fs –mkdir –p /a/b/c )。
7、hadoop显示根目录命令为:( hadoop fs –lsr )。
8、hadoop包含的四大模块分别是: Hadoop common 、( HDFS ) 、( Mapreduce )、( yarn )。
9、( job )是客户端需要执行的一个工作单元。
10、map任务将其输出写入到( 本地磁盘 )。
11、reduce的输出通常存储在( HDFS ) 中以实现可靠存储。
12、大数据是由结构化和非结构化数据组成的。( 10% )的结构化数据,存储在数据库中,( 90% )的非结构化数据,它们与人类信息密切相关。
13、大数据关键技术两大核心技术是:( 分布式存储或(HDFS) )和( 分布式处理或(MapReduce) )。
五、简答题
- hdfs的体系结构是什么?
HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。
2、NameNode与SecondaryNameNode的区别与联系?
1)区别
(1)NameNode 负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的
数据块信息。
(2)SecondaryNameNode 主要用于定期合并命名空间镜像和命名空间镜像的编辑日志。
2)联系:
(1)SecondaryNameNode 中保存了一份和 namenode 一致的镜像文件(fsimage)和编
辑日志(edits)。
(2)在主 namenode 发生故障时(假设没有及时备份数据),可以从 SecondaryNameNode
恢复数据。
3、hdfs文件写入的流程?
1) Client向NameNode发起文件写入的请求。
2) NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
3) Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
4、完全分布模式又有什么注意点?
完全分布模式通常被用于生产环境,这里我们使用N台主机组成一个Hadoop集群,Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机,Datanode运行的主机,以及task tracker运行的主机。在分布式环境下,主节点和从节点会分开。
5、MapReduce核心思想是什么?
分而治之:就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果
MapReduce是框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种
Map阶段:用于对原始数据进行处理
Reduce阶段:对map阶段数据进行汇总
部分任务不一定需要reduce阶段可能只有map阶段,map阶段产生的数据直接写入HDFS中
有map产生相关key的输出都会集中在到Reduce中处理,reduce是最终的处理过程,其结果不会进行二次处理。
Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架。
6、Hadoop分布式集群,默认备份数为多少,每个数据块大小是多少?在哪个配置文件中可以修改备份数与每个数据块大小?
默认备份为3份,每块数据大小128M, 在hdfs-site.xml配置文件中可以修改备份数和数据块大小。
相关文章:

hadoop面试题
一、单项选择题 1、目前,Hadoop的最高版本是哪个( A ) A、Hadoop3.x B、Hadoop2.x C、Hadoop4.x D、Hadoop1.x 2、大数据的4V特征是指? ( B ) A、数据量大(Volume)、类型繁多(Variety)、价值密度低(Va…...

mysql 安装 windows
新版安装 新版本安装 如果出现initializing database无法安装 则用我当前版本传送门 如MySQL 安装时没有developer default 选项 解决方法传送门 如果上述还不行 可以选择full 汉化下载 传送门...

24下软考中级网络工程师考前必背22页
数据中心选址原则 1、地理位置:备选址地点发生自然灾害的概率和频率、环境危害因素以及气候因素 2、电力能源供应:可用性、成本因素 3、通讯基础设施:光纤主干线路及其距数据中心选址的距离、光纤类型、服务运营商的类型及其支持的服务模式…...

Java类和对象(下篇)
今天接着学习类和对象(苦笑)(苦笑)(苦笑) 1. 封装 1.1 封装的概念 面向对象程序三大特性:封装、继承、多态。 而类和对象阶段,主要研究的就是封装特性。 何为封装呢?简单来说就是套壳屏蔽细节。 举例:对于计算机使用者而言&am…...

k8s图形化显示(KRM)
在master节点 kubectl get po -n kube-system 这个命令会列出 kube-system 命名空间中的所有 Pod 的状态和相关信息,比如名称、状态、重启次数等。 systemctl status kubelet #查看kubelet状态 yum install git #下载git命令 git clone https://gitee.com/duk…...

apache poi 实现下拉框联动校验
apache poi 提供了 DataValidation 接口 让我们可以轻松实现 Excel 下拉框数据局校验。但是下拉框联动校验是无法直接通过 DataValidation 实现,所以我们可以通过其他方式间接实现。 步骤如下: 创建一个隐藏 sheet private static void create…...

【canal 中间件】canal 实时监听 binlog
文章目录 一、安装 MySQL1.1 启动 mysql 服务器1.2 开启 Binlog 写入功能1.2.1创建 binlog 配置文件1.2.2 修改配置文件权限1.2.3 挂载配置文件1.2.4 检测 binlog 配置是否成功 1.3 创建账户并授权 二、安装 canal2.1 安装 canal-admin(可选)2.1.1 启动 canal-admin 容器2.1.2 …...

JVM垃圾收集算法、对应收集器和选择建议
如果说垃圾收集算法是内存回收的方法论,那么垃圾收集器就是内存回收的具体实现。 到目前为止还没有最好的垃圾收集器出现,也没万能的垃圾收集器。实际使用中,根据具体应用场景选择合适的垃圾收集器。 1、垃圾收集算法 垃圾收集算法可以从高…...

如何在算家云搭建Aatrox-Bert-VITS2(音频生成)
一、模型介绍 Aatrox - Bert -VITS2 模型是一种基于深度学习的语音合成系统,结合了 BERT 的预训练能力和 VITS2 的微调技术,旨在实现高质量的个性化语音合成。 二、模型搭建流程 1. 创建容器实例 进入算家云的“应用社区”,点击搜索找到…...

ceph灾备之cephfs snapshot mirror和rsync对比
背景 最近要做ceph集群之间的灾备功能,主要讨论文件存储,因为ceph集群容量越来越大,接入的业务也越来越多,一旦出现故障,恢复时间都是小时级(根据经验每年都会出现几次这种事故),对于核心业务无法接受&…...

【工具分享】Plutocrypt勒索病毒解密工具
前言 Plutocrypt勒索软件首次出现在2021年,作为CryptoJoker勒索软件的变种。该恶意软件通过钓鱼邮件和恶意链接传播,主要针对个人和小型企业用户。Plutocrypt使用了.NET框架开发,并依赖AES-256和RSA-4096的加密算法来加密受害者的文件。与Cr…...

IDEA启动提示Downloading pre-built shared indexes
Download pre-built shared indexes Reduce the indexing time and CPU load with pre-built JDK shared indexes 翻译: 下载预构建的共享索引 使用预构建的JDK共享索引减少索引时间和CPU负载. 使用预构建的JDK共享索引可以显著减少索引构建时间和CPU负载…...

[HCTF 2018]WarmUp 1--详细解析
打开靶机,进入界面: 信息搜集 当前界面没有任何有用信息。 想到查看页面源代码。右键–查看页面源代码 看到hint:<!--source.php--> 进入/source.php页面,看到页面源代码: <?phphighlight_file(__FILE_…...

软考教材重点内容 信息安全工程师 第1章 网络信息安全概述
第 1 章 网络信息安全概述 1.1.1 网络信息安全相关概念 狭义上的网络信息安全特指网络信息系统的各组成要素符合安全属性的要求,即机密性、完整性、可用性、抗抵赖性、可控性。 广义上的网络信息安全是涉及国家安全、城市安全、经济安全、社会安全、生产安全、人身安…...

TOSHIBA 74VHC00FT COMS汽车、工业企业的选择
74VHC00FT 是一种四路双输入 NAND 门,属于 CMOS 系列数字集成电路。它采用东芝先进的硅栅 C2MOS 技术设计,能够实现类似于双极性肖特基 TTL 逻辑电路的高速运行,同时保持 CMOS 器件的低功耗。这种独特的结合使其非常适合需要高性能和低功耗的…...

【Android】使用productFlavors构建多个变体
项目需求 在一个设备上安装两个一样的程序app 需求解决 我们知道每一个app都有一个包名的,如果一个app在Android设备上安装之后,再安装这个app的话会进行覆盖安装,因为他们两个的包名是一样的,默认是一个app。 但是我们现在需…...

ubuntu 22.04 防火墙 ufw
Ubuntu(22.04)云主机SSH安全加固 https://blog.csdn.net/qq_44846097/article/details/141098092 ubuntu22.04防火墙策略 https://blog.csdn.net/sunyuhua_keyboard/article/details/139493464 Ubuntu 22.04 防火墙设置和开放端口命令 https://blog.c…...

MySQL压缩版安装详细图解
1.下载 mysql压缩包版本和msi版的安装方法不一样,下面的是压缩包版本的安装详细图解: 总地址下载地址:MySQL :: Download MySQL Community Server MySQL :: Download MySQL Community Server (Archived Versions) 压缩版下载MySQL :: Dow…...

elementui中的新增弹窗在新增数据成功后再新增 发现数据无法清除解决方法
elementui中的新增弹窗在新增数据成功后再新增 发现数据无法清除解决方法 试过网上其他方法,发现表单清空数据还是有问题,索性用下面方法解决: // 给弹框里面添加 v-ifvisible测试无问题,暂时先这样解决,如果有其他方法&#x…...

软件开发项目管理:实现目标的实用指南
由于软件项目多数是复杂且难以预测的,对软件开发生命周期的深入了解、合适的框架以及强大的工作管理平台是必不可少的。项目管理系统在软件开发中通常以监督为首要任务,但优秀的项目计划、管理框架和软件工具可以使整个团队受益。 软件开发项目管理的主要…...

Jenkins面试整理-如何在 Jenkins 中进行并行构建?
在 Jenkins 中,并行构建 是通过并行执行多个任务来提高构建效率的常见方法。并行构建特别适用于需要执行多个独立步骤的工作流,如并行测试、构建不同平台上的软件或并行执行多个阶段。Jenkins 提供了两种方式来配置并行构建:Declarative Pipeline 和 Scripted Pipeline。下面…...

DPDK(F-Stack) 实现UDP通信
因刚开始学习DPDK,在学习过程中了解到需使用用户态协议栈,在网上找到F-Stack的相关介绍,但是缺乏DPDK的相关知识,导致使用F-Stack 时UDP数据无法收到 一文了解dpdk rte_ring无锁队列F-Stack实现UDP服务端、客户端,并进…...

基于ExtendSim的库存与订购实验
说明: 库存和订购实验室是一个单部件模拟模型,旨在测试从组件需求站点到组件分发站点的订购策略,以及 在组件分销现场的生产区域内。最佳解决方案允许为需求站点提供高服务级别,同时最大限度地降低总库存水平。 该模型演示了分层模…...

操作系统个人八股文总结
1.进程和线程的区别 进程和线程的定义 进程: 进程是一个运行中的程序实例,是资源分配的基本单位。每个进程都有自己的地址空间、数据、堆栈以及其他辅助数据。线程: 线程是进程中的一个执行单元,是CPU调度的基本单位。一个进程可…...

scala set训练
Set实训内容: 1.创建一个可变Set,用于存储图书馆中的书籍信息(假设书籍信息用字符串表示),初始化为包含几本你喜欢的书籍 2.添加两本新的书籍到图书馆集合中,使用操作符 3.删除一本图书馆集合中的书籍&…...

【d63】【Java】【力扣】141.训练计划III
思路 使用递归实现 出口 ,遇到null 每一层要做:把下层放进去,把本层放下去 代码 /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}* ListNode(int val) { …...

【Linux】- 权限(2)
接上一篇文章,继续介绍linux权限的相关知识。https://blog.csdn.net/hffh123/article/details/143432940?spm1001.2014.3001.5501j 目录 一、chown:修改文件的拥有者 二、chgrp:修改文件所属组 三、关于other的介绍 四、文件类型 1、分类…...

如何设置内网IP的端口映射到公网
在现代网络环境中,端口映射(Port Mapping)是一项非常实用的技术,它允许用户将内网设备的服务端口映射到公网,使外网用户可以访问内网中的服务。这项技术在远程办公、设备远程控制、游戏服务器、家庭监控等场景中得到了…...

Matplotlib | 条形图中的每个条形(patch)设置标签数据的方法
方法一 不使用子图对象如何给形图中的每个条形设置数据 plt.figure(figsize(8, 4)) sns.countplot(xWorkout_Frequency (days/week), datadf)plt.title(会员每周锻炼频率分布) plt.xlabel(锻炼频率 (每周次数)) plt.ylabel(人数)# 获取当前活动的轴对象 ax plt.gca()# 循环遍…...
机器学习3_支持向量机_线性不可分——MOOC
线性不可分的情况 如果训练样本是线性不可分的,那么上一节问题的是无解的,即不存在 和 满足上面所有N个限制条件。 对于线性不可分的情况,需要适当放松限制条件,使得问题有解。 放松限制条件的基本思路: 对每个训…...