当前位置: 首页 > news >正文

hadoop面试题

一、单项选择题

1、目前,Hadoop的最高版本是哪个(    )

A、Hadoop3.x  B、Hadoop2.x  C、Hadoop4.x  D、Hadoop1.x

2、大数据的4V特征是指? (  B    )

A、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、技术发展速度快(Velocity)

B、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)

C、数据量大(Volume)、类型繁多(Variety)、价值密度高(Value)、数据产生速度快(Velocity)

D、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、数据变化速度快(Velocity)

3、HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?(    D  )

A、一个map读取64MB,另外一个map读取11MB

B、128MB    C、64MB   D、75MB

4、HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?(  A    )

A、一个map读取64MB,另外一个map读取11MB

B、64MB   C、75MB   D、128MB

5、关于SecondaryNameNode哪项是正确的? (     )

A、它目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间

B、它对内存没有要求    C、它是NameNode的热备

D、SecondaryNameNode应与NameNode部署到一个节点

6、把本地文件放到集群里,可以使用下面哪个hadoop shell的命令? (  C   )

A、hadoop fs –put     B、hadoop fs –push /

C、hadoop fs –put /   D、hadoop -push /

7、如果想要修改集群的备份数量,可以修改下面哪个配置文件? (   C   )

A、mapred-site.xml   B、core-site.xml

C、hdfs-site.xml     D、hadoop-env.sh

8、在Centos7中,如果想要查看本机的主机名可以使用下面哪个命令? (  B    )

A、reboot    B、hostname   C、pwd   D、tail

9、Hadoop-2.x集群中的HDFS的默认的副本块的个数是? (   A   )

A、3   B、2   C、1   D、4

10、以下哪个不是HDFS的守护进程(  C    )

A、SecondaryNameNode   B、NameNode C、MrappMaster/YarnChild  D、DataNode

11、大数据至少为以下哪种存储量级? (   B   )

A、EB   B、PB   C、TB   D、ZB

12、关于HDFS集群中的DataNode的描述不正确的是? (  A    )

A、一个DataNode上存储的所有数据块可以有相同的

B、存储客户端上传的数据的数据块

C、DataNode之间可以互相通信

D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑

13、MapReduce的Shuffle过程以下中哪个操作是最后做的?(   B   )

A、排序   B、合并  C、分区  D、溢写

14、Hadoop起始于以下哪个阶段?(  D    )

A、2004年,Nutch的开发者开发了NDFS。

B、2004年,Google发表了关于MapReduce的论文。

C、2003年,Google发布了GFS论文。  D、2002年,Apach项目的Nutch。

15、下面哪个程序负责HDFS数据存储。(  C    )

A、NameNode    B、Jobtracker   C、Datanode    D、tasktracker

16、配置机架感知的下面哪项正确?(  C    )

A、MapReduce会根据机架获取离自己比较近的网络数据

B、写入数据的时候会写到不同机架的DataNode

C、都正确   D、如果一个机架出问题,不会影响数据读写

17、下列关于HDFS的描述正确的是? (   A   )

A、NameNode磁盘元数据不保存Block的位置信息

B、DataNode通过长连接与NameNode保持通信

C、HDFS集群支持数据的随机读写

D、如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作

18、一个gzip文件大小75MB,客户端设置Block大小为64MB,请问其占用几个Block?( B     )

A、3  B、2  C、4  D、1

19、按照所处理的数据形式和得到结果的时效性分类,大数据处理框架可以分为三类,以下系统中哪一项不是? (   B   )

A、混合处理系统   B、分布式键值系统  C、批处理系统     D、流处理系统

20、关于大数据的价值密度描述正确的是以下哪个? (  A    )

A、大数据由于其数据量大,所以其价值密度低。

B、大数据由于其数据量大,所以其价值也大。

C、大数据的价值密度是指其数据类型多且复杂。

D、大数据由于其数据量大,所以其价值密度高。

二、多

1、下面哪个组件可以在Hadoop集群中代替MR做一些计算? (   AC      )

A、Spark  B、Sqoop  C、Hive  D、Avro

2、大数据的计算模式主要有哪些? (   ABCD      )

A、图计算模式    B、流计算模式  C、查询分析计算模式  D、批处理计算模式

3、Hadoop MapReduce对外提供了5个可编程组件,以下哪对中的方法或任务不全在这

5个编程组件中。(   AB      )

A、Partitioner和Combiner        B、Split和Sort

C、InputFormat和OutputFormat    D、Mapper和Reducer

4、YARN主要包含的模块有以下哪些?(    ABC     )

A、ApplicationMaster  B、ResourceManager

C、NodeManager        D、QuorumJournalManager

5、下面哪些是Hadoop 2.x的组件? (    ABC     )

A、Spark   B、Hive   C、HBase   D、GFS

6、Hadoop的三种安装模式包括以下哪种? (    BCD     )

A、两分布式模式   B、完全分布式模式

C、伪分布模式     D、单机模式

7、VMware提供了哪几种工作模式?(    ABD     )

A、host-only仅主机模式        B、NAT模式

C、自定义除以上3种其他模式   D、桥接(bridged)模式

8、Hadoop集群具有以下哪个优点? (    ACD     )

A、高容错性   B、高成本性  C、高可靠性   D、高扩展性

9、关于数据副本的存放策略正确的有些? (  ABCD       )

A、第三个副本:与第一个副本相同机架的其他节点上;

B、更多副本:随机节点。

C、第一个副本,放置在上传文件的数据节点;

D、第二个副本,放置在与第一个副本不同的机架的节点上;

10、以下关于SSH免密码配置的描述正确的选项有哪个?(   ABCD      )

A、SSH专为远程登录会话和其他网络服务提供安全性的协议。

B、SSH是Secure Shell的缩写,则IETF的网络工作小组制定。

C、SSH是建立 在应用层和传输导上的安全协议。

D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉需要输入密码才能登录的步骤。

11、大数据采集中面临的主要问题有以下哪些? (   ABCD      )

A、如何避免重复数据    B、数据源多种多样,数据量大、变化快

C、如何保证数据的质量  D、如何保证数据采集的可靠性

12、以下关于文件块的说法正确的是? (     ABCD    )

A、文件的所有Block为了容错都会被冗余复制。

B、除了最后一个Block,所有的Block都是同样的大小。

C、每个文件的Block大小和复制(Replication)因子都是可配置的。

D、HDFS将文件存储成块序列。

13、MapRecue的优点有哪些?(    ACD     )

A、可扩展性强   B、计算机性能高  C、容错性强  D、开发简单

14、以下关于HDFS体系结构的描述正确的有哪几项?(  ABCD       )

A、NameNode作为主结点,用来管理文件系统的元数据(命名空间和访问操作等信息)。

B、DataNode作为从结点,用来管理存储的数据。

C、HDFS采用主从结构模型。

D、一个HDFS集群是由一个NameNode和若干个DataNode组成的。

15、HDFS中常用命令有下面哪些? (   ABCD      )

A、hadoop fs –rm    B、hadoop fs –ls

C、hadoop fs –mv    D、hadoop fs –put

16、在新的Hadoop MapReduce框架YARN产生之前,MapReduce架构存在的问题有哪些?

(    ABCD     )

A、容易造成TaskTracker端内存溢出   B、JobTrack单点故障问题

C、JobTrack任务过重                 D、容易造成资源浪费

17、常用的HDFS API有哪些? (  ABCD       )

A、rename()     B、copyFromLocalFile()  C、mkdirs()  D、delete()

18、以下关于序列化Writable的说法正确的是?(    ABCD     )

A、反序列化也称反串行化,它是指将字节流转回结构化对象的逆过程。

B、Hadoop中使用自己开发的类:IntWritable、FloatWritable、Text等,都是Writable的实现类。

C、序列化和反序列化在分布式数据处理中,主要于进程间通信和永久存储两个领域。

D、Writable接口是一个序列化对象的接口,能够将数据写入流或者从流中读出。

19、大数据关键技术包括哪些? (  ABCD       )

A、大数据存储   B、大数据预处理  C、大数据采集  D、大数据分析挖掘

20大数据中常见的类型有哪些? ( ABCD        )

A、视频    B、图片    C、音频    D、日志

三、判

1、Hadoop实现了一个分布式文件系统,简称HDFS。(√   )

2、在大数据框架中,批处理系统一般不适用于对延时要示较高的场景。(   )

3、HDFS既适合超大数据集存储,也适合小数据集的存储。( ×  )

4、Hadoop下使用MapRecue。用户只要继承MapReduceBase,提供分别实现Map和Reduce的两个类,并注册Job即可自动分布式运行。(   )

5、我国的大数据产业政策一直在有序推进,工业和信息化部在2017年1月正式印发了《大数据产业发展规划》。(   )

6、HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。(   )

7、Hadoop的框架最核心的设计就是:HDFS和MapReduce。(   )

8、HDFS以流的形式访问文件系统中的数据。(   )

9、HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。(   )

10、MapRecue在shuffle阶段基于排序的方法会将key相同的数据聚集在一起。(   )

四、填空题

1、(    datanode            )负责HDFS数据存储。

2、hadoop运行的模式有:单机模式 、(  伪分布模式          ) 、(       伪分布模式       )。

3、Hadoop集群搭建中常用的4个配置文件为core-site.xml 、(  hdfs-site.xml       )

 、mapred-site.xml、(   ,yarn-site.xml                 )  。

4、一个HDFS集群包括两大部分,即 (  namenode           )  与(    datanode          )。

5、格式化HDFS系统的命令为:(    hdfs namenode –format                            )。 

6、hadoop创建多级目录(如:/a/b/c)的命令为(  hadoop fs –mkdir –p /a/b/c      )。

7、hadoop显示根目录命令为:(    hadoop fs –lsr                     )。

8、hadoop包含的四大模块分别是: Hadoop common  、( HDFS ) 、(  Mapreduce )、(        yarn            )。

9、(   job          )是客户端需要执行的一个工作单元。

10、map任务将其输出写入到( 本地磁盘              )。

11、reduce的输出通常存储在(     HDFS                 ) 中以实现可靠存储。

12、大数据是由结构化和非结构化数据组成的。(     10%       )的结构化数据,存储在数据库中,(        90%    )的非结构化数据,它们与人类信息密切相关。

13、大数据关键技术两大核心技术是:(  分布式存储或(HDFS) )和(  分布式处理或(MapReduce)     )。

五、简

  1. hdfs的体系结构是什么?

HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。

2、NameNode与SecondaryNameNode的区别与联系?

1)区别

(1)NameNode 负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的

数据块信息。

(2)SecondaryNameNode 主要用于定期合并命名空间镜像和命名空间镜像的编辑日志。

2)联系:

(1)SecondaryNameNode 中保存了一份和 namenode 一致的镜像文件(fsimage)和编

辑日志(edits)。

(2)在主 namenode 发生故障时(假设没有及时备份数据),可以从 SecondaryNameNode

恢复数据。

3、hdfs文件写入的流程?

1) Client向NameNode发起文件写入的请求。

2) NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。

3) Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

4、完全分布模式又有什么注意点?

完全分布模式通常被用于生产环境,这里我们使用N台主机组成一个Hadoop集群,Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机,Datanode运行的主机,以及task tracker运行的主机。在分布式环境下,主节点和从节点会分开。

5、MapReduce核心思想是什么?

分而治之:就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果

MapReduce是框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种

Map阶段:用于对原始数据进行处理

Reduce阶段:对map阶段数据进行汇总

部分任务不一定需要reduce阶段可能只有map阶段,map阶段产生的数据直接写入HDFS中

有map产生相关key的输出都会集中在到Reduce中处理,reduce是最终的处理过程,其结果不会进行二次处理。

Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架。

6、Hadoop分布式集群,默认备份数为多少,每个数据块大小是多少?在哪个配置文件中可以修改备份数与每个数据块大小?

默认备份为3份,每块数据大小128M, 在hdfs-site.xml配置文件中可以修改备份数和数据块大小。

相关文章:

hadoop面试题

一、单项选择题 1、目前,Hadoop的最高版本是哪个( A ) A、Hadoop3.x B、Hadoop2.x C、Hadoop4.x D、Hadoop1.x 2、大数据的4V特征是指? ( B ) A、数据量大(Volume)、类型繁多(Variety)、价值密度低(Va…...

mysql 安装 windows

新版安装 新版本安装 如果出现initializing database无法安装 则用我当前版本传送门 如MySQL 安装时没有developer default 选项 解决方法传送门 如果上述还不行 可以选择full 汉化下载 传送门...

24下软考中级网络工程师考前必背22页

数据中心选址原则 1、地理位置:备选址地点发生自然灾害的概率和频率、环境危害因素以及气候因素 2、电力能源供应:可用性、成本因素 3、通讯基础设施:光纤主干线路及其距数据中心选址的距离、光纤类型、服务运营商的类型及其支持的服务模式…...

Java类和对象(下篇)

今天接着学习类和对象(苦笑)(苦笑)(苦笑) 1. 封装 1.1 封装的概念 面向对象程序三大特性:封装、继承、多态。 而类和对象阶段,主要研究的就是封装特性。 何为封装呢?简单来说就是套壳屏蔽细节。 举例:对于计算机使用者而言&am…...

k8s图形化显示(KRM)

在master节点 kubectl get po -n kube-system 这个命令会列出 kube-system 命名空间中的所有 Pod 的状态和相关信息,比如名称、状态、重启次数等。 systemctl status kubelet #查看kubelet状态 yum install git #下载git命令 git clone https://gitee.com/duk…...

apache poi 实现下拉框联动校验

apache poi 提供了 DataValidation​ 接口 让我们可以轻松实现 Excel 下拉框数据局校验。但是下拉框联动校验是无法直接通过 DataValidation ​实现,所以我们可以通过其他方式间接实现。 ‍ 步骤如下: 创建一个隐藏 sheet private static void create…...

【canal 中间件】canal 实时监听 binlog

文章目录 一、安装 MySQL1.1 启动 mysql 服务器1.2 开启 Binlog 写入功能1.2.1创建 binlog 配置文件1.2.2 修改配置文件权限1.2.3 挂载配置文件1.2.4 检测 binlog 配置是否成功 1.3 创建账户并授权 二、安装 canal2.1 安装 canal-admin(可选)2.1.1 启动 canal-admin 容器2.1.2 …...

JVM垃圾收集算法、对应收集器和选择建议

如果说垃圾收集算法是内存回收的方法论,那么垃圾收集器就是内存回收的具体实现。 到目前为止还没有最好的垃圾收集器出现,也没万能的垃圾收集器。实际使用中,根据具体应用场景选择合适的垃圾收集器。 1、垃圾收集算法 垃圾收集算法可以从高…...

如何在算家云搭建Aatrox-Bert-VITS2(音频生成)

一、模型介绍 ‌ Aatrox - Bert -VITS2 模型是一种基于深度学习的语音合成系统,结合了 BERT 的预训练能力和 VITS2 的微调技术,旨在实现高质量的个性化语音合成。 二、模型搭建流程 1. 创建容器实例 进入算家云的“应用社区”,点击搜索找到…...

ceph灾备之cephfs snapshot mirror和rsync对比

背景 最近要做ceph集群之间的灾备功能,主要讨论文件存储,因为ceph集群容量越来越大,接入的业务也越来越多,一旦出现故障,恢复时间都是小时级(根据经验每年都会出现几次这种事故),对于核心业务无法接受&…...

【工具分享】Plutocrypt勒索病毒解密工具

前言 Plutocrypt勒索软件首次出现在2021年,作为CryptoJoker勒索软件的变种。该恶意软件通过钓鱼邮件和恶意链接传播,主要针对个人和小型企业用户。Plutocrypt使用了.NET框架开发,并依赖AES-256和RSA-4096的加密算法来加密受害者的文件。与Cr…...

IDEA启动提示Downloading pre-built shared indexes

Download pre-built shared indexes Reduce the indexing time and CPU load with pre-built JDK shared indexes 翻译: 下载预构建的共享索引 使用预构建的JDK共享索引减少索引时间和CPU负载. 使用预构建的JDK共享索引可以显著减少索引构建时间和CPU负载&#xf…...

[HCTF 2018]WarmUp 1--详细解析

打开靶机&#xff0c;进入界面&#xff1a; 信息搜集 当前界面没有任何有用信息。 想到查看页面源代码。右键–查看页面源代码 看到hint&#xff1a;<!--source.php--> 进入/source.php页面&#xff0c;看到页面源代码&#xff1a; <?phphighlight_file(__FILE_…...

软考教材重点内容 信息安全工程师 第1章 网络信息安全概述

第 1 章 网络信息安全概述 1.1.1 网络信息安全相关概念 狭义上的网络信息安全特指网络信息系统的各组成要素符合安全属性的要求&#xff0c;即机密性、完整性、可用性、抗抵赖性、可控性。 广义上的网络信息安全是涉及国家安全、城市安全、经济安全、社会安全、生产安全、人身安…...

TOSHIBA 74VHC00FT COMS汽车、工业企业的选择

74VHC00FT 是一种四路双输入 NAND 门&#xff0c;属于 CMOS 系列数字集成电路。它采用东芝先进的硅栅 C2MOS 技术设计&#xff0c;能够实现类似于双极性肖特基 TTL 逻辑电路的高速运行&#xff0c;同时保持 CMOS 器件的低功耗。这种独特的结合使其非常适合需要高性能和低功耗的…...

【Android】使用productFlavors构建多个变体

项目需求 在一个设备上安装两个一样的程序app 需求解决 我们知道每一个app都有一个包名的&#xff0c;如果一个app在Android设备上安装之后&#xff0c;再安装这个app的话会进行覆盖安装&#xff0c;因为他们两个的包名是一样的&#xff0c;默认是一个app。 但是我们现在需…...

ubuntu 22.04 防火墙 ufw

Ubuntu&#xff08;22.04&#xff09;云主机SSH安全加固 https://blog.csdn.net/qq_44846097/article/details/141098092 ubuntu22.04防火墙策略 https://blog.csdn.net/sunyuhua_keyboard/article/details/139493464 Ubuntu 22.04 防火墙设置和开放端口命令 https://blog.c…...

MySQL压缩版安装详细图解

1.下载 mysql压缩包版本和msi版的安装方法不一样&#xff0c;下面的是压缩包版本的安装详细图解&#xff1a; 总地址下载地址&#xff1a;MySQL :: Download MySQL Community Server MySQL :: Download MySQL Community Server (Archived Versions) 压缩版下载MySQL :: Dow…...

elementui中的新增弹窗在新增数据成功后再新增 发现数据无法清除解决方法

elementui中的新增弹窗在新增数据成功后再新增 发现数据无法清除解决方法 试过网上其他方法&#xff0c;发现表单清空数据还是有问题&#xff0c;索性用下面方法解决: // 给弹框里面添加 v-ifvisible测试无问题&#xff0c;暂时先这样解决&#xff0c;如果有其他方法&#x…...

软件开发项目管理:实现目标的实用指南

由于软件项目多数是复杂且难以预测的&#xff0c;对软件开发生命周期的深入了解、合适的框架以及强大的工作管理平台是必不可少的。项目管理系统在软件开发中通常以监督为首要任务&#xff0c;但优秀的项目计划、管理框架和软件工具可以使整个团队受益。 软件开发项目管理的主要…...

RocketMQ延迟消息机制

两种延迟消息 RocketMQ中提供了两种延迟消息机制 指定固定的延迟级别 通过在Message中设定一个MessageDelayLevel参数&#xff0c;对应18个预设的延迟级别指定时间点的延迟级别 通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后&#xf…...

条件运算符

C中的三目运算符&#xff08;也称条件运算符&#xff0c;英文&#xff1a;ternary operator&#xff09;是一种简洁的条件选择语句&#xff0c;语法如下&#xff1a; 条件表达式 ? 表达式1 : 表达式2• 如果“条件表达式”为true&#xff0c;则整个表达式的结果为“表达式1”…...

Cinnamon修改面板小工具图标

Cinnamon开始菜单-CSDN博客 设置模块都是做好的&#xff0c;比GNOME简单得多&#xff01; 在 applet.js 里增加 const Settings imports.ui.settings;this.settings new Settings.AppletSettings(this, HTYMenusonichy, instance_id); this.settings.bind(menu-icon, menu…...

什么是EULA和DPA

文章目录 EULA&#xff08;End User License Agreement&#xff09;DPA&#xff08;Data Protection Agreement&#xff09;一、定义与背景二、核心内容三、法律效力与责任四、实际应用与意义 EULA&#xff08;End User License Agreement&#xff09; 定义&#xff1a; EULA即…...

【HTTP三个基础问题】

面试官您好&#xff01;HTTP是超文本传输协议&#xff0c;是互联网上客户端和服务器之间传输超文本数据&#xff08;比如文字、图片、音频、视频等&#xff09;的核心协议&#xff0c;当前互联网应用最广泛的版本是HTTP1.1&#xff0c;它基于经典的C/S模型&#xff0c;也就是客…...

AI,如何重构理解、匹配与决策?

AI 时代&#xff0c;我们如何理解消费&#xff1f; 作者&#xff5c;王彬 封面&#xff5c;Unplash 人们通过信息理解世界。 曾几何时&#xff0c;PC 与移动互联网重塑了人们的购物路径&#xff1a;信息变得唾手可得&#xff0c;商品决策变得高度依赖内容。 但 AI 时代的来…...

【生成模型】视频生成论文调研

工作清单 上游应用方向&#xff1a;控制、速度、时长、高动态、多主体驱动 类型工作基础模型WAN / WAN-VACE / HunyuanVideo控制条件轨迹控制ATI~镜头控制ReCamMaster~多主体驱动Phantom~音频驱动Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation速…...

短视频矩阵系统文案创作功能开发实践,定制化开发

在短视频行业迅猛发展的当下&#xff0c;企业和个人创作者为了扩大影响力、提升传播效果&#xff0c;纷纷采用短视频矩阵运营策略&#xff0c;同时管理多个平台、多个账号的内容发布。然而&#xff0c;频繁的文案创作需求让运营者疲于应对&#xff0c;如何高效产出高质量文案成…...

Docker 本地安装 mysql 数据库

Docker: Accelerated Container Application Development 下载对应操作系统版本的 docker &#xff1b;并安装。 基础操作不再赘述。 打开 macOS 终端&#xff0c;开始 docker 安装mysql之旅 第一步 docker search mysql 》〉docker search mysql NAME DE…...

MFC 抛体运动模拟:常见问题解决与界面美化

在 MFC 中开发抛体运动模拟程序时,我们常遇到 轨迹残留、无效刷新、视觉单调、物理逻辑瑕疵 等问题。本文将针对这些痛点,详细解析原因并提供解决方案,同时兼顾界面美化,让模拟效果更专业、更高效。 问题一:历史轨迹与小球残影残留 现象 小球运动后,历史位置的 “残影”…...