hadoop面试题
一、单项选择题
1、目前,Hadoop的最高版本是哪个( A )
A、Hadoop3.x B、Hadoop2.x C、Hadoop4.x D、Hadoop1.x
2、大数据的4V特征是指? ( B )
A、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、技术发展速度快(Velocity)
B、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)
C、数据量大(Volume)、类型繁多(Variety)、价值密度高(Value)、数据产生速度快(Velocity)
D、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、数据变化速度快(Velocity)
3、HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?( D )
A、一个map读取64MB,另外一个map读取11MB
B、128MB C、64MB D、75MB
4、HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?( A )
A、一个map读取64MB,另外一个map读取11MB
B、64MB C、75MB D、128MB
5、关于SecondaryNameNode哪项是正确的? ( A )
A、它目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间
B、它对内存没有要求 C、它是NameNode的热备
D、SecondaryNameNode应与NameNode部署到一个节点
6、把本地文件放到集群里,可以使用下面哪个hadoop shell的命令? ( C )
A、hadoop fs –put B、hadoop fs –push /
C、hadoop fs –put / D、hadoop -push /
7、如果想要修改集群的备份数量,可以修改下面哪个配置文件? ( C )
A、mapred-site.xml B、core-site.xml
C、hdfs-site.xml D、hadoop-env.sh
8、在Centos7中,如果想要查看本机的主机名可以使用下面哪个命令? ( B )
A、reboot B、hostname C、pwd D、tail
9、Hadoop-2.x集群中的HDFS的默认的副本块的个数是? ( A )
A、3 B、2 C、1 D、4
10、以下哪个不是HDFS的守护进程( C )
A、SecondaryNameNode B、NameNode C、MrappMaster/YarnChild D、DataNode
11、大数据至少为以下哪种存储量级? ( B )
A、EB B、PB C、TB D、ZB
12、关于HDFS集群中的DataNode的描述不正确的是? ( A )
A、一个DataNode上存储的所有数据块可以有相同的
B、存储客户端上传的数据的数据块
C、DataNode之间可以互相通信
D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑
13、MapReduce的Shuffle过程以下中哪个操作是最后做的?( B )
A、排序 B、合并 C、分区 D、溢写
14、Hadoop起始于以下哪个阶段?( D )
A、2004年,Nutch的开发者开发了NDFS。
B、2004年,Google发表了关于MapReduce的论文。
C、2003年,Google发布了GFS论文。 D、2002年,Apach项目的Nutch。
15、下面哪个程序负责HDFS数据存储。( C )
A、NameNode B、Jobtracker C、Datanode D、tasktracker
16、配置机架感知的下面哪项正确?( C )
A、MapReduce会根据机架获取离自己比较近的网络数据
B、写入数据的时候会写到不同机架的DataNode
C、都正确 D、如果一个机架出问题,不会影响数据读写
17、下列关于HDFS的描述正确的是? ( A )
A、NameNode磁盘元数据不保存Block的位置信息
B、DataNode通过长连接与NameNode保持通信
C、HDFS集群支持数据的随机读写
D、如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作
18、一个gzip文件大小75MB,客户端设置Block大小为64MB,请问其占用几个Block?( B )
A、3 B、2 C、4 D、1
19、按照所处理的数据形式和得到结果的时效性分类,大数据处理框架可以分为三类,以下系统中哪一项不是? ( B )
A、混合处理系统 B、分布式键值系统 C、批处理系统 D、流处理系统
20、关于大数据的价值密度描述正确的是以下哪个? ( A )
A、大数据由于其数据量大,所以其价值密度低。
B、大数据由于其数据量大,所以其价值也大。
C、大数据的价值密度是指其数据类型多且复杂。
D、大数据由于其数据量大,所以其价值密度高。
二、多选题
1、下面哪个组件可以在Hadoop集群中代替MR做一些计算? ( AC )
A、Spark B、Sqoop C、Hive D、Avro
2、大数据的计算模式主要有哪些? ( ABCD )
A、图计算模式 B、流计算模式 C、查询分析计算模式 D、批处理计算模式
3、Hadoop MapReduce对外提供了5个可编程组件,以下哪对中的方法或任务不全在这
5个编程组件中。( AB )
A、Partitioner和Combiner B、Split和Sort
C、InputFormat和OutputFormat D、Mapper和Reducer
4、YARN主要包含的模块有以下哪些?( ABC )
A、ApplicationMaster B、ResourceManager
C、NodeManager D、QuorumJournalManager
5、下面哪些是Hadoop 2.x的组件? ( ABC )
A、Spark B、Hive C、HBase D、GFS
6、Hadoop的三种安装模式包括以下哪种? ( BCD )
A、两分布式模式 B、完全分布式模式
C、伪分布模式 D、单机模式
7、VMware提供了哪几种工作模式?( ABD )
A、host-only仅主机模式 B、NAT模式
C、自定义除以上3种其他模式 D、桥接(bridged)模式
8、Hadoop集群具有以下哪个优点? ( ACD )
A、高容错性 B、高成本性 C、高可靠性 D、高扩展性
9、关于数据副本的存放策略正确的有些? ( ABCD )
A、第三个副本:与第一个副本相同机架的其他节点上;
B、更多副本:随机节点。
C、第一个副本,放置在上传文件的数据节点;
D、第二个副本,放置在与第一个副本不同的机架的节点上;
10、以下关于SSH免密码配置的描述正确的选项有哪个?( ABCD )
A、SSH专为远程登录会话和其他网络服务提供安全性的协议。
B、SSH是Secure Shell的缩写,则IETF的网络工作小组制定。
C、SSH是建立 在应用层和传输导上的安全协议。
D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉需要输入密码才能登录的步骤。
11、大数据采集中面临的主要问题有以下哪些? ( ABCD )
A、如何避免重复数据 B、数据源多种多样,数据量大、变化快
C、如何保证数据的质量 D、如何保证数据采集的可靠性
12、以下关于文件块的说法正确的是? ( ABCD )
A、文件的所有Block为了容错都会被冗余复制。
B、除了最后一个Block,所有的Block都是同样的大小。
C、每个文件的Block大小和复制(Replication)因子都是可配置的。
D、HDFS将文件存储成块序列。
13、MapRecue的优点有哪些?( ACD )
A、可扩展性强 B、计算机性能高 C、容错性强 D、开发简单
14、以下关于HDFS体系结构的描述正确的有哪几项?( ABCD )
A、NameNode作为主结点,用来管理文件系统的元数据(命名空间和访问操作等信息)。
B、DataNode作为从结点,用来管理存储的数据。
C、HDFS采用主从结构模型。
D、一个HDFS集群是由一个NameNode和若干个DataNode组成的。
15、HDFS中常用命令有下面哪些? ( ABCD )
A、hadoop fs –rm B、hadoop fs –ls
C、hadoop fs –mv D、hadoop fs –put
16、在新的Hadoop MapReduce框架YARN产生之前,MapReduce架构存在的问题有哪些?
( ABCD )
A、容易造成TaskTracker端内存溢出 B、JobTrack单点故障问题
C、JobTrack任务过重 D、容易造成资源浪费
17、常用的HDFS API有哪些? ( ABCD )
A、rename() B、copyFromLocalFile() C、mkdirs() D、delete()
18、以下关于序列化Writable的说法正确的是?( ABCD )
A、反序列化也称反串行化,它是指将字节流转回结构化对象的逆过程。
B、Hadoop中使用自己开发的类:IntWritable、FloatWritable、Text等,都是Writable的实现类。
C、序列化和反序列化在分布式数据处理中,主要于进程间通信和永久存储两个领域。
D、Writable接口是一个序列化对象的接口,能够将数据写入流或者从流中读出。
19、大数据关键技术包括哪些? ( ABCD )
A、大数据存储 B、大数据预处理 C、大数据采集 D、大数据分析挖掘
20大数据中常见的类型有哪些? ( ABCD )
A、视频 B、图片 C、音频 D、日志
三、判断题
1、Hadoop实现了一个分布式文件系统,简称HDFS。(√ )
2、在大数据框架中,批处理系统一般不适用于对延时要示较高的场景。( √ )
3、HDFS既适合超大数据集存储,也适合小数据集的存储。( × )
4、Hadoop下使用MapRecue。用户只要继承MapReduceBase,提供分别实现Map和Reduce的两个类,并注册Job即可自动分布式运行。( √ )
5、我国的大数据产业政策一直在有序推进,工业和信息化部在2017年1月正式印发了《大数据产业发展规划》。( √ )
6、HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。( √ )
7、Hadoop的框架最核心的设计就是:HDFS和MapReduce。( √ )
8、HDFS以流的形式访问文件系统中的数据。( √ )
9、HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。( √ )
10、MapRecue在shuffle阶段基于排序的方法会将key相同的数据聚集在一起。(√ )
四、填空题
1、( datanode )负责HDFS数据存储。
2、hadoop运行的模式有:单机模式 、( 伪分布模式 ) 、( 伪分布模式 )。
3、Hadoop集群搭建中常用的4个配置文件为core-site.xml 、( hdfs-site.xml )
、mapred-site.xml、( ,yarn-site.xml ) 。
4、一个HDFS集群包括两大部分,即 ( namenode ) 与( datanode )。
5、格式化HDFS系统的命令为:( hdfs namenode –format )。
6、hadoop创建多级目录(如:/a/b/c)的命令为( hadoop fs –mkdir –p /a/b/c )。
7、hadoop显示根目录命令为:( hadoop fs –lsr )。
8、hadoop包含的四大模块分别是: Hadoop common 、( HDFS ) 、( Mapreduce )、( yarn )。
9、( job )是客户端需要执行的一个工作单元。
10、map任务将其输出写入到( 本地磁盘 )。
11、reduce的输出通常存储在( HDFS ) 中以实现可靠存储。
12、大数据是由结构化和非结构化数据组成的。( 10% )的结构化数据,存储在数据库中,( 90% )的非结构化数据,它们与人类信息密切相关。
13、大数据关键技术两大核心技术是:( 分布式存储或(HDFS) )和( 分布式处理或(MapReduce) )。
五、简答题
- hdfs的体系结构是什么?
HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。
2、NameNode与SecondaryNameNode的区别与联系?
1)区别
(1)NameNode 负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的
数据块信息。
(2)SecondaryNameNode 主要用于定期合并命名空间镜像和命名空间镜像的编辑日志。
2)联系:
(1)SecondaryNameNode 中保存了一份和 namenode 一致的镜像文件(fsimage)和编
辑日志(edits)。
(2)在主 namenode 发生故障时(假设没有及时备份数据),可以从 SecondaryNameNode
恢复数据。
3、hdfs文件写入的流程?
1) Client向NameNode发起文件写入的请求。
2) NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
3) Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
4、完全分布模式又有什么注意点?
完全分布模式通常被用于生产环境,这里我们使用N台主机组成一个Hadoop集群,Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机,Datanode运行的主机,以及task tracker运行的主机。在分布式环境下,主节点和从节点会分开。
5、MapReduce核心思想是什么?
分而治之:就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果
MapReduce是框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种
Map阶段:用于对原始数据进行处理
Reduce阶段:对map阶段数据进行汇总
部分任务不一定需要reduce阶段可能只有map阶段,map阶段产生的数据直接写入HDFS中
有map产生相关key的输出都会集中在到Reduce中处理,reduce是最终的处理过程,其结果不会进行二次处理。
Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架。
6、Hadoop分布式集群,默认备份数为多少,每个数据块大小是多少?在哪个配置文件中可以修改备份数与每个数据块大小?
默认备份为3份,每块数据大小128M, 在hdfs-site.xml配置文件中可以修改备份数和数据块大小。
相关文章:
hadoop面试题
一、单项选择题 1、目前,Hadoop的最高版本是哪个( A ) A、Hadoop3.x B、Hadoop2.x C、Hadoop4.x D、Hadoop1.x 2、大数据的4V特征是指? ( B ) A、数据量大(Volume)、类型繁多(Variety)、价值密度低(Va…...

mysql 安装 windows
新版安装 新版本安装 如果出现initializing database无法安装 则用我当前版本传送门 如MySQL 安装时没有developer default 选项 解决方法传送门 如果上述还不行 可以选择full 汉化下载 传送门...

24下软考中级网络工程师考前必背22页
数据中心选址原则 1、地理位置:备选址地点发生自然灾害的概率和频率、环境危害因素以及气候因素 2、电力能源供应:可用性、成本因素 3、通讯基础设施:光纤主干线路及其距数据中心选址的距离、光纤类型、服务运营商的类型及其支持的服务模式…...

Java类和对象(下篇)
今天接着学习类和对象(苦笑)(苦笑)(苦笑) 1. 封装 1.1 封装的概念 面向对象程序三大特性:封装、继承、多态。 而类和对象阶段,主要研究的就是封装特性。 何为封装呢?简单来说就是套壳屏蔽细节。 举例:对于计算机使用者而言&am…...

k8s图形化显示(KRM)
在master节点 kubectl get po -n kube-system 这个命令会列出 kube-system 命名空间中的所有 Pod 的状态和相关信息,比如名称、状态、重启次数等。 systemctl status kubelet #查看kubelet状态 yum install git #下载git命令 git clone https://gitee.com/duk…...

apache poi 实现下拉框联动校验
apache poi 提供了 DataValidation 接口 让我们可以轻松实现 Excel 下拉框数据局校验。但是下拉框联动校验是无法直接通过 DataValidation 实现,所以我们可以通过其他方式间接实现。 步骤如下: 创建一个隐藏 sheet private static void create…...

【canal 中间件】canal 实时监听 binlog
文章目录 一、安装 MySQL1.1 启动 mysql 服务器1.2 开启 Binlog 写入功能1.2.1创建 binlog 配置文件1.2.2 修改配置文件权限1.2.3 挂载配置文件1.2.4 检测 binlog 配置是否成功 1.3 创建账户并授权 二、安装 canal2.1 安装 canal-admin(可选)2.1.1 启动 canal-admin 容器2.1.2 …...
JVM垃圾收集算法、对应收集器和选择建议
如果说垃圾收集算法是内存回收的方法论,那么垃圾收集器就是内存回收的具体实现。 到目前为止还没有最好的垃圾收集器出现,也没万能的垃圾收集器。实际使用中,根据具体应用场景选择合适的垃圾收集器。 1、垃圾收集算法 垃圾收集算法可以从高…...

如何在算家云搭建Aatrox-Bert-VITS2(音频生成)
一、模型介绍 Aatrox - Bert -VITS2 模型是一种基于深度学习的语音合成系统,结合了 BERT 的预训练能力和 VITS2 的微调技术,旨在实现高质量的个性化语音合成。 二、模型搭建流程 1. 创建容器实例 进入算家云的“应用社区”,点击搜索找到…...
ceph灾备之cephfs snapshot mirror和rsync对比
背景 最近要做ceph集群之间的灾备功能,主要讨论文件存储,因为ceph集群容量越来越大,接入的业务也越来越多,一旦出现故障,恢复时间都是小时级(根据经验每年都会出现几次这种事故),对于核心业务无法接受&…...

【工具分享】Plutocrypt勒索病毒解密工具
前言 Plutocrypt勒索软件首次出现在2021年,作为CryptoJoker勒索软件的变种。该恶意软件通过钓鱼邮件和恶意链接传播,主要针对个人和小型企业用户。Plutocrypt使用了.NET框架开发,并依赖AES-256和RSA-4096的加密算法来加密受害者的文件。与Cr…...

IDEA启动提示Downloading pre-built shared indexes
Download pre-built shared indexes Reduce the indexing time and CPU load with pre-built JDK shared indexes 翻译: 下载预构建的共享索引 使用预构建的JDK共享索引减少索引时间和CPU负载. 使用预构建的JDK共享索引可以显著减少索引构建时间和CPU负载…...

[HCTF 2018]WarmUp 1--详细解析
打开靶机,进入界面: 信息搜集 当前界面没有任何有用信息。 想到查看页面源代码。右键–查看页面源代码 看到hint:<!--source.php--> 进入/source.php页面,看到页面源代码: <?phphighlight_file(__FILE_…...

软考教材重点内容 信息安全工程师 第1章 网络信息安全概述
第 1 章 网络信息安全概述 1.1.1 网络信息安全相关概念 狭义上的网络信息安全特指网络信息系统的各组成要素符合安全属性的要求,即机密性、完整性、可用性、抗抵赖性、可控性。 广义上的网络信息安全是涉及国家安全、城市安全、经济安全、社会安全、生产安全、人身安…...
TOSHIBA 74VHC00FT COMS汽车、工业企业的选择
74VHC00FT 是一种四路双输入 NAND 门,属于 CMOS 系列数字集成电路。它采用东芝先进的硅栅 C2MOS 技术设计,能够实现类似于双极性肖特基 TTL 逻辑电路的高速运行,同时保持 CMOS 器件的低功耗。这种独特的结合使其非常适合需要高性能和低功耗的…...

【Android】使用productFlavors构建多个变体
项目需求 在一个设备上安装两个一样的程序app 需求解决 我们知道每一个app都有一个包名的,如果一个app在Android设备上安装之后,再安装这个app的话会进行覆盖安装,因为他们两个的包名是一样的,默认是一个app。 但是我们现在需…...
ubuntu 22.04 防火墙 ufw
Ubuntu(22.04)云主机SSH安全加固 https://blog.csdn.net/qq_44846097/article/details/141098092 ubuntu22.04防火墙策略 https://blog.csdn.net/sunyuhua_keyboard/article/details/139493464 Ubuntu 22.04 防火墙设置和开放端口命令 https://blog.c…...

MySQL压缩版安装详细图解
1.下载 mysql压缩包版本和msi版的安装方法不一样,下面的是压缩包版本的安装详细图解: 总地址下载地址:MySQL :: Download MySQL Community Server MySQL :: Download MySQL Community Server (Archived Versions) 压缩版下载MySQL :: Dow…...

elementui中的新增弹窗在新增数据成功后再新增 发现数据无法清除解决方法
elementui中的新增弹窗在新增数据成功后再新增 发现数据无法清除解决方法 试过网上其他方法,发现表单清空数据还是有问题,索性用下面方法解决: // 给弹框里面添加 v-ifvisible测试无问题,暂时先这样解决,如果有其他方法&#x…...

软件开发项目管理:实现目标的实用指南
由于软件项目多数是复杂且难以预测的,对软件开发生命周期的深入了解、合适的框架以及强大的工作管理平台是必不可少的。项目管理系统在软件开发中通常以监督为首要任务,但优秀的项目计划、管理框架和软件工具可以使整个团队受益。 软件开发项目管理的主要…...
Android Wi-Fi 连接失败日志分析
1. Android wifi 关键日志总结 (1) Wi-Fi 断开 (CTRL-EVENT-DISCONNECTED reason3) 日志相关部分: 06-05 10:48:40.987 943 943 I wpa_supplicant: wlan0: CTRL-EVENT-DISCONNECTED bssid44:9b:c1:57:a8:90 reason3 locally_generated1解析: CTR…...
设计模式和设计原则回顾
设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...
java_网络服务相关_gateway_nacos_feign区别联系
1. spring-cloud-starter-gateway 作用:作为微服务架构的网关,统一入口,处理所有外部请求。 核心能力: 路由转发(基于路径、服务名等)过滤器(鉴权、限流、日志、Header 处理)支持负…...
线程同步:确保多线程程序的安全与高效!
全文目录: 开篇语前序前言第一部分:线程同步的概念与问题1.1 线程同步的概念1.2 线程同步的问题1.3 线程同步的解决方案 第二部分:synchronized关键字的使用2.1 使用 synchronized修饰方法2.2 使用 synchronized修饰代码块 第三部分ÿ…...
【位运算】消失的两个数字(hard)
消失的两个数字(hard) 题⽬描述:解法(位运算):Java 算法代码:更简便代码 题⽬链接:⾯试题 17.19. 消失的两个数字 题⽬描述: 给定⼀个数组,包含从 1 到 N 所有…...

关于iview组件中使用 table , 绑定序号分页后序号从1开始的解决方案
问题描述:iview使用table 中type: "index",分页之后 ,索引还是从1开始,试过绑定后台返回数据的id, 这种方法可行,就是后台返回数据的每个页面id都不完全是按照从1开始的升序,因此百度了下,找到了…...
镜像里切换为普通用户
如果你登录远程虚拟机默认就是 root 用户,但你不希望用 root 权限运行 ns-3(这是对的,ns3 工具会拒绝 root),你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案:创建非 roo…...
06 Deep learning神经网络编程基础 激活函数 --吴恩达
深度学习激活函数详解 一、核心作用 引入非线性:使神经网络可学习复杂模式控制输出范围:如Sigmoid将输出限制在(0,1)梯度传递:影响反向传播的稳定性二、常见类型及数学表达 Sigmoid σ ( x ) = 1 1 +...

自然语言处理——循环神经网络
自然语言处理——循环神经网络 循环神经网络应用到基于机器学习的自然语言处理任务序列到类别同步的序列到序列模式异步的序列到序列模式 参数学习和长程依赖问题基于门控的循环神经网络门控循环单元(GRU)长短期记忆神经网络(LSTM)…...
laravel8+vue3.0+element-plus搭建方法
创建 laravel8 项目 composer create-project --prefer-dist laravel/laravel laravel8 8.* 安装 laravel/ui composer require laravel/ui 修改 package.json 文件 "devDependencies": {"vue/compiler-sfc": "^3.0.7","axios": …...