期末复习-Hadoop名词解释+简答题纯享版
目录
一、名称解释(8选5)
1.什么是大数据
2.大数据的5V特征
3.什么是SSH
4.HDFS(p32)
5.名称节点
6.数据节点
7.元数据
8.倒排索引
9.单点故障
10.高可用
11.数据仓库
二、简答题
1.简述Hadoop的优点及其含义
2.简述独立模式、伪分布式模式和完全分布式模式部署Hadoop的区别
3.简述HDFS的健壮性
4.简述YARN基本架构的组成部分及其作用
5.简述不同类型ZNode的区别
6.简述Hadoop高可用集群初次启动时的步骤
7.简述Hive中分区和桶的作用
一、名称解释(8选5)
1.什么是大数据
如果从字面意思来看,大数据指的是海量数据;
从大数据特点来看,大数据具有海量、流转快、数据类型丰富及价值密度低等特点;
如果从技术角度来看,大数据的战略意义不仅在于掌握庞大的数据,还包括对这些数据进行有效处理;
换言之,如果把大数据比作一种产业,那么这种产业盈利的关键在于提高对大数据的加工能力,通过加工技术实现数据增值
2.大数据的5V特征
大数据的特征包括大量(Volume)、真实(Veracity)、多样(Variety)、低价值密度(Value)和高速(Velocity),这5个特征称为大数据的5V特征,具体介绍如下
1.大量
大量是指大数据中的数据规模巨大,随着互联网技术的发展,用户行为数据都可以被记录,数据呈爆炸式增长,需要采集、存储和计算的数据量能够达到PB和EB级,甚至是ZB级。
2.真实 真实是指大数据的质量,大数据的内容是与真实世界息息相关的,在一定程度上可以反映实际情况。虽然真实不一定代表准确,但虚假数据营造出来的准确一定不是真实的,这也是数据分析的基础。
3.多样 多样是指大数据的数据类型和来源的多样性,其中,数据类型的多样性是指大数据的数据类型可以是结构化数据、半结构化数据或非结构化数据;来源多样性是指大数据的数据源可以是多种设备,包括服务器、移动终端等。
4.低价值密度 低价值密度是指海量数据中有价值的内容的密度相对较低,如何结合企业业务通过机器学习算法挖掘数据的价值,是大数据时代最需要解决的问题
5.高速
高速是指数据的增长速度和处理速度很快。每天,各行各业的数据库都产生呈现爆炸式的增长。在许多场景下,数据都具有时效性。例如,搜索引擎要在几秒内呈现用户所需的数据。当系统面对快速增长的海量数据时,必须高速处理,快速响应。
3.什么是SSH
SSH是一种网络协议,主要用于在不安全网络上提供安全的远程登录和其他安全网络服务。它能够加密网络连接,确保在客户端和服务器之间传输的数据不会轻易被窃取或篡改。SSH通常用来替代早期的Telnet和Rlogin等不安全的协议。
4.HDFS(p32)
HDFS是Hadoop Distributed File System的缩写,中文称为Hadoop分布式文件系统。它是Apache Hadoop项目的一部分,专为大规模数据集的处理而设计,具有以下特点:
1.存储大文件 2.高容错性 3.简单的一致性模型 4.移动计算比移动数据更经济 5.可移植性
5.名称节点
NameNode是HDFS集群的名称节点,通常称为主节点。如果NameNode由于故障原因而无法使用,那么用户就无法访问HDFS。也就是说,NameNode作为HDFS的主节点,起着至关重要的部分
6.数据节点
DataNode是HDFS集群中的数据节点,通常称为从节点,其主要功能如下:
-
存储Block
-
根据NameNode的指令对Block进行创建、复制、删除等操作
-
定期向NameNode汇报自身存储的Block列表及健康状态
-
负责为客户端发起的读写请求提供服务
7.元数据
MetaData用于记录HDFS文件系统的相关信息,这些信息称为元数据,元数据的内容包括文件系统的目录结构、文件名、文件路径、文件大小、文件副本数、文件与Block的映射关系,以及Block与DataNode的映射关系等信息
8.倒排索引
倒排索引是文档检索系统中最常用的数据结构,被广泛应用于全文搜索引擎。倒排索引主要用来存储某个单词或词组在一组文档中的存储位置的映射,提供了可以根据内容查找文档的方式,而不是根据文档确定内容,因此称为倒排索引。带有倒排索引的文件称为倒排索引文件,简称倒排文件
9.单点故障
在HDFS集群中,NameNode是主节点,它的运行状态决定着HDFS集群是否可用。然而在Hadoop设计之初,HDFS集群只能存在一个NameNode节点,这种设计的缺点是NameNode节点一旦发生故障,就会导致HDFS集群不可用,这就是所谓的单点故障问题
10.高可用
为了解决单点故障问题,Hadoop 在更新迭代过程中允许一个 HDFS集群中存在多个NameNode 节点,其中一个 NameNode 节点处于 Active(活动)状态,其他NameNode 节点处于 Standby(备用)状态。处于 Active 状态的NameNode 管理 HDFS 的元数据信息,并且与客户端进行交互;处于 Standby 状态的NameNode 节点仅同步处于 Active状态的 NameNode 节点管理的元数据,一旦发现处于 Active 状态的NameNode 发生故障,Hadoop 就会借助ZooKeeper 从多个处于 Standby状态的 NameNode 中选举出一个新的 NameNode 节点,并将其状态更改为 Active,从而确保整个 HDFS集群可以正常运行这就是所谓的 HDFS 高可用集群。
11.数据仓库
数据仓库是一个面向主题、集成的、相对稳定和反映历史变化的数据集合,用于企业或组织的决策分析。
二、简答题
有的来自于书本,有的来自于AI(因为书本内容过多)
1.简述Hadoop的优点及其含义
“沉淀”往往是通过对技术实践和经验进行总结和提炼,形成深刻的认识和经验,从而提高技术水平和解决实际问题的能力。Hadoop 作为分布式计算平台,它能够处理海量数据并对数据进行分析。经过多年的发展,Hadoop 已经形成了以下几点优势。 1.低成本
企业可以使用多台廉价的计算机组建集群环境,通过分布式系统处理大规模数据集,而不是通过高性能的单台计算机处理大规模数据集,并且 Hadoop 是开源大数据处理框架,这大幅降低了企业的使用成本。
2.高可靠性 Hadoop 自动维护数据文件的多份副本,可以有效避免数据丢失的情况发生。
3.高容错性
若执行计算的过程中某个计算机宕机,那么 Hadoop 会自动将该计算机上执行的任务转移到其他计算机上继续执行,以防任务执行失败。 4.高效率 Hadoop 可以高效地执行并行计算,并且Hadoop 能够在各个计算机之间动态地移动计算,以确保每台计算机在执行计算时可以最快速地获取将要处理的数据,以此提高计算效率。
5.高扩展性 Hadoop 可以随时通过添加更多的计算机增加集群的存储和计算能力。
2.简述独立模式、伪分布式模式和完全分布式模式部署Hadoop的区别
Hadoop 支持多种部署模式,包括独立模式(Local Mode)、伪分布式模式(Pseudo- Distributed Mode)和完全分布式模式(Fully-Distributed Mode)。
1.独立模式 独立模式是一种在单台计算机的单个JVM进程中模拟Hadoop 集群的工作模式,该模式部署的Hadoop 集群实际上并不属于分布式文件系统,而是直接读写本地操作系统的文件系统,此模式部署的 Hadoop 通常用于快速安装并体验 Hadoop 的功能,并不适用于实际生产环境。
2.伪分布式模式 伪分布式模式是一种在单台计算机的不同JVM进程中运行Hadoop 集群的工作模式,该模式部署的Hadoop 集群实际上是一个伪分布式系统,因Hadoop 集群的所有守护进程都运行在一台计算机中,并不能体现出分布式的特点,所以伪分布式模式部署的Hadoop 通常用于在开发环境中进行测试和调试,并不适用于实际生产环境。
3.完全分布式模式 完全分布式模式是一种在多台计算机的JVM进程中运行 Hadoop 集群的工作模式,该模式部署的 Hadoop 集群属于分布式系统,因为 Hadoop 集群的每个守护进程都运行在不同的计算机中,所以完全分布式模式部署的 Hadoop 通常可作为实际生产环境的基础。
3.简述HDFS的健壮性
HDFS(Hadoop Distributed File System)是Hadoop生态系统中的核心组件之一,它设计用于在商用硬件上运行,处理大量数据。以下是HDFS的几个关键特性,这些特性共同确保了其健壮性:
心跳机制:
-
HDFS中的数据节点(DataNode)会定期向名称节点(NameNode)发送心跳信号,以表明它仍然在线并且运行正常。
-
如果名称节点在预定时间内没有从某个数据节点接收到心跳,它会认为该数据节点可能已经失败或无法通信,并标记该节点为死亡状态。
-
名称节点随后会安排该数据节点上的数据块在其他数据节点上复制,以维持数据的冗余度。
副本机制:
-
HDFS默认为每个数据块创建三个副本,并将这些副本分布在集群中的不同数据节点上。
-
副本放置策略考虑了机架感知,通常一个副本放在本地机架的一个节点上,另一个副本放在不同机架的节点上,第三个副本也放在另一个机架的节点上。
-
这种分布策略可以增强数据的可靠性和读取性能,并且在发生单个节点或整个机架故障时保护数据。
数据完整性校验:
-
HDFS在写入数据时会为每个数据块生成校验和(Checksum),并在读取数据时验证这些校验和。
-
如果在读取数据块时校验和验证失败,HDFS会从其他副本中读取数据块,并尝试修复损坏的副本。
安全模式:
-
当名称节点启动时,它会先进入安全模式,在此模式下,名称节点不会执行任何数据块的复制或删除操作。
-
在安全模式下,名称节点会收集各个数据节点的块报告,确保系统中的副本数量符合配置要求。
-
只有当足够数量的数据块报告被接收,并且所有必要的数据块都有足够的副本时,名称节点才会退出安全模式。
快照:
-
HDFS支持对文件系统的一部分进行快照,这允许用户在不影响正在进行的操作的情况下,创建文件系统某个时间点的只读副本。
-
快照对于数据备份、灾难恢复和实验性数据分析非常有用,因为它们提供了一种回滚到之前状态的方法,而无需担心数据丢失。
这些特性共同确保了HDFS即使在面临硬件故障、网络问题或其他系统异常时,也能保持数据的完整性和系统的稳定性。
4.简述YARN基本架构的组成部分及其作用
YARN 基本架构由 ResourceManager、ApplicationMaster、NodeManager 和 Container 组成,其中,ResourceManager 为全局资源管理器,负责整个系统的资源管理和分配;ApplicationMaster每个应用程序特有的,负责单个应用程序的管理;NodeManager 负责在节点上启动和管理Container(容器);Container 封装了每个应用程序使用的资源。
5.简述不同类型ZNode的区别
在 ZooKeeper 中,每个 ZNode 都是有生命周期的,其生命周期的长短取决于ZNode 的类型。ZNode 的类型主要分为持久节点(PERSISTENT)、临时节点(EPHEMERAL)和顺序节点(SEQUENTIAL)。
1.持久节点 持久节点是 ZoOKeeper 中最常见的一种 ZNode 类型,它的生命周期取决于用户何时进行删除操作,持久节点被创建后,便会一直存在于 ZooKeeper 中,除非主动删除持久节点。
2.临时节点 与持久节点有所不同,临时节点的生命周期取决于客户端会话。客户端会话是指客户端与 ZooKeeper 成功建立连接后创建的会话,若此时在 ZooKeeper 中创建临时节点,则在客户端与 ZooKeeper 断开连接时,临时节点便会被自动清理。需要注意的是,临时节点不能挂载子节点,只能存储数据。
3.顺序节点 顺序节点基于持久节点和临时节点创建,因此可以将顺序节点分为持久顺序节点和临时顺序节点。在创建顺序节点时,默认会在顺序节点的基础上设置一个不断增加的序号,该序号对于当备顺序节占的父节点来说是唯一的,这样便于记录父节点中每个子节点创建的先后顺序。
6.简述Hadoop高可用集群初次启动时的步骤
1.启动JournalNode
hdfs -- daemon start journalnode
2.格式化HDFS文件系统
hdfs namenode -format
3.同步NameNode
scp -r /export/data/hadoop/namenode/ hadoop2:/export/data/hadoop/
4.格式化ZKFC
hdfs zkfc -formatZK
5.启动HDFS
start-dfs.sh
6.启动YARN
start-yarn.sh
7.简述Hive中分区和桶的作用
分区:分区是指根据指定分区规则将表的整体数据划分为多个独立的数据进行存储,每个独立的数据看作一个分区,每个分区存储在HDFS文件系统的不同目录。当表分区后,便可以通过查询某个分区获取想要的数据,从而避免全表扫描,提升查询效率。
桶:桶是指根据指定分桶规则将表的数据随机、均匀地划分到不同的桶进行存储,每个桶存储在 HDFS文件系统的不同文件。为表创建桶的目的是有效避免数据倾斜,因分区虽然可以将表的数据划分多个分区,但是每个分区的大小可能不一致,即有些分区内的数据量较大,而有些分区内的数据量较小,当查询数据量较大的分区时速度会很慢,反之速度会很快,这就是数据倾斜。
相关文章:

期末复习-Hadoop名词解释+简答题纯享版
目录 一、名称解释(8选5) 1.什么是大数据 2.大数据的5V特征 3.什么是SSH 4.HDFS(p32) 5.名称节点 6.数据节点 7.元数据 8.倒排索引 9.单点故障 10.高可用 11.数据仓库 二、简答题 1.简述Hadoop的优点及其含义 2.简述…...

嵌入式Linux无窗口系统下搭建 Qt 开发环境
嵌入式Linux无窗口系统下搭建 Qt 开发环境 本文将介绍如何在树莓派的嵌入式 Linux 环境下,搭建 Qt 开发环境,实现无窗口系统模式(framebuffer)下的图形程序开发。 1. 安装 Qt 环境 接下来,安装核心 Qt 开发库以及与 …...

C#基础教程
1. C# 基础语法和操作符 C# 中的运算符优先级 namespace OperatorsAppl {class Program7{static void Main(string[] args){int a 20; // 定义变量aint b 10; // 定义变量bint c 15; // 定义变量cint d 5; // 定义变量dint e; // 定义变量e// 演示运算符优先级&…...

Alibaba EasyExcel 导入导出全家桶
一、阿里巴巴EasyExcel的优势 首先说下EasyExcel相对 Apache poi的优势: EasyExcel也是阿里研发在poi基础上做了封装,改进产物。它替开发者做了注解列表解析,表格填充等一系列代码编写工作,并将此抽象成通用和可扩展的框架。相对p…...

Spring Cloud + MyBatis Plus + GraphQL 完整示例
Spring Cloud MyBatis Plus GraphQL 完整示例 1、创建Spring Boot子项目1.1 配置POM,添加必要的依赖1.2 配置MyBatis-Plus 2、集成GraphQL2.1 定义schema.graphqls2.2 添加GraphQL解析器2.3 配置schame文件配置 3、访问测试3.1 查询测试(演示ÿ…...

uni-app简洁的移动端登录注册界面
非常简洁的登录、注册界面模板,使用uni-app编写,直接复制粘贴即可,无任何引用,全部公开。 废话不多说,代码如下: login.vue文件 <template><view class"content"><view class&quo…...

LongVU:用于长视频语言理解的空间时间自适应压缩
晚上闲暇时间看到一种用于长视频语言理解的空间时间自适应压缩机制的研究工作LongVU,主要内容包括: 背景与挑战:多模态大语言模型(MLLMs)在视频理解和分析方面取得了进展,但处理长视频仍受限于LLM的上下文长…...

Elasticsearch数据迁移(快照)
1. 数据条件 一台原始es服务器(192.168.xx.xx),数据迁移后的目标服务器(10.2.xx.xx)。 2台服务器所处环境: centos7操作系统, elasticsearch-7.3.0。 2. 为原始es服务器数据创建快照 修改elas…...

Linux Cgroup学习笔记
文章目录 Cgroup(Control Group)引言简介Cgroup v1通用接口文件blkio子系统cpu子系统cpuacct子系统cpuset子系统devices子系统freezer子系统hugetlb子系统memory子系统net_cls子系统net_prio子系统perf_event子系统pids子系统misc子系统 Cgroup V2基础操作组织进程和线程popula…...

百问FB显示开发图像处理 - PNG图像处理
2.3 PNG图像处理 2.3.1 PNG文件格式和libpng编译 跟JPEG文件格式一样,PNG也是一种使用了算法压缩后的图像格式,与JPEG不同,PNG使用从LZ77派生的无损数据压缩算法。对于PNG文件格式,也有相应的开源工具libpng。 libpng库可从…...

【JavaWeb后端学习笔记】MySQL多表查询(内连接、外连接、子查询)
MySQL 多表查询 1、连接查询1.1 内连接1.2 外连接 2、子查询2.1 标量子查询2.2 列子查询2.3 行子查询2.4 表子查询 3、多表查询案例 多表查询有两大类:连接查询和子查询。 连接查询又分为隐式/显式内连接和左/右外连接。 子查询又分为标量子查询、列子查询、行子查询…...

RocketMQ 过滤消息 基于tag过滤和SQL过滤
RocketMQ 过滤消息分为两种,一种tag过滤,另外一种是复杂的sql过滤。 tag过滤 首先创建producer然后启动,在这里创建了字符串的数组tags。字符串数组里面放置了多个字符串,然后去发送15条消息。 15条消息随着i的增长,…...

element-ui 基本样式的一些更改【持续更新】
1、 去除el-tabs的底部灰色横线 ::v-deep .el-tabs__nav-wrap::after {height: 0px;}2、el-table设置表头颜色 <el-table:data"tableData":header-cell-style"{background:#F7F8FA,color:#4E5869}"><el-table-columnlabel"序号"type&qu…...

element-ui radio和checkbox禁用时不置灰还是原来不禁用时的样式
把要紧用的内容加上一个class"notEdit-page" z注意要在style里面写不能加上scoped /*//checkBox自定义禁用样式*//*//checkBox自定义禁用样式*/ .notEdit-page.el-checkbox__input.is-disabled.is-checked.el-checkbox__inner::after {border-color: #fff; } .notEdi…...

第一部分:基础知识 6. 函数 --[MySQL轻松入门教程]
MySQL 提供了丰富的内置函数,涵盖了字符串处理、数值计算、日期时间操作、聚合分析以及控制流等多个方面。这些函数可以帮助用户更高效地进行数据查询和处理。 1.字符串函数 MySQL 提供了丰富的字符串函数来帮助用户处理和操作字符串数据。下面是一些常用的 MySQL…...

【蓝桥杯每日一题】扫雷
扫雷 知识点 2024-12-3 蓝桥杯每日一题 扫雷 dfs (bfs也是可行的) 题目大意 在一个二维平面上放置这N个炸雷,每个炸雷的信息有$(x_i,y_i,r_i) $,前两个是坐标信息,第三个是爆炸半径。然后会输入M个排雷火箭࿰…...

【算法】棋盘覆盖问题源代码及精简版
目录 一、题目 二、样例 三、示例代码 四、精简代码 五、总结 对于棋盘覆盖问题的解答和优化。 一、题目 输入格式: 第一行,一个整数n(棋盘n*n,n确保是2的幂次,n<64) 第二行,两个整数…...

Django的介绍
Django是一个高级的Python Web框架,它鼓励快速开发和干净、实用的设计。Django遵循MVC设计模式,即模型(Model)、视图(View)和控制器(Controller),并提供了一个即时可用的…...

【Spring工具插件】lombok使用和EditStarter插件
阿华代码,不是逆风,就是我疯 你们的点赞收藏是我前进最大的动力!! 希望本文内容能够帮助到你!! 目录 引入 一:lombok介绍 1:引入依赖 2:使用 3:原理 4&…...

掌控时间,成就更好的自己
在个人成长的道路上,时间管理是至关重要的一环。有效的时间管理能够让我们更加高效地完成任务,实现自己的目标,不断提升自我。 时间对每个人都是公平的,一天只有 24 小时。然而,为什么有些人能够在有限的时间里做出卓…...

Ruby On Rails 笔记2——表的基本知识
Active Record Basics — Ruby on Rails Guides Active Record Migrations — Ruby on Rails Guides 原文链接自取 1.Active Record是什么? Active Record是MVC模式中M的一部分,是负责展示数据和业务逻辑的一层,可以帮助你创建和使用Ruby…...

【AI系统】EfficientNet 系列
EfficientNet 系列 本文主要介绍 EffiicientNet 系列,在之前的文章中,一般都是单独增加图像分辨率或增加网络深度或单独增加网络的宽度,来提高网络的准确率。而在 EfficientNet 系列论文中,会介绍使用网络搜索技术(NAS)去同时探索…...

【Python小白|Python内置函数学习2】Python有哪些内置函数?不需要导入任何模块就可以直接使用的!现在用Python写代码的人还多吗?
【Python小白|Python内置函数学习2】Python有哪些内置函数?不需要导入任何模块就可以直接使用的!现在用Python写代码的人还多吗? 【Python小白|Python内置函数学习2】Python有哪些内置函数?不需要导入任何模块就可以直接使用的&a…...

蓝桥杯分治
P1226 【模板】快速幂 题目描述 给你三个整数 𝑎,𝑏,𝑝a,b,p,求 𝑎𝑏 mod 𝑝abmodp。 输入格式 输入只有一行三个整数,分别代表 𝑎,𝑏,𝑝a,b,p。…...

YOLOv8实战无人机视角目标检测
本文采用YOLOv8作为核心算法框架,结合PyQt5构建用户界面,使用Python3进行开发。YOLOv8以其高效的实时检测能力,在多个目标检测任务中展现出卓越性能。本研究针对无人机目标数据集进行训练和优化,该数据集包含丰富的无人机目标图像…...

三、【docker】docker和docker-compose的常用命令
文章目录 一、docker常用命令1、镜像管理2、容器管理3、容器监控和调试4、网络管理5、数据卷管理6、系统维护7、实用组合命令8、常用技巧二、docker-compose常用命令1、基本命令2、构建相关3、运行维护4、常用组合命令5、实用参数 一、docker常用命令 1、镜像管理 # 查看本地…...

Qt 2D绘图之五:图形视图框架的结构、坐标系统和框架间的事件处理与传播
参考文章链接: Qt 2D绘图之五:图形视图框架的结构和坐标系统 Qt 2D绘图之六:图形视图框架的事件处理与传播 图形视图框架的结构 在前面讲的基本绘图中,我们可以自己绘制各种图形,并且控制它们。但是,如果需要同时绘制很多个相同或不同的图形,并且要控制它们的移动、…...

基于SpringBoot+Vue的美妆购物网站
作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…...

MySQL之创建和管理表
目录 1. MySQL中的数据类型编辑编辑 2. 创建和管理数据库 方式1:创建数据库 方式2:创建数据库并指定字符集 方式3:判断数据库是否已经存在,不存在则创建数据库( 推荐 ) 总结 2.2 使用数据库 查看当…...

肌肉骨骼肿瘤治疗市场:潜力无限,未来可期
肌肉骨骼肿瘤治疗作为现代医学的重要分支,专注于应对骨骼和肌肉系统中的良性和恶性肿瘤。随着全球人口老龄化和生活方式的改变,肌肉骨骼疾病日益成为公共卫生的重要问题。与此同时,医疗技术的进步和患者对高质量医疗服务的需求不断推动该市场…...