Hadoop复习(一)
初识Hadoop
分别从选择题、大题和复习Linux命令来复习
选择题
问题 1 单项选择难度级别 3 2 分
下面哪一个不属于Google的三驾马车?
答案选项组
GFS
NDFS
BigTable
MapReduce
问题 2 单项选择难度级别 3 2 分
Hadoop 3.x版本支持最低的JDK版本是( )
答案选项组
JDK 6
JDK 8
JDK 9
JDK 7
问题 3 多项选择难度级别 3 2 分
Hadoop的缺点有哪些
答案选项组
不适合处理小文件
只适合处理离线数据计算
属于低延迟
可处理流处理的计算
安全性低
问题 4 单项选择难度级别 3 2 分
hadoop是什么语言开源实现的
答案选项组
Python
Scala
C语言
Java
问题 5 多项选择难度级别 3 2 分
大数据的优点有哪些?
答案选项组
高可靠性
高容错性
高扩展性
高效率
低成本
大题
举例说明Hadoop生态系统中的开源大数据项目(至少五个)
数据处理与计算类
-
Apache Pig :提供了高层次的数据流语言和执行框架,用于在 Hadoop 集群上进行并行计算。其脚本语言 Pig Latin 使用户能够轻松地实现数据分析任务和构建复杂的工作流,适合处理大规模数据集。
-
Apache Hive :是一个数据仓库解决方案,允许用户使用类似 SQL 的命令查询和分析大型数据集,还支持自定义 MapReduce 脚本,使数据处理和分析更加灵活。
-
Apache Spark :能够在 Hadoop 集群上快速执行内存中计算,适用于需要快速迭代和低延迟的应用场景,如机器学习算法实现等,可与 Hadoop 深度集成,充分利用 Hadoop 的存储和资源管理功能。
数据存储与管理类
-
Apache HBase :是一个分布式的非关系型数据库,构建在 Hadoop 之上,为结构化数据提供快速且可扩展的存储,支持随机读写操作,适合需要对海量数据进行实时访问的应用。
-
Apache Cassandra :虽然也可以独立于 Hadoop 使用,但可以与 Hadoop 结合,其设计初衷是为了处理大量数据,提供高可扩展性和高可用性。
数据采集与传输类
-
Apache Sqoop :主要用于在关系型数据库和 Hadoop 之间高效传输大量数据,能够快速地将数据导入导出,在数据迁移和集成过程中发挥重要作用。
-
Apache Flume :专为收集、聚合和移动大量日志数据而设计,适用于从分布式来源收集日志数据并将其传输到 Hadoop 集群进行进一步处理和分析。
-
Apache Kafka :是一个高吞吐量的分布式发布 - 订阅消息系统,能够实时处理流数据,在数据流的生成、传输和消费过程中提供高效的消息传递机制。
数据分析与挖掘类
-
Apache Mahout :是一个可扩展的机器学习和数据挖掘库,提供了多种聚类、分类和推荐任务的算法,利用 Hadoop 的分布式计算能力,能够处理大规模数据集。
-
Apache Drill :是一个开源的分布式 SQL 查询引擎,能够对多种数据格式和数据源进行查询,无需依赖底层数据存储的模式定义,支持灵活的数据分析和探索。
资源管理与调度类
-
Apache YARN :是 Hadoop 的资源管理和任务调度框架,负责管理集群中的资源分配,以及调度运行在集群上的各类任务,使多个应用程序能够共享集群资源,提高资源利用率。
协调与治理类
-
Apache ZooKeeper :为分布式应用程序提供协调服务,包括配置管理、服务发现、分布式锁等功能,帮助解决分布式环境下的协调问题,确保分布式系统的一致性和可靠性。
-
Apache Ranger :提供了一个全面的安全框架,用于管理 Hadoop 集群中数据的安全和访问控制,能够集中管理和定义数据访问策略。
简述Hadoop的优点及其内容
成本效益高
-
开源免费 :Hadoop 是开源软件,用户可以免费使用和修改其源代码,无需支付昂贵的商业软件授权费用。
-
硬件要求低 :能够在普通商用服务器上运行,无需依赖高端的专用硬件设备,降低了硬件采购成本。
可扩展性强
-
横向扩展灵活 :通过简单地添加新的节点,即可实现水平扩展,能够轻松地处理 PB 级别甚至更大规模的数据,满足企业不断增长的数据处理需求。
高容错性
-
数据多副本备份 :HDFS 会自动将数据块在多个节点上进行复制保存,当某个节点出现故障时,系统可以从其他节点获取数据副本,确保数据的可用性和可靠性。
数据处理能力强
-
支持多种数据类型 :能够处理结构化、半结构化和非结构化等各种类型的数据,在处理复杂多样的大数据环境中具有很强的适应性。
-
分布式存储与计算 :采用分布式文件系统 HDFS 和分布式计算框架 MapReduce 等技术,将大规模数据集分散存储到多个节点,并在节点上并行地进行数据处理,大大提高了数据处理的效率和速度。
生态系统丰富
-
集成多种工具 :Hadoop 拥有庞大的生态系统,与众多开源大数据工具和框架无缝集成,如 Pig、Hive、Spark、HBase、Kafka 等,用户可以根据不同的业务需求选择合适的工具,构建灵活多样的大数据解决方案。
Linux命令
1、切换到目录/usr/bin;
cd /usr/bin
2、查看目录/usr/local下的所有的文件;
ls /usr/local
3、进入/home/ubuntu目录,创建一个名为test的目录,并查看有多少目录存在;
cd /home/ubuntu
mkdir test
ls -l | grep "^d" | wc -l
4、在/home/ubuntu下新建目录test1,再复制这个目录内容到/tmp;
cd /home/ubuntu
mkdir test1
cp -r test1 /tmp
5、将上面的/tmp/test1日录重命名为test2;
mv /tmp/test1 /tmp/test2
6、在/tmp/test2日录下新建word.txt文件并输入一些字符串;保存后退出;
cd /tmp/test2
vim word.txt
7、查看word.txt文件内容
cat /tmp/test2/word.txt
8、将word.txt文件所有者改为root 账号,并查看属性,
sudo chown root:root /tmp/test2/word.txt
ls -l /tmp/test2/word.txt
9、找出/tmp目录下文件名为test2的文件;
find /tmp -name test2
10、将在/home/ubuntu目录下打包成test.tar.gz;
cd /home/ubuntu
tar -czvf test.tar.gz .
11、将test.tar.gz解压缩到/tmp目录。
cd /tmp
tar -xzvf /home/ubuntu/test.tar.gz
相关文章:
Hadoop复习(一)
初识Hadoop 分别从选择题、大题和复习Linux命令来复习 选择题 问题 1 单项选择难度级别 3 2 分 下面哪一个不属于Google的三驾马车? 答案选项组 GFS NDFS BigTable MapReduce 问题 2 单项选择难度级别 3 2 分 Hadoop 3.x版本支持最低的JDK版本是&#x…...

微服务面试(分布式事务、注册中心、远程调用、服务保护)
1.分布式事务 分布式事务,就是指不是在单个服务或单个数据库架构下,产生的事务,例如: 跨数据源的分布式事务跨服务的分布式事务综合情况 我们之前解决分布式事务问题是直接使用Seata框架的AT模式,但是解决分布式事务…...

高性能MYSQL(三):性能剖析
一、性能剖析概述 (一)关于性能优化 1.什么是性能? 我们将性能定义为完成某件任务所需要的时间度量,换句话说,性能即响应时间,这是一个非常重要的原则。 我们通过任务和时间而不是资源来测量性能。数据…...
Go 语言中的 panic 详解
Go 语言中的 panic 详解 在 Go 语言中,panic 是一种用于处理不可恢复错误的机制。当程序遇到无法继续执行的严重错误时,会自动或手动触发 panic,终止当前函数的执行,并开始进行堆栈展开(stack unwind…...

mysql(十四)
目录 多表查询 1.准备工作 2--创建表格 3--插入数据 2.笛卡尔积查询 3.内连接查询 1--隐式内连接 格式 查询 2--显示内连接(Inner join .. on ) 格式 查询 4.外连接查询 1--左外连接查询(LEFT OUTER JOIN .. ON ) 格式 查询 2-- 右…...

工业物联网中的事件驱动采样架构及优化
论文标题 Event-Based Sampling Architecture and Optimization for Industrial Internet of Things 工业物联网中的事件驱动采样架构及优化 作者信息 Tejas Thosani Process Control Systems, Micron Technology Inc., Manassas, USA tthosanimicron.com Andres Prado Esp…...

基于 HT for Web 的轻量化 3D 数字孪生数据中心解决方案
一、技术架构:HT for Web 的核心能力 图扑软件自主研发的 HT for Web 是基于 HTML5 的 2D/3D 可视化引擎,核心技术特性包括: 跨平台渲染:采用 WebGL 技术,支持 PC、移动端浏览器直接访问,兼容主流操作系统…...

JavaScript 性能优化:从入门到实战
在当今快节奏的互联网时代,用户对网页和应用的加载速度与响应性能要求越来越高。JavaScript 作为网页交互的核心语言,其性能表现直接影响用户体验。本文将用简单易懂的语言,带你了解 JavaScript 性能优化的实用技巧,帮助你的代码跑…...

启动metastore时报错MetaException(message:Version information not found in metastore
把hdfs清空重新安装了一下,hive的mysql元数据库删除掉之后重建之后一直启动报错 metastore.RetryingHMSHandler (RetryingHMSHandler.java:<init>(83)) - HMSHandler Fatal error: MetaException(message:Version information not found in metastore.) 后来…...
Spring 中 @Value 注解多实例配置方案详解
引言 在使用 Spring 框架进行开发时,我们经常会使用 Value 注解来注入配置值。然而,当我们需要创建同一个类的多个实例,并且每个实例需要使用不同的配置值时,直接在类中使用 Value 注解就会遇到问题。本文将深入探讨这个问题&…...

MyBatisPlus(1):快速入门
我们知道,MyBatis是一个优秀的操作数据库的持久层框架(优秀持久层框架——MyBatis),其基于底层的JDBC进行高度封装,极大的简化了开发。但是对于单表操作而言,我们需要重复地编写简单的CRUD语句。这其实是不…...

京东热点缓存探测系统JDhotkey架构剖析
热点探测使用场景 MySQL 中被频繁访问的数据 ,如热门商品的主键 IdRedis 缓存中被密集访问的 Key,如热门商品的详情需要 get goods$Id恶意攻击或机器人爬虫的请求信息,如特定标识的 userId、机器 IP频繁被访问的接口地址,如获取用…...
多国金融市场数据对接指南(印度、印尼、韩国)
一、StockTV多国数据对接概述 StockTV提供统一的API接口规范对接全球金融市场数据,本文重点介绍印度(国家ID:14)、印尼(国家ID:42)、韩国(国家ID:xx)的股票市场对接方案。 共同特性 统一认证…...

【Elasticsearch】ILM(Index Lifecycle Management)策略详解
ILM(Index Lifecycle Management)策略详解 1.什么是 ILM 策略?2.ILM 解决的核心业务问题3.ILM 生命周期阶段3.1 Hot(热阶段)3.2 Warm(温阶段)3.3 Cold(冷阶段)3.4 Delete…...

linux 后记
Linux Server 下载一个Server的版本,就是那种只有命令行的 学会这个就可以去租一个aliyun服务器,挺便宜的 如果在aliyun买服务器的话就不用管镜像源 但是如果是自己的虚拟机就必须设置镜像源,上网搜索阿里的镜像源,然后手动输入&…...

【笔记】在 MSYS2 MINGW64 环境中安装构建工具链(CMake、GCC、Make)
📝 在 MSYS2 MINGW64 环境中安装构建工具链(CMake、GCC、Make) ✅ 目标说明 记录在 MSYS2 的 MINGW64 工具链环境中,成功安装用于 C/C 构建的常用开发工具。 包括: GCC 编译器Make 构建系统CMake 跨平台构建工具基础开…...

PyTorch -TensorBoard的使用 (一)
设置环境 新建python文件 .py 安装Tensorboard 在终端进行安装 显示安装成功 两个logs,出现这种情况怎么解决 所有的logs文件删掉delete,重新运行 add_image 不满足要求 Opencv-numpy 安装Opencv add_image 用法示例 (500,375&am…...

Redis最佳实践——性能优化技巧之数据结构选择
Redis在电商应用中的数据结构选择与性能优化技巧 一、电商核心场景与数据结构选型矩阵 应用场景推荐数据结构内存占用读写复杂度典型操作商品详情缓存Hash低O(1)HGETALL, HMSET购物车管理Hash中O(1)HINCRBY, HDEL用户会话管理Hash低O(1)HSETEX, HGET商品分类目录Sorted Set高O…...

网络安全方向在校生有哪些证书适合考取?
工作7年得出结论:网络安全,考任何证书都没有用,实力才是根本。我是2021年考的 CISSP,报了培训班,花了1万一千块钱,签的保障班还是服务班不记得了,大概意思就是你放心去考,考不过可以…...

从0开始学习R语言--Day14--贝叶斯统计与结构方程模型
贝叶斯统计 在很多时候,我们经常会看到在统计分析中出现很多反直觉的结论,比如假如有一种病,人群中的患病率为1%,患者真患病时,检测结果为阳性的概率是99%,如果没有,则检测结果为阳性的概率是5…...
02-BTC-密码学原理 对hash算法如果出现漏洞的思考
如果比特币中某个哈希函数的抗碰撞性出现了漏洞怎么办,怎么补救? 答:(1)攻击场景: 伪造交易:攻击者可构造两个不同的交易(如正常交易和恶意双花交易)具有相同的TxID&…...

[Python] 如何使用 Python 调用 Dify 工作流服务实现自动化翻译
在实际项目中,自动化工作流服务可以大大简化复杂任务的处理流程。本文将介绍如何通过 Python 脚本调用 Dify 提供的工作流 API,实现文本翻译的自动化操作。该流程包括设置 API 接口、构造请求体并处理返回结果。 一、背景介绍:什么是 Dify 工作流服务? Dify 是一款支持多种…...
分布式微服务系统架构第142集:全栈开发
加群联系作者vx:xiaoda0423 仓库地址:https://webvueblog.github.io/JavaPlusDoc/ https://1024bat.cn/ https://github.com/webVueBlog/fastapi_plus https://webvueblog.github.io/JavaPlusDoc/ /*** 本地启动解决跨域问题* 打包发布请注释该类&#…...

PTA-根据已有类Worker,使用LinkedList编写一个WorkerList类,实现计算所有工人总工资的功能。
目录 1.问题描述 2.函数接口定义: 3.裁判测试程序样例: 4.输入和输出样例 输入样例: 输出样例: 5.实现代码 1.问题描述 Main类:在main方法中,调用constructWorkerList方法构建一个Worker对象链表…...
文档整合自动化
主要功能是按照JSON文件(Sort.json)中指定的顺序合并多个Word文档(.docx),并清除文档中的所有超链接。最终输出合并后的文档名为"sorted_按章节顺序.docx"。 主要分为几个部分: 初始化配置 定…...

微软markitdown PDF/WORD/HTML文档转Markdown格式软件整合包下载
本次和大家分享另一个微软发布的非常热门的文件文档转Markdown格式文档的软件markitdown,软件可以将PDF,word,ppt,Excel等十几种格式文档转换为markdown格式文档,我基于当前最新0.1.2版本制作了免安装一键启动整合包。…...
科普:Linux `su` 切换用户后出现 `$` 提示符,如何排查和解决?
科普:Linux su 切换用户后出现 $ 提示符,如何排查和解决? 在 Linux 系统管理中,su(Switch User)命令用于切换用户身份。正常情况下,从 root 切换到普通用户时,提示符会从 # 变成 $&…...

BayesFlow:基于神经网络的摊销贝叶斯推断框架
贝叶斯推断为不确定性条件下的推理、复杂系统建模以及基于观测数据的预测提供了严谨且功能强大的理论框架。尽管贝叶斯建模在理论上具有优雅性,但在实际应用中经常面临显著的计算挑战:后验分布通常缺乏解析解,模型验证和比较需要进行重复的推…...
NodeJS全栈开发面试题讲解——P9性能优化(Node.js 高级)
✅ 9.1 Node.js 的性能瓶颈一般出在哪?如何排查? Node.js 单线程 异步模型,瓶颈常出现在: 阻塞操作(如:同步 I/O、CPU 密集型计算) 数据库慢查询 / 索引失效 外部接口慢响应 大量并发请求导…...
NVMe IP现状扫盲
SSD优势 与机械硬盘(Hard Disk Driver, HDD)相比,基于Flash的SSD具有更快的数据随机访问速度、更快的传输速率和更低的功耗优势,已经被广泛应用于各种计算领域和存储系统。SSD最初遵循为HDD设计的现有主机接口协议,例…...