当前位置: 首页 > news >正文

【Hadoop】Hadoop入门概念简介

🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁

🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁

🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬请批评指正!🍁🐥

🪁🍁🪁🍁🪁🍁🪁🍁 🪁🍁🪁🍁🪁🍁🪁 🪁🍁🪁🍁🪁🍁🪁🍁🪁🍁🪁🍁

感谢点赞和关注 ,每天进步一点点!加油!

目录

一、概述

二、优点

三、核心架构

3.1、HDFS

3.2、NameNode

3.2、DataNode

四、Hadoop发行版本

4.1、Apache Hadoop

4.2、CDP

4.3、DataSophon


一、概述


       Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算 [百度百科]。


二、优点


Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

  • 高可靠性。Hadoop底层维护多个数据副本,所以即使Hadoop某台服务器或者某个副本不可用,也不会导致数据的丢失。
  • 高扩展性。Hadoop是在可用的集群分配数据并完成计算任务的,集群可以方便地扩展到数以千计的节点中 。
  • 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡(banlance)。在MapReduce的思想下,hadoop任务并行处理,因此处理速度非常快 。
  • 容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配
  • 低成本。hadoop是开源的,项目的软件成本因此会大大降低,又可部署在廉价的服务器上 。

三、核心架构


       Hadoop设计了一个在分布式集群上实现资源管理与功能水平分层的架构,该分层解耦架构让大家可以在Hadoop上不断地叠加组件,并且每个组件可以独立升级,同类组件可以相互竞争,不断提升性能。作为Hadoop生态系统的核心,HDFS、YARN、MapReduce形成了一个灵活的基座,并以此为基础扩展出了非常多的Hadoop兼容开源项目和软件,常见的大数据组件包括。

3.1、HDFS


对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。 HDFS 的架构节点包括 NameNode,它在 HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。

存储在 HDFS 中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的 RAID 架构大不相同。块的大小(2.x版本默认为128MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

3.2、NameNode


NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。对于最常见的 3 个复制块,第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上 。

实际的 I/O事务并没有经过 NameNode,只有表示 DataNode 和块的文件映射的元数据经过 NameNode。当外部客户机发送请求要求创建文件时,NameNode 会以块标识和该块的第一个副本的 DataNode IP 地址作为响应。这个 NameNode 还会通知其他将要接收该块的副本的 DataNode 。

NameNode 在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信息。这个文件和一个包含所有事务的记录文件(这里是 EditLog)将存储在 NameNode 的本地文件系统上。FsImage 和 EditLog 文件也需要复制副本,以防文件损坏或 NameNode 系统丢失 。

NameNode本身不可避免地具有SPOF(Single Point Of Failure)单点失效的风险,一般通过开启 HA 解决单点故障问题,如下为 NameNode HA 架构 。

NameNode HA 架构

3.2、DataNode


DataNode 也是一个通常在 HDFS实例中的单独机器上运行的软件。Hadoop 集群包含一个 NameNode 和大量 DataNode。DataNode 通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。Hadoop 的一个假设是:机架内部节点之间的传输速度快于机架间节点的传输速度 。

DataNode 响应来自 HDFS 客户机的读写请求。它们还响应来自 NameNode 的创建、删除和复制块的命令。NameNode 依赖来自每个 DataNode 的定期心跳(heartbeat)消息。每条消息都包含一个块报告,NameNode 可以根据这个报告验证块映射和其他文件系统元数据。如果 DataNode 不能发送心跳消息,NameNode 将采取修复措施,重新复制在该节点上丢失的块。

NameNode上并不永久保存哪个DataNode上有哪些数据块的信息,而是通过DataNode启动时的上报来更新NameNode上的映射表。

        1.根据客户端或者是namenode的调度存储和检索数据,并且定期向namenode发送所存储的块(block)的列表

        2.数据块在DataNode进程所在的节点上以文件的形式存储在本地磁盘上

  •  一个是数据本身
  • 一个是元数据(数据块的长度,块数据的校验和,以及时间戳)

       3.维护blockid与DataNode之间的映射信息(元信息)


 

四、Hadoop发行版本


Hadoop发行版本:Apache、Cloudera、Hortonworks。

  • Apache版本最原始(最基础)的版本,对于入门学习最好;
  • Cloudera内部集成了很多大数据框架,对应产品CDH;
  • Hortonworks文档较好,对应产品HDP;
  • Hortonworks现在已经被Cloudera公司收购,推出新的收费产品CDP;

4.1、Apache Hadoop


官网地址:http://hadoop.apache.org

下载地址:https://hadoop.apache.org/releases.html

Hadoop发行版本分为开源社区版。 社区版是指由Apache软件基金会维护的版本,是官方维护的版本体系,入门学习建议使用开源的Apache Hadoop 。

4.2、CDP


Hortonworks的主打产品是Hortonworks Data Platform(HDP),过去是开源的产品,2018年Hortonworks目前已经被Cloudera公司收购 ,现在已是CDP 且收费了

  • Cloudera Hadoop
  • Hortonworks Hadoop

官网地址:Enterprise Data Management Platforms & Products | Cloudera

4.3、DataSophon


DataSophon是近日开源的一款国产自研大数据管理平台,致力于快速实现部署、管理、监控以及自动化运维大数据服务组件和节点的能力,帮助你快速构建起稳定、高效的大数据集群服务。还不够成熟,再等等吧。
开源地址:https://github.com/gaodayu168/datasophon

在线文档:https://gaodayu168.github.io/datasophon-website

国产收费的产品比较多阿里系, 星环等等 ,但是中小公司 可能不想过多投入,很多依然在使用之前开源的CDH和HDP


参考:国产自研开源大数据管理平台DataSophon Manager安装教程

Hadoop DataNode详解_hadoop3.0 datanode version 的内容是什么_雾幻的博客-CSDN博客 

百度百科

 

相关文章:

【Hadoop】Hadoop入门概念简介

🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的…...

前端监控之异常监控(一)

前言 当我们的项目中假设出现了下面几种场景: 点击按钮后,页面无响应页面跳转后显示白屏页面卡顿...... 这些情况都是非常影响用户体验的,对于用户来说,是难以接受的,用户可能就此流失掉了。 因此前端非常有必要针对…...

sql server 、mysql CTE 公用表表达式

sql server 详细 mysql CTE CTE 是一个命名的临时结果集,作用范围是当前语句。CTE可以理解成一个可以复用的子查询,当然跟子查询还是有点区别的,CTE可以引用其他CTE,但子查询不能引用其它子查询。所以,开发中建议…...

Oracle dataguard 和Oracle rac的区别和联系

RAC服务器共用一套存储,同时提供服务,没有主备之分.宕一个其它的可以继续服务. 双机热备,共用一套存储,一个提供服务一个备份,主机宕了切换到备份服务器提供服务. data guard 完全两套系统,存储是单独的,用日志同步. RAC: 实例层冗余 DG :数据库层冗…...

JUC工具类-LockSupport概述

前言 ​ 多线程并发场景中,时常需要线程协同,故而需要对当前线程进行阻塞,并唤醒需要协同的线程来一起完成任务。 ​ 通常处理方式有三种: 1)Synchronized加锁的线程 使用Object类下所提供的方法: wai…...

大数据:AI大模型对数据分析领域的颠覆(文末送书)

随着数字化时代的到来,大数据已经成为了各行各业中不可或缺的资源。然而,有效地分析和利用大数据仍然是一个挑战。在这个背景下,OpenAI推出的Code Interpreter正在对数据分析领域进行颠覆性的影响。 如何颠覆数据分析领域?带着这…...

CEdit 选中文字实时更新到另一个控件中

有时候,我们会遇到需求,软件中需要让选中一个CEdit控件中的文字实时更新到另一个控件中,实现效果如下所示: 代码如下: BOOL CEditDemoDlg::PreTranslateMessage(MSG* pMsg) { CEdit* pOldEdit (CEdit*)GetDlgIte…...

Word导出创建Adobe PDF其中emf图片公式马赛克化及文字缺失

软件版本 Word 2021 Visio 2019 Adobe Acrobat Pro 2020 问题描述 公式马赛克化,是指在Word中使用MathType编辑的公式,然后在Visio中使用图片(增强型图元文件)形式得到的粘贴对象,效果如下 文字缺失,是指Word导出→创建Adobe P…...

[matlab]matlab配置mingw64编译器

第一步:下载官方绿色版本mingw64编译器然后解压放到一个非中文空格路径下面 比如我mingw64-win是我随便改的文件名,然后添加环境变量,选择用户或者系统环境变量添加下面的变量 变量名: MW_MINGW64_LOC 变量值:自己的m…...

华为OD-非严格递增连续数字序列

题目描述 输入一个字符串仅包含大小写字母和数字 求字符串中包含的最长的非严格递增连续数字序列长度 比如: 12234属于非严格递增数字序列 输入描述 输入一个字符串仅包含大小写字母和数字 输出描述 输出字符串中包含的最长的非严格递增连续数字序列长度 示例…...

css滚动条样式这样修改下很漂亮

<!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>滚动条样式修改下很漂亮(不支持IE)</title> <style type"text/css"> * { margin: 0; padding: 0; } .box { width: 300px; height: 100px; margin…...

转置卷积的应用

目录 矩阵转置 一、转置卷积的背景 二、转置卷积的应用 三、转置卷积的区别 卷积 矩阵转置 矩阵的转置在信息处理中起到了重要的作用。在计算机科学领域&#xff0c;矩阵常用于表示图像、音频和视频等多媒体数据。当我们需要对这些数据进行处理时&#xff0c;常常需要进行…...

常见的移动端布局

流式布局&#xff08;百分比布局&#xff09; 使用百分比、相对单位&#xff08;如 em、rem&#xff09;等来设置元素的宽度&#xff0c;使页面元素根据视口大小的变化进行调整。这种方法可以实现基本的自适应效果&#xff0c;但可能在不同设备上显示不一致。 <!DOCTYPE ht…...

Typore 亲测有效(懂得都懂哈)

Typore 亲测从安装到使用&#xff0c;可以使用&#xff08;具体是什么懂得都懂哈&#xff09; 网盘下载地址:链接&#xff1a;https://pan.baidu.com/s/1w0UiS1szxnO9Lxz6sbXEKg?pwdqwe1 提取码&#xff1a;qwe1 第一步&#xff1a; 下载压缩包进行解压&#xff0c;解压过…...

Kyligence Copilot 登陆海外,斩获 Product Hunt 日榜 TOP 2

8月14日&#xff0c;AI 数智助理 Kyligence Copilot 在全球知名科技产品平台 Product Hunt 上线&#xff0c;其以出色的产品创新实力&#xff0c;在激烈的竞争中脱颖而出&#xff0c;仅仅在 24 小时内收获了超过 400 个投票和近 200 条支持评论&#xff0c;荣登当日产品榜排名第…...

【Docker】Docker 的基本概念和优势,基本命令及使用例子

Docker 是一种轻量级的容器化解决方案&#xff0c;能够快速地创建、部署和运行应用程序。以下是一些 Docker 的基本概念和优势&#xff1a; 基本概念&#xff1a; 1.镜像&#xff1a;一个 Docker 镜像是一个可执行的文件&#xff0c;其中包含了运行应用程序所需要的一切。 2.容…...

高并发内存池(回收)[4]

threadcache还给centralcache void ThreadCache::Deallocate(void* ptr, size_t size) {assert(ptr);assert(size < MAX_BYTES);// 找对映射的自由链表桶&#xff0c;对象插入进入size_t index SizeClass::Index(size);_freeLists[index].Push(ptr);// 当链表长度大于一次…...

分布式事务篇-2.4 Spring-Boot整合Seata

文章目录 前言一、pom jar导入:二、项目配置&#xff1a;2.1 配置 说明&#xff1a;2.1 .1 seata server 端:2.1 .2 seata client 端: 2.2 开启seata 对于数据源的代理:2.3 seata-client 的注册中心&#xff1a;2.4 seata-client 的配置中心&#xff1a;2.5 去掉手写的数据源代…...

718. 最长重复子数组

718. 最长重复子数组 原题链接&#xff1a;完成情况&#xff1a;题解&#xff1a;方法一&#xff1a;动态规划方法二&#xff1a;滑动窗口方法三&#xff1a;二分查找 哈希 原题链接&#xff1a; 718. 最长重复子数组 https://leetcode.cn/problems/maximum-length-of-repe…...

Mysql join加多条件与where的区别

最近在项目中遇到一个问题&#xff0c;感觉有点意思&#xff0c;在解决问题及查阅了相关资料后&#xff0c;打算写篇文章给朋友们分享一下。 问题现象&#xff1a; 问题是很常见的空指针问题&#xff0c;后端查询数据库数据&#xff0c;遍历进行相关业务处理时报空指针。通过…...

嵌入式开发中CHM文件的应用与优化

1. CHM文件在嵌入式开发中的核心价值CHM&#xff08;Compiled HTML Help&#xff09;作为微软推出的编译型帮助文档格式&#xff0c;在嵌入式开发领域已经服役超过20年。这种将HTML文档、索引和搜索功能打包成单一文件的格式&#xff0c;特别适合Keil MDK这类嵌入式开发环境的技…...

DSP28335新手避坑指南:手把手教你用CCS6.2生成10KHz SPWM(附完整工程)

DSP28335实战&#xff1a;从零构建10KHz SPWM的完整工程指南 第一次接触DSP28335开发板时&#xff0c;面对复杂的寄存器配置和编译环境问题&#xff0c;很多工程师都会感到无从下手。本文将带你一步步完成从CCS工程创建到SPWM波形输出的全过程&#xff0c;特别针对新手容易遇到…...

ARM架构浮点运算与FPEXC/FPSCR寄存器详解

1. ARM架构浮点运算基础在嵌入式系统和移动计算领域&#xff0c;ARM处理器凭借其高效的能耗比占据主导地位。浮点运算作为科学计算、图形处理和机器学习的基础&#xff0c;其性能直接影响着整个系统的表现。ARM架构通过专门的浮点运算单元和配套的寄存器系统&#xff0c;为开发…...

图片换背景底色怎么制作?一款微信小程序让你3步搞定

最近在抖音和小红书上刷到不少博主分享换背景的小技巧&#xff0c;我也趁机研究了一遍&#xff0c;发现现在换背景底色真的比以前方便多了。不管是证件照换底色、商品图去背景&#xff0c;还是日常自拍的背景替换&#xff0c;都有办法解决。今天就把我的使用心得分享给你们&…...

kkFileView实战:如何优雅地集成到Spring Boot项目并替换默认‘抱歉’图片

kkFileView实战&#xff1a;Spring Boot项目深度集成与定制化改造 在当今企业级应用开发中&#xff0c;文件在线预览功能已成为提升用户体验的关键组件。kkFileView作为一款开源的文件预览解决方案&#xff0c;以其轻量级、高性能和广泛格式支持受到开发者青睐。但对于需要将其…...

基于NestJS的上下文管理:从AsyncLocalStorage到微服务架构实践

1. 项目概述&#xff1a;从“Nest Hub”到“contextzero/nest_hub”的深度解构最近在逛一些开发者社区和开源项目托管平台时&#xff0c;我注意到一个挺有意思的现象&#xff1a;一个名为“contextzero/nest_hub”的项目开始在一些技术讨论中被提及。乍一看标题&#xff0c;很多…...

压电定位平台建模与运动控制【附仿真】

✨ 长期致力于压电定位平台、磁滞非线性、反步控制、滑模控制、有限时间控制研究工作&#xff0c;擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流&#xff0c;点击《获取方式》 &#xff08;1&#xff09;Prandtl-Ishlinskii磁滞模…...

openpilot终极指南:从开源机器人操作系统到300+车型自动驾驶辅助实现

openpilot终极指南&#xff1a;从开源机器人操作系统到300车型自动驾驶辅助实现 【免费下载链接】openpilot openpilot is an operating system for robotics. Currently, it upgrades the driver assistance system on 300 supported cars. 项目地址: https://gitcode.com/G…...

Windows平台即时通讯防撤回技术深度解析与企业级应用方案

Windows平台即时通讯防撤回技术深度解析与企业级应用方案 【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁&#xff08;我已经看到了&#xff0c;撤回也没用了&#xff09; 项目地址: https://gitcode.com/GitHub…...

微信聊天记录永久保存:免费开源工具WeChatExporter完整使用指南

微信聊天记录永久保存&#xff1a;免费开源工具WeChatExporter完整使用指南 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否曾担心珍贵的微信聊天记录会随着手机更…...