当前位置: 首页 > news >正文

Hadoop -hdfs的读写请求

1、HDFS写数据(宏观):

1、首先,客户端发送一个写数据的请求,通过rpc与NN建立连接,NN会做一些简单的校验,文件是否存在,是否有空间存储数据等。

2、NN就会将校验的结果发送给客户端,客户端就会向NN发送请求,第一个block存储在哪个DN中。

3、NN接受客户端请求,就会根据block块以及副本的数量来分配DN,并将对应的DN的地址返回给客户端。

4、客户端会向第一个DN发送请求,上传数据,第一个DN接受到以后就会向下一个DN发送请求,直到最后一个DN,将整个pipline管道创建成功,在返回给客户端。

5、此时客户端会将block切分成多个package,以package的形式传递到DN中,在pipiline中依次传输,当传输到最后一个DN的时候,就会返回一个ack响应,当客户端接收到最后一个DN传输过来的ack,此时package就传输完成,然后一次传输package。

6、当第一个block传输完成以后,客户端就会请求NN上传第二个block。

7、当所有的package传输完成后,管道就会关闭,数据传输成功。

2、HDFS写数据请求(微观:保证了在传输的过程中package不会发生错误):

1、首先,客户端发送写数据的请求,将磁盘中的数据从内存中提取出来,存放在客户端的内存中。

2、当客户端与NN之间通过rpc建立联系后,获取到第一个block存在的DN的地址,然后向第一个DN中发送写数据的请求,第一个DN接收到后调用下一个DN,以此类推,在所有的DN之间建立pipline管道。

3、当pipline管道建立后,客户端此时对每一个block在进行切分,分成多个package。

4、在客户端,为了防止在传输过程package不会出错,就会产生了两个两个队列,分别是数据队列(dataqueue)和确认队列(Ackqueue)。

5、此时会将缓存中的package读取到数据队列,同时也会复制一份到确认队列中 

6、然后数据队列就会上传数据,然后通过Pipline管道分别就是package依次发送到对应的dn中

7、当客户端发送第一个package的时候,会有一个进程responseprosessor进程用来接收DN传来的ack的响应,如果接受到的ack是true,说明这个package传输成功,此时ackqueue中的package就会删除,反之ackqueue会将package复制一份给dataqueue重新发送,一直到收到的ack的状态时true。

3、HDFS的读数据请求:

1、客户端通过rpc与NN建立连接,发送读数据的请求

2、NN根据客户端的请求,NN将block以及对应副本所对应的DN的地址返回返回个客户端。

3、客户端会根据返回来的DN地址,会根据网络拓扑结构计算出与客户端的距离,然后进行排序。

4、客户端会选择距离较近的DN中去读取block,如果客户端就在DN中,就会在自生读取block,当block读取完成后,文件读取还没有结束,此时客户段会向NN继续发送读数据的请求,获取下一批的block的地址。

5、最终客户端会将这些读取的block合并成一个文件。

4、package的结构:
1、package主要分成两个部分:package  header 和package  data

一般的大小是64kb

haeder中存放的是:offset in block (在block中的偏移量),last packet in block (是不是block中的最后一个packet)

packdata中存放的是:chunk data (存储的数据),chunk checksum(校验文件,与chunkdata是一一对应的)

相关文章:

Hadoop -hdfs的读写请求

1、HDFS写数据(宏观): 1、首先,客户端发送一个写数据的请求,通过rpc与NN建立连接,NN会做一些简单的校验,文件是否存在,是否有空间存储数据等。 2、NN就会将校验的结果发送给客户端…...

【c++Leetcode】206. Reverse Linked List

问题入口 time complexity: O(n), space complexity:O(1) ListNode* reverseList(ListNode* head) {ListNode* prev nullptr;ListNode* curr head;while(curr){ListNode* forward curr->next;curr->next prev;prev curr;curr forward;}return prev; } time comp…...

[项目管理-33/创业之路-87/管理者与领导者-127]:如何提升自己项目管理的能力和水平

目录 前言: 一、项目经理的角色定位 1.1 项目经理的职责 1.2 不同矩阵类型的项目,项目经理的职责 1.3 项目经理的角色定位 1.4 项目经理的发展路径 二、项目经理项目理论和知识结构 三、软件项目经理在计算机水平的提升 四、项目经理业务知识的…...

记录一次因内存不足而导致hiveserver2和namenode进程宕机的排查

背景 最近发现集群主节点总有进程宕机,定位了大半天才找到原因,分享一下 排查过程 查询hiveserver2和namenode日志,都是正常的,突然日志就不记录了,直到我重启之后又恢复工作了。 排查各种日志都是正常的&#xff0…...

c# 基础语法

c# 程序结构 using System.Collections.Generic; namespace demo1; //一个命名空间可以包含多个类 using System.IO; using System.Drawing;class proj {/// <summary>/// c#是微软开发的&#xff0c;基于c和c的一种面象对象编程语言&#xff0c;用于快速开发windows桌…...

【译】什么时候使用 Spring 6 JdbcClient

原文地址&#xff1a;Spring 6 JdbcClient: When and How to Use it? 一、前言 自 Spring 6.1 起&#xff0c;JdbcClient 为 JDBC 查询和更新操作提供了统一的客户端 API&#xff0c;从而提供了更流畅、更简化的交互模型。本教程演示了如何在各种场景中使用 JdbcClient。 二…...

VR全景:赋能城市园区建设,打造3DVR城市名片

近年来&#xff0c;很多城市都在大力发展数字化经济建设&#xff0c;以VR全景技术赋能现代化城市和园区建设&#xff0c;为城市园区展示带来了全新的可能性。借助3D、VR技术把现实城市和园区搬到互联网上进行全方位展示&#xff0c;将城市园区的形象、景观、规划布局等1&#x…...

孟德尔随机化写作技巧mr

...

社会媒体营销提问常用的ChatGPT通用提示词模板

如何制定有效的社会媒体营销策略&#xff1f; 如何选择适合的社会媒体平台进行营销&#xff1f; 如何创造有吸引力的社会媒体内容&#xff0c;提高用户参与度和分享率&#xff1f; 如何运用社交媒体广告来增加品牌曝光和用户转化&#xff1f; 如何建立和维护社交媒体账号和…...

智慧储能边缘计算网关应用,提升能源效率

智慧储能通过边缘计算网关物联网技术来实现对储能电池等设备的在线监控和远程管理。边缘计算网关可以将储能数据转化为可用的信息&#xff0c;并传输到储能系统中&#xff0c;为储能管理提供优化与调度等数据支持。 边缘计算网关在智慧储能系统中起到了关键的作用。IR4000边缘计…...

利用 Apache Ranger 管理 Amazon EMR 中的数据权限

需求背景简介 系统安全通常包括两个核心主题&#xff1a;身份验证和授权。一个解决“用户是谁”的问题&#xff0c;另一个解决“用户允许执行什么操作”的问题。在大数据领域&#xff0c;Apache Ranger 是最受欢迎的授权选择之一&#xff0c;它支持所有主流大数据组件&#xff…...

HarmonyOS(三)—— 应用程序入口—UIAbility

前言 学习过android的同学都是知道Activity&#xff0c;Activity是Android组件中最基本也是最为常见用的四大组件之一&#xff0c;用户可以用来交互为了完成某项任务。 Activity中所有操作都与用户密切相关&#xff0c;是一个负责与用户交互的组件&#xff0c;可以通过setCon…...

Vuetify:定制化、响应式的 Vue UI 库 | 开源日报 No.83

vuetifyjs/vuetify Stars: 38.1k License: MIT Vuetify 是一个无需设计技能的 UI 库&#xff0c;具有精美手工制作的 Vue 组件。它具有以下核心优势和主要功能&#xff1a; 可定制性&#xff1a;使用 SASS/SCSS 进行广泛自定义&#xff0c;并提供默认配置和蓝图。响应式布局&…...

使用PySpark 结合Apache SystemDS 进行信号处理分析 (离散傅立叶变换)的简单例子

文章大纲 简介 :什么是 SystemDS ?环境搭建与数据 准备数据预处理模型训练 与 结果评估参考文献简介 :什么是 SystemDS ? SystemDS is an open source ML system for the end-to-end data science lifecycle from data integration, cleaning, and feature engineering, ov…...

AT89S52单片机的最小应用系统

目录 ​一.时钟电路设计 1.内部时钟方式 2.外部时钟方式 3.时钟信号的输出 二.机器周期&#xff0c;指令周期与指令时序 1.时钟周期 2.机器周期 3.指令周期 三.复位操作和复位电路 1.复位操作 2 复位电路设计 四.低功耗节电模式 AT89S52本身片内有8KB闪烁存储器&am…...

Pytorch中的tensor维度理解

Pytorch中的tensor维度理解 文章目录 Pytorch中的tensor维度理解摘要打消心理恐惧&#xff0c;从三维学起三维tensor参考文献 摘要 面对pytorch编程中的tensor时&#xff0c;我不时会感到恐惧。对里面数据是怎么排布的&#xff0c;一直没有一个直观的理解。今天我想把这个事情…...

2019年12月 Scratch(三级)真题解析#中国电子学会#全国青少年软件编程等级考试

Scratch等级考试(1~4级)全部真题・点这里 一、单选题(共25题,每题2分,共50分) 第1题 怎样修改图章的颜色? A:只需要一个数字来设置颜色 B:设置RGB的值 C:在画笔中设置颜色、饱和度、亮度 D:在外观中设置或修改角色颜色特效 答案:D 在外观中设置或修改角色颜色特…...

matlab-实现-BP-神经网络

最近写论文用到了很多神经网络和优化算法&#xff0c;算是废了不少精力收集起来的&#xff0c;还是整理出来分享给大家&#xff0c;以免浪费了。 本篇以最简单的 BP神经网络开始吧 详细的实现步骤如下&#xff1a; 1.环境准备&#xff1a;清空环境变量、关闭开启的图窗、清空变…...

基于go-zero的rpc服务示例

以下是一个基于 go-zero 框架的简单 RPC 服务示例&#xff0c;该示例包括一个服务端和一个客户端通过 gRPC 进行通信。 服务端 1、定义 .proto 文件 在 rpc/add 目录下创建 adder.proto 文件&#xff0c;定义 RPC 服务&#xff1a; syntax "proto3";package add…...

【算法】奇偶游戏(带权并查集)

题目 小 A 和小 B 在玩一个游戏。 首先&#xff0c;小 A 写了一个由 0 和 1 组成的序列 S&#xff0c;长度为 N。 然后&#xff0c;小 B 向小 A 提出了 M 个问题。 在每个问题中&#xff0c;小 B 指定两个数 l 和 r&#xff0c;小 A 回答 S[l∼r] 中有奇数个 1 还是偶数个 …...

工业机器人跨品牌实时控制:UAC与MPG协同方案解析

1. 项目概述&#xff1a;当工业机器人说同一种语言 去年在汽车装配车间调试产线时&#xff0c;我遇到一个典型痛点&#xff1a;六台来自不同厂商的机械臂需要协同完成车门焊接任务&#xff0c;但每台设备都有专属控制协议。操作员不得不在五个不同品牌的示教器间来回切换&#…...

别再只讲概念了!用Linux iptables手把手搭建一个真实的DMZ服务器(附SNAT/DNAT规则详解)

实战指南&#xff1a;用Linux iptables构建企业级DMZ安全架构 在数字化转型浪潮中&#xff0c;企业对外服务的安全隔离成为刚需。我曾为多家初创公司部署过DMZ方案&#xff0c;发现90%的安全事故源于错误的网络边界配置。本文将分享如何用iptables这个"瑞士军刀"搭建…...

Windows 10下保姆级教程:用Anaconda和CUDA搞定WhisperX语音识别本地部署

Windows 10下零基础部署WhisperX语音识别&#xff1a;从环境配置到实战应用 语音识别技术正在改变我们与设备交互的方式&#xff0c;而WhisperX作为开源领域的佼佼者&#xff0c;以其高准确率和多语言支持成为开发者的热门选择。本文将带你从零开始&#xff0c;在Windows 10系统…...

新手开发者首次接入大模型API可能遇到的常见问题与排查思路

新手开发者首次接入大模型API可能遇到的常见问题与排查思路 1. 获取与配置API Key 在Taotoken平台创建API Key是接入的第一步。常见问题包括密钥未正确保存或配置错误。登录Taotoken控制台后&#xff0c;在「API密钥」页面点击「新建密钥」&#xff0c;系统会生成一串以sk-开…...

信创环境下,手把手教你用RPM包在CentOS 7上部署Nebula Graph 3.6.0单机版

信创环境下Nebula Graph 3.6.0单机部署实战指南 在数字化转型浪潮中&#xff0c;图数据库凭借其强大的关联数据处理能力&#xff0c;正成为金融风控、社交网络、知识图谱等场景的核心基础设施。随着国产化进程加速&#xff0c;越来越多的企业面临技术选型的新课题&#xff1a;如…...

别再手动写用例了!用Excel+Python快速生成1100条资产管理系统测试用例(附模板)

用ExcelPython实现资产管理系统测试用例自动化生成实战 测试工程师们常常面临一个共同痛点&#xff1a;面对功能模块繁杂的企业级系统&#xff08;如资产管理系统&#xff09;&#xff0c;手工编写测试用例不仅耗时耗力&#xff0c;还难以保证覆盖率和规范性。本文将分享一套基…...

宇宙学模拟中CGD建模的挑战与改进方法

1. 宇宙学模拟中的CGD建模挑战在当代宇宙学研究中&#xff0c;数值模拟已成为探索大尺度结构形成与演化的核心工具。其中&#xff0c;星系团气体密度分布&#xff08;Circumgalactic Gas Density&#xff0c;简称CGD&#xff09;的精确建模尤为关键&#xff0c;它直接影响着我们…...

Awesome ChatGPT Store安全指南:保护你的定制GPTs指令不被泄露

Awesome ChatGPT Store安全指南&#xff1a;保护你的定制GPTs指令不被泄露 【免费下载链接】awesome-chatgpt-store A curated list of awesome GPTs in the GPT Store 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-chatgpt-store 在当今AI驱动的数字时代&…...

RTOS共享服务运行时安全创建技术解析

1. RTOS共享服务创建的传统困境与挑战在嵌入式实时操作系统(RTOS)开发中&#xff0c;任务间通信和资源共享是核心需求。互斥锁(mutex)、消息队列(queue)、信号量(semaphore)等共享服务的创建与管理方式&#xff0c;直接影响系统的可靠性、可维护性和扩展性。传统的主从式(Maste…...

Qwen2.5为何难部署?显存与依赖版本避坑指南

Qwen2.5为何难部署&#xff1f;显存与依赖版本避坑指南 通义千问2.5-7B-Instruct大型语言模型 二次开发构建by113小贝 1. 引言&#xff1a;Qwen2.5的部署挑战 Qwen2.5作为通义千问系列的最新版本&#xff0c;在知识量、编程能力和数学推理方面都有显著提升&#xff0c;支持超过…...