当前位置：首页 > news >正文

【Hadoop】二、Hadoop MapReduce与Hadoop YARN

news 2026/5/27 9:29:01

文章目录

- 二、Hadoop MapReduce与Hadoop YARN
- - 1、Hadoop MapReduce
  - - 1.1、理解MapReduce思想
    - 1.2、Hadoop MapReduce设计构思
    - 1.3、Hadoop MapReduce介绍
    - 1.4、Hadoop MapReduce官方示例
    - 1.5、Map阶段执行流程
    - 1.6、Reduce阶段执行流程
    - 1.7、Shuffle机制
  - 2、Hadoop YARN
  - - 2.1、Hadoop YARN介绍
    - 2.2、 Hadoop YARN架构、组件
    - 2.3、程序提交YARN交互流程
    - 2.4、 YARN资源调度器Scheduler

二、Hadoop MapReduce与Hadoop YARN

1、Hadoop MapReduce

1.1、理解MapReduce思想

MapReduce的思想核心是“ 先分再合，分而治之 ”。
所谓“分而治之”就是把一个复杂的问题，按照一定的“分解”方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，然后把各部分的结果组成整个问题的最终结果。
这种思想来源于日常生活与工作时的经验。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。
Map表示第一阶段，负责“拆分”：即把复杂的任务分解为若干个“简单的子任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。
Reduce表示第二阶段，负责“合并”：即对map阶段的结果进行全局汇总。
这两个阶段合起来正是MapReduce思想的体现。
一个比较形象的语言解释MapReduce

要数停车场中的所有停放车的总数量。

你数第一列，我数第二列…这就是Map阶段，人越多，能够同时数车的人就越多，速度就越快。

数完之后，聚到一起，把所有人的统计数加在一起。这就是Reduce合并汇总阶段。

1.2、Hadoop MapReduce设计构思

（ 1 ）如何对付大数据处理场景

对相互间不具有计算依赖关系的大数据计算任务，实现并行最自然的办法就是采取MapReduce分而治之的策略。
首先Map阶段进行拆分，把大数据拆分成若干份小数据，多个程序同时并行计算产生中间结果；然后是Reduce聚合阶段，通过程序对并行的结果进行最终的汇总计算，得出最终的结果。
不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算！

（ 2 ）构建抽象编程模型

MapReduce借鉴了函数式语言中的思想，用 Map 和 Reduce 两个函数提供了高层的并行编程抽象模型。
map: 对一组数据元素进行某种重复式的处理；
reduce: 对Map的中间结果进行某种进一步的结果整理。
MapReduce中定义了如下的Map和Reduce两个抽象的编程接口，由用户去编程实现:
map: (k1; v1) → (k2; v2)
reduce: (k2; [v2]) → (k3; v3)
通过以上两个编程接口，大家可以看出MapReduce处理的数据类型是 <key,value>键值对 。

（ 3 ）统一架构、隐藏底层细节

如何提供统一的计算框架，如果没有统一封装底层细节，那么程序员则需要考虑诸如数据存储、划分、分发、结果收集、错误恢复等诸多细节；为此，MapReduce设计并提供了统一的计算框架，为程序员隐藏了绝大多数系统层面的处理细节。
MapReduce最大的亮点在于通过抽象模型和计算框架把需要 做什么(what need to do) 与具体 怎么做(how to do) 分开了，为程序员提供一个抽象和高层的编程接口和框架。
程序员仅需要关心其应用层的具体计算问题，仅需编写少量的处理应用本身计算问题的业务程序代码。
至于如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来,交给计算框架去处理：从分布代码的执行，到大到数千小到单个节点集群的自动调度使用。

1.3、Hadoop MapReduce介绍

分布式计算概念

分布式计算是一种计算方法，和集中式计算是相对的。
随着计算技术的发展，有些应用需要非常巨大的计算能力才能完成，如果采用集中式计算，需要耗费相当长的时间来完成。
分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率。

MapReduce介绍

Hadoop MapReduce是一个 分布式计算框架 ，用于轻松编写分布式应用程序，这些应用程序以可靠，容错的方式并行处理大型硬件集群（数千个节点）上的大量数据（多TB数据集）。
MapReduce是一种面向海量数据处理的一种指导思想，也是一种用于对大规模数据进行分布式计算的编程模型。

MapReduce产生背景

MapReduce最早由 Google 于 2004 年在一篇名为《MapReduce:SimplifiedData Processingon Large Clusters
》的论文中提出。
论文中谷歌把分布式数据处理的过程拆分为Map和Reduce两个操作函数（受到函数式编程语言的启发），随后被Apache Hadoop参考并作为开源版本提供支持，叫做Hadoop MapReduce。
它的出现解决了人们在最初面临海量数据束手无策的问题，同时它还是 易于使用和高度可扩展 的，使得开发者无需关系分布式系统底层的复杂性即可很容易的编写分布式数据处理程序，并在成千上万台普通的商用服务器中运行。

MapReduce特点

易于编程

Mapreduce框架提供了用于二次开发的接口；简单地实现一些接口，就可以完成一个分布式程序。任务计算交给计算框架去处理，将分布式程序部署到hadoop集群上运行，集群节点可以扩展到成百上千个等。
良好的扩展性

当计算机资源不能得到满足的时候，可以通过增加机器来扩展它的计算能力。基于MapReduce的分布式计算得特点可以随节点数目增长保持近似于线性的增长，这个特点是MapReduce处理海量数据的关键，通过将计算节点增至几百或者几千可以很容易地处理数百TB甚至PB级别的离线数据。
高容错性

Hadoop集群是分布式搭建和部署得，任何单一机器节点宕机了，它可以把上面的计算任务转移到另一个节点上运行，不影响整个作业任务得完成，过程完全是由Hadoop内部完成的。
适合海量数据的离线处理

可以处理GB、TB和PB级别得数据量

MapReduce局限性

MapReduce虽然有很多的优势，也有相对得局限性，局限性不代表不能做，而是在有些场景下实现的效果比较差，并不适合用MapReduce来处理，主要表现在以下结果方面：

实时计算性能差

MapReduce主要应用于离线作业，无法作到秒级或者是亚秒级得数据响应。
不能进行流式计算

流式计算特点是数据是源源不断得计算，并且数据是动态的；而MapReduce作为一个离线计算框架，主要是针对静态数据集得，数据是不能动态变化得。

MapReduce实例进程

一个完整的MapReduce程序在分布式运行时有三类

MRAppMaster：负责整个MR程序的过程调度及状态协调
MapTask：负责map阶段的整个数据处理流程
ReduceTask：负责reduce阶段的整个数据处理流程

阶段组成

一个MapReduce编程模型中只能包含一个Map阶段和一个Reduce阶段，或者只有Map阶段；
不能有诸如多个map阶段、多个reduce阶段的情景出现；
如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序串行运行。

MapReduce数据类型

注意：整个MapReduce程序中，数据都是以kv键值对的形式流转的；
在实际编程解决各种业务问题中，需要考虑每个阶段的输入输出kv分别是什么；
MapReduce内置了很多默认属性，比如排序、分组等，都和数据的k有关，所以说kv的类型数据确定及其重要的。

1.4、Hadoop MapReduce官方示例

概述

一个最终完整版本的MR程序需要用户编写的代码和Hadoop自己实现的代码整合在一起才可以；
其中用户负责map、reduce两个阶段的业务问题，Hadoop负责底层所有的技术问题；
由于MapReduce计算引擎天生的弊端（慢），当下企业中直接使用率已经日薄西山了，所以在企业中工作很少涉及到MapReduce直接编程，但是某些软件的背后还依赖MapReduce引擎。
可以通过官方提供的示例来感受MapReduce及其内部执行流程，因为后续的新的计算引擎比如Spark，当中就有MapReduce深深的影子存在。

示例说明

示例程序路径：/export/server/hadoop-3.3.0/share/hadoop/mapreduce/
示例程序：hadoop-mapreduce-examples-3.3.0.jar
MapReduce程序提交命令： [hadoop jar|yarn jar] hadoop-mapreduce-examples-3.3.0.jar args…
提交到哪里去？提交到YARN集群上分布式执行

案例评估圆周率π（PI）的值

圆周率π大家都不陌生，如何去估算π的值呢？
Hadoop MapReduce示例提供了Monte Carlo方法计算圆周率。

Monte Carlo方法

假设正方形边长为 1 ，圆半径也为 1 ，那么1/4圆的面积为：

在正方形内随机撒点，分布于1/4圆内的数量假设为a ，分布于圆外的数量为b，N则是所产生的总数：N=a+b，那么数量a与N的比值应与1/4圆面积及正方形面积成正比，于是：
运行MapReduce程序评估一下圆周率的值，执行中可以去YARN页面上观察程序的执行的情况。

第一个参数：pi表示MapReduce程序执行圆周率计算任务；

第二个参数：用于指定map阶段运行的任务task次数，并发度，这里是 10 ；

第三个参数：用于指定每个map任务取样的个数，这里是 50 。

案例 wordcount单词词频统计

WordCount中文叫做单词统计、词频统计；
指的是统计指定文件中，每个 单词出现的总次数 。

WordCount概述

WordCount算是大数据计算领域经典的入门案例，相当于Hello World。
虽然WordCount业务极其简单，但是希望能够通过案例感受背后MapReduce的执行流程和默认的行为机制，这才是关键。

WordCount编程实现思路

map阶段的核心：把输入的数据经过切割，全部标记 1 ，因此输出就是<单词，1>。
shuffle阶段核心：经过MR程序内部自带默认的排序分组等功能，把key相同的单词会作为一组数据构成新的kv对。
reduce阶段核心：处理shuffle完的一组数据，该组数据就是该单词所有的键值对。对所有的 1 进行累加求和，就是单词的总次数。

WordCount程序提交

上传文本文件1.txt到HDFS文件系统的/input目录下，如果没有这个目录，使用shell创建

hadoop fs -mkdir /input

hadoop fs -put 1.txt /input
准备好之后，执行官方MapReduce实例，对上述文件进行单词次数统计

第一个参数：wordcount表示执行单词统计任务；

第二个参数：指定输入文件的路径；

第三个参数：指定输出结果的路径（该路径不能已存在）；
```
[root@node1 mapreduce] # pwd
/export/server/hadoop-3.3.0/share/hadoop/mapreduce 
[root@node1 mapreduce]# hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount/input /output
```

WordCount执行结果

在这里插入图片描述

1.5、Map阶段执行流程

WordCount执行流程图

在这里插入图片描述

MapReduce整体执行流程图

在这里插入图片描述

Map阶段执行过程

第一阶段：把输入目录下文件按照一定的标准逐个进行 逻辑切片 ，形成切片规划。

默认Split size = Block size（128M），每一个切片由一个MapTask处理。（getSplits）
第二阶段：对切片中的数据按照一定的规则读取解析返回<key,value>对。

默认是 按行读取数据 。key是每一行的起始位置偏移量，value是本行的文本内容。（TextInputFormat）
第三阶段：调用Mapper类中的 map方法处理数据 。

每读取解析出来的一个<key,value> ，调用一次map方法。
第四阶段：按照一定的规则对Map输出的键值对进行 分区partition 。默认不分区，因为只有一个reducetask。分区的数量就是reducetask运行的数量。
第五阶段：Map输出数据写入 内存缓冲区 ，达到比例溢出到磁盘上。 溢出spill 的时候根据key进行 排序sort 。默认根据key字典序排序。
第六阶段：对所有溢出文件进行最终的 merge合并 ，成为一个文件。

1.6、Reduce阶段执行流程

MapReduce整体执行流程图

在这里插入图片描述

Reduce阶段执行过程

第一阶段：ReduceTask会主动从MapTask 复制拉取 属于需要自己处理的数据。
第二阶段：把拉取来数据，全部进行 合并merge ，即把分散的数据合并成一个大的数据。再对合并后的数据排序。
第三阶段是对排序后的键值 对调用reduce方法 。键相等的键值对调用一次reduce方法。最后把这些输出的键值对写入到HDFS文件中。

1.7、Shuffle机制

shuffle概念

Shuffle 的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。
而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。
一般把从 Map产生输出开始到Reduce取得数据作为输入之前的过程称作shuffle 。

Map端Shuffle

Collect阶段：将MapTask的结果收集输出到默认大小为100M的环形缓冲区，保存之前会对key进行分区的计算，默认Hash分区。
Spill阶段：当内存中的数据量达到一定的阀值的时候，就会将数据写入本地磁盘，在将数据写入磁盘之前需要对数据进行一次排序的操作，如果配置了combiner，还会将有相同分区号和key的数据进行排序。
Merge阶段：把所有溢出的临时文件进行一次合并操作，以确保一个MapTask最终只产生一个中间数据文件。

Reducer端shuffle

Copy阶段：ReduceTask启动Fetcher线程到已经完成MapTask的节点上复制一份属于自己的数据。
Merge阶段：在ReduceTask远程复制数据的同时，会在后台开启两个线程对内存到本地的数据文件进行合并操作。
Sort阶段：在对数据进行合并的同时，会进行排序操作，由于MapTask阶段已经对数据进行了局部的排序，ReduceTask只需保证Copy的数据的最终整体有效性即可。

shuffle机制弊端

Shuffle是MapReduce程序的核心与精髓，是MapReduce的灵魂所在。
Shuffle也是MapReduce被诟病最多的地方所在。MapReduce相比较于Spark、Flink计算引擎慢的原因，跟
Shuffle机制有很大的关系。
Shuffle中 频繁涉及到数据在内存、磁盘之间的多次往复 。

2、Hadoop YARN

2.1、Hadoop YARN介绍

YARN简介

Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的Hadoop资源管
理器。
YARN是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度。
它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

YARN功能说明

资源管理系统 ：集群的硬件资源，和程序运行相关，比如内存、CPU等。
调度平台 ：多个程序同时申请计算资源如何分配，调度的规则（算法）。
通用：不仅仅支持MapReduce程序，理论上支持各种计算程序。YARN不关心你干什么，只关心你要资源，在有的情况下给你，用完之后还我。

YARN概述

可以把Hadoop YARN理解为相当于一个分布式的操作系统平台，而MapReduce等计算程序则相当于运行于操作系统之上的应用程序，YARN为这些程序提供运算所需的资源（内存、CPU等）。
Hadoop能有今天这个地位，YARN可以说是功不可没。因为有了YARN ，更多计算框架可以接入到HDFS中，而不单单是MapReduce，正是因为YARN的包容，使得其他计算框架能专注于计算性能的提升。
HDFS可能不是最优秀的大数据存储系统，但却是应用最广泛的大数据存储系统，YARN功不可没。

2.2、 Hadoop YARN架构、组件

YARN官方架构图

在这里插入图片描述

官方架构图中出现的概念

在这里插入图片描述

YARN3大组件

ResourceManager（RM）
YARN集群中的主角色，决定系统中所有应用程序之间 资源分配的最终权限，即最终仲裁者 。
接收用户的作业提交，并通过NM分配、管理各个机器上的计算资源。
NodeManager（NM）
YARN中的从角色，一台机器上一个，负责 管理本机器上的计算资源 。
根据RM命令，启动Container容器、监视容器的资源使用情况。并且向RM主角色汇报资源使用情况。
ApplicationMaster（AM）
用户提交的每个应用程序均包含一个AM。
应用程序内的“老大” ，负责程序内部各阶段的资源申请，监督程序的执行情况。

2.3、程序提交YARN交互流程

核心交互流程

MR作业提交 Client-- >RM
资源的申请 MrAppMaster-- >RM
MR作业状态汇报 Container（Map|Reduce Task）–>Container（MrAppMaster）
节点的状态汇报 NM-- >RM

整体概述

当用户向YARN 中提交一个应用程序后，YARN将分两个阶段运行该应用程序。

第一个阶段是 客户端申请资源启动运行本次程序的ApplicationMaster ；
第二个阶段是由 ApplicationMaster根据本次程序内部具体情况，为它申请资源，并监控它的整个运行过程 ，直到运行完成。

MR提交YARN交互流程

第 1 步 、用户通过客户端向YARN中ResourceManager提交应用程序（比如hadoop jar提交MR程序）；
第 2 步 、ResourceManager为该应用程序分配第一个Container（容器），并与对应的NodeManager通信，要求它在这个Container中启动这个应用程序的ApplicationMaster。
第 3 步 、ApplicationMaster启动成功之后，首先向ResourceManager注册并保持通信，这样用户可以直接通过ResourceManage查看应用程序的运行状态（处理了百分之几）;
第 4 步 、AM为本次程序内部的各个Ta s k任务向RM申请资源，并监控它的运行状态;
第 5 步 、一旦ApplicationMaster 申请到资源后，便与对应的NodeManager 通信，要求它启动任务。
第 6 步 、NodeManager 为任务设置好运行环境后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。
第 7 步 、各个任务通过某个RPC 协议向ApplicationMaster 汇报自己的状态和进度，以让ApplicationMaster 随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。在应用程序运行过程中，用户可随时通过RPC 向ApplicationMaster 查询应用程序的当前运行状态。
第 8 步 、应用程序运行完成后，ApplicationMaster 向ResourceManager 注销并关闭自己。

2.4、 YARN资源调度器Scheduler

如何理解资源调度

在理想情况下，应用程序提出的请求将立即得到YARN批准。但是实际中，资源是有限的，并且在繁忙的群集上，应用程序通常将需要等待其某些请求得到满足。YARN调度程序的工作是 根据一些定义的策略为应用程序分配资源。
在YARN中，负责给应用分配资源的就是 Scheduler ，它是ResourceManager的核心组件之一。Scheduler完全专用于调度作业，它无法跟踪应用程序的状态。
一般而言，调度是一个难题，并且没有一个“最佳”策略，为此，YARN提供了多种调度器和可配置的策略供选择。

调度器策略

三种调度器

FIFO Scheduler（先进先出调度器）、Capacity Scheduler（容量调度器）、Fair Scheduler（公平调度器）。
Apache版本YARN默认使用Capacity Scheduler。
如果需要使用其他的调度器，可以在yarn-site.xml中的yarn.resourcemanager.scheduler.class进行配置。

FIFO Scheduler概述

FIFO Scheduler 是Hadoop1.x中JobTracker原有的调度器实现，此调度器在YARN中保留了下来。
FIFO Scheduler是一个先进先出的思想，即先提交的应用先运行。调度工作不考虑优先级和范围，适用于负载较低的小规模集群。当使用大型共享集群时，它的效率较低且会导致一些问题。
FIFO Scheduler拥有一个控制全局的队列queue，默认queue名称为default，该调度器会获取当前集群上所有的资源信息作用于这个全局的queue。
优势：

无需配置、先到先得、易于执行
坏处：

任务的优先级不会变高，因此高优先级的作业需要等待不适合共享集群

Capacity Scheduler概述

Capacity Scheduler容量调度是Apache Hadoop3.x默认调度策略。该策略允许 多个组织共享整个集群资源 ，每个组织可以获得集群的一部分计算能力。 通过为每个组织分配专门的队列，然后再为每个队列分配一定的集群资源 ，这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。
Capacity可以理解成一个个的资源队列，这个资源队列是用户自己去分配的。队列内部又可以垂直划分，这样一个组织内部的多个成员就可以共享这个队列资源了，在一个队列内部，资源的调度是采用的是先进先出(FIFO)策略。
Capacity Scheduler调度器以队列为单位划分资源。简单通俗点来说，就是一个个队列有独立的资源，队列的结构和资源是可以进行配置的。
Capacity Scheduler资源队列划分
Capacity Scheduler特性优势
- 层次化的队列设计（Hierarchical Queues）
  
  层次化的管理，可以更容易、更合理分配和限制资源的使用。
- 容量保证（Capacity Guarantees）
  
  每个队列上都可以设置一个资源的占比，保证每个队列都不会占用整个集群的资源。
- 安全（Security）
  
  每个队列有严格的访问控制。用户只能向自己的队列里面提交任务，而且不能修改或者访问其他队列的任务。
- 弹性分配（Elasticity）
  
  空闲的资源可以被分配给任何队列。
  
  当多个队列出现争用的时候，则会按照权重比例进行平衡。

Fair Scheduler概述

Fair Scheduler叫做公平调度，提供了YARN应用程序公平地共享大型集群中资源的另一种方式。使所有应用在平均情况下随着时间的流逝可以获得相等的资源份额。
Fair Scheduler设计目标是为所有的应用分配公平的资源（对公平的定义通过参数来设置）。
公平调度可以在多个队列间工作，允许资源共享和抢占。

如何理解公平共享

有两个用户A和B，每个用户都有自己的队列。

A启动一个作业，由于没有B的需求，它分配了集群所有可用的资源。
然后B在A的作业仍在运行时启动了一个作业，经过一段时间，A,B各自作业都使用了一半的资源。
现在，如果B用户在其他作业仍在运行时开始第二个作业，它将与B的另一个作业共享其资源，因此B的每个作业将拥有资源的四分之一，而A的继续将拥有一半的资源。结果是资源在用户之间公平地共享。

Fair Scheduler特性优势

分层队列 ：队列可以按层次结构排列以划分资源，并可以配置权重以按特定比例共享集群。
基于用户或组的队列映射 ：可以根据提交任务的用户名或组来分配队列。如果任务指定了一个队列,则在该队列中提交任务。
资源抢占 ：根据应用的配置，抢占和分配资源可以是友好的或是强制的。默认不启用资源抢占。
保证最小配额 ：可以设置队列最小资源，允许将保证的最小份额分配给队列，保证用户可以启动任务。当队列不能满足最小资源时,可以从其它队列抢占。当队列资源使用不完时,可以给其它队列使用。这对于确保某些用户、组或生产应用始终获得足够的资源。
允许资源共享 ：即当一个应用运行时,如果其它队列没有任务执行,则可以使用其它队列,当其它队列有应用需要资源时再将占用的队列释放出来。所有的应用都从资源队列中分配资源。
默认不限制每个队列和用户可以同时运行应用的数量 。可以配置来限制队列和用户并行执行的应用数量。限制并行执行应用数量不会导致任务提交失败,超出的应用会在队列中等待。

【Hadoop】二、Hadoop MapReduce与Hadoop YARN

文章目录二、Hadoop MapReduce与Hadoop YARN1、Hadoop MapReduce1.1、理解MapReduce思想1.2、Hadoop MapReduce设计构思1.3、Hadoop MapReduce介绍1.4、Hadoop MapReduce官方示例1.5、Map阶段执行流程1.6、Reduce阶段执行流程1.7、Shuffle机制 2、Hadoop YARN2.1、Hadoop YARN…...

编程日记 2023/5/31 23:35:24

Python教程：文件I/O的用法

本章只讲述所有基本的的I/O函数，更多函数请参考Python标准文档。 1.打印到屏幕最简单的输出方法是用print语句，你可以给它传递零个或多个用逗号隔开的表达式。此函数把你传递的表达式转换成一个字符串表达式，并将结果写到标准输出如下&…...

编程日记 2023/5/31 23:37:28

序员工作1年，每天上班清闲，但却焦虑万分，若是你，你会吗?

有个学弟在后台留言他谈到了自己去年毕业的因为在大学里边有一些校企合作所以呢他也是花了钱然后去培训了有半年去年毕业之后到现在工作有一年了那目前的薪资是8,000块钱虽然说相较于其他同学呢这个薪资呢还算可以但是呢自己每天现在就处于一种非常压抑的那种状态所…...

编程日记 2023/5/30 19:37:47

Bed Bath and Beyond EDI 需求分析

Bed Bath and Beyond（Bed Bath and Beyond）是一家美国的家居用品零售商，成立于1971年，总部位于新泽西州Union。该公司在美国、加拿大和墨西哥拥有超过1500家门店。其产品涵盖了床上用品、浴室用品、厨房用品、家居装饰等领域&…...

编程日记 2023/5/21 19:39:40

【5.20】五、安全测试——渗透测试

目录 5.3 渗透测试 5.3.1 什么是渗透测试 5.3.2 渗透测试的流程 5.3 渗透测试 5.3.1 什么是渗透测试渗透测试是利用模拟黑客攻击的方式，评估计算机网络系统安全性能的一种方法。这个过程是站在攻击者角度对系统的任何弱点、技术缺陷或漏洞进行主动分析&#x…...

编程日记 2023/5/31 16:50:51

java版鸿鹄工程项目管理系统 Spring Cloud+Spring Boot+前后端分离构建工程项目管理系统源代码

鸿鹄工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离构建工程项目管理系统 1. 项目背景一、随着公司的快速发展，企业人员和经营规模不断壮大。为了提高工程管理效率、减轻劳动强度、提高信息处理速度和准确性，公司对内部工程管…...

编程日记 2023/5/21 19:29:37

大语言模型架构设计

【大模型慢学】GPT起源以及GPT系列采用Decoder-only架构的原因探讨 - 知乎本文回顾GPT系列模型的起源论文并补充相关内容，中间主要篇幅分析讨论为何GPT系列从始至终选择采用Decoder-only架构。本文首发于微信公众号，欢迎关注：AI推公式最近Ch…...

编程日记 2023/5/21 19:24:35

SpringBoot整合Swagger2，让接口文档管理变得更简单

在软件开发的过程中，接口文档的编写往往是一个非常重要的环节，因为它是前端和后端沟通的桥梁，帮助团队更好地协作。然而，手动编写接口文档不仅耗费时间，还容易出错，因此我们需要一种简单的方法来管理接口文…...

编程日记 2023/5/21 19:19:33

socket | 网络套接字、网络字节序、sockaddr结构

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和…...

编程日记 2023/5/29 23:57:45

golang-websocket

WebSocket 是一种新型的网络通信协议，可以在 Web 应用程序中实现双向通信。 WebSocket与HTTP协议的主要区别是： HTTP 和 WebSocket 协议的区别 HTTP 是单向的，而 WebSocket 是双向的。在客户端和服务器之间的通信中，每个来自客…...

编程日记 2023/5/30 10:52:28

Nginx + fastCGI 实现动态网页部署

简介本文章主要介绍下，如何通过Nginx fastCGI来部署动态网页。 CGI介绍在介绍fastCGI之前先介绍下CGI是什么。CGI : Common Gateway Interface，公共网关接口。在物理层面上是一段程序，运行在服务器上，提供同客户端HTML页面的…...

编程日记 2023/5/21 19:04:28

精彩回顾 | Fortinet Accelerate 2023·中国区巡展厦门站

Fortinet Accelerate 2023中国区 5月16日，Fortinet Accelerate 2023中国区巡展来到魅力“鹭岛”——厦门，技术、产品和业务专家，携手亚马逊云科技、唯一网络等云、网、安合作伙伴，与交通、物流、金融等各行业典型代表客户&#x…...

编程日记 2023/5/30 14:52:58

ChatGPT 和对话式 AI 的未来：2023 年的进展和应用

人工智能（Artificial Intelligence）在过去一段时间以来以前所未有的速度快速发展。从自动化日常任务到重要提醒的设定，AI以各种方式渗透到我们的生活中。然而，在这个领域中迈出的最重要一步是ChatGPT。 ChatGPT被瑞银（UBS）评为“有史以来增长最快的消费者应用程序”，于…...

编程日记 2023/5/30 14:55:00

Nginx配置WebSocket（WS）和WebSocket Secure（WSS）的完整指南

😀点点关注~ 😀点点关注~ 😀点点关注~ Nginx是一款广泛使用的高性能Web服务器和反向代理服务器。除了传统的HTTP和HTTPS协议支持外，Nginx还可以配置WebSocket（WS）和WebSocket Secure（WSS&…...

编程日记 2023/5/31 23:39:14

链表--part 1--链表基础理论（概括）

文章目录单链表双链表循环链表链表链表的定义删除节点增加节点首先什么是链表，链表是一种通过指针串联在一起的线性结构，每一个节点由两部分组成，一个是数据域一个是指针域（存放指向下一个节点的指针），最…...

编程日记 2023/5/30 20:26:18

【V2G】电动汽车接入电网优化调度研究（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…...

编程日记 2023/5/31 17:13:50

Excel中时间戳与标准日期格式的互相转换

背景在excel中将13位毫秒级别的时间戳转换为标准的日期格式(yyyy-mm-dd hh:mm:ss.000)，使用如下模板 TEXT(<source_cell>/1000/8640070*36519,"yyyy-mm-dd hh:mm:ss.000") 在excel中将10位秒级别的时间戳转换为标准的日期格式(yyyy-mm-dd hh:mm:ss…...

编程日记 2023/5/21 18:34:18

【Kafka集群】Kafka针对用户做ACL权限控制

在 Kafka 3.3.1 中，可以使用 ACL（Access Control List）控制用户对 topic 的访问权限。以下是一些基本示例： 创建一个名为 my-topic 的 topic 在命令行中执行以下命令创建一个名为 my-topic 的 topic： kafka-topics.…...

编程日记 2023/5/21 18:29:17

国内外数据安全治理框架介绍与分析

本文将介绍和分析：微软 DGPC框架，Gartner 数据安全治理框架 DSG，数据安全能力成熟度模型 DSMM 数据治理与数据安全治理系列文章 https://luozhonghua.blog.csdn.net/article/details/130417106 数据安全治理流程设计_luozhonghua2000的博客-CSDN博客数据治理解决之道探讨…...

编程日记 2023/5/21 18:24:16

【Nodejs】使用Nodejs搭建HTTP服务，并实现公网远程访问

文章目录前言1.安装Node.js环境2.创建node.js服务3. 访问node.js 服务4.内网穿透4.1 安装配置cpolar内网穿透4.2 创建隧道映射本地端口 5.固定公网地址转载自内网穿透工具的文章：使用Nodejs搭建HTTP服务，并实现公网远程访问「内网穿透」前言 Node.js…...

编程日记 2023/5/21 18:19:15

小说下载器终极指南：一站式解决100+网站小说保存难题

小说下载器终极指南：一站式解决100网站小说保存难题【免费下载链接】novel-downloader 一个可扩展的通用型小说下载器。项目地址: https://gitcode.com/gh_mirrors/no/novel-downloader 在数字阅读时代，你是否曾因小说突然下架、网站404或网络中…...

编程新知 2026/5/26 4:42:23

告别沉浸式白屏！UniApp中iOS/Android底部安全区与顶部状态栏颜色自定义全攻略

告别沉浸式白屏！UniApp中iOS/Android底部安全区与顶部状态栏颜色自定义全攻略当开发者尝试在UniApp中实现沉浸式设计时，往往会遇到一个令人头疼的问题——默认的白色安全区和状态栏导致界面元素（如电池图标、信号强度）几乎不可见。…...

编程新知 2026/5/26 3:13:58

亚马逊卖家公开信息数据提取：反爬攻防战与 Python 批量采集实战

摘要： 批量获取亚马逊（Amazon）第三方卖家的商业名称、信用代码和注册地址等信息，对于跨境 B2B 拓客和供应链分析具有重要意义。然而，亚马逊的 Cloudflare 盾和 Robot 验证码构成了极高的反爬门槛。本文将深度解析亚马逊…...

编程新知 2026/5/26 2:43:40

组态王通用扫码枪配置

使用组态王扫码枪驱动，是绑定变量，扫码后直接就可以显示扫码内容。解决每次扫码输入数据时必须先用鼠标点进输入框内的问题。驱动安装先添加驱动，亚控网站的文件为 barcodescanner，这个文件是组态王通用扫码枪的驱动，但…...

编程新知 2026/5/26 1:08:56

炉石传说自动对战助手：5分钟上手，彻底解放双手的终极指南

炉石传说自动对战助手：5分钟上手，彻底解放双手的终极指南【免费下载链接】Hearthstone-Script Hearthstone script（炉石传说脚本） 项目地址: https://gitcode.com/gh_mirrors/he/Hearthstone-Script 还在为每天重复的炉石…...

编程新知 2026/5/26 0:30:19

Windows文件夹共享

目标：同一局域网实现在一台计算机上共享文件夹，在另一台电脑访问一、电脑A 1.点击要共享的文件夹 -> 属性 -> 共享2.添加Everyone用户组3.控制面板中网络共享关闭密码保存，在访问时不用输入账号密码。二、电脑B 1.在文件资源管理器路径…...

编程新知 2026/5/25 23:39:42

PvZ Toolkit终极指南：三步掌握植物大战僵尸最强修改器

PvZ Toolkit终极指南：三步掌握植物大战僵尸最强修改器【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit PvZ Toolkit是一款专为植物大战僵尸PC版设计的综合修改器工具，能够让你…...

编程新知 2026/5/25 20:20:04

Redis 客户端连接详解

Redis 客户端连接详解引言 Redis 是一款高性能的内存数据结构存储系统，常用于缓存、会话管理、实时排行榜等功能。客户端连接是 Redis 生态系统中的重要组成部分，本文将详细介绍 Redis 客户端连接的相关知识，包括连接方式、连接配置、连接管理等方面。 Redis 客户端连接…...

编程新知 2026/5/25 17:50:39

如何快速定制Office界面：终极开源工具使用指南

如何快速定制Office界面：终极开源工具使用指南【免费下载链接】office-ribbonx-editor An overhauled fork of the original Custom UI Editor for Microsoft Office, built with WPF 项目地址: https://gitcode.com/gh_mirrors/of/office-ribbonx-editor O…...

编程新知 2026/5/25 17:50:39

昇腾NPU模型服务化——从离线模型到高可用推理服务

模型训练完只是第一步。真正产生业务价值的是把模型部署成724小时在线服务——毫秒级延迟、支持动态Batching、能扛住流量洪峰，且具备高可用性。这篇将手把手教你基于昇腾NPU构建生产级模型推理服务，涵盖框架选型、服务化架构、动态Batching优化、热加载…...

编程新知 2026/5/25 17:24:01

文章目录

二、Hadoop MapReduce与Hadoop YARN

1、Hadoop MapReduce

1.1、理解MapReduce思想

1.2、Hadoop MapReduce设计构思

1.3、Hadoop MapReduce介绍

1.4、Hadoop MapReduce官方示例

1.5、Map阶段执行流程

1.6、Reduce阶段执行流程

1.7、Shuffle机制

2、Hadoop YARN

2.1、Hadoop YARN介绍

2.2、 Hadoop YARN架构、组件

2.3、程序提交YARN交互流程

2.4、 YARN资源调度器Scheduler

相关文章：