0基础学习PyFlink——模拟Hadoop流程
学习大数据还是绕不开始祖级别的技术hadoop。我们不用了解其太多,只要理解其大体流程,然后用python代码模拟主要流程来熟悉其思想。
还是以单词统计为例,如果使用hadoop流程实现,则如下图。

为什么要搞这么复杂呢?
顾名思义,“大数据”意味着庞大的数据量需要计算。提升计算效率的方法无非如下:
- 更高效的算法
- 更高频率的处理器
- 更多的可并行执行的流程
- 更多的处理器
“更多的可并行执行的流程”意味着不同计算流程之间数据不存在前后依赖,这个也是GPU计算的基础。在这个前提下,我们又有足够多的处理器,则可以提升计算的并行度,大大缩短计算的时间。
沿着这个思路,我们该怎么做呢?
- 切分原始数据到符合计算的最小单元。
- 组合最小计算单元为可并行处理的数据单元。
- 执行并行计算。
以上图所表达的数据为例。
我们有一个一维数组,元素分别是“A C B”,"A E B"和“E C D”。

我们可以把它分成三个独立的数组



这三个独立的数组可以再切分,这个切分可以并行执行,因为每组的切分和其他组没有任何关系。
[
[A,C,B]
[A,E,B]
[E,C,D]
]

作为一种通用的框架,需要协调好内部数据之间传输的格式。MapReduce正如其名,选择了Map结构来存储中间数据。如下图,切分后的字母为Key,Value是1(可以是个随意值)。

如上图,Map操作包括了Splitting和Mapping,它们将原始数据处理成若干个最小计算单元,且这个单元是内部通用结构map。
Mapping完的结构不适合高效的并行计算,因为数据存在关联关系。比如我们计算A的个数,则需要同时依赖第一组和第二组数据,没办法最大并行优化。
为了增加后续计算的可并行性,Reduce操作将这些最小计算单元归类(Shuffling&Sorting )。这个归类的过程的输入是一个个map,输出还是map。再次呼应了MapReduce的名字。

现在每组数据可以被独立分配到一个处理器上去计算了,因为它不依赖任何其他数据。比如计算A的个数,我们只要让一个处理器关注第一条数据,其他条数据根本不用关心。
最后的Reducing再将上述数据并行计算,它的输入和输出还是map,再次呼应MapReduce的名称。

基于上面的拆解,我们使用python实现逻辑如下。需要注意的是,在流程中,我们传递的都是dict结构(map,即key value对)。
input = ["A C B","A E B","E C D",
]def split_map_shuffle_reduce(input):# splittingwordsSplitMap = {}for (i, line) in zip(range(len(input)), input):wordsSplitMap[i] = line.split()# {0: ['A', 'C', 'B'], 1: ['A', 'E', 'B'], 2: ['E', 'C', 'D']}# mappingwords = {}for (i, wordsOneline) in zip(range(len(wordsSplitMap.values())), wordsSplitMap.values()):words[i] = map(lambda word: (word,1), wordsOneline)# {0: {'A': 1,'C': 1, 'B': 1}, 1: {'A': 1,'E': 1, 'B': 1}, 2: {'E': 1,'C': 1, 'D': 1}}# shufflingshuffle_sort_words = {}for wordmap in words.values():for word in wordmap:shuffle_sort_words.setdefault(word[0], []).append(word[1])# {'A': [1, 1], 'C': [1, 1], 'B': [1, 1], 'E': [1, 1], 'D': [1]}# reducingwordCount = {}for word, count in shuffle_sort_words.items():wordCount.update({word: sum(count)})# {'A': 2, 'C': 2, 'B': 2, 'E': 2, 'D': 1}return wordCountoutput = split_map_shuffle_reduce(input)
print(output)
{‘A’: 2, ‘C’: 2, ‘B’: 2, ‘E’: 2, ‘D’: 1}
参考资料
- https://www.whizlabs.com/blog/understanding-mapreduce-in-hadoop-know-how-to-get-started/
- https://www.tutorialspoint.com/map_reduce/map_reduce_introduction.htm
相关文章:
0基础学习PyFlink——模拟Hadoop流程
学习大数据还是绕不开始祖级别的技术hadoop。我们不用了解其太多,只要理解其大体流程,然后用python代码模拟主要流程来熟悉其思想。 还是以单词统计为例,如果使用hadoop流程实现,则如下图。 为什么要搞这么复杂呢? 顾…...
【无人机】太阳能伪卫星VoLTE无人机设计(Matlab代码实现)
💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...
2023.10.20 LED驱动
驱动程序 #include<linux/init.h> #include<linux/module.h> #include<linux/fs.h> #include<linux/uaccess.h> #include<linux/io.h> #include"head.h"unsigned int major; unsigned int *vir_moder; unsigned int *vir_odr; unsign…...
【力扣刷题】回文链表、环形链表、合并两个有序链表
🐌个人主页: 🐌 叶落闲庭 💨我的专栏:💨 c语言 数据结构 javaEE 操作系统 Redis 石可破也,而不可夺坚;丹可磨也,而不可夺赤。 刷题篇 一、回文链表1.1 题目描述1.2 思路分…...
linux错误处理函数
linux c之perror、exit_perror与exit-CSDN博客 linux网络编程(三) TCP通信时序与多进程/线程并发服务器的编写-阿里云开发者社区 函数简介篇——错误处理函数:errno值、perror()、streeor()、streeor_r()_惺忪牛犊子的博客-CSDN博客...
vue2技能树(5)-条件渲染和列表渲染
目录 Vue 2 条件渲染详解v-if 和 v-else 指令项目示例 v-show 指令项目示例 v-if 和 v-show 的区别v-if 和 v-else-if 指令项目示例 Vue 2 列表渲染详解v-for 指令项目示例 计算属性和方法项目示例 v-bind:key项目示例 使用对象的v-for项目示例 v-for 的索引项目示例 …...
MySQL基本操作之创建数据库
1、大小写敏感 一般大家都默认使用:小写 在MySQL中,大小写敏感性有两个方面的规定:lower_case_file_system和lower_case_table_names。 lower_case_file_system:指定操作系统文件系统是否对大小写敏感。 当设置为ON时,表示文件系统对大小写不敏感;当设置为OFF时,表示…...
8.对象贴地
愿你出走半生,归来仍是少年! 在场景中,有时候需要对地物(房屋、楼宇)进行贴地处理,或者说相对地面高度(井盖、井室)进行设置。 通过自定义的Terrain切片以及影像瓦片构建的三维场景应该如何获取…...
AWS Lambda – 函数版本,别名,API网关,CodeDeploy协同
Hello大家好,我们今天继续讨论AWS Lambda的内容。 Lambda函数的版本 Lambda函数的版本和别名是辅助资源,我们可以通过创建这些资源管理函数的部署和调用。 首先,让我们来看一下Lambda 函数版本的概念。您可以使用版本来管理函数的部署。例…...
flutter doctor检测环境,出现CocoaPods installed but not working
1. 安装flutter, 地址: 安装和环境配置 - Flutter 中文文档 - Flutter 中文开发者网站 - Flutter 2. 安装成功后,通过flutter doctor检测环境。以mac为例,出现了CocoaPods installed but not working 错误提示时,以下为解决方案: 2.1 rvm i…...
Python 条件和 if 语句
Python支持来自数学的通常逻辑条件: 等于:a b不等于:a ! b小于:a < b小于或等于:a < b大于:a > b大于或等于:a > b 这些条件可以以多种方式使用,最常见的是在"i…...
行业领先的三个企业正在利用聊天机器人变得更强
聊天机器人已成为客户服务领域的革命者,深刻地改变了企业与客户互动的方式。这些虚拟助手简化了交互,提供了24/7全天候高效和个性化的支持。凭借先进的技术和自然语言处理能力,聊天机器人擅长快速处理查询。 效率是聊天机器人的关键优势。它…...
「Git|场景案例」从项目中删除之前commit过的文件并且让git不追踪删除操作
本文主要介绍如何在git中删除文件但是让git不追踪这些删除操作 文章目录 场景说明解决方案删除一个文件删除一个文件夹以及子文件夹 场景说明 自己在使用react开发一个包含大量媒体文件的网站时,项目初期临时将这些媒体文件都放在项目中,直接使用访问本…...
一款.NET Core开源的基于Vue+ElementUI开发的博客系统 - StarBlog
前言 今天给大家推荐一款.NET Core开源的基于VueElementUI开发的博客系统 - StarBlog。该项目配套详细的文章教程,可以作为 .Net Core 入门项目学习。 官方项目介绍 StarBlog支持Markdown导入的博客。后端基于最新的.Net6和Asp.Net Core框架,遵循REST…...
用git stash暂存修改
git stash命令用于保存当前工作目录的临时状态,包括暂存区和已修改但未暂存的文件。它会将这些修改保存在一个临时区域(即“堆栈”)中,让你能够回到一个干净的工作目录,可以进行其他操作。等到你完成其他任务后&#x…...
一个适合练手的接口测试实战项目——慕慕生鲜
前言 最近很多粉丝找小月要接口测试项目练练手,看看实力!今天,它来了 慕慕生鲜,完整版,文末有福利! 干货来咯,收藏好! 1. 接口测试需求分析 常见接口文档提供的两种方式 ①wor…...
window10/11 光学系统建模之Light Tools8.6 软件安装教程(亲测可用+附带免费资源可直接下载)
1.下载链接 (免费分享) 链接:https://pan.baidu.com/s/1qVubyRSC93xT-GKeK-k3ow 提取码:vkho 2.安装顺序 即按照图里的1234的顺序先安装完注册表,驱动,和lighttools的程序 我个人在win10系统安装这些程…...
Vue3+ElementPlus el-date-picker时间选择器,设置最多选择60天区间内,必须选择大于今天
Vue3ElementPlus el-date-picker时间选择设置, 必须选择大于今天;最多选择60天区间内; 使用disabled-date: 具体实现代码: <el-date-pickerv-model"state.queryParams.dateTime":editable"false&q…...
2022年亚太杯APMCM数学建模大赛B题高速列车的优化设计求解全过程文档及程序
2022年亚太杯APMCM数学建模大赛 B题 高速列车的优化设计 原题再现: 2022年4月12日,中国高铁复兴号CR450动车组在开放线上成功实现单车时速435公里,相对速度870公里,创造了高铁动车组列车穿越开放线和隧道速度的世界纪录。新一代…...
OSI网络分层模型
OSI英文全文是Open System Interconnection Reference Model,翻译成中文就是开放式系统互联通信参考模型。 OSI模型分成了七层,部分层次与 TCP/IP 很像,从下到上分别是: 第一层:物理层,网络的物理形式&…...
基于AI-Scientist-V3的列车窗景实时生成技术实践
1. 项目背景与目标拆解去年NanoBanana 2团队在Siggraph Asia上展示的"Window Seat"项目让我眼前一亮——这个通过生成式AI重构列车窗景的创意,完美融合了计算机视觉与场景理解技术。最近拿到AI-Scientist-V3模型后,我决定用开源方案复现这个经…...
从WCGW项目看编程陷阱:反模式案例库的构建与团队实践
1. 项目概述:一个“What Could Go Wrong”的现代寓言在开源世界里,项目名称往往像一扇窗户,暗示着其背后的意图与精神。当我第一次在GitHub上看到rusiaaman/wcgw这个仓库时,它的名字立刻引起了我的注意。wcgw,一个在程…...
3个关键场景下彻底清理显卡驱动的专业方案:Display Driver Uninstaller实战指南
3个关键场景下彻底清理显卡驱动的专业方案:Display Driver Uninstaller实战指南 【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/disp…...
如何构建智能游戏助手:MAA明日方舟自动化工具深度解析
如何构建智能游戏助手:MAA明日方舟自动化工具深度解析 【免费下载链接】MaaAssistantArknights 《明日方舟》小助手,全日常一键长草!| A one-click tool for the daily tasks of Arknights, supporting all clients. 项目地址: https://git…...
S32K146 ADC实战:从EB Tresos配置到数据读取,一个真实电池电压采集项目的完整流程
S32K146 ADC实战:从EB Tresos配置到数据读取,一个真实电池电压采集项目的完整流程 在嵌入式系统开发中,电池电压监测是一个基础但至关重要的功能。无论是新能源汽车的BMS系统,还是便携式设备的电源管理,精准的电压采集…...
STM32+OLED+DHT11:做一个能显示温湿度的迷你气象站(开源硬件清单)
STM32OLEDDHT11:打造高性价比桌面气象站的完整指南 从零开始构建你的迷你气象站 去年夏天,我在工作室调试设备时,发现窗台上的植物总是蔫蔫的。直到偶然用温湿度计测量才发现,这个角落的湿度比房间其他位置低了近30%。这个发现让我…...
CosineGate技术:基于余弦相似度的动态路由优化
1. CosineGate技术解析:基于余弦相似度的动态路由革命在深度学习领域,残差网络(ResNet)已经成为现代计算机视觉系统的基石架构。然而,传统残差网络存在一个根本性的效率问题——无论输入数据是否需要,所有残差块都必须执行完整的计…...
OpenAI Swarm框架解析:构建多智能体协作系统的核心原理与实践
1. 项目概述:从“蜂群”到“智能体协作”的范式跃迁最近在开源社区里,一个名为openai/swarm的项目悄然引起了不小的波澜。这个名字本身就充满了想象空间——“蜂群”,让人立刻联想到自然界中那些个体简单、但群体行为却异常复杂且高效的生物系…...
如何让Windows任务栏透明化:TranslucentTB完整指南
如何让Windows任务栏透明化:TranslucentTB完整指南 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB TranslucentTB是一款轻量级…...
别再傻傻分不清了!一张图看懂PON网络里的OLT、ONU和光猫到底啥关系
一图读懂PON网络:OLT、ONU和光猫的"水表家族"关系 每次看到宽带师傅在楼道里摆弄那些带着光纤的小盒子,你是否好奇过它们究竟如何把千兆网络送进你家?当听到"OLT"、"ONU"、"分光器"这些专业术语时&a…...
