azkaban介绍
目录
为什么需要工作流调度系统
什么是azkaban
azkaban适用场景
azkaban特点
常见的工作流调度系统
azkaban和Ooize特性对比
azkaban的架构
azkaban调度的任务有可能有那些类型
总结
为什么需要工作流调度系统
一个完整的大数据分析系统,必然由很多任务单元 (如数据收集、数据清洗、数据存储、数据分析等) 组成,所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题:
如何定时调度某个任务?
如何在某个任务执行完成后再去执行另一个任务?
如何在任务失败时候发出预警?
…
面对这些问题,工作流调度系统应运而生。Azkaban 就是其中之一。
什么是azkaban
Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。
azkaban适用场景
根据以上业务场景: (2)任务依赖(1)任务的结果,(3)任务依赖(2)任务的结果,(4)任务依赖(3)任务的结果,(5)任务依赖(4)任务的结果。一般的做法是,先执行完(1)再执行(2),再一次执行(3)(4)(5)。这样的话,整个的执行过程都需要人工参加,并且得盯着各任务的进度。但是我们的很多任务都是在深更半夜执行的,通过写脚本设置crontab执行。其实,整个过程类似于一个有向无环图(DAG)。每个子任务相当于大任务中的一个节点,也就是,我们需要的就是一个工作流的调度器,而Azkaban就是能解决上述问题的一个调度器。
azkaban特点
- 兼容任何版本的Hadoop
- 易于使用的Web用户界面
- 简单的工作流的上传
- 方便设置任务之间的关系
- 调度工作流
- 模块化和可插拔的插件机制
- 认证/授权(权限的工作)
- 能够杀死并重新启动工作流
- 有关失败和成功的电子邮件提醒
- SLA 警报和自动查杀失败任务
- 重试失败的任务
- Azkaban 的设计理念是在保证功能实现的基础上兼顾易用性,其页面风格清晰明朗,下面是其 WEB UI 界面

常见的工作流调度系统
1)简单的任务调度:直接使用crontab实现;
2)复杂的任务调度:开发调度平台或使用现成的开源调度系统,比如Ooize、Azkaban等
azkaban和Ooize特性对比
| 特性 | Hamake | Oozie |
|---|---|---|
| 工作流描述语言 | XML | XML (xPDL based) |
| 依赖机制 | data-driven | explicit |
| 是否要web容器 | NO | YES |
| 进度跟踪 | console/log messages | web page |
| Hadoop job调度支持 | no | YES |
| 运行模式 | command line utility | daemon |
| Pig支持 | yes | yes |
| 事件通知 | no | no |
| 需要安装 | no | yes |
| 支持的hadoop版本 | 0.18+ | 0.20+ |
| 重试支持 | no | workflownode evel |
| 运行任意命令 | yes | yes |
| Amazon EMR支持 | yes | no |
azkaban的架构

azkabanWebServer
azkabanWebServer是整个Azkaban工作流系统的主要管理者,它负责用户登录认证、project管理、定时执行工作流、跟踪工作流执行进度等一系列任务。
azkabanExecutorServer
负责具体的工作流的提交、执行,它们通过MySQL数据库来协调任务的执行。
关系型数据库(MySQL)
存储大部分执行流状态,azkabanWebServer和azkabanExecutorServer都需要访问数据库。
azkaban调度的任务有可能有那些类型
- shell脚本
- java程序
- MR程序
- spark程序
- hive的sql
- python脚本
- sqoop任务
总结
如果工作流不是特别复杂,推荐使用轻量级的 Azkaban,主要有以下原因:
安装方面:Azkaban 3.0 之前都是提供安装包的,直接解压部署即可。Azkaban 3.0 之后的版本需要编译,这个编译是基于 gradle 的,自动化程度比较高;
页面设计:所有任务的依赖关系、执行结果、执行日志都可以从界面上直观查看到;
配置方面:Azkaban Flow 1.0 基于 Properties 文件来定义工作流,这个时候的限制可能会多一点。但是在 Flow 2.0 就支持了 YARM。YARM 语法更加灵活简单,著名的微服务框架 Spring Boot 就采用的 YAML 代替了繁重的 XML。
相关文章:
azkaban介绍
目录 为什么需要工作流调度系统 什么是azkaban azkaban适用场景 azkaban特点 常见的工作流调度系统 azkaban和Ooize特性对比 azkaban的架构 azkaban调度的任务有可能有那些类型 总结 为什么需要工作流调度系统 一个完整的大数据分析系统,必然由很多任务单…...
自学黑客(网络安全)必学内容
随着时代的发展,经济、社会、生产、生活越来越依赖网络。而随着万物互联的物联网技术的兴起,线上线下已经打通,虚拟世界和现实世界的边界正变得模糊。这使得来自网络空间的攻击能够穿透虚拟世界的边界,直接影响现实世界的安全。 …...
Java每日一练(20230518) 移除元素、跳跃游戏II、复原IP地址
目录 1. 移除链表元素 🌟 2. 跳跃游戏 II 🌟🌟 3. 复原 IP 地址 🌟🌟 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 Java每日一练 专栏 1. 移…...
diff命令和vimdiff命令
文章目录 diff命令基本用法选项示例 vimdiff命令命令格式选项说明常用操作 diff命令 diff命令是一个文本比较工具,用于比较两个文件的内容,它会逐行比较两个文件的内容并输出它们之间的差异。下面是diff命令的常用选项和用法: 基本用法 比…...
AcWing 797.差分(C++)
目录 1.题目描述 2.AC 1.题目描述 797.差分 输入一个长度为 nn 的整数序列。 接下来输入 mm 个操作,每个操作包含三个整数 l,r,cl,r,c,表示将序列中 [l,r][l,r] 之间的每个数加上 cc。 请你输出进行完所有操作后的序列。 输入格式 第一行包含两…...
Python每日一练(20230515) 只出现一次的数字 I\II\III
目录 1. 只出现一次的数字 Single Number 2. 只出现一次的数字 II Single Number II 3. 只出现一次的数字 III Single Number III 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 Java每日一练 专栏 leetcod…...
基于【EasyDL】【图像分类】实现农作物病害识别小程序
内容、数据集来源:基于飞桨的农作物病害智能识别系统 - 飞桨AI Studio 项目背景 联合国粮食及农业组织的一份报告表明,每年农业生产的自然损失中有三分之一以上是由农业病虫害造成的,使这些成为当前影响农业生产和农业生产的最重要因素。需要考虑的农业…...
元宇宙又“死”了!Epic老板:你当6亿用户是摆设?
“扎克伯格花了数年时间试图让Metaverse成为现实,但现在它已被AI取代,并走向科技创意的坟墓。”一篇表达“元宇宙已死”的文章近期在推特上引发热议,而游戏制作公司Epic Games CEO Tim Sweeney的还击更是让这个话题热上加热。 “搞一次在线守…...
阶段小结2022
工作马上一年,对于一年工作能力提升可能逐步在提升,业务能力也在慢慢提升,虽然没有一年前想象的飞起状态,但是刚接触这一行,希望越来越好。 之前每次的遇到的问题其实都会在笔记或者博客中记录,但是没有整体…...
linux0.12-8-11-vsprintf.c
[383页] 1、 这一小节可以不看代码如何实现,因为标准的C库函数; 2、 等自己看完的这本书,有兴趣过来研究研究也是可以的。 8-11 vsprintf.c程序 8-11-1 功能描述 该程序主要包括vsprintf(),用于对参数产生格式化的输出。由于该函数是C函数…...
Node.js 与 WebAssembly
目录 1、简介 2、关键概念 3、生成WebAssembly模块 4、如何使用它 5、与操作系统交互 1、简介 首先,让我们了解为什么WebAssembly是一个很棒的工具,并学会自己使用它。 WebAssembly是一种类似汇编的高性能语言,可以从各种语言编译&…...
OpenCL编程指南-4.4矢量操作符
矢量操作符 如下描述了可用于矢量数据类型或矢量和标量数据类型组合的各类操作符。 算术操作符 算术操作符(加()、减(–)、乘(*)和除(/)),可以作用于内置整数、浮点标量和矢量数…...
索洛模型(二)
索洛模型(二) 文章目录 索洛模型(二)[toc]1 事实2 假设2.1 对生产函数的假设2.2对投入要素的假设 3 索洛模型的动态学3.1 k k k的动态学3.2 平衡增长路径 4 储蓄率变化的影响4.1 对产出的影响4.2 对消费的影响 索罗经济增长模型(Solow growth model)&am…...
【多微电网】基于粒子群优化算法的面向配电网的多微电网协调运行与优化(Matlab代码实现)
💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...
使用Atmel Studio开发Arduino的ATmega328P单片机
摘要:我们知道Arduino开发板常用的芯片是Atmel公司生产的AVR微控制器系列。最常见的是ATmega328P,被广泛用于Arduino Uno开发板。其他常用的AVR芯片包括ATmega2560和ATmega32U4。使用Arduino平台开发AVR的单片机非常方便。Arduino IDE提供了一个非常简洁…...
docker基础命令
查找镜像 docker search nginx 拉取镜像 不指定镜像版本的话默认拉取最新的版本,可以在dockerhub上查看镜像的版本 dockerhub地址:Docker docker pull nginx docker pull nginx:1.23 查看镜像列表 docker images 打包镜像 打包的镜像可以迁移到其它的主机上部署 …...
数组名+1和数组名+1的区别
数组名和&数组名区别 #include <stdio.h>int main() {int a[5] {1,2,3,4,5};int *ptr (int *)(&a 1);printf("%d,%d,%d\n",*(a 4),*(ptr - 1),*ptr); // 2 5 为什么是5printf("数组a[4]的地址%p,(ptr-1)地址%p, ptr的地址%p",(a 4)…...
开放原子训练营(第三季)inBuilder低代码开发实验室初体验
一、活动介绍 开放原子训练营开启inBuilder低代码实验室活动。无论您是计算机行业相关从业者、低代码开发爱好者还是普通用户,都可以基于inBuilder低代码开发平台社区版(基于UBML开源项目的一个可以广泛使用的发行版),体验向导式、…...
sql数据定义语句(cascade,set,null,no action的区别)
(一)ADD 基本格式: ALTER TABLE <表名> ADD 新属性名 新属性类型 例:alter table s1 add tele char(12):增加一个电话号码(tele)属性 注: 新增的属…...
Java进程(基础)
基本概念 1、进程:程序的执行过程 2、线程:一个进程可以有单个线程也就是我们说的单线程,还可以有多个线程也就是我们说的多线程, 线程 1、当一个类继承了Thread类就可以当成一个线程用 2、我们会重写run方法写上我们自己的业务…...
Go语言的go-ast抽象语法树包与代码生成工具的构建框架
Go语言以其简洁高效的特性深受开发者喜爱,而go/ast包作为其标准库中处理抽象语法树的核心组件,为代码分析与生成提供了强大支持。通过构建基于go/ast的代码生成工具,开发者能自动化实现重复性工作,提升开发效率。本文将深入探讨go…...
双目深度相机:模拟人眼视觉,解锁三维感知新可能
在三维感知技术快速迭代的现在,深度相机作为机器获取空间信息的重要“眼睛”,已渗透到工业自动化、机器人导航、AR/VR、智能家居等多个领域。其中,双目深度相机凭借其被动式工作、成本可控、强光适应性强等独特优势,成为中远距离三…...
新手避坑指南:匿名飞控与FS-I6X遥控器对码、通道设置全流程(附上位机数据解析)
新手避坑指南:FS-I6X遥控器与匿名飞控深度配置手册 第一次拿起遥控器时,我的手心全是汗——那些密密麻麻的拨杆和按钮仿佛在嘲笑我的无知。直到无人机第三次砸向地面,我才明白遥控器配置不是简单的对码就能解决的事。本文将带你穿越新手最易迷…...
2026年企业网盘深度实测:告别参数陷阱,谁才是真正的性价比之王?
在数字化转型全面落地的2026年,企业网盘早已成为组织管理核心数字资产的基石。随着市场产品迭代成熟,用户关注的焦点已从基础功能转向综合性价比——即如何在性能、安全、服务与成本之间找到最优解。 实测数据显示,企业网盘的高性价比首先体…...
WinDiskWriter:让Mac用户轻松制作Windows启动盘的智能方案
WinDiskWriter:让Mac用户轻松制作Windows启动盘的智能方案 【免费下载链接】windiskwriter 🖥 Windows Bootable USB creator for macOS. 🛠 Patches Windows 11 to bypass TPM and Secure Boot requirements. 👾 UEFI & Lega…...
非计算机专业转AI Agent:补哪些基础最有效
【本段核心】现在很多大学生都有转AI的想法,但每天做的却是收藏一堆教程、刷一堆概念、看一堆“LLM 从入门到精通”,然后继续焦虑、继续拖沓、继续投简历没回音。我就是双非野鸡二本经济学转Agent的,成效把 Agent 这条路跑通之后,…...
macos简单配置openclaw幕
1 实用案例 1.1 表格样式生成 本示例用于生成包含富文本样式与单元格背景色的Word表格文档。 模板内容: 渲染代码: # python-docx-template/blob/master/tests/comments.py from docxtpl import DocxTemplate, RichText # data: python-docx-template/bl…...
gridDim 最好是sm 的整数 吗
这个问题问得非常到位,而且是一个**“看起来应该对,但其实不完全对”的经典误区**。我帮你把结论和工程直觉都讲清楚。一、先给结论(直接说清楚)❌ gridDim 不需要是 SM 的整数倍 ✅ 但gridDim 至少要“远大于 SM 数量”ÿ…...
三相PFC控制固件代码功能解析
概述 本文档详细分析了一个用于三相功率因数校正(PFC)控制系统的嵌入式固件代码。该代码基于特定的处理器架构,实现了复杂的电力电子控制算法,主要用于车载充电系统等高性能电源应用场景。 系统架构 硬件抽象层 代码通过硬件抽象层…...
吐血整理:零基础学深度学习需要学哪些框架?PyTorch 和 TensorFlow 选哪个?
吐血整理:零基础学深度学习需要学哪些框架?PyTorch 和 TensorFlow 选哪个? 标签:#深度学习、#pytorch、#tensorflow、#计算机视觉、#人工智能、#python、#机器学习### 一、深度学习入门必学框架有哪些?分别用来做什么&…...
