Flink Source 详解
Flink Source 详解
原文
flip-27
FLIP-27 介绍了新版本Source 接口定义及架构
相比于SourceFunction,新版本的Source更具灵活性,原因是将“splits数据获取”与真“正数据获取”逻辑进行了分离

重要部件
Source 作为工厂类,会创建以下两个重要部件
-
SplitEnumerator
-
通过createEnumerator创建
-
SplitEnumerator 响应request split请求
- handleSplitRequest
-
工作在SourceCoordinator (官方描述如下),可以理解为在JobMaster上运行一个单线程的逻辑,所以需要跟在worker上的reader通过rpc通信
Where to run the enumerator There was a long discussion about where to run the enumerator which we documented in the appendix. The final approach we took was very similar to option 3 with a few differences. The approach is following.Each SplitEnumerator will be encapsulated in one SourceCoordinator. If there are multiple sources, multiple SourceCoordinator will there be. The SourceCoordinators will run in the JobMaster, but not as part of the ExecutionGraph. In this FLIP, we propose to failover the entire execution graph when the SplitEnumerator fails. A finer grained enumerator failover will be proposed in a later FLIP.
-
-
SourceReader
-
通过createReader创建
-
工作在worker
-
由于单独实现SourceReader过于复杂,官方抽象了3种比较通用的模型供开发者使用,
MySqlSourceReader就是继承了SingleThreadMultiplexSourceReaderBase- Sequential Single Split (File, database query, most bounded splits)
- Multi-split multiplexed (Kafka, Pulsar, Pravega, …)
- Multi-split multi-threaded (Kinesis, …)



-
使用了抽象后的类,开发者的关注点集中在实现一个SplitReader
public interface SplitReader<E, SplitT extends SourceSplit> {RecordsWithSplitIds<E> fetch() throws InterruptedException;void handleSplitsChanges(Queue<SplitsChange<SplitT>> splitsChanges);void wakeUp(); }- fetch 获取数据,这里是包含了split信息的record
- 响应split改变
- 唤醒
-
-
RecordEmitter
- The RecordsWithSplitIds returned by the SplitReader will be passed to an RecordEmitter one by one.
- The RecordEmitter is responsible for the following:
- Convert the raw record type into the eventual record type
- Provide an event time timestamp for the record that it processes.
- 在 emitRecord 方法中实现
由于通信使用mail风格的rpc(单线程串行),所以响应函数需要保证非阻塞,所以后面可以看到无论enumerator还是reader的最终响应都是在异步线程池中
Non-blocking progress methods, to it supports running in an actor/mailbox/dispatcher style operator
MysqlSource 举例
以flink cdc中的MysqlSource来举例分析
- MysqlSource
-
通过 createEnumerator 创建 MySqlSourceEnumerator
- 初始化调用start
- 调用splitAssigner.open()
- splitAssigner 是获取/分配split动作的真正实现
- 创建异步线程,填充remainingSplits
- splitAssigner 是获取/分配split动作的真正实现
- 调用splitAssigner.open()
- handleSplitRequest 响应空闲worker的请求
- assignSplits
- splitAssigner.getNext()
- 从 remainingSplits 拿一个可用的split
- splitAssigner.getNext()
- assignSplits
- 调用 context.assignSplit 发送 AddSplitEvent
- MySqlSourceEnumerator 中 splitAssigner 的实现说明
- splitAssigner 默认实现是 MySqlHybridSplitAssigner
- hybrid的含义,启动分为两个步骤 1. 读取全量数据 2. 全量数据读取完毕后读取增量数据。将两种模式混合在一起被称为hybird。所以MySqlSnapshotSplitAssigner可以创建两种split
- 通过MySqlSnapshotSplitAssigner创建存量数据的split
- 在读取存量数据时通过chunkSplitter切分为多个split,之后分发给多个reader并行读取
- chunkSplitter 通过 chunkKey 的范围将存量数据切分
- 用户可以手动设置chunkKey,否则使用主key作为chunkKey,切分split
- 在读取存量数据时通过chunkSplitter切分为多个split,之后分发给多个reader并行读取
- 通过 createBinlogSplit 创建增量数据的split
- 只assign一次binlog的split
- 只能分发给一个reader,所以在进入增量模式后flink实际所有并行度上只有一个source有数据

- 通过MySqlSnapshotSplitAssigner创建存量数据的split
- hybrid的含义,启动分为两个步骤 1. 读取全量数据 2. 全量数据读取完毕后读取增量数据。将两种模式混合在一起被称为hybird。所以MySqlSnapshotSplitAssigner可以创建两种split
- splitAssigner 默认实现是 MySqlHybridSplitAssigner
- 初始化调用start
-
通过 createReader 创建 MySqlSourceReader
- 创建 SingleThreadFetcherManager 传入 elementQueue splitReaderSupplier
- elementQueue: io线程和主线程公用队列,io线程写,主线程读
- splitReaderSupplier: split reader的工厂
- SingleThreadFetcherManager 启动后创建线程池
- sourceOperator 收到 AddSplitEvent 调用 sourceReader.addSplits 这里 sourceReader 是 MySqlSourceReader
- readerBase 中会调用 splitFetcherManager.addSplits(splits);
- 由于使用的是 SingleThreadFetcherManager,所以addSplits中永远看到只同时存在一个fetcher
- fetcher 初始化时加入默认任务 FetchTask 构造的时候传入 elementQueue 传入构造好的 splitReader
- fetcher addSplits时加入任务 AddSplitsTask
- fetcher 启动时调用 startFetcher
- 调用 executors.submit(fetcher); 提交到线程池
- 线程池中运行 runOnce
- FetchTask 调用 splitReader.fetch() 获取records 写入 elementQueue
- 由于使用的是 SingleThreadFetcherManager,所以addSplits中永远看到只同时存在一个fetcher
- readerBase 中会调用 splitFetcherManager.addSplits(splits);
- 主线程 SourceReaderBase 中的 pollNext 会被框架调用
- 调用 getNextFetch
- elementsQueue.poll() 取得 records

- elementsQueue.poll() 取得 records
- 调用 getNextFetch
- 创建 SingleThreadFetcherManager 传入 elementQueue splitReaderSupplier
-
其他
在Flink CDC 3.0 中
Flink Composer 中使用 WatermarkStrategy.noWatermarks()
return env.fromSource(sourceProvider.getSource(),WatermarkStrategy.noWatermarks(),sourceDef.getName().orElse(generateDefaultSourceName(sourceDef)),new EventTypeInfo()).setParallelism(sourceParallelism);
很合理,因为pipeline的定义中不会出现聚合函数 window函数
相关文章:
Flink Source 详解
Flink Source 详解 原文 flip-27 FLIP-27 介绍了新版本Source 接口定义及架构 相比于SourceFunction,新版本的Source更具灵活性,原因是将“splits数据获取”与真“正数据获取”逻辑进行了分离 重要部件 Source 作为工厂类,会创建以下两…...
2024年了,TCP分析工具有哪些?
TCP分析工具广泛应用于网络调试、性能分析和协议学习。以下是一些常用的TCP分析工具,它们各有特点,适用于不同的场景: Wireshark - 这是一个非常强大的网络协议分析器,支持图形界面,可以捕获和分析TCP流量,…...
SRP 实现 Cook-Torrance BRDF
写的很乱! BRDF(Bidirectional Reflectance Distribution Function)全称双向反射分布函数。辐射量单位非常多,这里为方便直观理解,会用非常不严谨的光照强度来解释说明。 BRDF光照模型,上反射率公式&#…...
MySQL慢日志
慢查询日志顾名思义就是查询慢的sql语句可以记录到一个日志文件里,至于有多慢才会被记录,默认是10秒,但也可以通过系统配置来更改,慢日志在做系统优化时是一个非常好用的工具 #是否开启慢日志 show variables like slow_query_log…...
Flutter网络通信-封装Dio
前言 dio 是一个强大的 Dart HTTP 请求库,支持全局配置、Restful API、FormData、拦截器、 请求取消、Cookie 管理、文件上传/下载、超时以及自定义适配器等。 Dio的pub地址为:dio | Dart package 封装要求 能够使用get、post、put、patch、delete、…...
matlab 读取csv
需要跳过第一行表头等信息 1、读取整个文件 csvread(FILENAME)%文件路径 文件名2、指定起始位置 csvread(FILENAME, R, C)%从文件的第R行和第C列开始读取数据 逗号分开3、指定数据范围 csvread(FILENAME, R, C, [R1 C1 R2 C2])%读取从(R1, C1)到(R2, C2)范围内的数据注意&am…...
网络层9——虚拟专用网VPN和网络地址转换NAT
目录 一、为什么有虚拟专用网? 二、如何理解“虚拟专用网”? 三、IP隧道技术实现虚拟专用网 四、网络地址变换 一、为什么有虚拟专用网? 第一,IPv4只有32位,最多有40亿个全球唯一的IP地址数量不够,无法…...
开源科学工程技术软件介绍 – EDA工具KLayout
link 今天向各位知友介绍的 KLayout是一款由德国团队开发的开源EDA工具。 KLayout是使用C开发的,用户界面基于Qt。它支持Windows、MacOS和Linux操作系统。安装程序可以从下面的网址下载: https://www.klayout.de/build.html KLayout图形用户界面&…...
【网络安全】Cookie SameSite属性
未经许可,不得转载。 文章目录 背景CSRF 攻击SameSite 属性StrictLaxNone背景 为了有效防止 CSRF 攻击并保护用户隐私,Chrome 从 51 版本开始引入了 SameSite 属性,专门用于限制第三方 Cookie 的使用,进而减少安全风险。 CSRF 攻击 跨站请求伪造(CSRF)攻击是指恶意网站…...
Linux 命令 | 每日一学,文本处理三剑客之awk命令实践
[ 知识是人生的灯塔,只有不断学习,才能照亮前行的道路 ] 0x00 前言简述 描述:前面作者已经介绍了文本处理三剑客中的 grep 与 sed 文本处理工具,今天将介绍其最后一个且非常强大的 awk 文本处理输出工具,它可以非常方便…...
RabbitMQ的工作队列在Spring Boot中实现(详解常⽤的⼯作模式)
上文着重介绍RabbitMQ 七种工作模式介绍RabbitMQ 七种工作模式介绍_rabbitmq 工作模式-CSDN博客 本篇讲解如何在Spring环境下进⾏RabbitMQ的开发.(只演⽰部分常⽤的⼯作模式) 目录 引⼊依赖 一.工作队列模式 二.Publish/Subscribe(发布订阅模式) …...
【web前端笔记】vue3 + vite的前端项目中,使用import.meta.glob()方法实现全局注册组件的通用代码
目录 1.1、如何读取所有文件 1.2、通用代码 1.3、在main.js引入 这篇文章介绍一下,在vue3和vite搭建的项目中,如何将【src/components】目录下所有的【*.vue】文件,当做一个组件全局注册到Vue对象里面。 1.1、如何读取所有文件 在vue3和vite搭建的项目里面,它给我们提…...
保险行业建立知识管理系统:提高效率和安全性的策略
在保险行业,知识管理系统(KMS)的建立对于提高工作效率和保障数据安全性至关重要。保险公司需要在复杂的生态系统中航行,这个生态系统由不断发展的法规、错综复杂的保单和投保人不断变化的需求所定义。以下是一些关键策略ÿ…...
小程序如何完成订阅
小程序如何完成订阅 参考相关文档实践问题处理授权弹窗不再触发引导用户重新授权 参考相关文档 微信小程序实现订阅消息推送的实现步骤 发送订阅消息 小程序订阅消息(用户通过弹窗订阅)开发指南 实践 我们需要先选这一个模板,具体流程参考…...
JS学习日记(jQuery库)
前言 今天先更新jQuery库的介绍,它是一个用来帮助快速开发的工具 介绍 jQuery是一个快速,小型且功能丰富的JavaScript库,jQuery设计宗旨是“write less,do more”,即倡导写更少的代码,做更多的事…...
Uni-APP+Vue3+鸿蒙 开发菜鸟流程
参考文档 文档中心 运行和发行 | uni-app官网 AppGallery Connect DCloud开发者中心 环境要求 Vue3jdk 17 Java Downloads | Oracle 中国 【鸿蒙开发工具内置jdk17,本地不使用17会报jdk版本不一致问题】 开发工具 HBuilderDevEco Studio【目前只下载这一个就…...
Linux的基本用法
Linux的基本用法涵盖多个方面,包括用户登录、系统操作、文件和目录管理、系统工具使用等。以下是对Linux基本用法的详细介绍: 一、用户登录与系统操作 用户登录 普通用户登录:选择用户名并输入密码。超级用户(root)登…...
如何找出爬取网站的来源IP呢?
1.背景 最近网站数据库性能很不稳定,查询性能在某段时间很慢,服务器CPU也很高,平常时间很低,感觉被爬虫恶意搞了,因此我分析了一下最近的nginx访问日志 2.方法 找出访问量最大20个ip [root100 nginx]# cat liuhaih…...
Java爬虫(Jsoup)详解
文章目录 Java爬虫(Jsoup)详解一、引言二、Jsoup 快速入门1、Jsoup 简介1.1、添加依赖 2、解析 HTML 文档2.1、解析 HTML 字符串2.2、从 URL 加载 Document2.3、解析 body 片断 三、数据抽取1、使用 DOM 方法遍历文档3.1、获取元素 2、使用选择器语法查找…...
力扣周赛:第424场周赛
👨🎓作者简介:爱好技术和算法的研究生 🌌上期文章:力扣周赛:第422场周赛 📚订阅专栏:力扣周赛 希望文章对你们有所帮助 第一道题模拟题,第二道题经典拆分数组/线段树都…...
如何快速提取B站CC字幕:面向新手的完整工具指南
如何快速提取B站CC字幕:面向新手的完整工具指南 【免费下载链接】BiliBiliCCSubtitle 一个用于下载B站(哔哩哔哩)CC字幕及转换的工具; 项目地址: https://gitcode.com/gh_mirrors/bi/BiliBiliCCSubtitle 你是否曾经为了获取B站视频的字幕而烦恼?想…...
告别 Origin 内卷|虎贲等考 AI 科研绘图,一键出期刊级学术图
很多做毕业论文、发期刊、做课题的同学和科研人,都卡在同一个难题上:论文写得再好,却栽在科研绘图上。想用专业软件,Origin、Visio、GraphPad 上手难、参数复杂、调试半天出不来一张合格图;用 Excel、PPT 随手做图&…...
WPF动画避坑指南:Blend路径动画Canvas.Left与RenderTransform的实战选择(附性能对比)
WPF动画避坑指南:Blend路径动画Canvas.Left与RenderTransform的实战选择(附性能对比) 在WPF开发中,动画效果的实现往往让开发者陷入选择困境。特别是当我们需要让UI元素沿着复杂路径运动时,Canvas.Left/Top与RenderTra…...
别再死记硬背了!用Python手把手拆解卡尔曼滤波的‘预测-更新’循环
别再死记硬背了!用Python手把手拆解卡尔曼滤波的‘预测-更新’循环 卡尔曼滤波在工程领域就像一位隐形的魔术师——它能从充满噪声的传感器数据中提取出真实信号。但第一次接触那些矩阵方程时,多数人都会陷入"每个字母都认识,连起来完全…...
从ARM到FPGA:手把手教你用Vivado双口RAM IP核搭建跨芯片通信桥
从ARM到FPGA:构建高性能双口RAM通信桥的工程实践 在异构计算架构中,FPGA与处理器的协同工作已成为提升系统性能的关键方案。Xilinx Vivado工具链中的双口RAM IP核,为解决跨芯片数据交换提供了硬件级的优雅实现。本文将深入探讨如何将这一技术…...
从工程师漫画竞赛看技术社区运营与内容创作之道
1. 项目概述:一场载入史册的漫画标题竞赛在技术圈子里,工程师们除了埋头画电路、写代码,其实也藏着不少幽默细胞。2011年6月,一场由《EE Times》举办的漫画标题竞赛,就上演了堪称史上最胶着的对决。这场竞赛的核心&…...
从零学会基础算法前缀和差分:数组区间求和离散化基础
首先祝大家劳动节快乐!开学两个月来学的东西不多,主要掌握了两块内容:前缀和/差分/离散化 和 数学基础。本文是第一篇,重点整理前缀和相关内容。 编程语言:C 排版助手:AI一、数组的三个简化技巧 1. 前缀和 …...
RT-DETR最新创新改进系列:4D辅助细化为检测颈部注入额外表达,融合后再增强,解码前再提纯,精度提升从特征质量开始!【细化特征,稳住精度】
本文为 RT-DETR 改进系列纯净发布稿,写法采用模块化技术博文形式:先讲痛点,再讲结构,再给配置、训练方式、实验表格和注意事项。全文仅保留技术正文,便于直接发布。摘要 本文围绕 4D 辅助细化 展开。该版本属于 结构增…...
AI小白必看:打好基础再冲大模型,收藏这份学习路线图!
本文针对想学习AI的学生,强调掌握基础的重要性,避免直接进入大模型学习。文章提出应先理解AI的核心是让机器从数据中学习规律,并掌握数学、编程和数据思维能力。建议从数据处理开始,熟悉Python及常用库,逐步学习机器学…...
国际空间站工程知识共享:从太空协作到地面工程实践的启示
1. 国际空间站:一个工程师眼中的知识共享金矿作为一名在航天工程领域摸爬滚打了十几年的工程师,我常常被问到一个问题:耗资巨大的国际空间站(ISS),除了那些遥不可及的太空探索梦想,到底给我们这…...
