flink集成tidb cdc
Flink TiDB CDC 详解


1. TiDB CDC 简介
1.1 TiDB CDC 的核心概念
TiDB CDC 是 TiDB 提供的变更数据捕获工具,能够实时捕获 TiDB 集群中的数据变更(如 INSERT、UPDATE、DELETE 操作),并将这些变更以事件流的形式输出。TiDB CDC 的核心组件是 TiCDC,它通过拉取 TiKV 的变更日志(Change Log)来实现数据的实时同步。
1.2 TiCDC 的工作原理
TiCDC 的工作原理如下:
- 监听 TiKV 的变更日志:TiCDC 通过监听 TiKV 的 Raft 日志来捕获数据变更。
- 解析和过滤变更事件:TiCDC 解析变更日志,并根据配置的规则过滤出需要同步的表或数据。
- 输出变更事件:TiCDC 将变更事件以特定的格式(如 Avro、JSON 或 Canal 格式)输出到下游系统,如 Kafka、Flink 或其他存储系统。
1.3 TiDB CDC 的优势
- 实时性:TiCDC 能够以毫秒级的延迟捕获数据变更。
- 一致性:TiCDC 保证变更事件的顺序性和一致性。
- 灵活性:支持多种输出格式和目标系统,便于与 Flink 等流处理框架集成。
2. Flink 与 TiDB CDC 的集成

2.1 集成的核心目标
Flink 与 TiDB CDC 的集成旨在实现以下目标:
- 实时数据同步:将 TiDB 中的数据变更实时同步到 Flink 流处理任务中。
- 流式数据处理:利用 Flink 的流处理能力对变更数据进行实时分析、转换或聚合。
- 数据集成:将 TiDB 的数据变更与其他数据源(如 Kafka、HDFS)进行集成,构建统一的数据管道。
2.2 集成的实现方式
Flink 与 TiDB CDC 的集成通常通过以下两种方式实现:
-
通过 Kafka 中转:
- TiCDC 将变更事件输出到 Kafka。
- Flink 从 Kafka 中消费变更事件并进行处理。
- 这种方式适用于需要解耦 TiDB 和 Flink 的场景。
-
直接集成 TiCDC:
- 使用 Flink 的 CDC 连接器(如 Debezium 或 Flink CDC)直接连接 TiCDC。
- 这种方式减少了中间环节,适合对延迟要求较高的场景。
3. 使用 Flink CDC 连接器集成 TiDB CDC
3.1 Flink CDC 连接器简介
Flink CDC 是一个基于 Flink 的变更数据捕获框架,支持从多种数据库(如 MySQL、PostgreSQL、TiDB)中捕获变更数据。Flink CDC 提供了开箱即用的连接器,能够简化与 TiDB CDC 的集成。
3.2 配置 Flink CDC 连接器
以下是使用 Flink CDC 连接器集成 TiDB CDC 的配置步骤:
3.2.1 添加依赖
在 Flink 项目中添加 Flink CDC 连接器的依赖:
<dependency><groupId>com.ververica</groupId><artifactId>flink-connector-mysql-cdc</artifactId><version>2.3.0</version>
</dependency>
3.2.2 配置 TiCDC
确保 TiCDC 已正确配置并运行,并将变更事件输出到 Kafka 或其他 Flink 支持的源。
3.2.3 编写 Flink 作业
以下是一个从 TiDB CDC 捕获变更数据的 Flink 作业示例:
import com.ververica.cdc.connectors.mysql.MySQLSource;
import com.ververica.cdc.connectors.mysql.table.StartupOptions;
import com.ververica.cdc.debezium.JsonDebeziumDeserializationSchema;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.datastream.DataStreamSource;public class TiDBCDCExample {public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();MySQLSource<String> mySQLSource = MySQLSource.<String>builder().hostname("tidb-host").port(4000).databaseList("test_db") // 监听的数据库.tableList("test_db.orders") // 监听的表.username("root").password("password").deserializer(new JsonDebeziumDeserializationSchema()) // 使用 JSON 格式解析变更事件.startupOptions(StartupOptions.initial()) // 从初始快照开始.build();DataStreamSource<String> source = env.addSource(mySQLSource);source.print(); // 打印变更事件env.execute("TiDB CDC Example");}
}
3.2.4 运行作业
将 Flink 作业提交到集群中运行,Flink 会从 TiDB CDC 中捕获变更事件并进行处理。
4. 使用场景
4.1 实时数据同步
将 TiDB 中的数据变更实时同步到其他存储系统(如 Elasticsearch、HBase)或数据仓库(如 ClickHouse)。
4.2 实时数据分析
利用 Flink 的流处理能力对 TiDB 的变更数据进行实时分析,例如计算实时指标、检测异常行为等。
4.3 数据集成
将 TiDB 的变更数据与其他数据源(如 Kafka、HDFS)进行集成,构建统一的数据管道。
5. 最佳实践
5.1 优化 TiCDC 配置
- 调整 Raft 日志拉取频率:根据数据变更的频率调整 TiCDC 的拉取频率,以平衡性能和延迟。
- 过滤不必要的表:只同步需要的表,减少数据传输的开销。
5.2 优化 Flink 作业
- 设置合理的并行度:根据数据量和处理需求设置 Flink 作业的并行度。
- 使用状态后端:对于需要状态管理的作业,使用 RocksDB 状态后端以提高性能。
5.3 监控与告警
- 监控 TiCDC 和 Flink 的运行状态:使用 Prometheus 和 Grafana 监控 TiCDC 和 Flink 的运行状态。
- 设置告警规则:对关键指标(如延迟、吞吐量)设置告警规则,及时发现和解决问题。
6. 总结
Flink 与 TiDB CDC 的集成为实时数据同步和流式数据处理提供了强大的能力。通过 TiCDC 捕获 TiDB 的变更数据,并结合 Flink 的流处理能力,可以实现高效、灵活的实时数据管道。
参考文档:https://tidb.net/book/tidb-monthly/2022/2022-03/development/flink-tidb
相关文章:
flink集成tidb cdc
Flink TiDB CDC 详解 1. TiDB CDC 简介 1.1 TiDB CDC 的核心概念 TiDB CDC 是 TiDB 提供的变更数据捕获工具,能够实时捕获 TiDB 集群中的数据变更(如 INSERT、UPDATE、DELETE 操作),并将这些变更以事件流的形式输出。TiDB CDC 的…...
【flutter】TextField输入框工具栏文本为英文解决(不用安装插件版本
输入框长按选项菜单复制、粘贴、剪切、全选部分默认为英文,对于只需要对此部分做中文本地化,不需要考虑其他语言及全局本地化的项目,可以直接自定义一个本地化代理方法进行覆盖,不需要额外下载插件 // 自定义本地化代理 class _C…...
推荐1款OCR的扫描仪软件,无需安装,打开即用!
聊一聊 现在日常办公,很多时候还是需要扫描仪配合。 很多时候需要将文件搜索成PDF再传输。 今天给大家分享一款OCR扫描仪软件。 软件介绍 OCR的扫描仪软件 支持扫描仪共享。 支持WIA、TWAIN、SANE和ESCL驱动程序。 还可以批量多扫描仪配置扫描,支持…...
SpringBoot为什么默认使用CGLIB?
大家好,我是锋哥。今天分享关于【SpringBoot为什么默认使用CGLIB?】面试题。希望对大家有帮助; SpringBoot为什么默认使用CGLIB? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 Spring Boot 默认使用 CGLIB(Code Generation Li…...
去除HTML有序列表(ol)编号的多种解决方案
以下是去除HTML有序列表(ol)编号的多种解决方案: <!DOCTYPE html> <html> <head> <style> /* 基础方案:完全移除编号 */ ol.no-number {list-style-type: none; /* 移除默认编号 */padding-left: 0; /* 移除默认缩进 */…...
神经网络|(十三)|SOM神经网络
【1】引言 前序已经对神经网络有了基础认识,今天先学习SOM神经网络。 前序学习文章链接包括且不限于: 神经网络|(十一)|神经元和神经网络-CSDN博客 神经网络|(十二)|常见激活函数-CSDN博客 【2】SOM神经网络 SOM神经网络是一种结构比较简单、但是理…...
IP协议、DNS协议、DHCP协议、Telent协议的记忆总结
首先记忆一下几个协议的端口号 HTTP:超文本传输协议 80 HTTPS:安全传输协议 443 DHCP:动态主机配置协议 67/68 DNS:域名解析协议 53 FTP:文件传输协议 20/21 TFTP:简单文件传输协议 69 TELENT:远…...
Pico 4 Enterprise(企业版)与Unity的交互-有线串流调试篇
入手了Pico 4 E做VR开发,谁知入了天坑...根据官方文档,尝试了串流助手、企业串流、PICO Developer Center,陷入了各种版本问题、环境问题的陷阱。而且Pico4E的OS自24年12开始就不再更新,头盔中预装的企业串流版本也较低࿰…...
DeepSeek-R1:使用KTransformers实现高效部署指南
KTransformers作为一个开源框架,专门为优化大规模语言模型的推理过程而设计。它支持GPU/CPU异构计算,并针对MoE架构的稀疏性进行了特别优化,可以有效降低硬件要求,允许用户在有限的资源下运行像DeepSeek-R1这样庞大的模型。 硬件…...
企业日常工作中常用的 Linux 操作系统命令整理
Linux 操作系统命令整理 在企业级运维、开发和日常工作中,Linux 命令是绕不开的核心技能。不论是日志排查、进程管理,还是高效运维优化,掌握这些命令都能让你事半功倍!本篇文章整理了自己在日常工作中积累最常用的 Linux 命令&am…...
任务9:交换机基础及配置
CSDN 原创主页:不羁https://blog.csdn.net/2303_76492156?typeblog 一、交换机基础 交换机的概念:交换机是一种网络设备,用于连接多台计算机或网络设备,实现数据包在局域网内的快速交换。交换机基于MAC地址来转发数据包&#x…...
Notepad++ 8.6.7 安装与配置全攻略(Windows平台)
一、软件定位与核心优势 Notepad 是开源免费的代码/文本编辑器,支持超过80种编程语言的高亮显示,相比系统自带记事本具有以下优势: 轻量高效:启动速度比同类软件快30%插件扩展:支持NppExec、JSON Viewer等200插件跨文…...
SpringMVC请求处理流程:DispatcherServlet工作原理
文章目录 引言一、DispatcherServlet概述二、DispatcherServlet初始化过程三、请求接收与处理器匹配四、请求参数绑定与处理器执行五、视图解析与渲染六、异常处理机制总结 引言 SpringMVC框架是Java Web开发中最流行的MVC框架之一,其核心组件DispatcherServlet作为…...
YOLOv8目标检测推理流程及C++代码
这部分主要是使用c++对Onnx模型进行推理,边先贴代码,过段时间再详细补充下代码说明。 代码主要分成三部分,1.main_det.cpp推理函数主入口;2.inference_det.h 头文件及inference_det.cpp具体函数实现;3.CMakeList.txt. 1.main_det 推理配置信息全部写在config.txt中,执行…...
解锁数据潜能,永洪科技以数据之力简化中粮可口可乐决策之路
企业数字化转型是指企业利用数字技术和信息通信技术来改变自身的商业模式、流程和增值服务,以提高企业的竞争力和创新能力。数字化转型已经成为企业发展的重要战略,尤其在当前信息技术高速发展的时代。数字化转型还涉及到企业与消费者之间的互动和沟通。…...
Redis3 Hash 类型命令详解
1. 什么是 Redis Hash? Redis Hash 是一种 键值对集合,类似于 Java 里的 HashMap,可以用来存储对象的数据。例如,你可以将用户信息存储在 Redis 的 Hash 结构中,每个字段代表用户的一个属性。 示例: HSE…...
双链路提升网络传输的可靠性扩展可用带宽
为了提升网络传输的可靠性或增加网络可用带宽, 通常使用双链路冗余备份或者双链路聚合的方式。 本文介绍几种双链路网络通信的案例。 5GWiFi冗余传输 双Socket绑定不同网络接口:通过Android的ConnectivityManager绑定5G蜂窝网络和WiFi的Socket连接&…...
深入浅出:UniApp 从入门到精通全指南
https://juejin.cn/post/7440119937644101684 uni-app官网 uniapp安卓离线打包流程_uniapp离线打包-CSDN博客 本文是关于 UniApp 从入门到精通的全指南,涵盖基础入门(环境搭建、创建项目、项目结构、编写运行)、核心概念与进阶知识&#x…...
MDM 如何彻底改变医疗设备的远程管理
在现代医疗行业迅速发展的格局中,医院和诊所越来越依赖诸如医疗平板和移动工作站等移动设备。这些设备在提高工作效率和提供卓越的患者护理方面发挥着关键作用。然而,随着它们的广泛使用,也带来了一系列挑战,例如在不同地点确保数…...
前端性能优化之同时插入100000个元素页面不卡顿
面试官:同时插入100000个元素怎么让页面不卡顿 优化前写法 首先我们来看下面的一段,点击按钮后,循环100000次,每次都插入一个元素,并且插入区域上方还有一个小球在滚动,在插入的过程中我们可以观察小球的…...
PHP之Cookie和Session
在你有别的编程语言的基础下,你想学习PHP,可能要了解的一些关于cookie和session的信息。 Cookie 参数信息 setcookie(name,value,expire, path, domain); name : Cookie的名称。 value : Cookie的值。 expire : Cookie的过期时间,可以是一…...
vscode 配置debug的环境
vscode配置debug的环境 配置好python解释器, ctrl shift P 就可以指定python了。 当前环境下建立 .vscode 文件夹新建 .vscode/launch.json 文件文件的配置如下 {"version": "0.2.0","configurations": [{"name": &qu…...
socket基础学习以及java搭建
在 Java 中,Socket 编程用于实现网络通信。Java 提供了丰富的网络 API,使得通过 Socket 进行通信变得简单和高效。Java 的 Socket 编程常见于客户端-服务器应用中,比如聊天程序、文件传输工具等。 1. Socket 基本概念 Socket 编程的基本概念…...
Exoplayer2源码编译FFmpeg拓展模块实现音频软解码
在前面文章最新版本Exoplayer扩展FFmpeg音频软解码保姆级教程中介绍了最新版本的Exoplayer(androidx.Media3)编译FFmpeg模块的流程,有就是media3版本的explayer最低支持的sdk版本是21也就是Android5.x,但是市面上还是有很多IOT设备是很老的android4.4(sdk19)的&…...
Docker安装嵌入框架Text Embeddings Inference (TEI)
Docker安装Text Embeddings Inference (TEI) 1 简单介绍 文本嵌入推理(TEI,Text Embeddings Inference )是HuggingFace研发的一个用于部署和服务开源文本嵌入和序列分类模型的工具包。TEI兼容OpenAI的嵌入模型的规范。 # 官网地址 https:/…...
使用easyocr、PyPDF2对图像及PDF文档进行识别
一、概述 本 Python 脚本的主要功能是对当前目录及其子目录下的图片和 PDF 文件进行光学字符识别(OCR)处理。它使用 easyocr 库处理图片中的文字,使用 PyPDF2 库提取 PDF 文件中的文本,并将处理结果保存为文本文件。同时ÿ…...
MAUI(C#)安卓开发起步
初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github:codetoys,所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的,可以在任何平台上使用。 源码指引:github源…...
oracle decode
1. 基本语法 DECODE(expression, search1, result1, search2, result2, ..., default_result) expression :需要比较的表达式或列。search1, search2, ... :要匹配的值。result1, result2, ... :当 expression 等于 search 时返回的结果。def…...
826考研
初试总分第一的hh佬小红书:https://www.xiaohongshu.com/user/profile/64e106aa000000000100fe33 深研院巨佬经验贴:https://zhuanlan.zhihu.com/p/690464528 本部羊神经验贴:https://zhuanlan.zhihu.com/p/689494655 本部学硕佬经验贴&#…...
PPT小黑第26套
对应大猫28 层次级别是错的,看着是十页,导入ppt之后四十多页 选中所有 红色蓝色黑色 文本选择标题:选择 -格式相似文本(检查有没有漏选 漏选的话 按住ctrl 点下一个) 要求新建幻灯片中不包含原素材中的任何格式&…...
