当前位置: 首页 > news >正文

Flink CDC 原理

简介

Flink CDC(Change Data Capture)是 Apache Flink 提供的一个变更数据捕获工具集。它可以监控数据库的变更,并将这些变更实时地以流的形式提供给下游系统,这些变更包括插入、更新和删除操作。

Flink CDC 适用于需要实时数据管道和数据流处理的场景,如实时数据分析、数据仓库更新、缓存同步、ETL 过程、微服务架构中的数据一致性等。

官网简介:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

和Flink 什么区别?

Flink 是一个更通用的流处理平台,而 Flink CDC 是构建在 Flink 之上,专注于变更数据捕获和流式数据同步的工具集。

Apache Flink 是一个开源的流处理框架,用于实时数据流的处理和分析。Flink 提供了用于构建分布式流处理应用的丰富API,包括数据流编程模型、窗口操作、状态管理、时间语义等。Flink 能够以极高的吞吐量和低延迟运行复杂的数据分析任务,并且保证数据流的一致性和准确性。Flink 也支持批处理,因此它可以作为批处理和流处理的统一引擎。

Flink CDC 是 Flink 社区提供的变更数据捕获工具集,它允许用户捕获数据库的增量变化,并将这些变化实时地以流的形式提供给下游系统。Flink CDC 工具可以监控数据库的变更,并将这些变更作为事件流输出,这些事件流可以被 Flink 流处理作业所消费。

联系

  1. Flink CDC 是基于 Flink 的生态系统构建的,它利用 Flink 的流处理能力来捕获和分发数据库的变更数据。
  2. Flink CDC 产生的变更数据流可以被 Flink 流处理作业直接消费,实现近实时的数据同步和流处理。
  3. Flink CDC 与 Flink 的集成提供了端到端的数据流解决方案,从数据源的变更捕获到数据的流式处理。

区别

  1. 功能定位:Flink 是一个通用的流处理框架,适用于各种流处理和批处理场景。Flink CDC 专注于捕获和分发数据库的变更数据。
  2. 使用场景:Flink 可以用于构建广泛的数据处理应用,而 Flink CDC 主要用于数据同步、流式ETL、实时数据仓库等需要数据库变更捕获的场景。
  3. 实现细节:Flink CDC 利用了 Flink 的内部机制,如状态后端和检查点机制,来保证变更数据的一致性和准确性。但它为数据库变更捕获提供了特定的连接器和API。

特点

  1. 实时性:
    • Flink CDC 利用数据库的日志文件(如 MySQL 的 binlog)来捕获数据变更事件,这意味着它可以几乎无延迟地获取到数据变化。
    • 通过流处理框架 Apache Flink, 变更数据可以快速被处理和传输到下游系统,适合需要低延迟反应的业务场景。
  2. 支持多种数据库:
    • 目前Flink CDC 支持广泛使用的关系型数据库如 MySQL,PostgreSQL, MongoDB,Oracle,SQL Server 等的支持。
    • 这种广泛的支持使得 Flink CDC 可以适用于多种存储系统背景下的实时数据同步和分析需求。
  3. 容错性:
    • 结合 Apache Flink 的状态管理和检查点机制(Checkpointing),Flink CDC 能够在发生故障时保证数据处理的一致性并恢复到正确状态。
    • 这是企业级应用中非常重要的特征,确保了数据处理任务在面对硬件故障或网络问题时依然能够可靠运行。
  4. 灵活性与易用性:
    • 用户可以通过简单配置就能启动一个CDC任务,无需编写复杂代码。
    • 支持自定义Deserialization schema来解析变更事件,用户可以根据自己需求进行定制化开发。
  5. 扩展性:
    • 由于基于 Apache Flink 实现,Flink CDC 自然继承了 Flink 的可伸缩架构。用户可以根据负载增加或减少任务节点。
    • 支持动态表功能(Dynamic Table),允许用户在不停止现有应用程序情况下修改表结构。
  6. 集成性:
    • 可以与Apache Kafka、Elasticsearch等其他大数据组件轻松集成,为复杂的大数据生态系统提供强大支撑。
    • 提供了连接器(Connector)接口,使得将CDC与其他外部系统连接起来变得简单快捷。
  7. 开源社区活跃
    • 作为 Apache 软件基金会项目之一,Flink 和其CDC组件拥有活跃且庞大的开发者社区。这意味着问题和bug通常能够快速被响应和解决,并且不断有新功能被添加进来。

增量快照读取

Flink CDC的增量快照读取机制是在Flink CDC 2.x版本中引入的。这一机制允许Flink CDC以更高效的方式进行数据捕获,它通过将数据表分割成多个chunk(分片),并行地对这些chunk进行快照读取,从而提高了读取速度和整体性能。

  1. 并发读取:支持多个并发读取任务,提高了数据捕获的速度。
  2. Chunk级别的checkpoint:在每个chunk读取完成后进行一次checkpoint,提高了故障恢复的准确性和效率。
  3. 全量增量无锁读取算法:不需要数据库锁权限,降低了对数据库的依赖和权限要求。

此外,Flink CDC 2.x版本还引入了Exactly-Once语义,确保数据处理结果的精确一次性,并且支持动态加表和无主键表的处理。

在Flink CDC 2.3版本中,除了对MySQL CDC的优化,还增加了对Db2、MongoDB和Oracle CDC的支持,并且这些连接器也都接入了增量快照框架,从而提供了无锁读取、并行读取和断点续传的能力。

使用示例

假设你需要从 MySQL 数据库捕获变更,并将变更数据流转发到 Kafka。以下是一个使用 Flink CDC 的简单代码示例:

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.connector.jdbc.JdbcExecutionOptions;
import org.apache.flink.connector.jdbc.JdbcSink;
import com.ververica.cdc.connectors.mysql.MySqlSource;
import com.ververica.cdc.debezium.JsonDebeziumDeserializationSchema;public class FlinkCdcDemo {public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();MySqlSource<String> mySqlSource = MySqlSource.<String>builder().hostname("your-db-hostname").port(3306).databaseList("your-database-name").tableList("your-database-name.your-table-name") // 可以更精确地指定表名.username("your-db-user").password("your-db-password").deserializer(new JsonDebeziumDeserializationSchema()) // 使用 JSON 格式解析数据.build();DataStream<String> stream = env.fromSource(mySqlSource, WatermarkStrategy.noWatermarks(), "MySQL Source");stream.addSink(new FlinkKafkaProducer<String>("your-kafka-topic",new SimpleStringSchema(),PropertiesUtil.getKafkaProperties()));env.execute("Flink CDC MySQL to Kafka");}
}

原理

Flink CDC 的原理基于变更数据捕获(Change Data Capture)技术,其核心思想是监测并捕获数据库的增量变化,如新增、修改和删除操作,然后将这些变化实时地以流的形式提供给下游系统。

工作原理可以概括为以下几个步骤:

  1. 数据捕获:CDC 引擎通过 Source Connector 从数据源中捕获变更数据。这些变更数据可以是新增、更新、删除等操作对数据的修改,通常以日志形式存在于数据源中。

  2. 数据解析:CDC 引擎对捕获的变更数据进行解析,将其转换成 Flink 的数据流格式。这包括解析变更操作的类型、影响的数据记录以及具体的变更内容等信息。

  3. 数据转换:在解析的基础上,CDC 引擎可能会对变更数据进行一些额外的转换操作,以适应目标系统或处理逻辑的要求。例如,将数据库中的行数据转换成 Flink 中的数据流格式。

  4. 数据传输:转换后的数据流被发送到 Flink 流式处理框架中进行进一步的实时处理和分析。这可以包括各种流处理操作,如数据过滤、聚合、计算等。

  5. 数据写入:处理后的数据流最终被 Sink Connector 写入到目标系统或存储介质中。这可以是将数据写入到文件系统、数据库表、消息队列等,以供后续的查询、分析或其他用途。

MySQL CDC Connector 实现原理:

1、Flink 的 MySQL CDC Connector 使用 MySQL 的二进制日志(Binlog)来捕获数据变更。Binlog 是 MySQL 中记录对数据进行更改的二进制日志文件。

2、Connector 连接到 MySQL 的 Binlog,监控其中的变更事件。通过解析 Binlog,Connector 可以了解到数据库中发生的插入、更新和删除等操作。

3、Connector 将捕获到的变更事件转换为 Flink DataStream,使其成为 Flink 流处理应用程序的输入。

PostgreSQL CDC Connector 实现原理:

1、Flink 的 PostgreSQL CDC Connector 使用 PostgreSQL 的逻辑复制机制来捕获数据变更。

2、Connector 创建一个 PostgreSQL 的逻辑复制插槽(replication slot),然后订阅这个插槽以获取数据库中的变更事件。

3、通过逻辑复制插槽,Connector 可以获取到插入、更新和删除等操作的变更事件,并将其转换为 Flink DataStream。

Debezium Connector 实现原理:

1、Debezium 是一个独立的开源 CDC 连接器,支持多种数据库。Flink 可以通过 Flink 的 Kafka Connector 与 Debezium 集成。

2、Debezium 连接到数据库的事务日志,并将变更事件发送到 Apache Kafka 中。Flink 使用 Flink 的 Kafka Connector 从 Kafka 中读取这些变更事件。

3、通过与 Debezium 集成,Flink 能够实现对多种数据库的 CDC 支持,包括 MySQL、PostgreSQL、MongoDB等。

相关文章:

Flink CDC 原理

简介 Flink CDC&#xff08;Change Data Capture&#xff09;是 Apache Flink 提供的一个变更数据捕获工具集。它可以监控数据库的变更&#xff0c;并将这些变更实时地以流的形式提供给下游系统&#xff0c;这些变更包括插入、更新和删除操作。 Flink CDC 适用于需要实时数据…...

Axure网上超市用户端APP原型 (O2O生鲜电商/买菜到家/数字零售/京东到家/抖音超市领域)

作品概况 页面数量&#xff1a;共 100 页 源文件格式&#xff1a;rp格式&#xff0c;兼容 Axure RP 9/10&#xff0c;非程序软件无源代码 适用领域&#xff1a;O2O生鲜电商、网上超市、买菜到家、数字零售 作品特色 本作品为网上超市用户消费端Axure交互原型&#xff0c;属于…...

外包公司中能学到技术的都是那些人?

在外包公司能够有效学习并提升技术的人&#xff0c;通常具备以下特点和行为模式&#xff1a; 自我驱动力强&#xff1a;这类人有强烈的学习欲望和提升自我的动机&#xff0c;不依赖公司安排的培训&#xff0c;而是主动寻找学习资源&#xff0c;如在线课程、技术书籍、开源项目等…...

JavaEE初阶-多线程进阶2

文章目录 前言一、CAS1.1 CAS的概念1.2 原子类1.3 CAS的ABA问题 二、JUC中常用类2.1 Callable接口2.2 ReentrantLock&#xff08;可重入&#xff09;2.3 Semaphore信号量2.4 CountDownLatch类2.5 CopyOnWriteArrayList类2.6 ConcurrentHashMap 前言 对于多线程进阶的部分&…...

B/S和C/S框架

一、B/S框架 B/S框架是指Browser/Server框架&#xff0c;即基于浏览器和服务器的应用程序开发框架。在B/S架构中&#xff0c;用户通过浏览器&#xff08;Browser&#xff09;访问服务器&#xff08;Server&#xff09;上的应用程序或网站&#xff0c;而无需在用户端安装额外的客…...

机器学习中常用的几种距离——欧式、余弦等

目录 一、欧式距离&#xff08;L2距离&#xff09;二、曼哈顿距离&#xff08;L1距离&#xff09;三、汉明距离四、余弦相似度 一、欧式距离&#xff08;L2距离&#xff09; &#xff08;1&#xff09;二维空间的距离公式&#xff08;三维空间的在这个基础上类推&#xff09;&…...

2024 Google I/O Android 相关内容汇总

2024 Google I/O Android 相关内容汇总 本次 Google I/O 的核心虽然是 AI &#xff0c;但是 Android 也是作为主要议题出现&#xff0c; Android 部分可以简单分为产品和开发相关内容&#xff0c;接下来主要介绍这两部分的相关更新。 重点开始开发相关&#xff0c;内容不少 产…...

# 从浅入深 学习 SpringCloud 微服务架构(十八)

从浅入深 学习 SpringCloud 微服务架构&#xff08;十八&#xff09; 一、开源配置中心 Apollo&#xff1a;概述 1、开源配置中心 Apollo Apollo -A reliable configuration management system Apollo(阿波罗)是携程框架部门研发的分布式配置中心&#xff0c;能够集中化管理…...

在SQL Server中使用临时表与普通表的性能差异分析

在SQL Server中&#xff0c;临时表和普通表的性能确实存在差异&#xff0c;具体表现和影响因素如下&#xff1a; 临时表和普通表的区别 存储位置&#xff1a; 临时表&#xff1a;存储在tempdb数据库中&#xff0c;生命周期仅限于当前会话或批处理。当会话结束或批处理完成时&a…...

数据中台管理系统原型

数据中台是一个通用性的基础平台&#xff0c;适用于各类行业场景&#xff0c;数据中台包含多元数据汇聚、数据标准化、数据开发、数据共享、数据智能、数据资产管理等功能&#xff0c;助力企业数字化转型。 数据汇聚 数据汇聚是将不同系统、不同类型的多元源数据汇聚至目标数据…...

数据库练习

在数据库中创建一个表student&#xff0c;用于存储学生信息 CREATE TABLE student( id INT PRIMARY KEY, name VARCHAR(20) NOT NULL, grade FLOAT ); 1、向student表中添加一条新记录&#xff08;记录中id字段的值为1&#xff0c;name字段的值为"monkey"&#xff0c…...

Rust学习笔记(上)

前言 笔记的内容主要参考与《Rust 程序设计语言》&#xff0c;一些也参考了《通过例子学 Rust》和《Rust语言圣经》。 Rust学习笔记分为上中下&#xff0c;其它两个地址在Rust学习笔记&#xff08;中&#xff09;和Rust学习笔记&#xff08;下&#xff09;。 编译与运行 Ru…...

【SRC实战】文件名回显导致反射型XSS,URL重定向

挖个洞先 https://mp.weixin.qq.com/s/hnrm-snkETuR-gqPOSnQXQ “ 以下漏洞均为实验靶场&#xff0c;如有雷同&#xff0c;纯属巧合 ” 01 — 漏洞证明 一、反射型XSS “ 文件名回显&#xff0c;能否触发XSS&#xff1f;” 1、灯塔扫到敏感文件&#xff0c;发现1.txt会在…...

mysql高版本导入低版本Unknown collation: utf8mb4_0900_ai_ci

MySQL数据库导入SQL报错 Unknown collation: ‘utf8mb4_0900_ai_ci‘ 错误原因&#xff1a;我本地的MySQL数据包版本为8.0的&#xff0c;而服务器上的MySQL版本为5.7&#xff0c;双方的版本不兼容&#xff0c;这样就导致我在本地写好的SQL无法在服务器上的MySQL上运行。 解决办…...

运筹说 第114期 | 其他排队模型简介

前面我们已经学习了一些排队模型&#xff0c;对排队系统有了基本认知&#xff0c;本期小编带大家继续来学习其他排队模型的内容。 一、有限源排队模型 顾客源为有限的这类排队问题的主要特征是顾客总数是有限的&#xff0c;如只有m个顾客。每个顾客来到系统中接受服务后仍回到…...

易基因: WGBS等揭示梨驯化和改良过程中DNA甲基化对果实成熟的作用机制 | 作物育种

大家好&#xff0c;这里是专注表观组学十余年&#xff0c;领跑多组学科研服务的易基因。 梨&#xff08;Pyrus ssp.&#xff0c;蔷薇科杏仁核亚科&#xff09;是世界上最重要的温带水果作物之一。与野生梨相比&#xff0c;栽培梨的果实在许多形态特征上表现出显著变化&#xf…...

数据分析(二)——导入外部数据,导入Excel数据,CSV文件,txt文件,HTML网页,数据抽取,DataFrame对象的loc属性与iloc属性

一.导入外部数据 1.导入.xIs或.xIsx文件 pd.read_ excel(io,sheet_ name,header) 1.1常用参数说明 ●io:表示.xIs或.xIsx文件路径或类文件对象 ●sheet name:表示工作表&#xff0c;取值如下表所示 ●header:默认值为0&#xff0c;取第一行的值为列名&#xff0c;数据为除列…...

如何让Linux系统崩溃?

如何使 Linux 系统崩溃 警告 下面的代码行是 Bash shell 的一个简短而甜蜜的 fork 炸弹。分叉炸弹之所以有效&#xff0c;是因为它能够产生无限数量的进程。最终&#xff0c;Linux无法处理所有这些&#xff0c;并且会崩溃。 fork 炸弹的一大优点是你不需要 root 权限即可执行它…...

C# 实现邮件推送功能

&#x1f3c6;作者&#xff1a;科技、互联网行业优质创作者 &#x1f3c6;专注领域&#xff1a;.Net技术、软件架构、人工智能、数字化转型、DeveloperSharp、微服务、工业互联网、智能制造 &#x1f3c6;欢迎关注我&#xff08;Net数字智慧化基地&#xff09;&#xff0c;里面…...

企业微信私域营销:构建高效转化新引擎

在数字营销的大潮中&#xff0c;企业微信作为企业内部沟通协作的重要工具&#xff0c;也逐渐成为企业私域营销的重要战场。本文将带您深入了解企业微信私域营销的魅力&#xff0c;探讨如何构建高效转化的新引擎。 一、企业微信私域营销&#xff1a;为何重要&#xff1f; 企业微…...

电力物联网-(2)系统设计

电力物联网系统设计 前言 在此之前写过《电力物联网系统设计》开篇文章&#xff0c;上一篇文章主要的概述性的内容&#xff0c;发表之后总觉得对电力物联网系统设计这一方面还只是开了一个头&#xff0c;没有把相关的内容讲解清楚&#xff0c;于是经过一段时间的构思终于产出了…...

如何确保企业信息的真实性和可靠性,保障企业权益、降低合作风险

企业四要素核验&#xff1a;确保企业信息真实性的关键步骤 随着信息技术的飞速发展&#xff0c;企业信息的准确性和可靠性对于商业决策、合作伙伴选择以及风险管理等方面都显得尤为重要。为了确保企业信息的真实性和可靠性&#xff0c;企业四要素核验成为了一项关键步骤。本文…...

用python写一个自动生成android开机动画的工具

要创建一个自动生成Android开机动画的工具&#xff0c;你需要一些基本的知识&#xff0c;比如Python编程、图像处理和Android开机动画的格式。以下是一个简单的Python脚本示例&#xff0c;它可以生成一个基本的Android开机动画&#xff0c;具体效果可能需要更多的调整和优化。 …...

玩机进阶教程------MTK机型重置账号 去除FRP 去除开机密码 清除数据的几种方法步骤解析

目前的机型不管是高通芯片还是MTK芯片。都有账号类限制。包含云账号 frp账号和开机密码等等,他们在线刷包中对应的分区是不同的。例如针对开机图案密码这些,有些机型靠简单的恢复出厂是无效果的,其实对应的解决方法很简单。今天将针对MTK芯片机型的账号问题做个步骤解析。 …...

基于STM32单片机和RFID的智能仓库管理系统-设计说明书

设计摘要&#xff1a; 本设计是基于STM32单片机和RFID技术的智能仓库管理系统。系统主要具备以下功能&#xff1a;首先&#xff0c;将货物的名称和数量信息存储在RFID卡中&#xff0c;每个货物对应一个RFID卡&#xff0c;共有三个RFID卡。当需要进行出库或入库操作时&#xff…...

使用Processing和PixelFlow库创建交互式流体太极动画

使用Processing和PixelFlow库创建交互式流体太极动画 引言准备工作效果展示代码结构代码解析第一部分&#xff1a;导入库和设置基本参数第二部分&#xff1a;流体类定义MyFluidDataConfig 类详解MyFluidData 类详解my_update 方法详解流体类定义完整代码 第三部分&#xff1a;太…...

环境工程设计专项资质乙级可以承接哪些业务

环境工程设计专项资质乙级可以承接的业务主要包括以下几个方面&#xff1a; 空气污染控制&#xff1a;涉及工业锅炉及窑炉烟气治理、工业粉尘治理、含氟废气治理、含硫废气治理、恶臭气体治理以及室内空气污染治理等工程的设计与施工。水污染控制&#xff1a;可以承接水污染防…...

WordPress原创插件:超链接点击访问统计

内容目录 一、详细介绍二、效果展示1.部分代码2.效果图展示 三、学习资料下载 一、详细介绍 一般我们都使用第三方统计服务&#xff08;比如百度统计&#xff09;来统计网站的访问量&#xff0c;使用此插件可以统计文章的浏览次数&#xff0c;那么&#xff0c;如果想统计网站外…...

51单片机:点亮一个LED灯

1.新建工程 选择AT89C52&#xff0c;在Atmel下显示的是See Microchip 并不需要添加启动文件到文件夹中。 添加main.c文件&#xff0c;c比cpp效率高&#xff0c;.asm汇编即更底层 程序编写好后 nop(); 该函数在这个头文件里面 #include <INTRINS.H> #include <R…...

泽攸科技无掩模光刻机:引领微纳制造新纪元

在当今科技迅猛发展的时代&#xff0c;微纳制造技术正变得越来越重要。泽攸科技作为这一领域的先行者&#xff0c;推出了其创新的无掩模光刻机&#xff0c;这一设备在微电子制造、微纳加工、MEMS、LED、生物芯片等多个高科技领域展现出了其独特的价值和广泛的应用前景。 技术革…...