当前位置: 首页 > news >正文

数据集成平台选型建议

一 数据集成介绍

数据集成平台是一种用于管理和协调数据流动的软件工具或服务。它的主要目标是将来自多个不同数据源的数据整合到一个统一的、易于访问和分析的数据存储库中。这些数据源可以包括数据库、云应用、传感器、日志文件、社交媒体等等。数据集成平台的关键任务是确保数据的一致性、完整性和可靠性,以便业务用户可以信任和使用这些数据来做出决策。
按照数据的生命周期,我们通常将大数据技术分为数据集成、数据存储、批/流处理、数据查询与分析、数据调度与编排、数据开发、BI 7 个部分。

可以看到数据集成在数据生命周期的最前面位置,它负责将多个来自不同数据源的数据聚合存放在一个数据存储中(如数据仓库/数据湖),组合为用户提供单一统一视图,可以兼顾数据的增长量及所有不同的格式,合并所有类型的数据方便了后续的数据分析和挖掘工作。

二 datax简介

datax 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

它将传统的点对点结构数据同步方式向星型结构模式转变。
datax演进过程:datax–> datax-web --> dataworks(datax商业版)

三 数据集成工具介绍

下面将介绍下国内使用的主流数据集成工具。

3.1 开源数据集成工具

3.1.1 datax

官网:https://github.com/alibaba/DataX
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

3.1.2 datax-web

官网:https://github.com/WeiYe-Jing/datax-web
DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务,支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源,RDBMS数据源可批量创建数据同步任务,支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发xxl-job可根据时间、自增主键增量同步数据。

3.1.3 kettle

官网:https://github.com/pentaho/pentaho-kettle
Kettle 是一款国外开源的 ETL(Extract, Transform, Load,即数据抽取、转换、加载)工具,它使用纯Java编写,并可以在Windows、Linux、Unix等多个操作系统上运行。

3.1.4 Sqoop

官网:https://sqoop.apache.org/
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

3.1.5 Apache NiFi

Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统。基于Web图形界面,通过拖拽、连接、配置完成基于流程的编程,实现数据采集等功能。NiFi是美国国家安全局NAS开发并使用了8年的可视化数据集成产品,2014年贡献给了Apache社区,2015年成为Apache顶级项目。 是为数据流设计。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。

3.1.6 Apache SeaTunnel

官网:https://seatunnel.incubator.apache.org/
Apache Seatunnel 是一个分布式、高性能、易扩展、用于海量数据(离线&实时)同步和转化的数据集成平台。

3.1.7 Flink CDC

Flink CDC(Change Data Capture)是Flink提供的一个功能,用于捕获和处理数据源中的变化,特别是数据库中的数据变动。它通过在数据源上设置机制,能够实时地捕获并传递变化的数据,实现实时数据管道和处理分析。

3.2 商用数据集成工具

  • FineDataLink
  • dataworks
  • ETLCloud
  • kafka streams

四 数据同步方式

按照使用场景划分,目前数据同步主要有离线同步实时同步全增量同步三种方式。

4.1 离线同步

在固定时间段或者按照预定计划进行的数据同步,它不强调数据的实时性,而是批量处理历史数据或者定时抓取数据的变化。比如在每天特定时间点或每个小时执行一次同步任务,将数据从源系统抽取、处理后加载到目标系统。这种同步模式适用于数据量较大且对实时性要求不高的场合,例如每日业务报表的生成、夜间批量数据迁移或备份等。

4.2 实时同步

数据在源头发生变化时立即触发同步动作,以极低的延迟甚至接近实时的方式将数据更新反映到目标系统中。这通常涉及到复杂的事件驱动机制、消息队列、流处理技术等,以便捕获和传递数据变更事件,实现实时数据流动。实时同步的应用场景包括实时交易系统、监控系统、物联网(IoT)数据收集、金融风控、在线广告推荐系统等,这些都需要数据的实时一致性来支持高效决策和业务运作。

4.3 全增量同步

一种结合了离线同步与实时同步优点的数据同步策略,旨在既能快速完成初次完整数据同步,又能高效地保持后续数据的实时更新。具体定义如下:首先执行一次全量批量同步操作,然后设置一种机制来跟踪源数据库的变更,持续进行实时同步。这样既保证了在同步开始阶段目标数据库能获取完整的数据视图,又能在后续的时间里通过实时同步及时、高效地更新目标数据库中的数据,从而减少了数据传输量,提高了同步效率,并且维持了数据的一致性。

五 数据集成工具选型对比

数据同步SeaTunnulETLCloudFineDataLinkDataWorksFlink CDCDataXKettleOGGCannelSqoop
CDC机制日志/查询日志/查询日志/查询日志/查询日志查询查询日志日志查询
增量同步×××
断点续传×××
全量同步×
全量+增量××××
架构分布式分布式分布式分布式分布式单机单机分布式单机单机
Transformation※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
生态※※※※※※※※※※※※※※※※※※※※※※※※※※※※
开源×××
学习难度

六 总结

如果想使用开源数据集成平台,自我推荐使用 Apache Seatunnel 或者 Flink CDC(3.0后变化很大) 作为企业数据集成平台。


欢迎关注微信公众号:大数据AI

相关文章:

数据集成平台选型建议

一 数据集成介绍 数据集成平台是一种用于管理和协调数据流动的软件工具或服务。它的主要目标是将来自多个不同数据源的数据整合到一个统一的、易于访问和分析的数据存储库中。这些数据源可以包括数据库、云应用、传感器、日志文件、社交媒体等等。数据集成平台的关键任务是确保…...

Centos8安装Docker,使用阿里云源

一、前期准备 1.关闭防火墙,SELINUX systemctl stop firewalld.service systemctl disable firewalld.service setenforce 0 sed -i "s/SELINUXenforcing/SELINUXdisabled/g" /etc/selinux/config查看状态 systemctl status firewalld systemctl status…...

FFmpeg概念和简单使用

FFmpeg是一个开源的跨平台多媒体处理工具套件,包含了用于处理音频、视频和图像的各种工具、库和命令行程序。它由一个主要的命令行工具ffmpeg和一系列相关工具组成,可以执行各种各样的多媒体操作。以下是FFmpeg中一些重要的概念: 音频、视频和…...

OJ_最长公共子序列

题干 C实现 #include <iostream> #include <stdio.h> #include <algorithm> using namespace std;int dp[1002][1002];int main() {int n,m;char s1[1001];char s2[1001];scanf("%d%d",&n,&m);scanf("%s%s",s1,s2);//dp[i][j]是…...

SpringBoot拦截器获取token用户对象优雅地传递到Controller层

项目场景&#xff1a; SpringBoot拦截器获取token用户对象优雅地传递到Controller层 问题描述 后端有许多接口都需要请求中携带有正确的Token&#xff0c;这时采用拦截器来验证token&#xff0c;但是每个接口都还是需要解析一遍token&#xff0c;浪费资源&#xff0c;不免显得…...

从零开始学HCIA之SDN03

1、VXLAN相关概念 &#xff08;1&#xff09;NVE&#xff08;Network Virtual Edge&#xff09;&#xff0c;网络虚拟化边界&#xff0c;是运行VXLAN的设备&#xff0c;其实体是一种虚拟逻辑接口&#xff0c;负责VXLAN数据的封装和解封装&#xff0c;其主要参数包括源VTEP以及…...

C语言深度理解之——结构体内存对齐

前言&#xff1a; 在C语言中&#xff0c;结构体&#xff08;struct&#xff09;是一种用户自定义的数据类型&#xff0c;可以包含不同类型的数据成员。在定义结构体时&#xff0c;编译器会根据平台的要求对结构体的内存进行对齐&#xff0c;以提高内存访问的效率。结构体内存对…...

LeetCode 热题 100 | 回溯(二)

目录 1 39. 组合总和 2 22. 括号生成 3 79. 单词搜索 菜鸟做题&#xff0c;语言是 C&#xff0c;感冒快好版 关于对回溯算法的理解请参照我的上一篇博客&#xff1b; 在之后的博客中&#xff0c;我将只分析回溯算法中的 for 循环。 1 39. 组合总和 题眼&#xff1a;c…...

混合内容错误https中加载了http

一、遇到问题 iframe嵌套时&#xff0c;混合内容错误https中加载了http&#xff0c;但是已经确认了ifreme中是https的&#xff0c;最后发现在/my/edit?applyid1改为/my/edit/?applyid1&#xff0c;加了一个斜杠&#xff0c;直接解决了 /my/edit是vue页面&#xff0c;其他页…...

游戏免费下载平台模板源码

功能介绍 此游戏网站模板源码是专门为游戏下载站而设计的&#xff0c;旨在为网站开发者提供一个高效、易于维护和扩展的解决方案。 特点&#xff1a; 响应式设计&#xff1a;我们的模板可以自适应不同设备屏幕大小&#xff0c;从而为不同平台的用户提供最佳的浏览体验。 …...

鸿蒙视频播放的实现

文章目录 前言播放效果视频播放的实现总结 一、前言 现在市面上很多应用都跟视频有关&#xff0c;那么在鸿蒙系统上怎么来播放视频呢&#xff0c;今天就讲解视频播放控件&#xff0c;让你也能快速地进行视频播放功能开发。 最后呢&#xff0c;我会提供一个鸿蒙中涉及的主要…...

QT----计算器

目录 1 搭建标准界面2、 逻辑编写2.1 初始化 github链接&#xff1a;基于qt的计算器 更多内容可以点击这里查看个人博客&#xff1a;个人博客 1 搭建标准界面 按照下图搭设界面 修改样式让这计算器看起来更像一点&#xff0c;同时对按钮分组进行样式编辑&#xff0c;添加字符…...

Linux:kubernetes(k8s)Deployment的操作(13)

创建deployment 命令 kubectl create deploy nginx-deploy --imagenginx:1.7.9 再去使用以下命令分别查询 ubectl get deploy kubectl get replicaset kubectl get pod 他是一个层层嵌套的一个关系 首先是创建了一个 deploy 里面包含着replicaset replicaset里面含有…...

20240619-James-快速鸟瞰并发编程, 呕心沥血整理的架构技术(第3篇)

接着第1, 2篇后&#xff0c;我们继续来跟进一下并发编程的其它内容&#xff0c;如下&#xff1a; 第9节 java.util.concurrent包 线程池 线程池的核心接口是ExecutorService。java.util.concurrent还提供了一个静态工厂类Executors&#xff0c;其中包含用于创建配置线程池的…...

C语言——详解字符函数和字符串函数(一)

Hi,铁子们好呀&#xff01;今天博主来给大家更一篇C语言的字符函数和字符串函数~ 具体讲的内容如下&#xff1a; 文章目录 &#x1f386;1.字符分类函数&#x1f4af;&#x1f4af;⏩1.1 什么是字符分类函数的&#xff1f;&#x1f4af;&#x1f4af;⏩1.2 字符函数的类型有哪…...

三款内衣洗衣机的顶级较量:希亦、小吉、由利,谁才是性价比之王?

洗衣机在我们的生活中可谓是非常常见的了&#xff0c;几乎每家每户都具备着一台。即便是有洗衣机&#xff0c;也有不少人不会将自己我贴身衣物直接扔在洗衣机里清洗&#xff0c;而是会自己手工手洗。这跟我们传统上的观念有很大的关系&#xff0c;认为把内衣、内裤等贴身衣物放…...

Java枚举多值映射应用

在日常系统交互中&#xff0c;经常遇到两个系统间定义的枚举不一致&#xff0c;在接口调用时需要转换&#xff0c;记录实现&#xff0c;方便备查。 场景 双方的支付方式定义不同&#xff0c;一侧为数字&#xff0c;一侧为英文&#xff0c;若使用 if 判断&#xff0c;则显得繁琐…...

css--浮动

一. 浮动的简介 在最初&#xff0c;浮动是用来实现文字环绕图片效果的&#xff0c;现在浮动是主流的页面布局方式之一。 二. 元素浮动后的特点 &#x1f922;脱离文档流。&#x1f60a;不管浮动前是什么元素&#xff0c;浮动后&#xff1a;默认宽与高都是被内容撑开&#xff0…...

基于有限状态机开发健壮的Nodejs/TCP客户端

有限状态机是一种数学计算模型&#xff0c;它描述了在任何给定时间只能处于一种状态的系统的行为。形式上&#xff0c;有限状态机有五个部分&#xff1a; 初始状态值 (initial state)有限的一组状态 (states)有限的一组事件 (events)由事件驱动的一组状态转移关系 (transition…...

javaEE13(网站第8章两个课后题)

1、对“jspservletjavabean实现分页查询”功能做如下补充&#xff1a; &#xff08;1&#xff09;记录批量删除&#xff1a;每个记录前添加复选框&#xff0c;点击批量删除&#xff0c;删除选中记录。 增加跳转到任意页功能。用户可改变每页记录条数。 页面&am…...

初创团队如何通过Taotoken模型广场选型并控制AI成本

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 初创团队如何通过Taotoken模型广场选型并控制AI成本 对于资源有限的初创团队而言&#xff0c;将大模型能力集成到产品中是加速创新…...

Vue Antd Admin架构完全指南:从设计哲学到最佳实践

Vue Antd Admin架构完全指南&#xff1a;从设计哲学到最佳实践 【免费下载链接】vue-antd-admin &#x1f41c; Ant Design Pros implementation with Vue 项目地址: https://gitcode.com/gh_mirrors/vu/vue-antd-admin Vue Antd Admin是一款基于Vue.js和Ant Design Pro…...

B站缓存合并工具:Android设备上的离线视频处理神器

B站缓存合并工具&#xff1a;Android设备上的离线视频处理神器 【免费下载链接】BilibiliCacheVideoMerge &#x1f525;&#x1f525;Android上将bilibili缓存视频合并导出为mp4&#xff0c;支持安卓5.0 ~ 13&#xff0c;视频挂载弹幕播放(Android consolidates and exports t…...

Adobe-GenP 3.0:解锁Adobe全家桶专业功能的简易指南

Adobe-GenP 3.0&#xff1a;解锁Adobe全家桶专业功能的简易指南 【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP 还在为Adobe Creative Cloud的高昂订阅费用而烦恼吗…...

终极Python金融数据接口:3步掌握免费高效的A股数据获取方案

终极Python金融数据接口&#xff1a;3步掌握免费高效的A股数据获取方案 【免费下载链接】mootdx 通达信数据读取的一个简便使用封装 项目地址: https://gitcode.com/GitHub_Trending/mo/mootdx 在金融数据分析和量化交易领域&#xff0c;获取准确、及时且成本可控的市场…...

用GoC画图搞定2018年5月那道‘场记板’编程题,附完整代码和思路拆解

用GoC画图还原2018年场记板编程题的完整解题思路 第一次看到这道场记板题目时&#xff0c;许多同学会被"n条竖线"的要求难住。其实只要拆解图形结构&#xff0c;用GoC的基础命令就能轻松实现。本文将从零开始&#xff0c;带你用分治法拆解这个经典考题&#xff0c;不…...

基于计算机视觉与物联网的智能虫害监测系统设计与实践

1. 项目概述&#xff1a;从“人眼巡查”到“智能感知”的虫害管理革命在农业种植、仓储物流乃至城市绿化管理中&#xff0c;虫害监测一直是一项耗时耗力且高度依赖经验的工作。传统的做法是依靠人工定期巡查&#xff0c;不仅效率低下&#xff0c;覆盖面有限&#xff0c;而且对巡…...

Java 读写 Excel 公式:从基础到高级的实战总结

做数据处理的朋友应该都遇到过这种场景&#xff1a;需要批量生成带公式的Excel报表&#xff0c;或者读取现有表格中的公式进行二次计算。以前我都是手动在Excel里写公式&#xff0c;后来发现用Java代码来处理更高效&#xff0c;尤其是数据量大的时候。 今天整理一下平时用得比较…...

从Notebook到Lab再到Hub:一文讲清Jupyter生态在Linux服务器上的部署逻辑与选型

从Notebook到Lab再到Hub&#xff1a;一文讲清Jupyter生态在Linux服务器上的部署逻辑与选型 在数据科学和机器学习领域&#xff0c;Jupyter生态已经成为不可或缺的工具链。但对于刚接触这一技术栈的用户来说&#xff0c;Notebook、Lab和Hub这三个核心组件的关系常常令人困惑。本…...

RTX251实时系统中NMI中断支持问题解析

1. RTX251调试中的NMI中断问题解析在嵌入式系统开发中&#xff0c;非屏蔽中断(NMI)作为一种高优先级的中断机制&#xff0c;通常用于处理系统关键错误和调试场景。然而&#xff0c;当使用Keil的RTX251实时操作系统与Temic 251系列芯片配合时&#xff0c;开发者可能会遇到NMI支持…...