DataOps驱动数据集成创新:Apache DolphinScheduler SeaTunnel on Amazon Web Services
引言
在数字化转型的浪潮中,数据已成为企业最宝贵的资产之一。DataOps作为一种文化、流程和实践的集合,旨在提高数据管道的质量和效率,从而加速数据从源头到消费的过程。白鲸开源科技,作为DataOps领域的领先开源原生公司,由Apache成员成立,80%的员工都是Apache Committer,主导着两个Apache顶级开源项目:Apache DolphinScheduler和Apache SeaTunnel。这些项目在全球6000多家企业中得到实践和使用,展现了DataOps的优势。
Apache DolphinScheduler:云原生时代的高稳定可视化调度平台
Apache DolphinScheduler是一个云原生的可视化工作流调度平台,它解决了企业级场景中的多个痛点,如任务单元多、执行频率高、数据量和任务量大、存在依赖关系等。与传统的老旧调度引擎相比,DolphinScheduler支持多任务类型、集群化部署与拓展,去中心分布式设计,高稳定可用,开源数据组件更新升级频率高,以及多云异构数据的管理能力。
特点
- 开源数据组件:更新升级频率高,保持技术栈的先进性。
- 多云异构数据管理:适应不同云环境和数据源的需求。
- 任务稳定运行:支持百万数据量级的任务稳定运行。
Apache SeaTunnel:新一代实时多源数据同步工具——大数据高速公路
Apache SeaTunnel是一个实时多源数据同步工具,支持上百种源数据库/地点和目标数据库/地点,包括MySQL、PostgreSQL、Kafka、MongoDB、Elastic、Hive等。SeaTunnel的性能比原有解决方案快50%-2倍,甚至在某些情况下快30倍。它支持批量数据全量、增量集成以及实时数据集成,为大数据提供了高速公路。
特点
- 性能卓越:SeaTunnel性能快50%-2倍,某些情况下快30倍。
- 数据同步与集成:支持批量数据全量、增量集成以及实时数据集成。
WhaleStudio简介
WhaleStudio是白鲸开源科技根据全球最佳实践发布的商业版版本,
调度模块产品功能
工作流编排能力
它支持各类计算任务组件,如Amazon DMS、Amazon Datasync、Apache Linkis,DataX,Sqoop,SeaTunnel等,以及各类云数据库和计算架构,支持K8S、MLDB。平台采用插件式设计,支持自由扩展数据源支持,可视化的数据源管理,大大减少了配置修改带来的工作量。
- 工作流基本配置:包括标签设置、租户、牌、全局变量和超时告警。
- 执行策略:可以是并行、串行等待或串行优先。
- 数据开发能力:包括在线IDE&集成,实现DataOps。
数据开发能力
WhaleStudio可以实现在线 IDE & 集成 ,实现 DataOps.
产品功能详解
- SQL任务 在源中心创建数据源连接,在任务中指定数据源,在脚本中编写SQL语句,支持读写混合和多行SQL,支持设置多个前置SQL语句,支持调试。
跨项目依赖任务 依赖检查任务,跨工作流检查,支持时间日期检查,支持自循环检查,依赖策略包括失败-继续和失败-等待。
资源中心 – git打通 Git文件功能允许用户将整个Git仓库作为资源文件上传到资源中心,执行任务时下载脚本文件,并提供更新接口。
- 数据任务血缘关系影响分析 工作流定义和任务定义的影响分析,查看任务加工的影响深度和广度,工作流实例和任务实例的影响分析。
- 源中心 统一管理所有数据源,控制数据源的读写权限,重要信息加密显示,多种使用场景。
同步模块产品功能
WhaleTunnel支持160种数据源接口,多种数据集成方式,包括批量数据全量、增量集成和实时数据集成。它支持商业数据库实时CDC,包括Mysql cdc、PostgreSQL cdc等。
离线同步任务定义
离线同步任务定义包括Source和Sink,Source用来定义数据的来源,Sink用来定义数据同步的目标。支持选择同步字段、全表同步、已有表结构处理、已有数据处理和保障数据一致性。
实时同步任务定义
实时同步任务定义包括创建数据源、Source和任务设置。支持历史数据阶段每次读取的行数、作业启动模式、在快照读取阶段读取增量日志并去重数据、并行度设置等。
数据转换及处理–Transform
WhaleTunnel提供多种数据转换节点,可以在数据同步管道中对表属性或数据进行转换处理,包括单列复制多列、单列拆分为多列、字段删除、字段重命名、字段值替换、数据变更处理、自定义sql脚本等。
Transform可适配实时同步中的DDL变更,如根据表达式匹配的transform会自动对新增字段进行处理。
表DDL变更检查–刷新表元数据
WhaleTunnel支持对同步任务中配置的表进行表结构变更检查,以获取尤其是离线同步任务中的表结构变化。支持主动批量检查发现表结构变更和定时批量检查发现表结构变更。
实时数据同步支持DDL变更触发暂停、报警以及延迟告警
实时数据处理支持多种实时数据监测处理,包括DDL变更暂停、DDL变更告警、DDL暂停加表、DDL手工处理等。
产品功能
- 数据质量校验
数据质量支持多种数据源,包括正则表达式、表行数校验、两表值比对、空值检测、使用Spark实现、及时性校验、多表准确性、字段长度校验、枚举值校验、自定义SQL、唯一性校验。
- 数据质量场景
数据质量比对类型包括两表值比对,场景如计算语文成绩详情表yunwen_list所有人的总分和成绩汇总表chengji中语文总成绩,两者差值在1分以内,否则就阻断工作流执行。
Demo
下面是一个Demo,详细演示如何从Aurora CDC实时数据同步到Redshift:
https://www.bilibili.com/video/BV19zq2YpEFd/
src="//player.bilibili.com/player.html?isOutside=true&aid=113632822167469&bvid=BV19zq2YpEFd&cid=27285128673&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true">结语
Apache DolphinScheduler和Apache SeaTunnel作为全球领先的开源原生DataOps平台,不仅提供了强大的数据集成和调度能力,还通过其商业版本WhaleStudio,帮助企业智能化地完成多数据源、多云及信创环境的数据集成、数据开发、工作流编排运维及部署、数据质量管控、团队敏捷协作等一系列问题。这些工具的全球应用案例证明了它们在数据集成领域的创新和领导地位。随着技术的不断进步和企业需求的日益增长,DataOps将继续引领数据管理的未来。
本文由 白鲸开源科技 提供发布支持!
相关文章:

DataOps驱动数据集成创新:Apache DolphinScheduler SeaTunnel on Amazon Web Services
引言 在数字化转型的浪潮中,数据已成为企业最宝贵的资产之一。DataOps作为一种文化、流程和实践的集合,旨在提高数据管道的质量和效率,从而加速数据从源头到消费的过程。白鲸开源科技,作为DataOps领域的领先开源原生公司…...

Android Studio的笔记--BusyBox相关
BusyBox 相关 BusyBoxandroid上安装busybox和使用示例一、下载二、移动三、安装和设置环境变量四、使用 busybox源码下载和查看 BusyBox BUSYBOX BUSYBOX链接https://busybox.net/ 点击链接后如图 点击左边菜单栏的Get BusyBix中的Download Source 跳转到busybox 的下载源码…...
MySQL 存储过程与函数:增强数据库功能
一、MySQL 存储过程与函数概述 (一)存储过程的定义与特点 存储过程是一组预编译的 SQL 语句集合,它们被存储在数据库中,可根据需要被重复调用。例如,在一个电商系统中,经常需要查询某个时间段内的订单数据…...

网络安全(3)_安全套接字层SSL
4. 安全套接字层 4.1 安全套接字层(SSL)和传输层安全(TLS) (1)SSL/TLS提供的安全服务 ①SSL服务器鉴别,允许用户证实服务器的身份。支持SSL的客户端通过验证来自服务器的证书,来鉴别…...
Git 快速入门
Git 是什么? Git 是一个分布式版本控制系统四大区域: 工作区:项目文件的当前状态,即本地目录。暂存区:保存将要提交的文件快照,是一个中间层,使用git add将文件添加到暂存区。本地仓库…...

AI学习记录 - 依据 minimind 项目入门
想学习AI,还是需要从头到尾跑一边流程,最近看到这个项目 minimind, 我也记录下学习到的东西,需要结合项目的readme看。 1、github链接 https://github.com/jingyaogong/minimind?tabreadme-ov-file 2、硬件环境:英伟达4070ti …...

数据结构----链表头插中插尾插
一、链表的基本概念 链表是一种线性数据结构,它由一系列节点组成。每个节点包含两个主要部分: 数据域:用于存储数据元素,可以是任何类型的数据,如整数、字符、结构体等。指针域:用于存储下一个节点&#…...
设计模式-读书笔记
确认好: 模式名称 问题:在何时使用模式,包含设计中存在的问题以及问题存在的原因 解决方案:设计模式的组成部分,以及这些组成部分之间的相互关系,各自的职责和协作方式,用uml类图和核心代码描…...

c语言----选择结构
基本概念 选择结构是C语言中用于根据条件判断来执行不同代码块的结构。它允许程序在不同的条件下执行不同的操作,使程序具有决策能力。 if语句 单分支if语句 语法格式: if (条件表达式) { 执行语句块; } 功能: 当条件表达式的值为真&#…...

KS曲线python实现
目录 实战 实战 # 导入第三方模块 import pandas as pd import numpy as np import matplotlib.pyplot as plt# 自定义绘制ks曲线的函数 def plot_ks(y_test, y_score, positive_flag):# 对y_test重新设置索引y_test.index np.arange(len(y_test))# 构建目标数据集target_dat…...
解决matplotlib中文乱码问题
进入python,查看缓存 import matplotlib as mpl print(mpl.get_cachedir())如果结果为/Users/xxx/.matplotlib 那么就rm -rf /Users/xxx/.matplotlib 然后 mkdir ~/.fonts cd ~/.fonts wget http://129.204.205.246/downloads/SimHei.ttfsudo apt-get install fo…...

实操给桌面机器人加上超拟人音色
前面我们讲了怎么用CSK6大模型开发板做一个桌面机器人充当AI语音助理,近期上线超拟人方案,不仅大模型语音最快可以1秒内回复,还可以让我们的桌面机器人使用超拟人音色、具备声纹识别等能力,本文以csk6大模型开发板为例实操怎么把超…...

git stash 的文件如何找回
在Git中,如果你使用了git stash命令来保存你的工作进度,但之后想要找回这些被stash的文件,你可以按照以下步骤进行操作: 1. 查看stash列表 首先,使用git stash list命令来查看当前保存的所有stash记录。这个命令会列出…...

皮肤伤口分割数据集labelme格式248张5类别
数据集格式:labelme格式(不包含mask文件,仅仅包含jpg图片和对应的json文件) 图片数量(jpg文件个数):284 标注数量(json文件个数):284 标注类别数:5 标注类别名称:["bruises","burns","cu…...

uni-app开发AI康复锻炼小程序,帮助肢体受伤患者康复!
**提要:**近段时间我们收到多个康复机构用户,咨询AI运动识别插件是否可以应用于肢力运动受限患者的康复锻炼中来,插件是可以应用到AI康复锻炼中的,今天小编就为您介绍一下AI运动识别插件在康腹锻炼中的应用场景。 一、康复机构的应…...

双内核架构 Xenomai 4 安装教程
Xenomai 4是一种双内核架构, 继承了Xenomai系列的特点,通过在Linux内核中嵌入一个辅助核心(companion core),来提供实时能力。这个辅助核心专门处理那些需要极低且有界响应时间的任务。 本文将在官网教程(https://evlproject.org/…...
【redis的使用、账号流程、游戏服Handler的反射调用】1.自增id 2.全局用户名这样子名字唯一 3.
一、web服 1)账号注册 // 用于唯一命名服务 com.xinyue.game.center.business.account.logic.AccountRegisterService#accountRegister public void accountRegister(AccountEntity account) {accountManager.checkUsername(account.getUsername());accountManager.checkPass…...

neo4j 图表数据导入到 TuGraph
neo4j 图表数据导入到 TuGraph 代码文件说明后文 前言:近期在引入阿里的 TuGraph 图数据库,需要将 原 neo4j 数据导入到新的 tugraph 数据库中。预期走csv文件导入导出,但因为格式和数据库设计问题,操作起来比较麻烦(可能是个人没…...

启动报错java.lang.NoClassDefFoundError: ch/qos/logback/core/status/WarnStatus
报错信息图片 日志: Exception in thread "Quartz Scheduler [scheduler]" java.lang.NoClassDefFoundError: ch/qos/logback/core/status/WarnStatus先说我自己遇到的问题,我们项目在web设置了自定义的log输出路径,多了一个 / 去…...
【ubuntu18.04】ubuntu18.04挂在硬盘出现 Wrong diagnostic page; asked for 1 got 8解决方案
错误日志 [ 8754.700227] usb 2-3: new full-speed USB device number 3 using xhci_hcd [ 8754.867389] usb 2-3: New USB device found, idVendor0e0f, idProduct0002, bcdDevice 1.00 [ 8754.867421] usb 2-3: New USB device strings: Mfr1, Product2, SerialNumber0 [ 87…...
java_网络服务相关_gateway_nacos_feign区别联系
1. spring-cloud-starter-gateway 作用:作为微服务架构的网关,统一入口,处理所有外部请求。 核心能力: 路由转发(基于路径、服务名等)过滤器(鉴权、限流、日志、Header 处理)支持负…...

.Net框架,除了EF还有很多很多......
文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...
MySQL用户和授权
开放MySQL白名单 可以通过iptables-save命令确认对应客户端ip是否可以访问MySQL服务: test: # iptables-save | grep 3306 -A mp_srv_whitelist -s 172.16.14.102/32 -p tcp -m tcp --dport 3306 -j ACCEPT -A mp_srv_whitelist -s 172.16.4.16/32 -p tcp -m tcp -…...
CMake控制VS2022项目文件分组
我们可以通过 CMake 控制源文件的组织结构,使它们在 VS 解决方案资源管理器中以“组”(Filter)的形式进行分类展示。 🎯 目标 通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总(共4种) 方法描述是否推荐…...
大数据学习(132)-HIve数据分析
🍋🍋大数据学习🍋🍋 🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。 💖如果觉得博主的文章还不错的话,请点赞👍收藏⭐️留言Ǵ…...

Maven 概述、安装、配置、仓库、私服详解
目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据
微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。 您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。 您还将了解如何分析列,以便知晓哪些列包含有价值的数据,…...

中医有效性探讨
文章目录 西医是如何发展到以生物化学为药理基础的现代医学?传统医学奠基期(远古 - 17 世纪)近代医学转型期(17 世纪 - 19 世纪末)现代医学成熟期(20世纪至今) 中医的源远流长和一脉相承远古至…...

解读《网络安全法》最新修订,把握网络安全新趋势
《网络安全法》自2017年施行以来,在维护网络空间安全方面发挥了重要作用。但随着网络环境的日益复杂,网络攻击、数据泄露等事件频发,现行法律已难以完全适应新的风险挑战。 2025年3月28日,国家网信办会同相关部门起草了《网络安全…...
MySQL 主从同步异常处理
阅读原文:https://www.xiaozaoshu.top/articles/mysql-m-s-update-pk MySQL 做双主,遇到的这个错误: Could not execute Update_rows event on table ... Error_code: 1032是 MySQL 主从复制时的经典错误之一,通常表示ÿ…...