当前位置: 首页 > news >正文

数据集成时表模型同步方法解析

01 背景介绍

数据治理的第一步,也是数据中台的一个基础功能 — 即将来自各类业务数据源的数据,同步集成至中台 ODS 层。业务数据源多种多样,单单可能涉及到的主流关系型数据库就有近十种。功能更加全面的数据中台通常还具有对接非关系型数据库、消息队列、日志源、文件源等功能。

数据湖通常是 OLAP 型的数据库,虽然中台系统很少会采用多种数据仓库技术,但在技术选型时,可选项也有很多。数据集成可实现多种异构数据库间的数据同步,想要提升数据中台的易用高效性,自动表模型同步则显得至关重要。

02 数据平台整体架构

整体来看数据平台共有 3 层:业务数据源、数据平台中的数据湖仓及数据应用。

在这里插入图片描述
数据源可包含:

  • 关系型或非关系型数据库;
  • 某个消息系统如 MQTT、Kafka 或 RabbitMQ;
  • 放置在文件服务器上的 CSV 、XML 或 JSON 文件;
  • 非结构化日志或是类似通过 syslog 这样的协议提供的数据
  • HTTP 接口,通常是 Restful API。

数据湖仓通过一系列数据处理,支撑数据应用。数据应用则包括数据 BI 分析工具、即席查询、开放 API、数据门户等功能板块。

其中,数据湖通常不是通过一步处理即可得到所需数据,所以数据湖也存在分层。比较常见的分层类别:ODS、DWD、DWS 和 ADS 层。有时也会将维度表的数据划分至 DIM 层,不同数据平台系统的分层会有所增减。

本期分享关注重点聚焦在 ODS 层。来自各数据源的数据会通过相应的数据集成技术,几乎不经过处理,直接存放至 ODS 层;数据平台对 ODS 层数据再经过多次处理即可得到数据应用所需数据。

  • ODS: Operational Data Store,运营数据层,贴源层
  • DWD: Data Warehouse Details,数据细节层
  • DWS: Data Warehouse Service,数据服务层
  • ADS: Application Data Service,应用数据层
  • DIM: Dimension Data Layer,维度数据层

03 各类数据源集成方式

3.1 数据库数据源的数据集成方式

数据库数据源有两种集成方式:批量同步和实时同步。

批量同步:通过定时执行任务来集成数据。几乎所有的数据库都实现了 JDBC 接口,可借助数据库提供的 JDBC 驱动,通过全量或增量方式从这个数据库中获取数据再导入到数据仓库 ODS 层。
在这里插入图片描述

实时同步:批量同步有一个定时任务,执行完该同步任务即结束;而实时同步方式的同步任务是一直在执行,一旦数据库数据源的数据发生变化,它立刻即能获取到该数据变化情况并同步至 ODS 层。

在这里插入图片描述

3.2 非数据库数据源的数据集成方式

这里主要介绍文件源、API 数据源、消息源和日志源。

文件源:有些业务系统的数据库可能不会开放给数据平台直接连接,而是将数据定时导出为 CSV 文件或类似文件,存放到 SFTP 或者是 S3 等文件服务器。数据平台集成引擎可定时从文件服务器上获取文件,解析数据并导入到 ODS 层。
在这里插入图片描述
API 数据源:通常是一个 Restful 接口,调用该接口即能获取到结构化/半结构化数据,比如 JSON、XML 等格式。数据集成引擎作为 HTTP 的客户端,定时调用 API 接口获取数据,并转换成数据记录,通过 JDBC 方式写入到数据湖。
在这里插入图片描述
消息源:部分业务系统会选择将数据写到消息服务器中,比如 MQTT、AMQP、 Kafka 等。数据中台集成引擎作为消息的“消费者”,负责连接到消息服务器、监听消息队列或 Topic 中的消息,获取来自业务系统的消息并将其转换成数据记录,最后通过 JDBC 方式写入到数据湖。
在这里插入图片描述
日志源:部分业务系统看、可通过 syslog 协议方式将日志写入 syslog 服务端。数据引擎此时可以被视作服务器端,在一个端口监听客户端请求。业务系统端作为 syslog 的客户端,将日志写入到数据引擎监听的端口,数据平台集成引擎收到数据后可解析并转换成数据记录,再通过 JDBC 方式写入到数据湖。
在这里插入图片描述

04 数据集成时模型的创建和同步

4.1 数据库数据源的模型映射

  • 来自数据库的数据源,其数据模型可以直接映射;

  • 字段名可以从源数据库获取;

  • 字段类型先通过 JDBC 驱动获取到 JDBC 的数据类型,再转换为数仓库的数据类型(这里以 PostgreSQL 为例);

  • 从 JDBC 数据类型到数据库的数据类型映射是可以一对多的,可以由自定义逻辑决定;
    在这里插入图片描述

  • 可将获取到的 JDBC 数据类型先转换为自定义的中间数据类型,然后映射为数仓数据库的数据类型。
    在这里插入图片描述

数据类型映射表:源库数据类型对应的 JDBC 数据类型由数据库对应的 JDBC 决定;JDBC 数据类型在 JDK 中的 java.sql.Types 类中定义;JDBC 数据类型对应的数仓库数据类型集成引擎决定。

在这里插入图片描述

4.2 非数据库数据源的模型映射

  • 对于数据源本身不具备 schema 信息的,无法自动映射;
  • 先手动定义模型元数据,再根据模型元数据在数据中创建表。

源数据类型可以是字符型、整形或日期型。数据仓库以 PostgreSQL 为例,字符串类型对应类型包括:text 、char、varchar 等。布尔类型在数仓中可以用 boolean 、varchar 或 bit 类型。整形可以是 int4、int8、int16。数据模型的确定取决于数据平台用户如何创建模型。

在这里插入图片描述

4.3 数据库数据源的数据模型的同步

举例说明,数据源是 MySQL 数据库,其中有一个 nation 表,包括了四个字段,字段类型有:int、char、varchar。此处示例表中的一条数据。

在这里插入图片描述

情景1:那么该数据模型如何同步至数据中台呢?

在数据集成时,数据集成引擎读取源表的数据,并在生成的每一条同步数据里面均包含模型信息。左侧为源数据库中的数据,它在生成的同步数据时将输出如右侧的 JSON 数据。它本身含有模型信息,包括表名、所有字段及字段类型。

图中采用的是中间数据类型,比如源库中 nationkey 字段是 int 类型,对应的中间类型是 int32;name 字段在源库中是 char(25) 类型,对应中间数据类型是 string 外加一个表示长度的 size 参数。该条同步数据也包含数据本身信息,在 payload 字段中。

数据平台集成引擎可以从同步数据中提取到源表模型信息,用于在数据仓库中创建该表的模型信息。数据平台集成引擎可根据该模型生成一个在数据库创建表的 DDL 语句。注意这里表名需添加数据源的前缀标识,因为 ODS 层可能有来自不同数据源的数据,表名可能重复。因此,在 ODS 层中创建表的时需加前缀来避免重复,同时还添加了部分控制字段。

从数据中提取模型信息示例:

在这里插入图片描述
生成建表语句示例:
在这里插入图片描述

情景2:在后续数据源模型发生变化时如何处理呢?

可将数据中的模型信息与数据中台中的模型进行对比,如果模型增加了字段,会生成一个表变更语句。表字段类型变化,可根据用户设定的策略做表变更或者保持不变,取决于用户的同步策略。如果字段删除了通常是不会删除的。在获取到的数据写入 ODS 之前,先执行这个建表语句或是表变更语句。数据仓库 ODS 层的模型同步完成以后,再把需要同步的数据写入到数仓的表里面。

4.4 非结构化数据源的数据模型的同步

这里以 API 接口获取到的数据为例:
在这里插入图片描述

当获取到类似左边这样的数据,我们无法直接从数据获取到它的数据类型信息。此时只能由数据平台的使用者手动来创建模型。有了模型后就可根据该模型来生成一条 DDL 语句,然后根据 DDL 语句在数据中台中创建该表。

4.5 数据模型创建的时机

以 KDP(数据服务平台) 所使用的 Kafka Connect JDBC 框架为例:使用 JDBC-reader 插件读取源数据库;数据记录转换为消息写入 Kafka 的 Topic 中;使用 JDBC-Writer 插件读取 Topic 中的消息,写入数仓数据库。

在这里插入图片描述

在 Writer 端解析数据模型,进行数仓中表的创建和变更:Writer 端获取到一条数据后,从数据中解析出模型信息;将模型和数仓库中的表结构比对;如果不存在,则创建;如果不一致则修改。
在这里插入图片描述

4.6 KDP 中的数据集成架构

KDP 使用 Kafka Connect 框架实现了数据库源、API 源、文件源、日志源的数据集成:使用各种 Kafka Connect 组件对接各种数据源,将获取的数据转换为统一 SourceRecord;ODS 层使用的是基于 Citus 插件的分布式 PostgreSQL,所以 sink 端可以使用 Kafka Connect JDBC 从 Kafka Topic 消费数据,写入 ODS 层;整个集成任务流由 SpringCloud DataFlow 调度执行。

在这里插入图片描述

KDP 使用 Debezium Connector 实现基于 CDC 的数据库源实时同步Debezium 提供的连接器对接各支持 CDC 的数据库;Debezium 本身是基于 Kafka Connect,将 CDC 事件转换为 SourceRecord 写入 Kafka Topic;Sink 端同样使用 Kafka Connect JDBC 消费数据,写入 ODS 层。

在这里插入图片描述

KDP 支持调用大数据组件如 Flink、Spark、Sqoop2 等,使用外部计算资源实现海量数据的同步:基于 SpringCloud Dataflow 框架;各 Task 作为大数据组件客户端提交任务到外部集群;外部集群执行数据集成任务。

在这里插入图片描述

05 数据集成时常见问题及方案

1、业务库中表模型增加、删除字段、字段类型长度变更时,数据仓库中表模型的变更如何处理
答:数据记录中携带表模型信息,检测到表模型不一致时,生成并执行表变更语句。

2、数仓数据库中存在多种类似的字段类型时如何选择?
答:由数据中台的集成引擎的逻辑来决定选择字段类型的策略。

3、Restful API 数据源等无法自动确定源数据模型的场景如何处理?
答:手动定义数据模型信息,一键生成并执行表创建/变更语句。

4、数据仓库中各层之间模型如何同步?
答:除了 ODS 层外,其它层的模型都是由中台用户定义。需要手动修改模型信息,可一键生成并执行表/创建变更语句。

相关文章:

数据集成时表模型同步方法解析

01 背景介绍 数据治理的第一步,也是数据中台的一个基础功能 — 即将来自各类业务数据源的数据,同步集成至中台 ODS 层。业务数据源多种多样,单单可能涉及到的主流关系型数据库就有近十种。功能更加全面的数据中台通常还具有对接非关系型数据…...

彻底解决charles抓包https乱码的问题

最近做js逆向,听说charles比浏览器抓包更好用,结果发现全是乱码,根本没法用。 然后查询网上水文:全部都是装证书,根本没用! 最后终于找到解决办法,在这里记录一下: 乱码的根本原因…...

Towards Robust Blind Face Restoration with Codebook Lookup Transformer

Towards Real World Blind Face Restoration with Generative Facial Prior 这个projec相对codeformer已经是老一些的了,CodeFormer paper说自己的效果比这个更好。 有看了这个视频,它借用了R-ESRGAN 4x 和 GFPGAN 50%,既保留了一些人物特征…...

flutter3使用dio库发送FormData数据格式时候的坑,和get库冲突解决办法

问题描述 问题1:当你使用FormData.from(Flutter3直接不能用)的时候,可能会提示没有这个方法,或者使用FormData.fromMap(flutter3的dio支持)的时候也提示没有,这时候可能就是和get库里面的Formdata冲突了 问题1:The me…...

matlab读取pwm波数据,不用timer的方法,这里可以参考。Matlab/Simulink之STM32开发-编码器测速

这里提供了一个不用timer的方法,可以参考: https://blog.csdn.net/weixin_36967309/article/details/88699830 Matlab/Simulink之STM32开发-编码器测速...

使用 Python 创造你自己的计算机游戏(游戏编程快速上手)第四版:第十九章到第二十一章

十九、碰撞检测 原文:inventwithpython.com/invent4thed/chapter19.html 译者:飞龙 协议:CC BY-NC-SA 4.0 碰撞检测涉及确定屏幕上的两个物体何时相互接触(即发生碰撞)。碰撞检测对于游戏非常有用。例如,如…...

Multimodal Multitask Learning with a Unified Transformer

SNLI-VE dataset,natural language understanding tasks:MNLI,QNLI,QQP,SST-2 截止到发文时间的issue数,多吓人呐,不建议复现...

c指针和字符数组初学者比较好的例子

本练习的主题&#xff1a;一个对象的指针可以修改这个对象的内容&#xff1b; 注&#xff1a;对象是指一个固定大小的内存块。 #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <string.h> #include <stdlib.h> int getMem(char **p1,int *m…...

微信原生小程序上传与识别以及监听多个checkbox事件打开pdf

1.点击上传并识别 组件样式<van-field border"{{ false }}" placeholder"请输入银行卡卡号" model:value"{{bankNo}}" label"卡号"><van-icon bindtap"handleChooseImg" slot"right-icon" name"sca…...

关于C#中Monitor的wait/pulse的理解

wait&#xff1a;表示释放对象上的锁并阻止当前线程&#xff0c;直到它重新获取该锁。 pulse&#xff1a;表示通知等待队列中的线程锁定对象状态的更改。 当线程调用 Wait 时&#xff0c;它会释放对象上的锁并进入对象的等待队列。 对象的就绪队列中的下一个线程 (如果有一个…...

LeetCode 2894. 分类求和并作差

给你两个正整数 n 和 m 。 现定义两个整数 num1 和 num2 &#xff0c;如下所示&#xff1a; num1&#xff1a;范围 [1, n] 内所有 无法被 m 整除 的整数之和。 num2&#xff1a;范围 [1, n] 内所有 能够被 m 整除 的整数之和。 返回整数 num1 - num2 。 示例 1&#xff1a; …...

PLSQL 把多个字段转为json格式

PLSQL 把多个字段转为json格式 sql Select cc.bm, cc.xm, json_arrayagg(cc.hb) jgFrom (Select aa.bm, aa.xm, json_object(aa.ksbh, aa.wjmc) hbFrom (Select 001 bm, 老六 xm, 0001 ksbh, 文具盒 wjmcFrom dual tUnion AllSelect 001 bm, 老六 xm, 0002 ksbh, 毛笔 wjmcFr…...

国内环境 GitHub 拉取仓库速度慢的缓解方案

第一步&#xff1a; 浏览器打开如下两个网址&#xff0c;找到对应 IP 地址&#xff1a; GitHub.com - GitHub: Lets build from here GitHubgithub.global.ssl.fastly.net 假设对应 IP 地址分别为 140.82.xx.xxx 和 199.232.yy.yyy 第二步&#xff1a; 编辑 hosts 文件 sud…...

设计模式⑥ :访问数据结构

文章目录 一、前言二、Visitor 模式1. 介绍2. 应用3. 总结 三、Chain of Responsibility 模式1. 介绍2. 应用3. 总结 参考内容 一、前言 有时候不想动脑子&#xff0c;就懒得看源码又不像浪费时间所以会看看书&#xff0c;但是又记不住&#xff0c;所以决定开始写"抄书&q…...

无法打开浏览器开发者工具的可能解决方法

网页地址: https://jx.xyflv.cc/?url视频地址url 我在抖音里面抓了一个视频地址, 获取到响应的json数据, 找到里面的视频地址信息 这个网站很好用: https://www.jsont.run/ 可以使用js语法对json对象操作, 找到所有视频的url地址 打开网页: https://jx.xyflv.cc/?urlhttps:…...

Android ANR 总结

工作之余&#xff0c;对之前学习到的和结合自己项目过程中的遇到的问题经验做一些总结&#xff0c;下面讲一讲Android开发过程中遇到的ANR的问题&#xff0c;做一下整理 一、概述 解决ANR一直是Android 开发者需要掌握的重要技巧&#xff0c;一般从三个方面着手。 开发阶段&a…...

群晖Drive搭建云同步服务器结合内网穿透实现Obsidian笔记文件远程多端同步

文章目录 一、简介软件特色演示&#xff1a; 二、使用免费群晖虚拟机搭建群晖Synology Drive服务&#xff0c;实现局域网同步1 安装并设置Synology Drive套件2 局域网内同步文件测试 三、内网穿透群晖Synology Drive&#xff0c;实现异地多端同步Windows 安装 Cpolar步骤&#…...

Flutter中的图片查看器:使用photo_view库

在移动应用开发中&#xff0c;图片查看器是一个常见的需求。Flutter提供了许多库来简化这一过程&#xff0c;其中photo_view库是一个强大而灵活的选择。本文将介绍photo_view库的基本概念以及如何在Flutter应用中使用它来实现漂亮的图片查看体验。 1. 什么是photo_view库&…...

软件测试|使用Python轻松裁剪视频

简介 裁剪视频是在视频编辑和处理中常见的任务之一&#xff0c;Python提供了多种库和工具&#xff0c;可以用来裁剪视频。在本文中&#xff0c;我们将详细讨论如何使用Python来裁剪视频&#xff0c;并提供示例代码。 步骤1&#xff1a;环境准备 首先&#xff0c;我们要安装必…...

计算机网络——运输层(1)暨小程送书

计算机网络——运输层&#xff08;1&#xff09;暨小程送书 小程一言专栏链接: [link](http://t.csdnimg.cn/ZUTXU) 运输层概述两个主要协议运输层和网络层的关系网络层运输层总结 多路复用与多路分解多路复用多路分解不同的技术实现时分复用&#xff08;TDM&#xff09;频分复…...

从一次安全事件复盘:我们是如何通过配置Windows审计策略和事件查看器,发现并阻断虚拟机异常登录的

虚拟化环境安全审计实战&#xff1a;从异常登录告警到精准防御 那天凌晨3点15分&#xff0c;安全运营中心的告警铃声突然响起。监控大屏上&#xff0c;一台核心业务虚拟机的登录事件触发了我们的阈值告警——这个时间段本不该有任何运维操作。当我调出事件查看器里那条4672特殊…...

3步解锁苹果电脑新玩法:用PlayCover畅玩iOS游戏和应用

3步解锁苹果电脑新玩法&#xff1a;用PlayCover畅玩iOS游戏和应用 【免费下载链接】PlayCover Community fork of PlayCover 项目地址: https://gitcode.com/gh_mirrors/pl/PlayCover 还在羡慕朋友在iPad上玩热门手游&#xff0c;而你的Mac只能干看着&#xff1f;想知道…...

双模型混搭方案:OpenClaw同时接入百川2-13B与Qwen的实操演示

双模型混搭方案&#xff1a;OpenClaw同时接入百川2-13B与Qwen的实操演示 1. 为什么需要多模型混搭&#xff1f; 去年冬天&#xff0c;当我第一次尝试用OpenClaw自动化处理技术文档时&#xff0c;发现一个有趣的现象&#xff1a;同一个模型在不同任务上的表现差异巨大。Qwen在…...

MongoDB开发者必备:Dbeaver旗舰版的地理空间数据操作全攻略

MongoDB开发者必备&#xff1a;Dbeaver旗舰版的地理空间数据操作全攻略 在位置服务(LBS)应用爆发的时代&#xff0c;地理空间数据处理能力已成为开发者核心技能。无论是共享经济中的车辆调度&#xff0c;还是电商平台的附近推荐&#xff0c;精准的地理查询直接影响用户体验。作…...

AI时代当程序员?2026年转行IT的“新活法”

早知道AI会让程序员干这个&#xff0c;当年说啥也不信 凌晨三点&#xff0c;老刘瞪着AI生成的2000行代码&#xff0c;这已经是他熬夜修复的第47个bug了。 AI一分钟写完的模块&#xff0c;他调了三天。最绝的是——每修好一个bug&#xff0c;AI都能“贴心”地再送出三个新bug作为…...

Go语言依赖管理:从GOPATH到Go Modules

Go语言依赖管理&#xff1a;从GOPATH到Go Modules 作为一个写了十几年代码的Go后端老兵&#xff0c;我经历了Go语言依赖管理的从GOPATH到Go Modules的转变&#xff0c;踩了不少坑。今天就来分享一下Go语言依赖管理的实践经验。 一、依赖管理的演进 1. GOPATH时代 在Go 1.11之前…...

如何轻松实现QQ空间历史数据自动化备份:GetQzonehistory完整解决方案指南

如何轻松实现QQ空间历史数据自动化备份&#xff1a;GetQzonehistory完整解决方案指南 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 还在为QQ空间里的青春回忆可能丢失而担心吗&#x…...

任意偏振与圆偏振BIC光子晶体远场偏振计算:COMSOL中的直接画偏振态

任意偏振BIC&#xff0c;圆偏振BIC光子晶体远场偏振计算COMSOL直接画偏振态 最近在研究任意偏振BIC&#xff08;Bound states in the continuum&#xff09;和圆偏振BIC光子晶体的远场偏振计算&#xff0c;发现用COMSOL直接画偏振态还挺有意思的。今天就来聊聊这个&#xff0c…...

Qwen3-ASR-1.7B开源ASR教程:适配国产昇腾/寒武纪平台的移植可行性分析

Qwen3-ASR-1.7B开源ASR教程&#xff1a;适配国产昇腾/寒武纪平台的移植可行性分析 1. 项目背景与模型介绍 「清音听真」是基于Qwen3-ASR-1.7B语音识别引擎的高精度转录平台。作为0.6B版本的跨代升级&#xff0c;这个1.7B参数的模型在复杂语音场景处理能力上实现了显著提升。 …...

平衡小车/倒立摆核心:用STM32CubeMX和串级PID实现精准角度控制,调参避坑指南

平衡小车与倒立摆实战&#xff1a;STM32CubeMX串级PID调参全解析 平衡控制系统一直是嵌入式开发者的试金石。去年校电赛上&#xff0c;我亲眼见证一支队伍因为PID参数整定不当&#xff0c;导致他们精心设计的倒立摆在演示时像喝醉了一样左右摇摆&#xff0c;最终与奖项失之交臂…...