数字化转型-4A架构之数据架构
系列文章
-
数字化转型-4A架构(业务架构、应用架构、数据架构、技术架构)
-
数字化转型-4A架构之业务架构
-
数字化转型-4A架构之应用架构
数据架构 Data Architecture(DA)
1. 定义
数据架构,是组织管理数据资产的科学之道,描述如何管理从收集到转换、分发和使用数据。它为数据及其在数据存储系统中流动的方式设定了蓝图。涵盖数据的收集、存储、使用及管理等环节,涉及数据模型、数据库系统设计及集成治理技术的实施。
2. 目的
数据架构的目标是支持业务需求、提高数据的质量和一致性,并促进数据的共享和集成。
3. 价值
通过梳理一个全面而清晰的数据架构蓝图,企业可以有效地管理和利用其数据资产,确保数据的一致性,以支持业务需求和决策过程。
实现精简数据冗余,打破企业数据孤岛,提升信息化水平,确保数据质量与一致性。
清晰准确的数据助力决策速度,满足国家政策要求,保障数据处理和存储遵循行业规范与法规。
一、 如何绘制企业的数据架构(DA)图?
绘制企业的数据架构图一般分为如下四步:
- 数据需求分析
- 数据模型设计
- 数据治理
- 数据共享开放与入表
具体设计步骤:
1.上接业务,分析数据需求,识别数据类型,采集数据
2.数据模型设计,概念模型(识别业务域),逻辑模型(实体关系ER),物理模型(表字段)
3.数据治理,数据安全合规,数据质量管理
4.数据共享开放,支撑业务决策,业务创新
二、 数据架构6大模块
新版本的数据架构中,数据架构的核心在于【数据声明、数据原则、数据模型、数据流动、数据管理和数据治理】这六大板块。
1、数据声明
架构工作声明是TOGAF架构开发方法(ADM)中的关键文档之一,用于详细描述架构开发的范围、方法、资源和计划。它定义了架构项目的基本框架和预期成果,数据申明是其中的一部分。
2、数据原则
架构原则是用于指导企业架构设计和实施的一组基本准则和指导方针。它们帮助确保架构的一致性、灵活性和可扩展性,使架构决策在不同的项目和团队中保持一致。架构原则通常由组织的高级管理层和架构师共同制定,并在整个组织中推广和遵循。
3、数据模型
定义数据元素、它们的属性以及数据元素之间的关系。输出物包括概念模型、逻辑模型、物理模型、数据目录等等。(1)概念模型概念模型是高层次的抽象模型,用于描述业务实体及其关系,主要面向业务用户和利益相关者。它通常不涉及技术细节,而是强调业务需求。
4、数据流动
描述数据在系统内和系统间的流动和传输方式。数据流动的主要输出物包括数据流转、数业映射等。
(1)数据流转
数据分布用于表示数据在系统间的流动过程,包括数据流图、数据映射文档、数据流规范、数据转换规则等。
(2)数业映射
数业映射是数据流动的基础,定义了数据实体存在于在哪些业务功能和应用程序中,帮助定义和管理数据需求,确保数据与业务功能的一致性和完整性,有效支持业务流程的执行和优化。
5、数据管理
数据管理是指对企业内所有数据资产的管理和控制,旨在确保数据的高质量、完整性、安全性、可用性和可访问性,以支持业务决策和运营。数据管理的主要输出物包括数据质量管理、元数据管理、数据安全管理、数据存储管理、数据集成管理及数据生命周期管理等等。
(1)数据质量管理
数据质量管理包括数据清洗、数据验证和数据质量监控,以确保数据的准确性和完整性。
(2)元数据管理
元数据管理涉及收集、存储和维护描述数据的数据(元数据),以便于数据发现和使用。
(3)数据安全管理
数据安全管理涉及保护数据免受未经授权的访问、使用和泄露,确保数据的机密性、完整性和可用性,
(4)数据存储管理
数据存储管理涉及设计和优化数据存储方案,确保数据的高效存储和访问。
(5)数据集成管理
数据集成管理涉及将来自不同源的数据集成到统一的数据平台,以支持业务分析和决策。
(6)数据生命周期管理
数据生命周期管理涉及数据从创建、使用、存储到归档和销毁的整个生命周期管理。
6、数据治理
数据治理涉及制定数据策略、建立数据管理组织结构和流程,以确保数据的一致性、完整性和使用合规性。数据治理的主要输出物包括数据策略、数据政策、数据组织及数据标准等等。
(1)数据策略
制定企业的数据战略,包括数据管理的总体目标和方向。
(2)数据政策
数据政策是指导数据管理和使用的高层次原则和规定,旨在确保数据的一致性、完整性、可用性和安全性。这些政策通常由企业的管理层制定和批准,并在整个组织中实施,
(3)数据标准
数据标准是关于如何定义、格式化和管理数据的详细规则和技术规范。数据标准确保在整个组织中一致地创建、管理和使用数据。包括有数据命名标准、数据格式标准、数据质量标准及元数据标准等,
(4)数据组织
明确数据管理的角色和职责,确保数据管理活动的有效执行
三、 数据管理系统及数据架构的类型
1. 数据仓库
数据仓库将来自企业内不同关系数据源的数据聚合到单个集中的统一存储库中。提取后,数据流经 ETL 数据管道,经过各种数据转换,才能满足预定义数据模型的需求。一旦加载到数据仓库中,数据就可以支持不同的商业智能 (BI) 和数据科学应用程序。
2.数据集市
数据集市是一个有针对性的数据仓库版本,它包含一个较小的数据子集,这些数据对组织内的单个团队或选定用户组很重要且是必需的。由于数据集市包含较小的数据子集,因此在使用更广泛的数据仓库数据集时,数据集市使部门或业务线能够更快地发现更有针对性的洞察。最初创建数据集市的目的是应对组织在 20 世纪 90 年代建立数据仓库的困难。当时集成来自整个组织的数据需要进行大量手动编码,而且非常耗时。与集中式数据仓库相比,数据集市的范围更有限,使其实现起来更容易且更快速。
3. 数据湖
数据仓库存储已处理的数据,而数据湖存储原始数据,通常为 PB 级别。数据湖可以存储结构化和非结构化数据,这使其与其他数据存储库不同。这种灵活的存储需求对于数据科学家、数据工程师和开发人员尤其有用。最初创建数据湖的目的是应对数据仓库无法处理数量、速度和种类不断增加的大数据的情况。虽然数据湖比数据仓库慢,但它们的价格也更低廉,因为在采集之前几乎不需要数据准备。
4.数据结构
数据结构是一种架构,它侧重于数据提供者和数据使用者之间的数据价值链中的数据集成、数据工程和治理的自动化 数据结构基于“活动元数据”的概念,使用知识图、语义、数据挖掘和机器学习 (AI) 技术来发现各种类型元数据(例如系统日志、社交等)中的模式。然后,将这种洞察应用于自动化并编排数据价值链。例如,它可以使数据使用者能够找到数据产品,然后自动向他们提供该数据产品。数据产品和数据使用者之间数据访问的增加减少了数据孤岛,并提供了更完整的组织数据视图。数据结构是一种具有巨大潜力的新兴技术,可用于增强客户概要分析、欺诈检测和预防性维护。根据 Gartner 的数据,数据结构使集成设计时间减少 30%,部署时间减少 30%,维护时间减少 70%。
5.数据网格
数据网格是一种去中心化的数据架构,按业务领域来组织数据。使用数据网格时,组织需要不再将数据视为流程的副产品,而是开始将其视为产品本身。数据生产者充当数据产品所有者。作为主题专家,数据生产者可以利用他们对数据主要使用者的理解为他们设计 API。这些 API 也可以从组织的其他部分访问,提供了更广泛的受管数据访问渠道。
数据湖、数据仓库等相对传统的存储系统可以作为多个去中心化的数据存储库来实现数据网格。数据网格还可以与数据结构一起使用,借助数据结构的自动化,可以更快地创建新的数据产品或执行全球治理。
四、企业数据架构参考框架
大数据技术推进委员会的实践指南围绕企业中联机分析处理(OLAP)和联机事务处理(OLTP)两类主要数据处理形式,从数据静态描述和动态描述视角提出数据架构的参考框架如下图所示:
主要内容如下:
① OLTP侧以应用系统集成为核心,OLAP侧以数据集成整合为核心,分别支持业务交易活动和业务分析活动的顺利开展;
② OLTP侧以范式数据模型为核心,确保应用系统满足业务交易的数据需求;OLAP侧以维度模型为主,承接OLTP侧的物理数据实体后进行转换整合,满足跨业务域的数据分析挖掘等需求;
③ OLTP 和OLAP 侧均需要数据标准的全面规范和支持,前者以数据项标准为主,后者以指标数据标准为主;
④ OLTP侧以数据分布、数据流管理为主,核心在于构建数据实体与业务流程的关联关系;OLAP侧以数据采集接入、总线矩阵管理为主,确保数据资源的准确采集和高效汇聚,保证数据分析结果回流到业务活动中;
⑤主数据是介于应用集成和数据集成之间的一种特殊状态,其本身是业务数据的一种特别状态,但其既可以有力推动应用集成,又可为数据集成和数据分析挖掘提供高质量的核心业务数据资源;
⑥企业数据架构参考框架需要结合企业实际的数字化现状进行重构,并进行业务的实例化才能发挥作用。
五、实际案例
在知乎的沐以成舟的文章中,给出了如下的数据架构。
数据架构从数据侧描述数据怎么来、怎么存、怎么加工、怎么使用。
- 数据源:数据通过哪些方式集成过来;
- 集成到数仓:都存在哪里,数仓怎么分层,每一层都干啥;
- 数据集市:怎么存、怎么管;
- 数据应用层:提供哪些应用;
最后,上面所有的一切,都用什么技术,什么组件,解决什么问题,系统需要什么样的数据、如何存储、如何进行数据架构设计。
相关文章:

数字化转型-4A架构之数据架构
系列文章 数字化转型-4A架构(业务架构、应用架构、数据架构、技术架构) 数字化转型-4A架构之业务架构 数字化转型-4A架构之应用架构 数据架构 Data Architecture(DA) 1. 定义 数据架构,是组织管理数据资产的科学之…...

React 第三十七节 Router 中 useOutlet Hook的使用介绍以及注意事项
React Router 中的 useOutlet 是 v6 版本新增的 Hook,用于在父路由组件中访问当前嵌套的子路由元素。它提供了比 <Outlet> 组件更灵活的控制方式,适合需要根据子路由状态进行动态处理的场景。 一、useOutlet的基本用法 import { useOutlet } fro…...
u-boot学习笔记(四)
文章目录 cmd/sub_cmd/exit.cdo_exit()exit.c可提供的命令及使用方式: ext2.cdo_ext2ls()do_ext2load()ext2.c可提供的命令及使用方式: ext4.cdo_ext4_size()do_ext4_load()do_ext4_ls()do_ext4_write()ext4.c可提供的命令及使用方式: fastbo…...
使用React实现调起系统相机功能
前言: 最近在公司推荐研发任务时实现了拍照识别功能,需要调起系统相机,笔者实现之后,将实现的流程分享给各位小伙伴 功能描述: 点击相机icon调起系统相机,同时可以选择是拍摄还是使用相册图片࿰…...
结构性变革与新兴机遇
近年来,全球就业市场正经历深刻的结构性变革。受技术进步、产业升级、人口结构变化及全球经济格局调整的影响,传统就业模式被重塑,新的职业机会不断涌现。本文将分析当前就业市场的主要趋势,并探讨其对劳动者、企业和政策制定者的…...

AGV通信第3期|AGV集群智能应急响应系统:从故障感知到快速恢复
随着智慧工厂物流系统复杂度的提升,AGV运行过程中的异常处理能力已成为保障生产连续性的关键指标。面对突发障碍、设备故障等意外状况,传统依赖人工干预的响应模式已无法满足现代智能制造对时效性的严苛要求。 一、AGV异常应急体系面临的挑战 响应时效瓶…...

军事目标无人机视角坦克检测数据集VOC+YOLO格式4003张1类别
数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):4003 标注数量(xml文件个数):4003 标注数量(txt文件个数):4003 …...
2025年5月AI科技领域周报(4.28-5.4):大模型商用加速落地 边缘AI开启全域智能新图景
2025年5月AI科技领域周报(4.28-5.4):大模型商用加速落地 边缘AI开启全域智能新图景 一、本周热点回顾1. OpenAI发布GPT-5多模态大模型 开启通用人工智能新纪元2. 谷歌发布安卓15系统 全面集成Gemini大模型重构移动生态3. 百度Apollo发布第六代…...
Flutter 3.29.3 花屏问题记录
文章目录 Flutter 3.29.3 花屏问题记录问题记录解决尝试解决 Flutter 3.29.3 花屏问题记录 问题记录 flutter版本3.29.3,代码大致为: ShaderMask(shaderCallback: (Rect bounds) {return LinearGradient(begin: Alignment.topCenter,end: Alignment.bo…...
【Pandas】pandas DataFrame all
Pandas2.2 DataFrame Computations descriptive stats 方法描述DataFrame.abs()用于返回 DataFrame 中每个元素的绝对值DataFrame.all([axis, bool_only, skipna])用于判断 DataFrame 中是否所有元素在指定轴上都为 True pandas.DataFrame.all() pandas.DataFrame.all() 方…...

软件安全(二)优化shellcode
我们在上一节课中所写的shellcode,其中使用到的相关的API是通过写入其内存地址来实现调用。这种方法具有局限性,如切换其他的操作系统API的内存地址就会发生变化,从而无法正常调用。 所谓的shellcode不过是在目标程序中加一个区段使得程序可…...

RabbitMQ-运维
文章目录 前言运维-集群介绍多机多节点单机多节点 多机多节点下载配置hosts⽂件配置Erlang Cookie启动节点构建集群查看集群状态 单机多节点安装启动两个节点再启动两个节点验证RabbitMQ启动成功搭建集群把rabbit2, rabbit3添加到集群 宕机演示仲裁队列介绍raft算法协议 raft基…...

深度学习基础--目标检测常见算法简介(R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN、SSD、YOLO)
博主简介:努力学习的22级本科生一枚 🌟;探索AI算法,C,go语言的世界;在迷茫中寻找光芒🌸 博客主页:羊小猪~~-CSDN博客 内容简介:常见目标检测算法简介…...
【Python 元组】
Python 中的元组(Tuple)是一种不可变的有序数据集合,用于存储多个元素的序列。与列表(List)类似,但元组一旦创建后无法修改,这种特性使其在特定场景下具有独特优势。 一、核心特性 不可变性&am…...

LINUX CFS算法解析
文章目录 1. Linux调度器的发展历程2. CFS设计思想3. CFS核心数据结构3.1 调度实体(sched_entity)3.2 CFS运行队列(cfs_rq)3.3 任务结构体中的调度相关字段 4. 优先级与权重4.1 优先级范围4.2 权重映射表 (prio_to_weight[])优先级计算4.3.1. static_prio (静态优先级)4.3.2. n…...
智能指针笔记
智能指针,利用class类对象销毁的时候自动调用析构函数,去把delete ptr的操作放在析构函数里,去实现自动释放指针里的资源 RAII是ResourceAcquisition Is Initialization的缩写,他是⼀种管理资源的类的设计思想,本质是 …...

软考-软件设计师中级备考 14、刷题 算法
一、考点归纳 1)排序 2、查找 3、复杂度 4、经典问题 0 - 1 背包动态规划0 - 1 背包问题具有最优子结构性质和重叠子问题性质。通过动态规划可以利用一个二维数组来记录子问题的解,避免重复计算,从而高效地求解出背包能装下的最大价值。分…...
Vue3 中 ref 与 reactive 的区别及底层原理详解
一、核心区别 1. 数据类型与使用场景 • ref 可定义基本类型(字符串、数字、布尔值)和对象类型的响应式数据。对于对象类型,ref 内部会自动调用 reactive 将其转换为响应式对象。 语法特点:需通过 .value 访问或修改数据&#…...
豆包:基于多模态交互的智能心理咨询机器人系统设计与效果评估——情感计算框架下的对话机制创新
豆包:基于多模态交互的智能心理咨询机器人系统设计与效果评估——情感计算框架下的对话机制创新 摘要 随着人工智能在心理健康领域的应用深化,本文提出一种融合情感计算与动态对话管理的智能心理咨询机器人系统架构。通过构建“用户状态-情感响应-策略生成”三层模型,结合…...

Baklib实战企业内容与中台管理差异解析
企业内容管理中台本质差异 企业内容管理系统(CMS)与内容中台的核心差异在于战略定位与技术路径的本质性区隔。传统CMS聚焦于内容存储与审批流程的线性管理,而内容中台则构建起全域数据服务中枢,通过API接口实现跨系统内容资产调用…...

通用外设驱动模型(四步法)
举例:GPIO配置步骤 1、使能时钟 __HAL_RCC_GPIOx_CLK_ENABLE()2、设置工作模式 HAL_GPIO_Init()3、设置输出状态(可选) HAL_GPIO_WritePin() HAL_GPIO_TogglePin()4、读取输入状态(可选) HAL_GPIO_ReadPin()模块…...

IoT无线组网模块,万物互联的底层通信基石
随着物联网(IoT)技术在“快车道”上持续飞驰,一场“交互革命”正在人们的日常出行与工作学习等生活场景中加速爆发。从智能家居到智慧城市,从智慧交通到工业自动化,物联网(IoT)技术凭借着万物互…...
Xterminal(或 X Terminal)通常指一类现代化的终端工具 工具介绍
Xterminal(或 X Terminal)通常指一类现代化的终端工具,旨在为开发者、运维人员提供更高效、更智能的命令行操作体验。 📢提示:文章排版原因,资源链接地址放在文章结尾👇👇ÿ…...
OpenCV 中用于支持 华为昇腾(Ascend)AI 芯片后端 的模块CANN
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cannops 是 OpenCV 中用于支持 华为昇腾(Ascend)AI 芯片后端 的模块,全称为 CANN Operations (CANN Operator…...

learning ray之ray强化学习/超参调优和数据处理
之前我们掌握了Ray Core的基本编程,我们已经学会了如何使用Ray API。现在,让我们将这些知识应用到一个更实际的场景中——构建一个强化学习项目,并且利用Ray来加速它。 我们的目标是,通过Ray的任务和Actor,将一个简单…...

【Linux】深入拆解Ext文件系统:从磁盘物理结构到Linux文件管理
目录 1、理解硬件 (1)磁盘 (2)磁盘的物理结构 (3)磁盘的存储结构 (4)磁盘的逻辑结构 (5)CHS && LBA地址 2、引入文件系统 (1&…...

基于 Ubuntu 24.04 部署 WebDAV
无域名,HTTP 1. 简介 WebDAV(Web Distributed Authoring and Versioning)是一种基于 HTTP 的协议,允许用户通过网络直接编辑和管理服务器上的文件。本教程介绍如何在 Ubuntu 24.04 上使用 Apache2 搭建 WebDAV 服务,无…...
人工智能基础知识笔记八:数据预处理
1、简介 在进行数据分析之前,数据预处理是一个至关重要的步骤。它包括了数据清洗、转换和特征工程等过程,以确保数据的质量并提高模型的性能。数据预处理是机器学习和数据分析中至关重要的步骤,其中分类变量的编码是核心任务之一。本文…...

tauri-plugin-store 这个插件将数据存在本地电脑哪个位置
tauri-plugin-store 插件用于在 Tauri 应用中以键值对形式持久化存储数据。它将数据存储在用户本地电脑的一个 JSON 文件中,具体路径取决于操作系统,并且通常位于操作系统的应用数据目录中。 默认存储位置 以默认配置为例(使用 default sto…...

一场陟遐自迩的 SwiftUI + CoreData 性能优化之旅(下)
概述 自从 SwiftUI 诞生那天起,我们秃头码农们就仿佛打开了一个全新的撸码世界,再辅以 CoreData 框架的鼎力相助,打造一款持久存储支持的 App 就像探囊取物般的 Easy。 话虽如此,不过 CoreData 虽好,稍不留神也可能会…...