当前位置：首页 > news >正文

第十二章元数据管理10分

news 2026/5/28 7:46:27

12.1 引言

在这里插入图片描述
如果没有元数据，组织可能根本无法管理其数据。
ISO/IEC11179 元数据注册标准。
元数据管理原则：应归尽归，应收尽收。衡量标准：目录是否完整。（去第十二章元数据管理）。
主数据管理：主要的数据先入手。（去第十章主数据与参考数据）。

Q1：元数据的主要功能？
A1：2 部分：查询、分析与报告（影响分析、血缘关系分析）。Q2：上游系统改了内容，对下游系统有什么影响？
A2：影响分析。Q3：报告错了怎么办？A3：血缘关系分析，往回追溯。Q4：系统中销售额字段有多个，如何确定是哪一个？
A4：查元数据。

Q5：主动型元数据管理（Active Metadata：Gartner 观点）【会考】
A5：(1)主动元数据平台始终是最新的。
(2)主动元数据平台不仅仅收集元数据，他们从元数据中创建智能。【表经常用，73是否能分区】。
(3)主动元数据平台不仅仅局限于智能，他们推动行动。【提供建议】。
(4)主动元数据平台是由 API 驱动的，支持嵌入式协作。

12.1 元数据建设步骤【5 个步骤，建议看看，重在理解】

1.定义元数据战略（P）

启动元数据战略计划、组织关键利益相关者访谈、评估现有元数据资源和信息架构、开发未来元数据架构、分阶段实施计划。

2.理解元数据需求（P）

对业务、技术、操作三类元数据有不同的需求，功能需求：更新批次、同步情况、历史信息、访问权限、存储结构、集成要求等。
（1）业务人员需求。
（2）技术人员需求。

3.定义元数据架构（P）【4 种架构】

支持扫描不同元数据源和定期的更新元数据存储库。支持手工更新元数据、请求元数据、查询元数据和不被用户组查询。
（1）创建元数据（D）。
（2）应用元数据标准（C）。
（3）管理元数据存储（C）。

4.创建和维护元数据【形成网址】

责任：流程的执行者对元数据的质量负责；
标准：执行、审计、应用数据标准；
改进：建立机制，持续改进不准确和不及时元数据。
（1）整合元数据（O）。
（2）分布和共享元数据（O）。
常见的传递机制包括【中心化网址，元数据内部网站、数据治理、数据战略、数据安全制度】。

 元数据内部网站，提供浏览、搜索、查询、报告和分析功能； 报告、术语表和其他文档；
 数据仓库、数据集市和 BI（商务智能）工具；
 建模和软件开发工具消息传输和事务；
 Web 服务和应用程序接口（API）
 外部组织接口方案（如供应链解决方案）。

5.查询、报告和分析元数据

在商业智能、商业决策、业务语义方面使用元数据，为业务、开发人员提供不同的界面，以供查询和获取元数据。

12.2 F4&Q 数据资产目录和元数据目录、和数据资产目录的关系

【重要】元数据=数据资源目录≠数据资产目录，资源到资产需要赋予价值（登记、认可、价值评估、进入流通环境）
1. 元数据=数据资源目录
2. 并非所有的数据都是资产，作为资产：
（1）所有权或者使用权
（2）价值体现：
i. 数据赋能
ii. 数据交易
3. 数据资产目录建立在元数据基础之上
（1）数仓相关的元数据
（2）数据湖相关的元数据
（3）交换和交易平台相关的元数据
（4）非结构化数据，特别是文档相关的元数据

注：业务元数据指向的那些有可能成为数据资产【资产建立在资源基础上，操作元数据、技术元数据指向的数据很难成为数据资产，往往只是一种材料】。

12.3 数据血缘关系→从下到上追溯【影响分析→从上到下分析】

杭州消费银行（数据血缘关系），（基于阿里巴巴）数据贴源层→数据模型层→接口表→转换表→出数表→基础指标→衍生指标。
指标管理目的：管理指标的数据字典，进行血缘及影响分析，做到报表口径有迹可循；通过指标口径及存储映射的管理，做到指标的自动化获取；指标总分关系自动联动钻取。

12.4 元数据可能存在的问题

表里只有系统名称、系统代码、系统模块、表英文名、表描述，但是没有中文；字段有表中文名、字段序号、字段英文名、字段类型，但是字段中文名缺失，字段中文名含义不明确等。

12.7 元数据架构

【4 种架构优缺点，参考 3 种架构 DMBOK2 P330】

Q：元数据架构有哪几种？数据治理架构有哪几种？A：元数据架构 4 种（集中式、分布式、混合式、双向），数据治理架构3种（集中式、分布式、联邦式）。

1.集中式元数据架构【参考阿里】

集中式元数据架构由单一的元数据存储库组成，包含来自各种不同源的元数据副本。
集中式存储库的优点：
（1）高可用性，因为它独立于源系统；
（2）快速的元数据检索，因为存储库和查询功能在一起；
（3）解决了数据库结构问题，使其不受第三方或商业系统特有属性的影响；
（4）抽取元数据时可进行转换、自定义或使用其他源系统中的元数据进行补充，提高了元数据的质量。
集中式存储库的缺点：
（1）必须使用复杂的流程确保元数据源头中的更改能够快速同步到存储库中；
（2）维护集中式存储库的成本可能很高；
（3）元数据的抽取可能需要自定义模块或中间件；
（4）验证和维护自定义代码会增加对内部 IT 人员和软件供应商的要求。

在这里插入图片描述

2.分布式元数据架构【参考华为】

一个完全分布式的架构中维护了一个单一的接入点。
分布式存储库的优点：
（1）元数据总是尽可能保持最新且有效，因为它是从其数据源中直接检索的；
（2）查询是分布式的，可能会提高响应和处理的效率；
（3）来自专有系统的元数据请求仅限于查询处理，而不需要详细了解专有数据结构，因此最大限度地减少了实施和维护所需的工作量；
（4）自动化元数据查询处理的开发可能更简单，只需要很少的人工干预；
（5）减少了批处理，没有元数据复制或同步过程。
分布式存储库的缺点：
（1）无法支持用户定义或手动插入的元数据项，因为没有存储库可以放置这些添加项；
（2）需要通过统一的、标准化的展示方式呈现来自不同系统的元数据；
（3）查询功能受源系统可用性的影响（若数据源头有问题，影响较大）；
（4）元数据的质量完全取决于源系统。
在这里插入图片描述

3.混合式元数据架构【参考央企】（DAMA 内部不一致）

混合架构结合了集中式和分布式架构的特性，元数据仍然直接从源系统移动到集中式存储库，但存储库设计仅考虑用户添加的元数据、重要的标准化元数据以及来通过自手工来源添加的元数据。【联邦式】。
优点：
该架构得益于从源头近乎实时地检索元数据和扩充元数据，可在需要时最有效地满足用户需求。
混合方法降低了对专有系统进行手工干预和自定义编码访问功能的工作量。基于用户的优先级和要求，元数据在使用时尽可能是最新且有效的。混合架构不会提高系统可用性。
缺点：
源系统的可用性是一个限制，因为后端系统的分布式特性处理查询。在将结果集呈现给最终用户之前，需要用额外的系统开销将这些初始结果与中央存储库中的元数据扩展连接起来。
在这里插入图片描述

4.双向元数据架构

允许元数据在架构的任何部分（源、数据集成、用户界面）中进行更改，然后将变更从存储库（代理）同步到其原始源以实现反馈。【联邦式】
存在挑战：强制元数据存储库包含最新版本的元数据源，并强制对源的更改管理，必须系统地捕获变更，然后加以解决；必须构建和维护附加的一系列处理接口，以将存储库的内容回写至元数据源。

12.5 F3 元模型是什么？【基本会买软件】

元模型：存储元数据的模型。
在这里插入图片描述

12.6 F1 元数据来源，从哪梳理和收集元数据？特别是数仓的元数据该怎样梳理？

【14+and，重要】最重要 3 个：业务术语表、数据字典、数据库管理和系统目录。

在这里插入图片描述

元数据管理的软件系统应该有的功能

1.元数据采集
2.元数据查询
3.元数据分析
4.元数据变更管理
5.元数据浏览视图
6.元数据版本管理
基于现在云计算崭新的趋势，增加主动元数据原理、权限管理

12.8 Active Metadata：Gartner 观点【PPT 翻译，理想化】

去掉了被动型元数据管理，留下主动性元数据管理。

1.主动性元数据管理 4 个特性：

（1）主动元数据平台始终是最新的。
（2）主动元数据平台不仅仅收集元数据，他们从元数据中创建智能。【表经常用，热点是否能分区】。
（3）主动元数据平台不仅仅局限于智能，他们推动行动。【提供建议，分区，增加索引】。
（4）主动元数据平台是由 API 驱动的，支持嵌入式协作。

2.现代数据模型的数据层的 5 大趋势和变化

（1）现代数据模型成为主流，提供了一系列前所未有的快速、灵活的云原生工具。【不再是仅基于数仓为主，云端目前只有一家厂家在做】。
（2）数据团队比以往任何时候都更加多样化，导致混乱和协作开销。上下文是关键，元数据是解决方案。【业务人员也需要用到数据】。
（3）数据治理正在重新构想，从自上而下的集中规则到自下而上的分散举措–这需要对元数据平台进行类似的重新构想==【去中心化】==。
（4）随着元数据成为大数据，元数据湖在今天和明天都有无限的用例。
（5）被动元数据系统正在被废除，取而代之的是主动元数据平台。

3.现代数据架构

（1）现代数据架构需要考虑
①Self-service for a diverse range of users 自助服务。
②“Agile” data management – dataops 敏捷数据应用【dataops 数据架构搞敏捷是不太可能的，数据应用搞敏捷，现在是一边应用一边开发】。
③Cloud-first and cloud-native 考虑上云端数据【DCMM中未考虑cloud云端数据】。
特征：
Super fast set-up 超快速设置、
Pay as you go 现收现付、
Plugandplay即插即用、
Elastic compute 弹性计算、
No monoliths 没有巨石（没有很大的阻碍）、
Always available 始终可用。
内容：
Data ingestion 数据摄入 ETL：fivetran/stitch/singer/airbyte；【崭新引擎，针对现代数据架构】。
Data warehouse 数据仓库：snowflake【星型设计、雪花模型】amazonredshift。
Data lake 数据湖：starburst/amazon athena。
Data lakehouse 数据湖仓：databricks【bill innom是独立董事】。
Data transformation 数据转换 ETL 的 T：dbt/matillion/airflow/R/python。
Business intelligence 商业智能：looker/tableau/mode/thoughtspot。
Data science 数据科学：jupyter/datarobot。
Data access&goverance 数据访问：data discovery/datacataloging/data observability/visual query workbench/metricsrepository/data lineage&RCA。
Atlan（云端）/acceldata/transform/datahub/monte carlo/amundsen。
（2）数据用户的多样性【以前是 IT 在用，现在业务人员也在用】。
（3）数据治理的新态势和新目标。
Data governance→“Data and analytics”governance 数据治理→数据和分析治理（大数据杀熟）。
Centralized approach→Decentralized，community-led approach集中式思考→去中心化、社区主导的方法。Afterthought→Part of daily workflows 经过思考→日常工作流程的一部分。
（4）元数据的数据湖的兴起。

12.9 F2 怎样应用元数据？（DMBOK2 P338）

元数据指导如何使用数据资产：在商务智能（报表和分析）、商业决策（操作性、运营型和战略型）以及业务语义（业务所述内容及其含义）方面使用元数据。元数据存储库应具有前端应用程序，并支持查询和获取功能，从而满足以上各类数据资产管理的需要。提供给业务用户的应用界面和功能与提供给技术用户和开发人员的界面和功能有所不同，后者可能会包括有助于新功能开发（如变更影响分析）或有助于解决数据仓库和商务智能项目中数据定义问题（如数据血缘关系报告）的功能。
（1）用于查询，
（2）分析和报告，如影响分析、血缘关系分析。

12.10 F5 元数据上线后如何维护？

需要及时更新，上游有改动，下游需更新。

12.11 F6&Q 元数据系统应该具有哪些功能？【非常重要】购买元数据管理系统。

Q：元数据系统应该具有哪些功能？【重要】→主数据应该有哪些功能【参考第十章】
A：8 个功能，
元数据采集、
元数据查询、
元数据分析、
元数据变更管理、
元数据浏览视图、
元数据版本管理。（←都是必须要有的）基于云计算趋势，应该增加主动性元数据管理功能，权限管理。

12.12 Q 元数据应该包括数据的哪些属性？特别是数据质量和数据安全属性

A：除了现有数据类型、约束等内容，还需至少再打2 个标签：质量属性及安全属性。→主动性元数据管理内容，在元数据搜集来之后，每个表及字段主动打标签。

12.13 Q 集团数字化转型应该从哪个领域开始？

数据管理需要元数据，理想化的情况下，集团数字化转型从元数据开始。

12.14 F7 如果元数据没有管理好，会怎样？【重点 DMBOK2 P322】

1.冗余的数据和数据管理流程；
2.重复和冗余的字典、存储库和其他元数据存储；
3.不一致的数据元素定义和与数据滥用的相关风险；
4.元数据的不同版本相互矛盾且有冲突，降低了数据使用者的信心；
5.怀疑元数据和数据的可靠性。

12.15 元数据有助于【DMBOK2 P322】

1.通过提供上下文语境和执行数据质量检查提高数据的可信度；
2.通过扩展用途增加战略信息（如主数据）的价值；
3.通过识别冗余数据和流程提高运营效率；
4.防止使用过时或不正确的数据；
5.减少数据的研究时间；
6.改善数据使用者和 IT 专业人员之间的沟通；
7.创建准确的影响分析，从而降低项目失败的风险；
8.通过缩短系统开发生命周期时间缩短产品上市时间；
9.通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响；
10.满足监管合规。

12.16 补充元数据方法

1、血缘分析： 告诉你数据来自哪里，都经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系，追根溯源，快速地定位到问题数据的来源和加工过程，减少数据问题排查分析的时间和难度。这个功能常用于数据分析发现数据问题时，快速定位和找到数据问题的原因。血缘分析是一种技术手段，用于对数据处理过程的全面追踪，从而找到某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。元数据对象之间的关系特指表示这些元数据对象的数据流输入输出关系。在元数据管理系统成型后，我们便可以通过血缘分析来对数据仓库中的数据健康、数据分布、集中度、数据热度等进行分析。
2、影响分析： 告诉你数据都去了哪里，经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系，向下追踪，快速找到都哪些应用或数据库使用了这个数据，从而避免或降低数据问题带来的更大的影响。这个功能常用于数据源的元数据变更对下游 ETL、ODS、DW 等应用应用的影响分析。在开发中，我们经常会遇到以下问题：如果我要改动某个表、ETL，会造成怎样84的影响？如果没有元数据，那我们可能需要遍历所有的脚本、数据。才能得到想要的答案；而如果有成熟的元数据管理，那我们就可以直接得到答案，节省大量时间。
3、冷热度分析： 告诉你哪些数据是企业常用数据，哪些数据属于“僵死数据”。其价值在于让数据活跃程度可视化，让企业中的业务人员、管理人员都能够清晰的看到数据的活跃程度，以便更好的驾驭数据，激活或处置“僵死数据”，从而为实现数据的自助式分析提供支撑。
4、关联度分析： 告诉你数据和其他数据的关系以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况，形成一张实体和所参与处理过程的网络，从而进一步了解该实体的重要程度，如：表与 ETL 程序、表与分析应用、表与其他表的关联情况等。本功能可以用来支撑需求变更的影响评估。
5、数据资产地图： 告诉你有哪些数据，在哪里可以找到这些数据，能用这些数据干什么。通过元数据可以对企业数据进行完整的梳理、采集和整合，从而形成企业完整的数据资产地图。数据资产地图支持以拓扑图的形式进行可视化展示各类元数据和数据处理过程，通过不同层次的图形展现粒度控制，满足业务上不同应用场景的数据查询和辅助分析需要。

第十二章元数据管理10分

12.1 引言如果没有元数据，组织可能根本无法管理其数据。 ISO/IEC11179 元数据注册标准。元数据管理原则：应归尽归，应收尽收。衡量标准：目录是否完整。（去第十二章元数据管理）。主数据管理：主…...

编程日记 2024/8/6 5:33:06

eco_tracker

特征 VGG是第一个提出使用块的想法，通过使用循环和子程序，可以很容易地在任何现代深度学习框架的代码中实现这些重复的架构。原始VGG网络有5个卷积块，其中前两个块各有一个卷积层，后三个块各包含两个卷积层。第一个模块有64个…...

编程日记 2024/8/6 5:32:05

electron 鼠标事件

版本："electron": "^22.3.27"，实现一个在windows下图片点击右键，使用electron打开的功能。一、注册表操作注册表工具类 const cp require("child_process"); const { app } require(electron/remote) e…...

编程日记 2024/8/6 5:30:02

网络安全第一次作业（ubuntuan安装nginx以及php部署 and sql注入（less01-08)））

ubuntuan安装nginx以及php部署 1.安装依赖包 rootadmin123-virtual-machine:~# apt-get install gcc libpcre3 libpcre3-dev zliblg zliblg-dev openssl libssl-dev2.安装nginx 到https://nginx.org/en/download.html下载nginx 之后将压缩包通过xtfp传输到ubuntu的/usr/loc…...

编程日记 2024/8/6 5:28:00

【OpenHarmony4.1 之 U-Boot 2024.07源码深度解析】017 - init_sequence_f 各函数源码分析（一）

【OpenHarmony4.1 之 U-Boot 2024.07源码深度解析】017 - init_sequence_f 各函数源码分析（一）一、setup_mon_len()：配置 gd->mon_len 监控长度二、fdtdec_setup() ：设备树初始化，配置 gd->fdt_blob 指向uboot镜像末尾的 device tree三、【RK3568未跑】trace_early…...

编程日记 2024/8/6 5:26:59

Mojo AI编程语言（十七）跨平台开发：应用广泛适配

目录 1. Mojo语言简介 2. 跨平台开发的挑战 3. Mojo语言的跨平台特性 3.1 编译器支持 3.2 标准库支持 3.3 抽象层 4. 跨平台开发的最佳实践 4.1 避免平台特定代码 4.2 使用依赖管理工具 4.3 测试覆盖率 5. 高级跨平台开发技巧 5.1 使用容器 5.2 持续交付 5.3 性能…...

编程日记 2024/8/6 5:25:58

Python面试题：结合Python技术，如何使用Astropy进行天文数据处理

Astropy 是一个用于天文学研究的 Python 库，它提供了处理天文数据的多种工具和函数。以下是一些使用 Astropy 进行天文数据处理的示例： 安装 Astropy 首先，需要确保已安装 Astropy，可以使用以下命令进行安装： pip i…...

编程日记 2024/8/6 5:24:57

Jpa-多表关联-OneToOne

Jpa-多表关联-OneToOne 准备JoinColumnOneToOne属性targetEntitycascade*PERSISTMERGEREMOVEREFRESH orphanRemovalfetchoptionalMappedBy* OneToOne在 hibernate中用于对表与表之间进行维护关联准备 import com.alibaba.fastjson.JSON; import jakarta.persistence.*; impor…...

编程日记 2024/8/6 5:23:56

zdpy+vue3+onlyoffice文档系统实战上课笔记 20240805

上次上次计划 1、最近文档表格完善 2、实现登录功能 3、新建文件，复制文件，删除文件 4、其他目前任务：最近文档表格完善 1、在名称前面，渲染这个文档的图标 2、大小的基本的单位是kb，超过1024kb则换成mb&#xff0…...

编程日记 2024/8/6 5:22:55

【Linux 从基础到进阶】Linux 内核参数调优

Linux 内核参数调优引言内核参数调优是提升 Linux 系统性能和稳定性的重要手段。通过合理配置和优化内核参数，可以显著改善系统资源利用率和响应速度。本文将介绍内核参数的调优方法，并提供适用于 CentOS 和 Ubuntu 系统的具体示例。 1. 内核参数简介内核参数是控制 L…...

编程日记 2024/8/6 5:21:53

【Java数据结构】---泛型

乐观学习，乐观生活，才能不断前进啊！！！ 我的主页：optimistic_chen 我的专栏：c语言 ，Java 欢迎大家访问~ 创作不易，大佬们点赞鼓励下吧~ 文章目录包装类装箱和拆箱泛型泛型…...

编程日记 2024/8/6 5:20:52

Java Lambda表达式总结（快速上手图解）

Java Lambda表达式总结（快速上手详解）-CSDN博客https://blog.csdn.net/m0_66070037/article/details/140912566?spm1001.2014.3001.5501...

编程日记 2024/8/6 5:19:51

【算法模板】图论：Tarjan算法求割边割点

概念割边（Bridge 或 Cut Edge） 定义： 在一个无向连通图中，如果删除某条边后，图不再连通（即任意两点之间不能相互到达），则称该边为割边。割边也被称为桥，因为它像桥梁…...

编程日记 2024/8/6 5:18:50

如何在IDEA上使用JDBC编程【保姆级教程】

目录前言什么是JDBC编程本质使用JDBC编程的优势 JDBC流程如何在IEDA上使用JDBC JDBC编程 1.创建并初始化数据源 2.与数据库服务器建立连接 3.创建PreparedStatement对象编写sql语句 4.执行SQL语句并处理结果集 executeUpdate executeQuery 5.释放资源前言在…...

编程日记 2024/8/6 5:16:45

linux web系统安装常见问题解决，租房系统为案例

Warning: require(): open_basedir restriction in effect. 一、执行文件权限网站目录下 open_basedir增加执行路径二、文件夹权限放行三、安装基础环境 composer install 四、数据合并 php think migrate:run 20200402094148 AdminUser: migrating 20200402094148 A…...

编程日记 2024/8/6 5:15:43

Linux驱动开发—平台总线模型详解

文章目录 1.平台总线介绍1.1平台总线模型的组成部分1.2平台总线模型的优势 2.使用平台总线模型开发驱动2.1注册platform设备2.2注册platform驱动2.3效果演示 1.平台总线介绍 Linux 平台总线模型（Platform Bus Model）是一种设备驱动框架，用于…...

编程日记 2024/8/6 5:14:42

说一下网络层，传输层，数据链路层做什么的，之间的关系？

网络层主要负责为数据包选择最佳路径，将数据从源主机传输到目标主机。它的关键任务包括路由选择、拥塞控制和网络互联等。通过网络层的功能，不同网络之间能够实现通信和数据传输。传输层的作用是在源端和目的端之间提供可靠或不可靠的端到端的数据传输…...

编程日记 2024/8/6 5:13:41

解锁AI新纪元：Milvus Cloud与Zilliz Cloud的高可用之道

在当今数字化时代，系统的持续稳定运行与数据的即时访问性已成为衡量技术服务质量的关键指标。面对复杂多变的运行环境，包括电力波动、网络故障乃至人为操作失误等不可预见因素，数据库系统的高可用性（High Availability, HA）成为了保障业务连续性的重要基石。特别是在大数据…...

编程日记 2024/8/6 5:09:36

svn安装

579 yum install subversion 580 rpm -qa|grep subversion 581 yum -y install subversion 582 rpm -ql subversion 583 /usr/bin/svnversion --version 584 mkdir /data/svnrepos 585 svnadmin create /data/svnrepos/abc 586 svnadmin create /data/svnrepos/gzss 587 cd…...

编程日记 2024/8/6 5:06:34