当前位置: 首页 > news >正文

数据治理、数据素养和数据质量管理:文献综述

注意:这并不是正式发表的论文,只是一篇用来交作业的文章

摘要  

随着数据时代的到来,数据治理、数据素养和数据质量管理成为组织数据管理中的三大核心概念。本文基于相关研究与实践,对这三个领域进行全面综述,探讨它们的定义、相互关系及其在数据中台与AI数据服务中的体现。通过结合中国互联网企业的实践,提出数据中台作为现代数据治理的重要工具,其在数据治理、数据挖掘及智能化应用方面的优势。

关键词: 数据治理,数据素养,数据质量管理,数据中台,AI数据服务

1.引言  

在大数据与人工智能的推动下,数据已成为组织的核心资产。数据治理、数据素养和数据质量管理相互依存,构成现代组织实现数据驱动决策与价值创造的关键基础。本文旨在探讨三者之间的关系,并结合数据中台及AI数据服务在现代数据治理体系中的实践案例,进一步阐释其应用价值。

2.核心概念

这些概念的定义和发展并非源于某一特定的个人或机构,而是在数据管理领域的发展过程中逐步形成,并由学术界、行业标准组织以及企业实践共同推动。以下是每个概念的主要来源和发展背景:

l数据治理:数据治理是指确保组织数据的质量、完整性、安全性和可用性的框架和实践。它涉及实现高效和负责任的数据管理的政策、角色和流程。

l数据素养:数据素养是阅读、理解、创建和传达数据作为信息的能力,使个人能够在数据驱动的环境中做出明智的决策。

l数据质量管理:数据质量管理是指旨在维持高数据质量标准的一系列实践,重点关注整个数据生命周期的准确性、完整性、可靠性和相关性。

3.三大概念的相关性

3.1 三者的关系  

数据治理提供了顶层设计,规范了数据的管理规则与流程;数据质量管理则通过技术手段保障数据的准确性和一致性;而数据素养提升了个人和组织执行数据治理与质量管理的能力,三者共同促进数据驱动的决策与创新。

3.2 相关案例

(1)Airbnb 的数据素养与数据治理实践

Airbnb 实施了名为“Data University”的内部教育计划,旨在提升员工的数据素养,以便他们能够更深入地理解和运用数据。数据素养的提升直接推动了数据治理策略的落实,确保员工能够以负责任的态度处理和分析数据。该教育计划不仅增强了基于数据的决策能力,还促进了公司内部数据民主化的进程。

(2)Milliman MedInsight 在医疗数据治理方面的实践

在医疗数据治理的案例中,Milliman MedInsight 的服务团队通过提供专业支持,帮助相关组织提升了数据质量和治理效能。通过优化文档管理和自动化查询流程,显著增强了数据的一致性和可用性。此外,通过提供定制化的培训课程,提升了员工的数据素养,从而在组织内部建立了统一的数据语言和治理标准。

(3)科学研究领域中的数据管理与素养提升

在科学研究领域,eagle-i 项目展示了如何通过提高数据和信息素养,推动生物资源管理的标准化进程。该项目强调了早期教育和社区参与在数据治理及质量管理中的核心作用,并依托图书馆等学术机构的支持,协助研究人员提升数据素养,以优化数据共享和利用的效率。

4.现代数据治理体系

随着时代演进,传统数据治理体系中的数据湖与数据仓库架构已面临新的替代方案,即数据中台与AI数据化服务。数据中台作为数据湖的迭代产品,有效解决了数据湖所面临的一系列问题,并且与AI数据服务保持了良好的兼容性,从而有效推进了企业数据治理的转型进程。

4.1数据湖的作用与挑战  

数据湖作为集中式数据存储架构,为多样化数据处理与分析提供了基础,为企业的数据治理提供了一个有效的解决方案,但也面临数据质量、安全性和管理复杂性问题。

4.1.2 数据湖的定义与核心特性

数据湖是一种集中式存储架构,旨在存储大规模的原始数据集。该架构兼容结构化、半结构化以及非结构化数据,并能够支持多样化的数据处理与分析技术。其设计宗旨在于提供一个灵活、可扩展且成本效益高的数据存储方案,以应对组织不断增长的数据管理需求。

数据湖具备以下核心特性:首先,它拥有巨大的存储容量,能够存储各种类型和格式的数据。其次,它采用成本较低的存储介质,如HDFS或云存储服务,以降低数据存储成本。数据湖还具有开放性架构,支持多种数据处理和分析工具,如Hadoop、Spark、Flink等。此外,它支持多种数据格式,并允许用户自定义格式,以满足不同需求。数据湖还提供数据安全机制,包括访问控制、数据加密、数据审计等,确保数据安全和完整性。综上所述,数据湖为数据密集型组织提供了一个全面的数据管理平台,有助于最大化数据资产的利用。

4.1.3 数据湖在现代数据治理体系中的作用

数据湖在现代数据治理体系中发挥着重要作用,它为数据治理提供了以下支持:

数据集成:数据湖能够整合来自不同来源的数据,包括内部系统和外部系统,为数据治理提供了统一的数据源。

数据清洗:数据湖支持数据清洗技术,例如数据质量规则、数据转换、数据校验等,以确保数据的准确性、一致性和完整性。

数据质量评估:数据湖可以存储历史数据,方便进行数据质量评估,并识别数据质量问题。

数据安全:数据湖提供数据安全机制,例如访问控制、数据加密、数据审计等,以保护数据安全。

数据生命周期管理:数据湖支持数据生命周期管理,例如数据归档、数据备份、数据删除等,以优化数据存储成本和提高数据可用性。

4.1.4数据湖面临的挑战

数据湖技术在长期的工业实践中也发现了一系列问题,如数据质量和一致性问题,由于存储多种来源的数据,可能导致重复和不一致。元数据管理不足影响数据的可用性和可追溯性。数据安全和访问控制是关键,特别是对于敏感数据,缺乏安全措施可能导致合规性问题。治理和多部门协调问题可能导致数据定义冲突。最后,若缺乏适当治理,数据湖可能变成难以利用的“数据沼泽”。

4.2 数据中台的价值

数据中台融合了数据湖与数据仓库的诸多优势,构成了现代数据治理体系的关键组成部分。该架构通过标准化接口的实施,有效降低了数据治理的复杂度,提升了数据挖掘的效率,并为智能化应用提供了支持,特别是在广泛采用的AI数据服务领域,对数据治理体系的全面提升具有显著影响。此外,数据中台技术在中国众多企业中经过长期实践的检验,已证明其有效性和实用性。

  1. 阿里巴巴数据中台: 阿里巴巴的数据中台是其核心竞争优势之一,它为阿里巴巴的业务运营提供了强大的数据支撑,例如电商业务、云计算业务、数字媒体和娱乐业务等。
  2. 腾讯数据中台: 腾讯数据中台为其社交、游戏、金融等业务提供了数据支撑,例如用户画像、内容推荐、智能客服等。
  3. 百度数据中台: 百度数据中台为其搜索、广告、自动驾驶等业务提供了数据支撑,例如用户行为分析、广告投放优化、自动驾驶路径规划等。

4.3 AI数据服务的推动力

AI数据服务是指利用人工智能技术对数据进行处理、分析和挖掘,并为企业提供智能化决策支持的服务。AI数据服务在现代数据治理体系中发挥着重要作用,主要体现在以下几个方面:

4.3.1 数据分析智能化

自动建模: AI数据服务可以自动构建数据模型,例如预测模型、分类模型、聚类模型等,提高数据分析的效率和准确性。

智能推荐: AI数据服务可以根据用户的行为和偏好,推荐相关的商品、内容或服务,提高用户体验和转化率。

智能预测: AI数据服务可以根据历史数据和实时数据,预测未来的趋势和变化,帮助企业制定更有效的策略。

智能决策: AI数据服务可以根据数据分析结果,提供智能化的决策建议,帮助企业做出更科学的决策。

4.3.2数据治理自动化

数据清洗: AI数据服务可以自动识别和清洗数据中的错误、缺失和不一致等问题,提高数据质量。

数据分类: AI数据服务可以自动对数据进行分类和标签,方便数据管理和分析。

数据安全: AI数据服务可以自动识别和防范数据安全风险,例如数据泄露、数据篡改等。

4.3.3 数据应用创新

个性化服务: AI数据服务可以根据用户的需求和偏好,提供个性化的服务,例如个性化推荐、个性化营销等。

智能客服: AI数据服务可以提供智能客服服务,例如语音识别、自然语言处理等,提高客户服务效率和质量。

智能风控: AI数据服务可以提供智能风控服务,例如欺诈检测、信用评估等,降低风险损失。

4.3.4 数据治理体系完善

数据质量提升: AI数据服务可以提高数据质量,为数据治理提供可靠的数据基础。

数据安全增强: AI数据服务可以增强数据安全性,保护数据安全。

数据价值提升: AI数据服务可以提升数据价值,推动数据驱动决策和价值创造。

5.结论

数据治理、数据素养和数据质量管理是现代数据管理体系的三大支柱,三者相辅相成,推动了组织的数据驱动决策与创新发展。数据中台与AI数据服务为其提供了技术支持和应用场景,成为现代数据治理的核心工具。

6.参考文献  

1. Koltay, Tibor. "Data Governance, Data Literacy and the Management of Data Quality." *IFLA Journal*, vol. 42, no. 4, 2016, pp. 303–312. https://doi.org/10.1177/0340035216672238.

2. Tableau. "Top Data Literacy Skills for Becoming Data Literate." Tableau Software, LLC, 2023.

3. Data Management Association International. *Data Management Body of Knowledge (DMBOK) Guide*. DAMA International, 2017.

4. Data Literacy Project. “What Is Data Literacy?” *The Data Literacy Project*, Qlik, 2016, www.thedataliteracyproject.org.

5. Wang, Richard Y., and Diane M. Strong. “Beyond Accuracy: What Data Quality Means to Data Consumers.” *Journal of Management Information Systems*, vol. 12, no. 4, 1996, pp. 5–33.  

6. Forrester Research. *Data Literacy Trends*. Cambridge, MA: Forrester Research, 2022.

7. Zha, Di, et al. "Data-centric Artificial Intelligence: A Survey." arXiv, 2023. arXiv:2303.10158.

8. Benaich, Nathan, and Ian Hogarth. State of AI Report 2023. Air Street Capital, 2023. Available at State of AI Report 2023.

9. Wright, T. "Data Quality and Decision Making: The Role of Confidence in Business Data." Journal of Information Management, vol. 14, no. 2, 2006, pp. 72–85.

10. Newman, H. "EIM Governance and Logical Data Models: A Comparative Study." International Journal of Information Systems, vol. 10, no. 4, 2006, pp. 245–260.

11. Atlan. "5 Data Governance Examples: Case Studies, Takeaways & More." Atlan Blog, https://www.atlan.com/data-governance-case-studies. Accessed 18 Nov. 2024.

12. MedInsight. "Analytic Maturity in Data Governance, Quality & Literacy." MedInsight Blog, https://www.medinsight.com/analytic-maturity-data-governance. Accessed 18 Nov. 2024.

13. Palmer, Carole. "Dealing with Data: A Case Study on Information and Data Management Literacy." PLOS Biology, https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1001171. Accessed 18 Nov. 2024.

相关文章:

数据治理、数据素养和数据质量管理:文献综述

注意:这并不是正式发表的论文,只是一篇用来交作业的文章 摘要 随着数据时代的到来,数据治理、数据素养和数据质量管理成为组织数据管理中的三大核心概念。本文基于相关研究与实践,对这三个领域进行全面综述,探讨它…...

【Linux】用户和用户组管理

管理用户 1.添加用户账号——useradd命令 【实例2-1-1】 按系统默认配置添加指定用户账号st和stu。 # 添加用户账号st [rootlocalhost ~]# useradd st # 添加用户账号stu [rootlocalhost ~]# useradd stu【实例2-1-2】添加用户账号stu01,UID为1004&am…...

游戏引擎学习第16天

视频参考:https://www.bilibili.com/video/BV1mEUCY8EiC/ 这些字幕讨论了编译器警告的概念以及如何在编译过程中启用和处理警告。以下是字幕的内容摘要: 警告的定义:警告是编译器用来告诉你某些地方可能存在问题,尽管编译器不强制要求你修复…...

如何通过对敏捷实践的调整,帮助远程团队提升研发效能?

首先明确一点,最敏捷的做法就是不要远程团队或分布式团队,远程一定比不上面对面同一地点的模式,毕竟环境不同,就不要期望远程团队和本地团队具备相同的效能,甚至期望更高。 那么,无论何种原因,…...

Ubuntu Linux使用前准备动作 配置SSH

在 Ubuntu 系统中配置 SSH 服务可以通过以下步骤进行: 1、安装ssh服务 1)打开终端(可以使用快捷键 Ctrl Alt T)。 2)运行以下命令安装 OpenSSH 服务器: sudo apt-get update:这一步是更新…...

疫情下的图书馆管理系统:Spring Boot技术

摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了疫情下图书馆管理系统的开发全过程。通过分析疫情下图书馆管理系统管理的不足,创建了一个计算机管理疫情下图书馆管理系统的方案。文章介绍了疫情下图…...

vue3完整安装并创建项目

1、下载:https://npmmirror.com/mirrors/node/v18.19.0/node-v18.19.0-x64.msi 2、验证Nodejs是否安装成功(管理员身份运行cmd) node -v #查看nodejs的版本 v18.19.0npm -v #查看npm的版本 10.2.3 3、在D:\Program Files\nodejs路径下创建两…...

【Linux】Linux入门实操——进程管理(重点)

1. 概述 在 LINUX 中,每个执行的程序都称为一个进程。每一个进程都分配一个ID号(pid,进程号)。>windows > linux每个进程都可能以两种方式存在的。前台与后台,所谓前台进程就是用户目前的屏幕上可以进行操作的。后台进程则是实际在操作&#xff0…...

Linux-Apache

文章目录 Apache基础配置 🏡作者主页:点击! 🤖Linux专栏:点击! ⏰️创作时间:2024年11月19日12点20分 Apache Web服务器用来实现HTTP和相关TCP连接的处理,同时负责所提供资源的管理…...

高危,Laravel参数注入漏洞安全风险通告

今日,亚信安全CERT监控到安全社区研究人员发布安全通告,披露了Laravel 参数注入漏洞(CVE-2024-52301)。在受影响的版本中,Application.php 文件的 detectEnvironment 函数直接使用了 $_SERVER[argv],但没有检查运行环境是否为 CLI…...

【Qt】使用QString的toLocal8Bit()导致的问题

问题 使用Qt发送一个Http post请求的时候,服务一直返回错误和失败信息。同样的url以及post参数,复制黏贴到postman里就可以发送成功。就感觉很神奇。 原因 最后排查出原因是因为参数中含有汉字而导致的编码问题。 在拼接post参数时,使用了…...

Android上运行Opencv(TODO)

在高通安卓平台上,确实可以通过 NDK 使用 OpenCV 并访问摄像头。NDK 提供了更高性能的计算能力,特别是在图像处理和计算密集型任务中,与 OpenCV 结合可以充分利用高通平台的硬件资源(如 NEON SIMD 指令集和 GPU 加速)。…...

动态IP黑白名单过滤的设计与实现(上篇设计思想)

文章目录 需求分析方案设计1、设计过程2、最终方案3、扩展知识 - 布隆过滤器 需求分析 一些恶意用户(可能是黑客、爬虫、DDoS 攻击者)可能频繁请求服务器资源,导致资源占用过高。因此我们需要一定的手段实时阻止可疑或恶意的用户&#xff0c…...

LeetCode 力扣 热题 100道(五)最长回文子串(C++)

最长回文子串 给你一个字符串 s,找到 s 中最长的 回文子串。 回文性 如果字符串向前和向后读都相同,则它满足 回文性 子字符串子字符串 是字符串中连续的 非空 字符序列。 动态规划法 class Solution { public:string longestPalindrome(string s) {i…...

Docker--Docker Registry(镜像仓库)

什么是Docker Registry? 镜像仓库(Docker Registry)是Docker生态系统中用于存储、管理和分发Docker镜像的关键组件。 镜像仓库主要负责存储Docker镜像,这些镜像包含了应用程序及其相关的依赖项和配置,是构建和运行Doc…...

maven手动上传jar到私服仓库:mvn deploy:deploy-file命令

一、场景 现需要将公司内部的jar包上传到私服仓库,供其他同事使用,此时就需要用到mvn deploy:deploy-file命令。 二、 mvn deploy:deploy-file命令 举个栗子: mvn deploy:deploy-file -DgroupIdorg.pttsql -DartifactIdpttsql -Dversi…...

【机器学习】机器学习中用到的高等数学知识-1.线性代数 (Linear Algebra)

向量(Vector)和矩阵(Matrix):用于表示数据集(Dataset)和特征(Feature)。矩阵运算:加法、乘法和逆矩阵(Inverse Matrix)等,用于计算模型参数。特征值(Eigenvalues)和特征向量(Eigenvectors)&…...

无插件H5播放器EasyPlayer.js网页web无插件播放器选择全屏时,视频区域并没有全屏问题的解决方案

EasyPlayer.js H5播放器,是一款能够同时支持HTTP、HTTP-FLV、HLS(m3u8)、WS、WEBRTC、FMP4视频直播与视频点播等多种协议,支持H.264、H.265、AAC、G711A、MP3等多种音视频编码格式,支持MSE、WASM、WebCodec等多种解码方…...

Idea中创建和联系MySQL等数据库

备注:电脑中要已下好自己需要的MySQL数据库软件 MySQL社区版下载链接: https://dev.mysql.com/downloads/installer/ 优点: 1.相比与在命令行中管理数据库,idea提供了图形化管理,简单明了; 2.便于与后端…...

【pytest】pytest注解使用指南

前言:在 pytest 测试框架中,注解(通常称为装饰器)用于为测试函数、类或方法提供额外的信息或元数据。这些装饰器可以影响测试的执行方式、报告方式以及测试的组织结构。pytest 提供了多种内置的装饰器,以及通过插件扩展…...

边缘计算医疗风险自查APP开发方案

核心目标:在便携设备(智能手表/家用检测仪)部署轻量化疾病预测模型,实现低延迟、隐私安全的实时健康风险评估。 一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一)

CSI-2 协议详细解析 (一) 1. CSI-2层定义(CSI-2 Layer Definitions) 分层结构 :CSI-2协议分为6层: 物理层(PHY Layer) : 定义电气特性、时钟机制和传输介质(导线&#…...

自然语言处理——Transformer

自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,但是它有一个很大的缺陷——很难并行化。 我们可以考虑用CNN来替代RNN,但是…...

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

目录 一、目的 二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结 一、目的 当前市场上有很多目标检测智能识别的相关算法,当前调用一个医疗行业的AI识别算法后返回…...

python报错No module named ‘tensorflow.keras‘

是由于不同版本的tensorflow下的keras所在的路径不同,结合所安装的tensorflow的目录结构修改from语句即可。 原语句: from tensorflow.keras.layers import Conv1D, MaxPooling1D, LSTM, Dense 修改后: from tensorflow.python.keras.lay…...

HarmonyOS运动开发:如何用mpchart绘制运动配速图表

##鸿蒙核心技术##运动开发##Sensor Service Kit(传感器服务)# 前言 在运动类应用中,运动数据的可视化是提升用户体验的重要环节。通过直观的图表展示运动过程中的关键数据,如配速、距离、卡路里消耗等,用户可以更清晰…...

Netty从入门到进阶(二)

二、Netty入门 1. 概述 1.1 Netty是什么 Netty is an asynchronous event-driven network application framework for rapid development of maintainable high performance protocol servers & clients. Netty是一个异步的、基于事件驱动的网络应用框架,用于…...

如何应对敏捷转型中的团队阻力

应对敏捷转型中的团队阻力需要明确沟通敏捷转型目的、提升团队参与感、提供充分的培训与支持、逐步推进敏捷实践、建立清晰的奖励和反馈机制。其中,明确沟通敏捷转型目的尤为关键,团队成员只有清晰理解转型背后的原因和利益,才能降低对变化的…...

统计学(第8版)——统计抽样学习笔记(考试用)

一、统计抽样的核心内容与问题 研究内容 从总体中科学抽取样本的方法利用样本数据推断总体特征(均值、比率、总量)控制抽样误差与非抽样误差 解决的核心问题 在成本约束下,用少量样本准确推断总体特征量化估计结果的可靠性(置…...

后端下载限速(redis记录实时并发,bucket4j动态限速)

✅ 使用 Redis 记录 所有用户的实时并发下载数✅ 使用 Bucket4j 实现 全局下载速率限制(动态)✅ 支持 动态调整限速策略✅ 下载接口安全、稳定、可监控 🧩 整体架构概览 模块功能Redis存储全局并发数和带宽令牌桶状态Bucket4j Redis分布式限…...