当前位置: 首页 > news >正文

数据治理在学术上的发展史以及未来展望

        数据治理是大数据领域中非常重要的一环,从早期的学术研究到如今的各大企业落地实践,经历了漫长的过程,数据治理的实践落地本身也是一场马拉松。

        从百度学术通过精确关键词匹配,搜索中文期刊的“数据治理” 和外文期刊的“data governance”查看1980年以来的论文发布数量,2000年之前没有收录记录。2000-2009年有少量收录,2010年之后开始指数级上升。当然,百度学术的数据不一定完全,只能反映一部分情况,只能做一个简单的参考。

        从论文搜索数量,以及全球各个组织机构对数据治理的研究成功来看,可以将数据治理分为三个阶段,分别是1988-1999的早期探索阶段,2000-2009你的逐步完善阶段,以及2010年之后的蓬勃发展阶段。 

第一阶段 :早期探索1988-1999

1.1 MIT启动TDQM

        1988年,麻省理工学院的启动了全面数据质量管理TDQM (Total Data Quality Management Program)计划,其目的是希望通过建立数据质量管理领域坚实的理论基础,以及数据管理所需的工具等帮助企业来提高数据质量。

TDQM 研究计划主要由三个部分组成:数据质量的定义、分析和改进。

数据质量定义:主要侧重于如何定义和计量数据质量。

数据质量分析:主要侧重于两方面,①鉴别和计算影响数据质量的因素。②好的数据质量对提升企业经营的好处。

数值质量改进:借助新的技术手段和重构业务系统来提高公司的数据质量。

TDQM认为需要从经济,技术和组织三个维度着手来改进数据质量。

TDQM正如他的名字那样,定义了一套全面的数据质量管理的框架,也奠定了数据治理领域的理论研究基石。

TDQM的小组成员也在不断改进,Wang R Y, Strong D M在1996年提出多维数据质量度量框架。将15个数据质量指标划分为四大维度:

  • 内在数据质量(Intrinsic Data Quality):

可信度(Believability)

准确性(Accuracy)

客观性(Objectivity)

信誉度(Reputation)

  • 上下文数据质量(Contextual Data Quality):

数据增值性(Value-Added)

相关性(Relevancy)

时效性(Timeliness)

完整性(Completeness)

适量性(Appropriate Amount of Data)

  • 获取数据质量(Representational Data Quality):

可解释性(Interpretability)

易理解性(Ease of Understanding)

可代表性(Representational)

一致性(Consistency)

简洁性(Concise representation)

  • 可访问性数据质量(Accessibility Data Quality):

可访问性(Accessibility)

访问安全性(Access Security)

这15大指标和四大分类对数据质量建设提供了重要的指导意义,对后续的研究影响颇深。

 

1.2 DAMA选出第一届董事会 

        同样是1988年,国际数据管理协会DAMA(The Global Data Management Community)正式选出了第一届董事会,DAMA初期在数据治理领域还没有太多的贡献和影响力,而如今DAMA已经在领域内人尽皆知,成为了最主流的数据治理体系。

第二阶段 :逐步完善 2000-2009

        在这个阶段,数据治理概念首次出现,DGI成立,DAMA也发布了DMBOK V1,数据治理体系开始逐步完善。

2.0 “数据治理”概念首次出现

        在第一阶段里,TDQM等研究机构提出的都是数据管理的概念,主要侧重在数据的全生命周期管理。而数据治理(Data Governance)的概念首次提出是在2002年,美国学者发表了一篇论文《Data warehouse governance: best practices at Blue Cross and Blue Shield of North Carolina》[1],探讨了数据仓库治理在Blue Cross 和Blue Shield两家公司的最佳实践,在这两家公司成立了专门的数据治理小组来体系化的进行数据治理的工作。

2.1 DGI 成立

        2003年DGI(国际数据治理研究所)成立,并提出了DGI数据治理框架,该框架完整的描述了我们为什么要数据治理(Why)? 谁(Who)在什么情况(Where)下,使用什么方法(How),如何实施(What)的整个过程。如下图

  • 数据生命周期的7个阶段:

1. 确定数据治理的价值(Develop a value statement 

2. 准备执行路线图(Prepare a roadmap 

3. 制定计划和资金准备(Plan and fund 

4. 设计(Design

5. 部署(Deploy 

6. 治理(Govern 

7. 监控、检测、报告(Monitor, measure, report 

  • 数据治理的10个通用组件:

Rules and Rules of Engagement

1. 使命愿景(Mission and Vision)

2. 目标,治理指标,成功举措和投资策略(Goals, Governance Metrics and

Success Measures, and Funding Strategies)

3. 规则,定义和政策(Data Rules and Definitions) 

4. 决策权(Decision Rights)

5. 问责制(Accountabilities)

6. 控制(Controls)

People and Organizational Bodies

7. 数据利益相关者(Data Stakeholders)

8. 数据治理办公室(A Data Governance Office)

9. 数据管理委员会(Data Stewards)

Processes

10. 主动,被动和持续的数据治理流程(Proactive, Reactive, and Ongoing Data Governance Processes)

  • 数据治理的12个步骤:

1. 调整政策、要求和控制(Aligning Policies, Requirements, and Controls)

2. 建立决策权(Establishing Decision Rights)

3. 建立问责制(Establishing Accountability)

4. 执行管理(Performing Stewardship)

5. 管理变革(Managing Change)

6. 定义数据(Defining Data)

7. 解决问题(Resolving Issues)

8. 规定数据质量要求(Specifying Data Quality Requirements)

9. 将治理融入技术(Building Governance Into Technology)

10. 关注利益相关者(Stakeholder Care)

11. 交流(Communications)

12. 衡量和报告价值(Measuring and Reporting Value)

2.2 DAMA-DMBOK发布

        2009年,DAMA-DMBOK的发布对数据治理领域影响深远。它将数据治理的工作梳理成了一套体系化的标准策略,对数据治理人员起到了很好的指导作用。它体系化的定义了数据治理成功的六大核心要素和九大数据管理职能,这些都概况在一张广泛流传的DMBOK轮子图里。 

  • 六大核心要素:

战略(Strategy)

组织和角色(Organization & Roles)

政策和标准(Policies & Standards)

项目和服务(Projects & Services)

问题(Issues)

估值(Valuation)

  • 九大数据管理职能:

数据架构管理:企业数据模型、价值链分析、相关的数据架构

数据开发:数据分析、建模、设计、实施

数据操作管理:获取、恢复、调优、保留、清理

数据安全管理:标准、分类、管理、授权、审计

参考数据和主数据管理:外部规范、内部规范、客户数据、产品数据、维度管理

数据仓库与商务智能管理:架构、实施、培训和支持、监控和调优

文档和内容管理:获取和存储、备份和恢复、内容管理、检索、保留

元数据管理:架构、整合、控制、交付

数据质量管理:规范、分析、度量、改进

第三阶段:蓬勃发展 2010-至今

        在这个阶段,数据治理的理论框架已经比较成熟,各国政府、行业机构、开始全面推动数据治理行业的规范发展。大量的企业组织也开始进行数据治理的实践落地。 

3.1 IBM 数据治理统一流程

        2010年9月,IBM发布了《数据治理统一流程》,将数据治理分为目标、支持条件、核心规程和支持规程四个层次。

 

        IBM的数据治理统一流程列出了10个必要步骤和4个可选的专题

4个可选专题是:主数据治理、分析治理、安全和隐私以及信息生命周期治理。

 

3.2数据治理白皮书

        2015年5月,中国代表团在SC40/WG1第三次工作组会议上正式提交了《数据治理白皮书》国际标准研究报告。

        白皮书阐述了数据治理的核心概念:数据通过服务产生价值,确定了数据是资产的理念。在数据转换成价值的过程中对其进行控制、评价和指导是数据治理的基本概念。

        同时白皮书还提出来数据治理模型和框架:模型有三个框架组成:原则、范围、实施和评估

 

3.3 中国数据治理标准化元年 [2018]

  • 2018年3月15日,国家标准化管理委员会:国家标准《数据管理能力成熟度评估模型》(DCMM)

        DCMM数据管理能⼒成熟度评估模型从组织、制度、流程和技术四个维度定义了数据战略、数据治理、数据架构、数据应⽤、数据安全、数据质量、数据标准和数据⽣存周期⼋个核⼼能⼒域。见图111,并对每项能力域进行了二级过程项(28个过程项)见图222,和发展等级的划分(5个等级)以及相关功能介绍和评定指标(441项指标)的制定。

 

  • 2018年5月21日|中国银行业监督管理委员会:《银行业金融机构数据治理指引》

  • 2018年,国家市场监督管理总局,中国国家标准化管理委员会. 发布《信息技术服务 治理 第5部分:数据治理规范》GB/T 34960.5-2018。

3.4 DAMA-DMBOK V2 发布

        2020年,DAMA正式发布了DMBOKV2,在2017年,DAMA对DMBOK进行了更新,指导2020年才正式发布V2版本。这个版本相比11年前的V1版本,更加体系化,还增加了大数据模块。

相较于V1版本,车轮图里面的管理职能新增了数据集成与互用性(Data integration &  Interoperability)

 

基于DMBOKV2的车轮图,Peter Aiken 开发了定义这些功能区域之间关系的 DMBOK 金字塔,描述了各个管理职能之间的关系。

金字塔的顶端是数据分析和大数据,目的是为了实现业务价值。而数据治理则在最底端,数据治理是整个数据系统的基座。

DMBOKV2围绕数据治理的八大环境,构建了进化版车轮图

 

3.5 中国的继续探索

《数据治理标准化白皮书(2021年)》 推出4W1H模型

 

展望未来

        过去学者也业界专家们对数据治理领域做出了巨大的贡献,如今数据治理已经成为大数据领域火热的话题之一,将来的数据治理该如何发展,面临哪些挑战和机遇呢?个人认为主要有两个,一个是精益数据治理,一个是多模态数据治理。

数据治理的挑战与机遇

挑战1:

        无论是国外的DGI、DAMA 还是国内的DCMM等数据治理框架,都是非常庞大,要实施起来需要投入巨大的人力物力,并且需要较长期才能看到价值,整体来说,这些框架的落地面临投资大,周期长的问题。

机遇1:

        缺乏一套精益数据治理模型,来像《精益创业》一样,以最小化代价来验证数据治理的价值,再一步一步的迭代的模型和方法论。

挑战2:

        如今AI的已经成指数级的速度发展,特别是ChatGPT的爆火,将AI推向了高潮,企业纷纷进行AI布局,AI背后是大量的数据支撑,而AI对数据的质量要求更高,只有高质量的数据,才能训练出更强大的AI。

        AI的数据来源更加多元化,文本、音频、视频、图像等多模态数据都是AI的来源和应用,这些数据质量的控制还是一个难题

机遇2:

        面向AI多模态的数据治理模型和技术

部分参考资料:

[1] Watson H J ,  Fuller C ,  Ariyachandra T . Data warehouse governance: best practices at Blue Cross and Blue Shield of North Carolina[J]. Decision support systems, 2004, 38(3):p.435-450.

[2] DAMA官网https://www.dama.org/

[3] DGI官网https://datagovernance.com/

[4] DCMM 官网 http://www.dcmm.org.cn/

 

相关文章:

数据治理在学术上的发展史以及未来展望

数据治理是大数据领域中非常重要的一环,从早期的学术研究到如今的各大企业落地实践,经历了漫长的过程,数据治理的实践落地本身也是一场马拉松。 从百度学术通过精确关键词匹配,搜索中文期刊的“数据治理” 和外文期刊的“data gov…...

【搭建博客】宝塔面板部署Typecho博客,并发布上线访问

目录 前言 1.安装环境 2.下载Typecho 3.创建站点 4.访问Typecho 5.安装cpolar 6.远程访问Typecho 7.固定远程访问地址 8.配置typecho 前言 Typecho是由type和echo两个词合成的,来自于开发团队的头脑风暴。Typecho基于PHP5开发,支持多种数据库&…...

【Spring篇】IOC相关内容

🍓系列专栏:Spring系列专栏 🍉个人主页:个人主页 目录 一、bean基础配置 1.bean基础配置(id与class) 2.bean的name属性 3.bean作用范围scope配置 二、bean实例化 1.构造方法实例化 2.分析Spring的错误信息 3.静态工厂实例化 4.实例工厂 5.FactoryBean 三…...

Python超矩形

文章目录 距离函数矩形分割 Rectangle是 scipy.spatial中封装的类,其构造函数只需输入最小值和最大值的数组即可,并且可通过内置的 volume方法计算广义的体积。 from scipy.spatial import Rectanglerec Rectangle((0,0), (5,5)) print(rec.maxes) …...

【软考数据库】第五章 计算机网络

目录 5.1 网络功能和分类 5.2 OSI七层模型 5.3 TCP/IP协议 5.4 传输介质 5.5 通信方式和交换方式 5.6 IP地址 5.7 IPv6 5.8 网络规划和设计 5.9 其他考点补充 5.10 网络安全技术 5.11 网络安全协议 前言: 笔记来自《文老师软考数据库》教材精讲&#xff…...

深眸科技|深度学习、3D视觉融入机器视觉系统,实现生产数智化

随着“中国制造2025”战略加速落实,制造业生产线正在加紧向智能化、自动化和数字化转型之路迈进。而人工智能技术的兴起以及边缘算力持续提升的同时,机器视觉及其相关技术也在飞速发展,并不断渗透进工业领域,拓展应用场景的同时&a…...

DateFormat使用时需要注意:多线程下需要特殊处理

前言 工作或学习过程中难免会接触到时间(Date)相关的内容,比如String类型转为Date类型,或者Date类型转为String类型,jdk为我们提供了一套完善的日期格式化工具,DateFormat类,使用者可以使用该接…...

Packet Tracer - 研究直连路由

Packet Tracer - 研究直连路由 目标 第 1 部分:研究 IPv4 直连路由 第 2 部分:研究 IPv6 直连路由 拓扑图 背景信息 本活动中的网络已配置。 您将登录路由器并使用 show 命令发现并回答以下有关直连路由的问题。 注:用户 EXEC 密码是 c…...

大专生程序员找工作的一点小建议 知识分享 经验分享

最近呢有人在私信我 就问我说我呢是一个大专生 大专毕业 学历呢也不是很好 我但是我学的是这个计算机 这样一个专业 然后呢现在找工作找不到 就这样的一个要求 让我们呢给一些建议 当然就是私底下在网上聊吗 就会给 也相信 我的一个建议是什么样的 就是你首先你要去找工作的 首…...

PyCaret:低代码自动化的机器学习工具

PyCaret简介 随着ChatGPT和AI画图的大火,机器学习作为实现人工智能的底层技术被大众越来越多的认知,基于机器学习的产品也越来越多。传统的机器学习实现方法需要较强的编程能力和数据科学基础,这使得想零基础尝试机器学习变得非常困难。 机器…...

【Hello Network】网络编程套接字(三)

作者:小萌新 专栏:网络 作者简介:大二学生 希望能和大家一起进步 本篇博客简介:简单介绍下各种类型的Tcp协议 各种类型Tcp服务器 多进程版的TCP网络程序捕捉SIGCHLD信号让孙子进程执行任务 多线程TCP网络程序线程池版多线程TCP网络…...

3.4 只读存储器

学习目标: 学习只读存储器(ROM)的目标可以包括以下内容: 了解ROM的基本概念、分类以及适用场景。掌握ROM的电路原理、逻辑结构和读取方式。熟悉ROM的编程方式和编程工具。理解ROM与EPROM、EEPROM和闪存的区别和联系。了解ROM在计…...

从后端开发转大数据开发怎么样?

很多做后端的小伙伴,在某一个瞬间,都想转行大数据,那这种想法可行嘛? 转大数据的最初原因很简单,就是好几个同事都转了,他们的收入瞬间提高了好多,于是在同事的内推我也就跟着转了,…...

编程式导航路由跳转到当前路由(参数不变),多次执行会抛出NavigatorDuplicated的禁告错误?

重写push与replace方法 编程式导航路由跳转到当前路由(参数不变),多次执行会抛出NavigatorDuplicated的禁告错误? 路由跳转有俩种形式:声明式导航,编程式导航 声明式导航没有这类问题的,因为…...

AppArmor无内核及系统日志的问题及解决

在AppArmor中,正常情况下,一旦违反了规则,是能够在内核及系统日志中看到相关信息的。比如:在Ubuntu下正常产生的日志信息(示例)如下: kernel: [140321.028000] audit(1191433716.584:1578): t…...

本地更改配置ssh密钥和更改github网址

配置 SSH 密钥以进行身份验证,可以遵循以下步骤: 生成SSH密钥 打开 Git Bash 终端 在 Windows 上,可以打开 Git Bash 终端。通常,可以在开始菜单中搜索 Git Bash 并启动它。一旦打开了 Git Bash 终端,将进入一个基于…...

MATLAB函数封装2:QT调用封装函数

在利用MATLAB进行封装函数之后,最主要的目的是对函数进行调用,能够对矩阵运算和其他算法的运行进行快捷处理。 在有了MATLAB函数之后封装成DLL文件之后,在QT中添加动态链接库,就可以实现函数的调用过程,这个过程相对简…...

AJAX和JSON

1、什么是AJAX? AJAX(ASynchronous JavaScript And XML)异步的JavaScript 和 XML; 由Jesse James Garrett 在他的文章AJAX:A New Approoch to Web Applications中首次提出。 ajax(Web数据交互方式)_百…...

源码:SharedPreferences分析

一、持久化方式: DataStore:稳定性 MMKV:效率 SharedPreferneces 区别: 功能MMKVJetpack DataStoreSharedPreferneces是否阻塞主线程否否是是否线程安全是 是 是是否支持跨进程是否否是否类型…...

大二一个学期学这么点内容,没有概念,只有实操

如何查看所有的数据库: Show databases; 如何进入某个数据库: use xxx; 如何新进数据库: Create database jx; 如何删除数据库: Drop database jx; 如何查看所有的表格: Show tables; 如何创建数据表&#xf…...

K8S认证|CKS题库+答案| 11. AppArmor

目录 11. AppArmor 免费获取并激活 CKA_v1.31_模拟系统 题目 开始操作: 1)、切换集群 2)、切换节点 3)、切换到 apparmor 的目录 4)、执行 apparmor 策略模块 5)、修改 pod 文件 6)、…...

论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一)

宇树机器人多姿态起立控制强化学习框架论文解析 论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一) 论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化…...

土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测;从基础到高级,涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等

🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术,可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势,还能有效评价重大生态工程…...

是否存在路径(FIFOBB算法)

题目描述 一个具有 n 个顶点e条边的无向图,该图顶点的编号依次为0到n-1且不存在顶点与自身相连的边。请使用FIFOBB算法编写程序,确定是否存在从顶点 source到顶点 destination的路径。 输入 第一行两个整数,分别表示n 和 e 的值(1…...

Unity | AmplifyShaderEditor插件基础(第七集:平面波动shader)

目录 一、👋🏻前言 二、😈sinx波动的基本原理 三、😈波动起来 1.sinx节点介绍 2.vertexPosition 3.集成Vector3 a.节点Append b.连起来 4.波动起来 a.波动的原理 b.时间节点 c.sinx的处理 四、🌊波动优化…...

Netty从入门到进阶(二)

二、Netty入门 1. 概述 1.1 Netty是什么 Netty is an asynchronous event-driven network application framework for rapid development of maintainable high performance protocol servers & clients. Netty是一个异步的、基于事件驱动的网络应用框架,用于…...

C++课设:简易日历程序(支持传统节假日 + 二十四节气 + 个人纪念日管理)

名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 专栏介绍:《编程项目实战》 目录 一、为什么要开发一个日历程序?1. 深入理解时间算法2. 练习面向对象设计3. 学习数据结构应用二、核心算法深度解析…...

什么是VR全景技术

VR全景技术,全称为虚拟现实全景技术,是通过计算机图像模拟生成三维空间中的虚拟世界,使用户能够在该虚拟世界中进行全方位、无死角的观察和交互的技术。VR全景技术模拟人在真实空间中的视觉体验,结合图文、3D、音视频等多媒体元素…...

在树莓派上添加音频输入设备的几种方法

在树莓派上添加音频输入设备可以通过以下步骤完成,具体方法取决于设备类型(如USB麦克风、3.5mm接口麦克风或HDMI音频输入)。以下是详细指南: 1. 连接音频输入设备 USB麦克风/声卡:直接插入树莓派的USB接口。3.5mm麦克…...

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散

前言 如上一篇文章《dexcap升级版之DexWild》中的前言部分所说,在叠衣服的过程中,我会带着团队对比各种模型、方法、策略,毕竟针对各个场景始终寻找更优的解决方案,是我个人和我司「七月在线」的职责之一 且个人认为&#xff0c…...