数据治理8种方法
数据治理8种方法
8种方法,分别是:顶层设计法、技术推动法、应用牵引法、标准先行法、监管驱动法、质量管控法、利益驱动法、项目建设法。
事先声明,这些方法论都是向各位大佬学习来的,也有部分是项目中实操得来的,并非老彭原创。
01
顶层设计法
顾名思义,顶层设计法就是先做一个数据治理顶层设计的规划,然后按照规划执行即可。
做过咨询的彭友都知道,顶层设计、战略咨询都会根据战略目标拆解KPI,然后设立对应的支撑项目,并且根据优先级别进行排序,最后形成一个执行的路径。
今年做什么,明年做什么,先做啥,后做啥,都规划的清清楚楚明明白白。
之后就按图索骥就行。大致的逻辑就像下图一样:
这样的好处很明显,先有面,再有线,最后是各个点状的项目,一点点的落实,效果自然没的说。
但是这样的方案是非常非常奢侈的,因为这种方案见效慢,对组织的要求非常非常高。耐得住性子的组织很少,通常都要快速见效。
基本上也只有一些政府单位和极少数的企业使用这种方式获得了数据治理的成功。
02
技术推动法
有敏感的朋友已经察觉出来了,这里叫“技术推动法”,而不是技术引领啥的。
其实这种方法是绝大多数企业采用的数据治理方法。要说原因么,其实很简单,因为数据治理项目大多是在信息部门立项和实施的。
既然是技术部门的事儿,那当然是技术部门推动了。讲真,我见过太多类似的事情,很少有效果很好的。
《华为数据之道》里说要“业务主导”,话是真没错,但几乎没有做到的。原因很简单,屁股决定脑袋。业务负责人的主责主业是搞业务,根本不会野不可能要主动做数据治理的事情。
技术驱动的套路没啥说的,就是针对数据问题,从技术层面进行解决。套路就是信息系统建设的逻辑,立个项,做调研,各种概要设计、详细设计,各种开发、集成、测试、部署,然后验收。
效果么,一般吧。因为大多是问题导向,频繁“打补丁”式的建设。到最后往往就是各种爆炸,报表爆炸,指标爆炸,数据问题爆炸。
然后开始上指标系统、数据质量系统,一个补丁贴一个补丁,到最后谁都不敢动了。
归根结底,就是因为数据的问题是一个系统性的,技术层面的原因只是其中之一而已。造成这种现象的原因就是业务参与度不够。
在企业,谁挣钱,谁的话语权就大。业务自然是利润中心,而技术一般都是成本中心。纯让技术去推动数据治理,就像是让儿子督促爸爸戒烟一样不靠谱。
03
应用牵引法
如果说技术推动是小孩推车,那么应用牵引则是壮牛拉车得心应手啊。有应用在前面牵引,后面的各种事情就显得非常自然。
很多企业建数据体系都喜欢先弄一个大屏不是没有道理的。因为没有“用”的东西是没有价值的。
大屏虽然用户比较单一,实用价值比较低,但毕竟还是有使用场景的,比单纯没有使用场景的纯技术开发建设强的不是一星半点。
以数据应用为牵引,反向要求各链路的数据高质量供给,促进数据治理体系的建设,也是一个很好的选择。
但是这种方式做数据治理,始终还是会陷入到片面、局部胜利的结果。有应用的地方,数据质量就能得到治理,没有应用的数据质量就没人管了。
04
标准先行法
讲真,标准现行法的真实案例我只遇到过极少数的几个,其中就有某部委。我当时接手做这个项目的时候,把甲方情况跟彭友们分享,他们都惊呆了!居然有这么好的客户!
甲方在建业务系统的时候,把数据标准和业务系统绑定起来。所以他们在做信息化建设的时候,就已经把所有的数据标准都已经建立好了。
我过去的时候,发现数据治理真的就这么简单,完完全全就是一个纯技术活儿,不用考虑人的因素。
所有表都是按照统一的数据模型建设的,所有字段中的键值都在最新发布的数据字典里,甚至为某个“主数据”单独建了一套管理系统。
我过去就是按照标书里的要求,建库建表,开发ETL,把数据收上来,然后整个规则引擎,按照配置结果,自动计算数据质量,定期出数据质量报告。
沃德天!从来没有过如此丝滑的场景,简直太爽了。
其实为什么有那么多的数据质量问题?很简单,没有标准。没有标准就没有对错,自然就会乱到一塌糊涂!
标准有了,就能确定什么是对的,什么是错的。后面的执行、监测和控制就有了依据,数据质量才有保障。
05
监管驱动法
这个好理解,就是强监管。
强监管通常是上级单位发政策,下级单位执行。而且做不好,还会有惩罚。
老彭以前了解过,实在是太恐怖了!一单罚上千万!
银行、保险等强监管的行业就是跟着政策走的。不好好做数据治理,不按照EAST、1104的要求报送数据,罚单马上就来。
不要想着随便糊弄,有本事就造全套的假数据,假的跟真的一样的那种,表间勾稽关系无误,各个维度都找不到破绽的那种。
当然了,在企业内部其实也可以执行这种强监管的模式,但这需要“特权”。这个前提通常很难达到。
有种取巧的方法,就是贯标。比如现在国家在推的DCMM贯标。嗯,彭友们要过DCMM记得找老彭哈~~~
贯标有一个特别的好处,就是把“贯标评级”列到组织年度目标中,这样就能在企业内部形成一个巨大的“势能”,形成强监管的态势。
当我们把“DCMM贯标”这根大棒挥舞起来, 自然比某个部门或者某几个部门推动数据治理强太多了。
我们给某企业做DCMM贯标的时候,发现技术部门早就制定并颁发了数据安全的制度、流程。但是跟大多数企业一样,发完之后就成一纸空文了。业务觉得安全管控太费事了,压根就不执行。
现在不一样了,技术部门借着“贯标”的理由,要求业务贯彻执行之前发布的制度和流程。业务虽然不情不愿,但是贯标是企业级目标,大家不得不做,也就半推半就的推行起来了。
其实说到底,监管驱动法,就是在借势,借上级政策要求的势,借国家标准的势。用大势推动原本推不动的部门,疏通原本阻力大的流程。
06
质量控制法
质量控制法其实是没有办法,也算是数据管理早期的雏形。因为说起来,数据管理理论体系往前追溯,其实是来自于质量管理体系。
ISO9000(质量管理标准体系)、TQM(全面质量管理体系)、CMMI(能力成熟度集成模型,不只是软件哦!),都属于通用管理体系。
ISO9000后发展出ISO8000(数据质量管理标准体系),TQM延展出TDQM(全面数据质量管理体系)。而CMMI协会也在2014年推出了DMM(企业数据管理能力成熟度模型)。这是数据领域质量管理体系。
中国则参考CMMI等一众数据管理体系,在2018年正式发布数据管理成熟度评估模型(DCMM)国家标准,这是后话了。
与其他行业情况一样,质量是绕不过去的关。不管是做业务的,还是搞技术的,相信各位彭友没少为数据质量的问题挠头。质量有问题,数据就没法用,甚至会影响错误决策。
于是,迫于各种数据质量问题,企业内外部才认真对待,逐步解决数据质量问题。
数据质量管控很明显,是问题导向。但是也不能头疼医头脚疼医脚,还得有个方法论。
一般来说得有一个具体的需求,包括数据质量管控目标、评估标准、判定规则等等。
然后再以阶段性的目标和需求出发,从事前防范、事中监控、事后核查三方面进行质量管控,对各类数据问题予以解决。
在解决的时候,一般会立一个数据质量改进的专项,从技术、流程、制度、机制等层面进行改进,定期开展评估,对数据质量问题及解决办法建立知识库,便于之后遇到类似问题能快速定位和解决。
在这个过程中,以数据质量问题为牵引,综合使用元数据、主数据、数据标准、制度规范等各类手段,“建”以致用,自然就不会出现用不起来的情况了。
07
利益驱动法
利益驱动法其实也很有意思。这是我偷偷观察并总结的招,而且这招貌似特别好用。
其实说白了,也没啥,就是一招:以利益共享为根本,以“成就”为导向,建立一个符合部分核心人员利益的目标,然后推一下就行了。
具体的操作手法有很多,比如成功案例法、合作致胜法、评奖法、出书法、会议法等,还有互联网企业保命大法“开源法”。
不能再细说了,再说就会被灭口了。
总而言之,这个事呢,现在就是这个情况,具体的呢,大家也都看得到。可能,你听的不是很明白,但是意思就是那么个意思,只想说懂得都懂,不懂的我也不多解释,毕竟自己知道就好,细细品吧。详细情况你们自己是很难找的,网上大部分已经删除干净了,所以我只能说懂得都懂。关键懂的人都是自己悟的,你也不知道谁是懂的人也没法请教,大家都藏着掖着生怕别人知道自己懂.........我不说了,别打我脸
08
项目建设法
这个很容易理解,就是弄个数据治理项目,慢慢建设。
其实数据治理这件事情开展到现在,也已经形成了一整套非常完善的流程了,相关产品能力也已经非常全面了。
我之前参与的项目,基本上覆盖了数据全流程,什么数据咨询、数据采集、共享交换、数仓、数据标准、元数据、主数据、数据质量、数据可视化、数据分析等等。
目前效果比较好的,是咨询和实施结合起来做。
做个咨询,对数据现状进行盘点,全面掌握企业未来的战略和目前的现状,然后根据数据管理体系,做出差距分析,拟定具体执行的工作任务,根据时间进度安排,拆解并规划项目。
然后在实施项目中,先穿透一个场景,再慢慢从纵深和横向两个层面不断扩大战果,建元数据、主数据、指标体系、数据质量管理体系等等,不断夯实数据基建,为前端数据应用提供高质量数据供给。
相关文章:
数据治理8种方法
数据治理8种方法 8种方法,分别是:顶层设计法、技术推动法、应用牵引法、标准先行法、监管驱动法、质量管控法、利益驱动法、项目建设法。 事先声明,这些方法论都是向各位大佬学习来的,也有部分是项目中实操得来的,并非…...
大模型成互联网真正蜕变的标志,亦是各种新技术开始衍生的标志
以往,我们看到了以区块链、元宇宙为代表的诸多新物种的出现,但是,它们始终都没有逃脱仅仅只是一个概念和噱头的宿命,它们始终都没有走出一条可持续的发展道路。说到底,它们仅仅只是一个没有实现商业闭环的概念而已&…...
指针进阶详解---C语言
❤博主CSDN:啊苏要学习 ▶专栏分类:C语言◀ C语言的学习,是为我们今后学习其它语言打好基础,C生万物! 开始我们的C语言之旅吧!✈ 目录 前言: 一.字符指针 二.指针数组 三.数组指针 四.数组、指针参数 …...
设计模式思考,简单工厂模式和策略模式的区别?
最近学习了设计模式,学到简单工厂模式和策略模式的时候想,这两个模式不是一样嘛,仔细思考之后发现大体设计思路是一样的,但是细节却有所不一样。 简单工厂模式 简单工厂模式是一种创建型设计模式,它主要涉及对象的创建…...
Java - sh 脚本启动 jar 包等服务 - sh 脚本模板 - 适用于任何类似的服务启动
sh 脚本模板 该模板,每次运行一次都会 kill 掉原来的服务,然后重新启动 jar 包服务 #!/bin/bash# 定义Java进程的名称 APP_NAMEyour-app-name.jar# 定义Java进程的日志文件路径 LOG_PATH/var/log/your-app-name.log# 定义备份日志文件的目录 BACKUP_DI…...
MySQL高级篇第5章(存储引擎)
文章目录 1、查看存储引擎2、设置系统默认的存储引擎3、设置表的存储引擎3.1 创建表时指定存储引擎3.2 修改表的存储引擎 4、引擎介绍4.1 InnoDB 引擎:具备外键支持功能的事务存储引擎4.2 MyISAM 引擎:主要的非事务处理存储引擎4.3 Archive 引擎…...
openssl 命令行国密sm2的签名验签操作
快速链接: . 👉👉👉 个人博客笔记导读目录(全部) 👈👈👈 付费专栏-付费课程 【购买须知】: 密码学实践强化训练–【目录】 👈👈👈 生成EC私钥: openssl ecp…...
开源代码分享(9)—面向100%清洁能源的发输电系统扩展规划(附matlab代码)
1.背景介绍 1.1摘要 本文提出了一种新颖的建模框架和基于分解的解决策略,将随机规划(SP)和鲁棒优化(RO)相结合,以应对协调中长期电力系统规划中的多重不确定性。从独立系统运营商(ISOÿ…...
为 Google Play 即将推出基于区块链的内容政策做好准备
作者 / Joseph Mills, Group Product Manager, Google Play 作为一个平台,Google Play 一直致力于帮助开发者将创新理念变为现实。Google Play 上托管了许多和区块链相关的应用,我们深知合作伙伴们希望扩展这些应用,并利用 NFT 等代币化数字资…...
查找-多路查找详解篇
多路查找树 多路查找树(Multway Search Tree)是一种高级的树形数据结构,它 允许每个节点有多个子节点(通常大于等于2)。多路查找树的每个节点 可以存储多个关键字和对应的值。分类 2-3树(2-3 Tree&#x…...
css设置八等分圆
现需要上图样式的布局,我通过两张向右方的图片,通过定位和旋转完成了布局。 问题: 由于是通过旋转获取到的样式,实际的盒子是一个长方形,当鼠标移入对应的箭头时选中的可能是其他盒子,如第一张设计稿可以看…...
「教程」如何使用一套代码在多种程序中接入天气预警API
引言 天气预警的重要性不言而喻,在遭受自然灾害和极端天气时,及时获得预警信息可以拯救生命和减少财产损失。如今,随着科技的进步,开发者和企业可以借助天气预警 API 这款强大的服务,将实时预警信息集成到自己的应用中…...
(MYSQL)数据库服务端的启动与停止,登录与退出
MYSQL服务的启动与停止 方式一:右击左下角win图标——选择计算机管理——选择计算机管理(本地)——选择服务和应用程序——找到mysql(此方法不好用) 方式二:通过管理员身份运行(必须是管理员身…...
数学建模学习(8):单目标和多目标规划
优化问题描述 优化 优化算法是指在满足一定条件下,在众多方案中或者参数中最优方案,或者参数值,以使得某个或者多个功能指标达到最优,或使得系统的某些性能指标达到最大值或者最小值 线性规划 线性规划是指目标函数和约束都是线性的情况 [x,fval]linprog(f,A,b,Aeq,Beq,LB,U…...
【Vscode | R | Win】R Markdown转html记录-Win
Rmd文件转html R语言环境Vscode扩展安装及配置配置radian R依赖包pandoc安装配置pandoc环境变量验证是否有效转rmd为html 注意本文代码块均为R语言代码,在R语言环境下执行即可 R语言环境 官网中去下载R语言安装包以及R-tool 可自行搜寻教程 无需下载Rstudio Vscod…...
【Lua语法】字符串操作、字符串中的方法
1.对字符串的操作 --声明一个字符串 str "我是一个字符串"--1.获取字符串的长度 -- 前面加个#即可(注意:Lua中字母占1个长度,汉字占3个长度) print(#str)--2.字符串多行打印 -- 方法1.Lua中是支持转义字符的 print("哈哈\n嘻嘻&q…...
Linux 终端生成二维码
1、安装qrencode [rootnode1 script]# yum -y install qrencode2、输出正常的 [rootnode1 ~]# echo https://www.github.com|qrencode -o - -t utf83、输出彩色的 [rootnode1 ~]# qrencode -t utf8 -s 1 https://www.github.com|lolcatPS:没有lolcat命令 #由于…...
子组件未抛出事件 父组件如何通过$refs监听子组件中数据的变化
我们平时开发项目会使用一些比较成熟的组件库, 但是在极小的情况下,可能会出现我们需要监听某个属性的变化,使我们的页面根据这个属性发生一些改变,但是偏偏组件库没有把这个属性抛出来,当我们使用watch通过refs监听时,由于生命周期的原因还不能拿到,这时候我们可以这样做,以下…...
【C++】STL——stack的介绍和使用、stack的push和pop函数介绍和使用、stack的其他成员函数
文章目录 1.stack的介绍2.stack的使用2.1stack构造函数2.1stack成员函数(1)empty() 检测stack是否为空(2)size() 返回stack中元素的个数(3)top() 返回栈顶元素的引用(4)push() 将元素…...
基于BIM+AI的建筑能源优化模型【神经网络】
推荐:用 NSDT设计器 快速搭建可编程3D场景。 AEC(建筑、工程、施工)行业的BIM 技术,允许在实际施工开始之前虚拟地建造建筑物; 这带来了许多有形和无形的好处:减少成本超支、更有效的协调、增强决策权等等。…...
RestClient
什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端,它允许HTTP与Elasticsearch 集群通信,而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点 轻量级ÿ…...
大型活动交通拥堵治理的视觉算法应用
大型活动下智慧交通的视觉分析应用 一、背景与挑战 大型活动(如演唱会、马拉松赛事、高考中考等)期间,城市交通面临瞬时人流车流激增、传统摄像头模糊、交通拥堵识别滞后等问题。以演唱会为例,暖城商圈曾因观众集中离场导致周边…...
理解 MCP 工作流:使用 Ollama 和 LangChain 构建本地 MCP 客户端
🌟 什么是 MCP? 模型控制协议 (MCP) 是一种创新的协议,旨在无缝连接 AI 模型与应用程序。 MCP 是一个开源协议,它标准化了我们的 LLM 应用程序连接所需工具和数据源并与之协作的方式。 可以把它想象成你的 AI 模型 和想要使用它…...
大数据零基础学习day1之环境准备和大数据初步理解
学习大数据会使用到多台Linux服务器。 一、环境准备 1、VMware 基于VMware构建Linux虚拟机 是大数据从业者或者IT从业者的必备技能之一也是成本低廉的方案 所以VMware虚拟机方案是必须要学习的。 (1)设置网关 打开VMware虚拟机,点击编辑…...
Linux简单的操作
ls ls 查看当前目录 ll 查看详细内容 ls -a 查看所有的内容 ls --help 查看方法文档 pwd pwd 查看当前路径 cd cd 转路径 cd .. 转上一级路径 cd 名 转换路径 …...
3-11单元格区域边界定位(End属性)学习笔记
返回一个Range 对象,只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意:它移动的位置必须是相连的有内容的单元格…...
AI书签管理工具开发全记录(十九):嵌入资源处理
1.前言 📝 在上一篇文章中,我们完成了书签的导入导出功能。本篇文章我们研究如何处理嵌入资源,方便后续将资源打包到一个可执行文件中。 2.embed介绍 🎯 Go 1.16 引入了革命性的 embed 包,彻底改变了静态资源管理的…...
关键领域软件测试的突围之路:如何破解安全与效率的平衡难题
在数字化浪潮席卷全球的今天,软件系统已成为国家关键领域的核心战斗力。不同于普通商业软件,这些承载着国家安全使命的软件系统面临着前所未有的质量挑战——如何在确保绝对安全的前提下,实现高效测试与快速迭代?这一命题正考验着…...
Java求职者面试指南:计算机基础与源码原理深度解析
Java求职者面试指南:计算机基础与源码原理深度解析 第一轮提问:基础概念问题 1. 请解释什么是进程和线程的区别? 面试官:进程是程序的一次执行过程,是系统进行资源分配和调度的基本单位;而线程是进程中的…...
k8s从入门到放弃之HPA控制器
k8s从入门到放弃之HPA控制器 Kubernetes中的Horizontal Pod Autoscaler (HPA)控制器是一种用于自动扩展部署、副本集或复制控制器中Pod数量的机制。它可以根据观察到的CPU利用率(或其他自定义指标)来调整这些对象的规模,从而帮助应用程序在负…...
