穿越数据的迷宫-数据管理知识介绍
一、权威书籍介绍
《穿越数据的迷宫》
本书分12章重点阐述了数据管理的重要性,数据管理的挑战,DAMA的数据管理原则,数据伦理,数据治理,数据生命周期管理的规划和设计,数据赋能和数据维护,使用和增强数据,数据保护、隐私、安全和风险管理,元数据管理,数据质量管理,以及现在应该怎么办,能够帮助企业管理层在了解和执行数据管理的过程中不致迷失在技术术语的迷宫之中。
本书可供非数据专业人士、企业管理者、数据行业研究者等读者学习和参考。
《DMBOK2》
数据管理领域的PMBOK,由DAMA进行编撰。
DAMA(国际数据管理协会)成立于1980年,是一个由技术和业务专业人员组成的国际性数据管理专业协会,作为一个非营利的机构,独立于任何厂商,旨在世界范围内推广并促进数据管理领域的概念和最佳实践,为数字经济打下理论和实践基础。
全球会员2万人,在世界共有52个分会。DAMA China (国际数据管理协会中国分会)
职能:年会(EDW)-知识体系-认证考试(CDMP、CDGA、CDGP等)
DAMA框架
车轮图
描述知识管理领域10大子领域

六边形图
描述人、技术、过程之间的关系

知识领域语境关系图
SIPOC(供给者、输入、活动、交付成果和消费者)

二、数据管理概念介绍
数据管理与数据治理
数据管理>数据治理
数据治理的目的是确保根据数据管理制度和最佳实践正确地管理数据

为什么做数据治理?
数据治理是数据由原始数据到数据资源到数据资产到数据产品实现数据价值变现的过程。

不要为了治理而治理。围绕业务,围绕监管/法律规定进行治理。目标是使组织能够将数据作为资产进行管理,并从中获取价值。

监管驱动的数据治理——EAST5.0
2022年1月30日,银保监会正式发布《中国银保监会银行业金融机构监管数据标准化规范(2021版)》,标志EAST系统从4.0迈入5.0阶段。根据新规要求,银保监会对商业银行数据标准化数据报送的采集范围、报送要求以及数据质量等各方面再次升级,进一步完善了数据采集与报送的完备性、完成性和规范性。

什么是数据治理
当前企业数据面临很多的问题:没有统一的数据标准,各业务系统间数据无法充分共享,关键核心数据无法识别及跨系统无法拉通等。为有效管理企业数据资产,实现数据价值的最大化,急需建立一个完善的数据治理框架体系,为企业数字化转型打下坚实的数据基础。
总的来说,数据治理是人、工具及制度的一些列集合。

数据管理角色(人)

数据治理功能全景(工具)

数据相关的制度及规范(制度)

三、数据安全管理
数据安全管理是指通过规范和加强对企业或个人数据的管理和保护,确保数据的机密性、完整性和可用性,从而保护数据的安全性和可靠性。
1、数据安全管理的法律法规要求:
在法律法规方面,各国政府对数据保护制定了相关的法律法规,例如《中华人民共和国网络安全法》、《个人信息保护法》等,这些法规规定了数据安全的管理要求和责任,以及数据泄露和违规行为的处罚。以下是本文整理的一些数据安全相关的法律法规及标准系列的整理:

2、DSMM-信息安全技术 数据安全能力成熟度模型
数据安全成熟度模型DSMM(Data Security Maturity Model)是一种基于流程和方法的模型,用于评估和改进组织在数据安全方面的能力。DSMM模型的优点是能够帮助组织全面评估和改进其数据安全能力,同时也能够提供实际可行的解决方案,使组织能够逐步提高其数据安全成熟度。
维度包括安全能力维度、安全过程维度、能力成熟度等级维度。

同时,按照数据的生命周期划分未7大过程域。

3、数据安全分级分类管理
在数据安全管理中,需要进行数据安全分级分类管理。这是根据数据的重要性、敏感程度、安全风险等因素,对数据进行分类和评估,然后制定相应的保护措施和管理策略。例如,将数据分为核心数据、关键数据和一般数据,针对不同类别的数据制定不同的安全管理策略和技术措施。同时,数据分类和管理也可以帮助企业或个人更好地了解数据的价值和安全风险,从而采取相应的风险控制和防范措施。
数据安全策略:敏感字段加密、访问权限控制......


元数据管理
元数据是描述数据的数据,数据治理的开始。让你更了解你的数据,从而分析你的数据。

最简单的元数据管理模式——数据字典。


主数据管理(MDM)
定义:主数据是指满足跨部门业务协同需要的、反映核心业务实体状态属性的企业(组织机构)基础信息。
主数据:客户信息、组织机构信息、地址坐标、产品及服务数据、合同总账数据....
参考数据:参考数据是指可用于描述或分类其他数据(码表、映射表......)

主数据管理的案例:五证合一

如何识别及维护是重点!一个主数据管理系统,达成主数据的识别及维护。

数据质量管理——资产价值的核心
2023年10月某小区用电户户电费为1000度;小明的身高为33米;小红的电话号码为18922098765111。以上数据从主观常识上判断就可以判断数据不准确。
判断数据质量可以从准确性、完备性、及时性、重复性、一致性及合规性上进行考量。

数据质量的要求是治理的动力之一也是数据资产化路上的绊脚石。因为数据质量问题发生的原因五花八门,很难从根本上进行治理。

如何进行质量管理,主流的做法是建立一站式数据质量管理中心DQC,建立完善、清晰的数据标准,从数据各环节进行全面的质量管控。但是数据质量管理是需要成本的,非所有数据均需要进行质量监控,要从对业务最重要的数据开始。

数据治理从何处入手?
数据管理成熟度评估——DCMM
数据管理成熟度评估模型(DCMM)是一种针对组织内部数据管理流程进行评估的框架。该框架分为5个等级,每个等级代表了数据管理成熟度的不同程度。组织应该根据自身情况和需求,灵活运用DCMM的框架,以提高数据管理的效率和质量。
截止2023年9月,贯标企业总数量为1305家,其中甲方公司的数量占据了65%,而乙方公司数量占比35%。值得注意的是,71%企业的等级为2级受管理级,仅有7家企业等级达到了最高级别的优化级。这些优化级的企业全部都是甲方公司,主要分布于北京市及广东省。

数据治理如何实施
数据治理实施方法论按照数据治理成熟度评估->评估现状、确定目标、分析差距->计划制定、计划执行->持续监测度量演进的关键实施方法形成数据治理实施闭环流程。

数据是资产
数据是一种资产,在数据要素化的大背景下是毋庸置疑的。如何进行资产评估呢,DAMA从替换成本、市场价值、发现上级、售卖数据及风险成本等几个方面进行描述。

数据资产价值评估体系样例:

四、数据治理体系及落地
阿里巴巴OneData数据体系
OneData数据中台解决方案基于大数据存储和计算平台为载体,以OneModel统一数据构建及管理方法论为主干,OneID核心商业要素资产化为核心,实现全域链接、标签萃取、立体画像,以数据资产管理为皮,数据应用服务为枝叶的松耦性整体解决方案。其数据服务理念根植于心,强调业务模式,在推进数字化转型中实现价值。

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出,一站式提供数据采、建、管、用全生命周期的大数据能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算平台,并开放可拓展的能力,以适应不同行业客户的平台技术架构和特定诉求。

华为DAYU数据治理体系
DAYU数据治理方法论是华为数据管理方法论的精华总结,参考了业界数据治理最佳实践,并结合华为数字化转型成功经验优化而成。

数据治理中心 DataArts Studio:一站式数据全生命周期管理工具平台,库仓湖智全流程治理,助力数据价值释放

案例:广东省数据资源一网共享平台
开放广东:https://gddata.gd.gov.cn/index

某数据治理产品demo功能演示
https://wise.esensoft.com/

五、数据治理典型问题
只有大数据才需要治理吗?
大数据时代的来临将数据治理问题及挑战推到了风口浪尖。不以数据的大小,按照数据对业务的重要程度进行治理。

数据安全与我无关?
树立数据安全意识,数据安全与每个人息息相关。实行‘双罚制’,将不仅处罚企业,还要处罚企业责任人。
“双罚制”是指对于企业的行政违法行为,同时给予企业及相关责任人员行政处罚的法律责任制度。我国的几部与数据相关的法律均规定了“双罚制”,“双罚制”为我国的企业合规管理体系建设留下了很大空间。例如《数据安全法》第四十五条规定,对于不履行数据安全保护义务的单位,由有关主管部门责令改正,根据不同情节给予警告、罚款、责令暂停相关业务、停业整顿、吊销相关业务许可证或者吊销营业执照,对直接负责的主管人员和其他直接责任人员处以罚款。《个人信息保护法》的罚则规定了“责令暂停或者终止提供服务”、“并处五千万元以下或者上一年度营业额百分之五以下罚款”、“吊销相关业务许可或者吊销营业执照”等严厉的处罚措施。企业在个人信息处理方面违法行为,导致的高额罚款或吊销营业资格等行政处罚危及企业的正常经营,建立起一套合规管理体系对企业变得更有实际意义。

中台=数据治理?
数据中台是数据管理/治理的工具之一。3分技术7分管理及运营
狭义的数据中台指在企业内部通过对数据半成品、算法、模型、工具等能力的积累,支撑业务应用,为前台提供数据能力的企业级数据中枢平台。狭义数据中台聚焦在数据服务的生产和提供,并不包括数据本身的生产、加工、传输等基础性工作。
广义的数据中台是企业数据价值实现的能力框架,包括数据存储汇聚、数据开发、数据管理、数据服务、数据资产运营等能力。通常通过企业统一的一站式数据加工生产利用逻辑平台的形式具象化,是企业级数据价值生产的中枢平台。

数据治理完成后可以一劳永逸?
一些列项目集合,演进而非革命

数据治理是数据/技术部门的事?
自上而下,全局视角,统筹协作。

大数据未来发展趋势
应用:资产化、要素化,交易流通加快
技术:一体化数据管理平台(研发、治理、运营)、DataOps、低代码化、联邦学习、隐私计算......

其他大数据相关书籍推荐
《华为数据之道》
《一本书讲透数据治理:战略、方法、工具与实践》
《阿里巴巴大数据之路》
《数据仓库工具箱(第3版)——维度建模权威指南》

相关文章:
穿越数据的迷宫-数据管理知识介绍
一、权威书籍介绍 《穿越数据的迷宫》 本书分12章重点阐述了数据管理的重要性,数据管理的挑战,DAMA的数据管理原则,数据伦理,数据治理,数据生命周期管理的规划和设计,数据赋能和数据维护,使用…...
3
目录 【任务 3】私有云运维开发[10 分] 【题目 1】Ansible 服务部署:部署 MariaDB 集群[2 分] 【题目 2】Ansible 服务部署:部署ELK 集群服务[2 分] 【题目 3】Python 运维开发:基于OpenStack Restful API 实现镜像上传[1 分] 【题目 4】Pyth…...
【python学习】基础篇-常用模块-multiprocessing模块:多进程
multiprocessing模块是Python标准库中用于实现多进程的模块,它提供了一些工具和类来创建和管理多个进程。 以下是multiprocessing模块的一些常用方法: Process()创建一个新的进程对象,需要传入一个函数作为该进程要执行的任务。 start()启动…...
JAVA SQL
-- /* */ -- 简单查询: -- 查询所有字段: select * from 表名 -- *:通配符,代表所有 select * from employees -- 查询部分字段: select 列名1,列名2,.. from 表名 -- 查询员工ID,员工姓名,员工的工资 select employee_id,salary,first_name from employees -- 查…...
[Linux] 进程入门
💻文章目录 📄前言计算机的结构体系与概念冯诺依曼体系结构操作系统概念目的与定位 进程概念描述进程-PCBtask_struct检查进程利用fork创建子进程 进程状态进程状态查看僵尸进程孤儿进程 📓总结 📄前言 作为一名程序员,…...
深入解析数据结构与算法之堆
文章目录 🥦引言:🥦什么是堆🥦大顶堆与小顶堆🧄大顶堆(Max Heap)🧄小顶堆(Min Heap) 🥦堆的表示🧄数组表示:🧄…...
信息化项目质量保证措施
...
es的优势
系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目…...
sonar对webgoat进行静态扫描
安装sonar并配置 docker安装sonarqube,sonarQube静态代码扫描 - Joson6350 - 博客园 (cnblogs.com) 对webgoat进行sonar扫描 扫描结果 bugs Change this condition so that it does not always evaluate to "false" 意思是这里的else if语句不会执行…...
opencv-重点知识
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉库,提供了大量用于图像处理和计算机视觉任务的工具和算法。以下是一些OpenCV中的重点知识: 图像加载与显示: 使用cv2.imread()加载图像。使用cv2.imshow()显示…...
上海亚商投顾:北证50指数大涨 机器人概念股掀涨停潮
上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 三大指数昨日震荡反弹,黄白二线有所分化,题材热点轮动表现。北证50指数大涨超3%&#…...
2.4G无线收发芯片 XL2400P使用手册
XL2400P 系列芯片是工作在 2.400~2.483GHz 世界通用 ISM 频段的单片无线收发芯片。该芯片集成射 频收发机、频率收生器、晶体振荡器、调制解调器等功能模块,并且支持一对多组网和带 ACK 的通信模 式。发射输出功率、工作频道以及通信数据率均可配置。芯片已将多颗外…...
ZC序列理论学习及仿真
文章目录 前言一、ZC 序列理论1、基本概念2、表达式3、ZC 序列一些定义①、自相关②、循环移位③、循环自相关④、循环互相关二、ZC 序列性质1、性质 1:恒包络,即等模2、性质 2:零循环自相关3、性质 3:固定循环互相关4、其他性质①、傅里叶变换后仍是 ZC 序列②、低峰均比③…...
利用OpenCV实现图片中导线的识别
下面是一个需求,识别图片中的导线,要在图像中检测导线,我们需要采用不同于直线检测的方法。由于OpenCV没有直接的曲线检测函数,如同它对直线提供的HoughLines或HoughLinesP,检测曲线通常需要更多的图像处理步骤和算法&…...
关于VITS和微软语音合成的效果展示(仙王的日常生活第1-2209章)
目录 说明微软VITS 合成效果展示 说明 自己尝试了VITS和微软这两个语音合成功能。甚至使用了微软的效果来训练VITS,出乎意料,效果居然不错,没有大佐的口音。 微软 微软中最好听的,感情最顺滑的,应该是“云希”莫属。…...
普乐蛙VR航天航空巡展项目来到了第七站——绵阳科博会
Hi~ 你有一份邀约请查收 11月22日—26日绵阳科博会 普乐蛙展位号:B馆科技体验区(1) 邀你体验趣味VR科普,探索科技新发展 第十一届中国(绵阳)科技城国际科技博览会 绵阳科博会自2013年创办以来,已连续成功举办十届,已有近7000家单位…...
行情分析——加密货币市场大盘走势(11.22)
大饼昨日晚上打了止损,笔者入场了空单,目前来看上涨乏力,下跌是必然的,昨日的下跌跌破了蓝色上涨趋势线,而今日白天开始反弹,别着急抄底,下跌还没有结束。 空单策略:入场36500 止盈…...
QT--MP3项目数据库数据表设计与实现_歌曲搜索
QSqlQuery类:...
gzip 压缩优化大 XML 响应的处理方法
当处理大型XML响应时,我们经常会面临内存限制和性能问题。 在处理这个问题时,我们可以使用Python的requests库和lxml库来解决。下面是解决方案的步骤: 1. 使用requests库发送HTTP请求获取XML响应。 2. 检查响应的Content-Encoding标头&…...
数字化文旅系统,让景区营销变得更加简单!
随着互联网的普及和信息技术的不断发展,越来越多的消费者开始通过互联网来获取旅游信息、预订旅游产品和服务。因此,文旅行业需要紧跟时代步伐,借助数字化技术来提高服务质量和效率,满足消费者对于便捷、个性化的需求。 1. 强大功…...
设计模式和设计原则回顾
设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...
最新SpringBoot+SpringCloud+Nacos微服务框架分享
文章目录 前言一、服务规划二、架构核心1.cloud的pom2.gateway的异常handler3.gateway的filter4、admin的pom5、admin的登录核心 三、code-helper分享总结 前言 最近有个活蛮赶的,根据Excel列的需求预估的工时直接打骨折,不要问我为什么,主要…...
《通信之道——从微积分到 5G》读书总结
第1章 绪 论 1.1 这是一本什么样的书 通信技术,说到底就是数学。 那些最基础、最本质的部分。 1.2 什么是通信 通信 发送方 接收方 承载信息的信号 解调出其中承载的信息 信息在发送方那里被加工成信号(调制) 把信息从信号中抽取出来&am…...
spring:实例工厂方法获取bean
spring处理使用静态工厂方法获取bean实例,也可以通过实例工厂方法获取bean实例。 实例工厂方法步骤如下: 定义实例工厂类(Java代码),定义实例工厂(xml),定义调用实例工厂ÿ…...
从零实现STL哈希容器:unordered_map/unordered_set封装详解
本篇文章是对C学习的STL哈希容器自主实现部分的学习分享 希望也能为你带来些帮助~ 那咱们废话不多说,直接开始吧! 一、源码结构分析 1. SGISTL30实现剖析 // hash_set核心结构 template <class Value, class HashFcn, ...> class hash_set {ty…...
【HarmonyOS 5 开发速记】如何获取用户信息(头像/昵称/手机号)
1.获取 authorizationCode: 2.利用 authorizationCode 获取 accessToken:文档中心 3.获取手机:文档中心 4.获取昵称头像:文档中心 首先创建 request 若要获取手机号,scope必填 phone,permissions 必填 …...
智能分布式爬虫的数据处理流水线优化:基于深度强化学习的数据质量控制
在数字化浪潮席卷全球的今天,数据已成为企业和研究机构的核心资产。智能分布式爬虫作为高效的数据采集工具,在大规模数据获取中发挥着关键作用。然而,传统的数据处理流水线在面对复杂多变的网络环境和海量异构数据时,常出现数据质…...
DeepSeek 技术赋能无人农场协同作业:用 AI 重构农田管理 “神经网”
目录 一、引言二、DeepSeek 技术大揭秘2.1 核心架构解析2.2 关键技术剖析 三、智能农业无人农场协同作业现状3.1 发展现状概述3.2 协同作业模式介绍 四、DeepSeek 的 “农场奇妙游”4.1 数据处理与分析4.2 作物生长监测与预测4.3 病虫害防治4.4 农机协同作业调度 五、实际案例大…...
DBLP数据库是什么?
DBLP(Digital Bibliography & Library Project)Computer Science Bibliography是全球著名的计算机科学出版物的开放书目数据库。DBLP所收录的期刊和会议论文质量较高,数据库文献更新速度很快,很好地反映了国际计算机科学学术研…...
使用SSE解决获取状态不一致问题
使用SSE解决获取状态不一致问题 1. 问题描述2. SSE介绍2.1 SSE 的工作原理2.2 SSE 的事件格式规范2.3 SSE与其他技术对比2.4 SSE 的优缺点 3. 实战代码 1. 问题描述 目前做的一个功能是上传多个文件,这个上传文件是整体功能的一部分,文件在上传的过程中…...
