【数据管理】什么是数据管理?
文章目录
- 前言
- 常见内容
- 主题领域
- 数据类型
- 元数据
- 引用数据
- 主数据
- 交易数据
- 数据类型的特点
- 数据类型之间的关系
- GIGO
- 数据质量评估
- 数据质量管理
- 数据治理
- 数据安全
前言
数据管理,即对数据资源的管理。按照 DAMA (国际数据管理协会)的定义:「数据资源管理,致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序。」这是一个高层而包含广泛的定义,而并不一定直接涉及数据管理的具体操作(如关系数据库的技术层次上的管理)。
常见内容
数据管理最常见的有以下内容:
- 数据分析
- 数据建模
- 数据库管理
- 数据仓库
- 数据挖掘
- 数据安全
- 数据集成
- 数据移动
- 数据质量保证
- 元数据管理(数据存储库及其管理)
- 战略数据架构
主题领域
根据 DAMA DMBOK [DAMA International Guide to Data Management Body of Knowledge (DAMA DMBOK ®)] 的划分,数据管理的领域包含以下部分:
- 数据治理:数据资产,数据管治
- 数据架构、数据(模型)分析和设计:数据架构,数据分析,数据建模
- 数据库管理:数据维护,数据库管理,数据库管理系统
- 数据安全管理:数据访问管理,数据擦除管理,数据隐私,数据安全
- 数据质量管理:数据清晰,数据完整性,数据浓缩,数据质量,数据质量保证
- 参考和主数据管理:数据集成,主数据管理,参考数据
- 数据仓库和商业智能化管理 :商业智能,数据集市,数据挖掘,数据移动(萃取、 转换和加载),数据仓库
- 文档、记录和内容管理:文件管理系统(DMS),记录管理
- 元数据管理:元数据管理,元数据发现,元数据发布,元数据注册
- 联系人数据管理:业务连续性规划,市场运营,客户数据集成,身份管理,身份信息窃取,数据被盗,ERP 软件,客户关系管理软件,地址 (地理),邮编,Email 地址,电话号码
数据类型
我们可以综合数据的描述层次、业务流向、用途等,将数据分为以下几个类型:
- 元数据 (Metadata)
- 引用数据(Reference Data)
- 主数据(Master Data)
- 交易数据(Transactional Data)
元数据
元数据(Meta Data)是用来描述数据的数据(Data that describes other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。
元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。
常见的元数据如:
- 图书编目信息
- 照片的 EXIF 信息
- 报名信息表
- 豆瓣电影信息
引用数据
引用数据(Reference Data),又叫参考数据,它来做一些普遍的定义,描述数据范围、意义。它标示元数据的可能取值范围,我们设计表时所说的数据字典往往就是引用数据。比如,性别只能是男和女,男和女就是引用数据;国家的引用数据就是世界上这100多个国家和地区。
常见的引用数据如:
- 性别男、女、其他
- 订单状态
- 商品尺码、颜色、操作系统
- 视频的发布状态
主数据
主数据(Master Data)指的是业务实体,比如用户、商品、订单、购物车、文章、视频等。主数据用于跨部门、跨系统的信息交互。
主数据的目标,一是为业务实体建模,或者说业务实体包含哪些属性和行为,二是确保在不同系统中业务实体数据的一致性。
常见的主数据如:
- 电商中的商品信息、用户信息
- 新闻网站的新闻
- 视频网站中的视频、播主
- B2B 中的商家
- 外卖平台中的店
交易数据
交易数据(Transactional Data)指主数据之间活动产生的数据。比如客户购买产品的交易记录就是交易活动数据,用户对一个播主进行了关注、打赏也是交易数据。
常见的交易数据如:
- 电商下单产生的订单、支付
- 直播平台中用户对主播点赞、刷礼物
- 社交网站中用户关注行为
- IM 工具用户发布的聊天信息、公众信息
- 关系与特点
数据类型的特点
通过以下几个维度来评估:
- 数据量、更新频率:引用数据 < 元数据 < 主数据 < 交易数据
- 生命周期、数据质量:引用数据 > 元数据 > 主数据 > 交易数据
数据类型之间的关系
典型有情况下:
- 元数据、主数据、交易数据都会用到引用数据
- 主数据会包含元数据
- 交易数据是主数据之间的行为
GIGO
垃圾进,垃圾出(英语:Garbage in, garbage out,缩写:GIGO),或译为废料进,废品出,wiki,是计算机科学与信息通信技术领域的一句习语,说明了如果将错误的、无意义的数据输入计算机系统,计算机自然也一定会输出错误、无意义的结果。同样的原则在计算机外的其他领域也有体现。
在统计学中,如果分析的原始数据是错误的、不准确的,那么统计的结论也就是不可信的。
数据质量评估
避免 GIGO 等问题,4个角度评估数据质量:
- 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;
- 准确性:一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异;
- 合理性:主要包括格式、类型、值域和业务规则的合理有效;
- 一致性:系统之间的数据差异和相互矛盾的一致性,业务指标统一定义,数据逻辑加工结果一致性;
- 及时性:数据仓库ETL、应用展现的及时和快速性,Jobs运行耗时、运行质量、依赖运行及时性。
数据质量管理
数据质量功能模块设计的主要包括监控对象管理、检核指标管理、数据质量过程监控、问题跟踪管理、推荐优化管理、知识库管理及系统管理等。其中过程监控包括离线数据监控、实时数据监控;问题跟踪处理由问题发现(支持自动检核、人工录入)、问题提报、任务推送、故障定级、故障处理、知识库沉淀等形成闭环流程。
数据治理
DAMA将数据治理的定义为:数据治理是对数据资产管理行使权力和控制的活动集合(规划、监控和执行),数据治理职能指导其他数据管理职能如何执行。这个定义看上去有点虚。我理解的数据治理其实就是优先级管理+流程管理。优先级管理指的是我们需要对数据管理各个问题优先级排序。流程管理是人、角色和责任,也就是谁是什么角色,负责什么问题。比如说,当出现数据缺失的问题时,这个问题的优先级排序怎么样,谁来解决这个问题。
数据安全
我们经常可以在网上看到某某站点用户数据泄露的消息。更有甚者,将数据库的连接信息直接保存到了github上,导致数据库被人复制。这些都是数据安全工作没做到位造成的。我个人认为数据安全从技术和制度方面着手。在技术方面,要确保数据存储、传输、应用、备份过程中的数据安全,防止数据泄露。在制度方面,要建立完善的数据访问控制和权限管理机制。
相关文章:
【数据管理】什么是数据管理?
文章目录 前言常见内容主题领域数据类型元数据引用数据主数据交易数据 数据类型的特点数据类型之间的关系GIGO数据质量评估 数据质量管理数据治理数据安全 前言 数据管理,即对数据资源的管理。按照 DAMA (国际数据管理协会)的定义࿱…...

[oneAPI] 手写数字识别-LSTM
[oneAPI] 手写数字识别-LSTM 手写数字识别参数与包加载数据模型训练过程结果 oneAPI 比赛:https://marketing.csdn.net/p/f3e44fbfe46c465f4d9d6c23e38e0517 Intel DevCloud for oneAPI:https://devcloud.intel.com/oneapi/get_started/aiAnalyticsToolk…...

通过css设置filter 属性,使整个页面呈现灰度效果,让整个网页变灰
通过css设置filter 属性设置页面整体置灰 效果图: 通过设置 filter 属性为 grayscale(100%),页面中的所有元素都会被应用灰色滤镜效果,使整个页面呈现灰度效果。 <style type"text/css"> html { filter: grayscale(100%); -webkit-f…...
ahooks.js:一款强大的React Hooks库及其API使用教程(一)
一、ahooks.js简介二、ahooks.js安装三、ahooks.js API介绍与使用教程1. useRequest2. useAntdTable3. useSize4. useBoolean5. useToggle6. useHover7. useDebounce8. useEventListener9. useFusionTable10. useKeyPress11. useLoading12. usePrevious13. useForm14. useUpdat…...
拟合圆算法源码(商业)
1、输入一些点 2、执行fitCircle算法 3、输出圆心(x,y)及半径r Box fitCircle(const std::vector<cv::Point2f>& points) {Box box;box.x = 0.0f;box.y = 0.0f;box.r = 0.0f;if (points.size() < 3){return box;}int i = 0;double X1 = 0;double Y1 = 0;doubl…...
第一章 IRIS 编程简介
文章目录 第一章 IRIS 编程简介简介ClassesRoutines 第一章 IRIS 编程简介 简介 IRIS 是一个高性能多模型数据平台,具有内置的通用编程语言 ObjectScript,以及对 Python 的内置支持。 IRIS 支持多进程并提供并发控制。每个进程都可以直接、高效地访问…...

Leetcode-每日一题【剑指 Offer 32 - III. 从上到下打印二叉树 III】
题目 请实现一个函数按照之字形顺序打印二叉树,即第一行按照从左到右的顺序打印,第二层按照从右到左的顺序打印,第三行再按照从左到右的顺序打印,其他行以此类推。 例如: 给定二叉树: [3,9,20,null,null,15,7], 3 / \ 9 20…...

.NET应用UI组件DevExpress XAF v23.1 - 全新的日程模块
DevExpress XAF是一款强大的现代应用程序框架,允许同时开发ASP.NET和WinForms。DevExpress XAF采用模块化设计,开发人员可以选择内建模块,也可以自行创建,从而以更快的速度和比开发人员当前更强有力的方式创建应用程序。 在新版中…...
UBuntu18.04 Qt之双HDMI屏切换
UBuntu18.04 Qt之双HDMI接2个4K屏并分别设置分辨率、主屏、副屏 一、设置HDMI-2为主屏 在main函数里面添加: #include "mainwindow.h" #include <QApplication>int main(int argc, char *argv[]) {QApplication a(argc, argv);{long nTotal 0;c…...
c#配置提供者
在 C# 中,配置系统是一种用于管理应用程序配置数据的机制。通常情况下,应用程序的配置数据包括连接字符串、应用程序设置、环境变量等。C# 配置系统允许您轻松地读取和使用这些配置数据,而不需要硬编码在代码中。 除了默认的配置提供者外,C# 配置系统还支持其他配置提供者…...

python rtsp 硬件解码 二
上次使用了python的opencv模块 述说了使用PyNvCodec 模块,这个模块本身并没有rtsp的读写,那么读写rtsp是可以使用很多方法的,我们为了输出到pytorch直接使用AI程序,简化rtsp 输入,可以直接使用ffmpeg的子进程 方法一 …...

搭载KaihongOS的工业平板、机器人、无人机等产品通过3.2版本兼容性测评,持续繁荣OpenHarmony生态
近日,搭载深圳开鸿数字产业发展有限公司(简称“深开鸿”)KaihongOS软件发行版的工业平板、机器人、无人机等商用产品均通过OpenAtom OpenHarmony(以下简称“OpenHarmony”)3.2 Release版本兼容性测评,获颁O…...

AIGC音视频工具分析和未来创新机会思考
编者按:相较于前两年,2023年音视频行业的使用量增长缓慢,整个音视频行业遇到瓶颈。音视频的行业从业者面临着相互竞争、不得不“卷”的状态。我们需要进行怎样的创新,才能从这种“卷”的状态中脱离出来?LiveVideoStack…...
Mybatis——返回值(resultType&resultMap)详解
之前的文章里面有对resultType和resultMap的简单介绍这一期出点详细的 resultType: 1,返回值为简单类型。 直接使用resultType“类型”,如string,Integer等。 String getEmpNameById(Integer id); <!-- 指定 result…...
多IP服务器有什么作用
1.利于搜索引擎收录: 使用多IP应用云服务器可使一个IP对应一个网站,使各个网站之间的独立性更强,这样搜索引擎会评定该网站质量更高, 更容易抓取到该网站的页面,便于搜索引擎收录。 2.提高网站的权重和排名ÿ…...
Python-主线程控制子线程结束
需求:主线程创建子线程和键盘输入监听线程,然后等待它们退出。当用户输入 q 后, 子线程会收到停止信号并退出,键盘输入监听线程也会退出,最终主线程退出。 import threading import time import keyboardclass Worker…...

水电站防雷工程综合解决方案
水电站防雷工程是指为了保护水电站的建筑物、设备和人员免受雷电危害而采取的一系列技术措施。水电站防雷工程的主要内容包括接地装置、引下线、接闪器、等电位连接、屏蔽、综合布线和电涌保护器等分项工程。水电站防雷工程的施工和质量验收应遵循国家标准《建筑物防雷工程施工…...

每日刷题(翻转+二分+BFS)
食用指南:本文为作者刷题中认为有必要记录的题目 ♈️今日夜电波:凄美地—郭顶 1:10 ━━━━━━️💟──────── 4:10 🔄 ◀️ ⏸ ▶️ ☰…...

系统卡死问题分析
CPU模式 CPU Frequency Scaling (CPUFREQ) Introduction CPU频率调节设备驱动程序的功能。该驱动程序允许在运行过程中更改CPU的时钟频率。一旦CPU频率被更改,必要的电源供应电压也会根据设备树脚本(DTS)中定义的电压值进行变化。通过降低时钟速度,这种方法可以减少功耗…...

中大许少辉博士中国建筑出版传媒八一新书《乡村振兴战略下传统村落文化旅游设计》百度百科新闻
中大许少辉博士中国建筑出版传媒八一新书《乡村振兴战略下传统村落文化旅游设计》百度百科新闻: 乡村振兴战略下传统村落文化旅游设计 - 百度百科 https://baike.baidu.com/item/乡村振兴战略下传统村落文化旅游设计/62588677 概览 《乡村振兴战略下传统村落文化旅游…...

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?
编辑:陈萍萍的公主一点人工一点智能 未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战,在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法
树莓派摄像头高级使用方法 配置通过调谐文件来调整相机行为 使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 配置 大多数用例自动工作,无需更改相机配置。但是,一…...
Nginx server_name 配置说明
Nginx 是一个高性能的反向代理和负载均衡服务器,其核心配置之一是 server 块中的 server_name 指令。server_name 决定了 Nginx 如何根据客户端请求的 Host 头匹配对应的虚拟主机(Virtual Host)。 1. 简介 Nginx 使用 server_name 指令来确定…...

视频字幕质量评估的大规模细粒度基准
大家读完觉得有帮助记得关注和点赞!!! 摘要 视频字幕在文本到视频生成任务中起着至关重要的作用,因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型(VLMs)在字幕生成方面…...
在Ubuntu中设置开机自动运行(sudo)指令的指南
在Ubuntu系统中,有时需要在系统启动时自动执行某些命令,特别是需要 sudo权限的指令。为了实现这一功能,可以使用多种方法,包括编写Systemd服务、配置 rc.local文件或使用 cron任务计划。本文将详细介绍这些方法,并提供…...

Python爬虫(一):爬虫伪装
一、网站防爬机制概述 在当今互联网环境中,具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。这些措施主要分为两大类: 身份验证机制:直接将未经授权的爬虫阻挡在外反爬技术体系:通过各种技术手段增加爬虫获取数据的难度…...
GitHub 趋势日报 (2025年06月08日)
📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图 今日获星趋势图 884 cognee 566 dify 414 HumanSystemOptimization 414 omni-tools 321 note-gen …...
【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分
一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计,提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合:各模块职责清晰,便于独立开发…...

实战三:开发网页端界面完成黑白视频转为彩色视频
一、需求描述 设计一个简单的视频上色应用,用户可以通过网页界面上传黑白视频,系统会自动将其转换为彩色视频。整个过程对用户来说非常简单直观,不需要了解技术细节。 效果图 二、实现思路 总体思路: 用户通过Gradio界面上…...

springboot 日志类切面,接口成功记录日志,失败不记录
springboot 日志类切面,接口成功记录日志,失败不记录 自定义一个注解方法 import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; import java.lang.annotation.Target;/***…...