【数据管理】什么是数据管理?
文章目录
- 前言
- 常见内容
- 主题领域
- 数据类型
- 元数据
- 引用数据
- 主数据
- 交易数据
- 数据类型的特点
- 数据类型之间的关系
- GIGO
- 数据质量评估
- 数据质量管理
- 数据治理
- 数据安全
前言
数据管理,即对数据资源的管理。按照 DAMA (国际数据管理协会)的定义:「数据资源管理,致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序。」这是一个高层而包含广泛的定义,而并不一定直接涉及数据管理的具体操作(如关系数据库的技术层次上的管理)。
常见内容
数据管理最常见的有以下内容:
- 数据分析
- 数据建模
- 数据库管理
- 数据仓库
- 数据挖掘
- 数据安全
- 数据集成
- 数据移动
- 数据质量保证
- 元数据管理(数据存储库及其管理)
- 战略数据架构
主题领域
根据 DAMA DMBOK [DAMA International Guide to Data Management Body of Knowledge (DAMA DMBOK ®)] 的划分,数据管理的领域包含以下部分:
- 数据治理:数据资产,数据管治
- 数据架构、数据(模型)分析和设计:数据架构,数据分析,数据建模
- 数据库管理:数据维护,数据库管理,数据库管理系统
- 数据安全管理:数据访问管理,数据擦除管理,数据隐私,数据安全
- 数据质量管理:数据清晰,数据完整性,数据浓缩,数据质量,数据质量保证
- 参考和主数据管理:数据集成,主数据管理,参考数据
- 数据仓库和商业智能化管理 :商业智能,数据集市,数据挖掘,数据移动(萃取、 转换和加载),数据仓库
- 文档、记录和内容管理:文件管理系统(DMS),记录管理
- 元数据管理:元数据管理,元数据发现,元数据发布,元数据注册
- 联系人数据管理:业务连续性规划,市场运营,客户数据集成,身份管理,身份信息窃取,数据被盗,ERP 软件,客户关系管理软件,地址 (地理),邮编,Email 地址,电话号码
数据类型
我们可以综合数据的描述层次、业务流向、用途等,将数据分为以下几个类型:
- 元数据 (Metadata)
- 引用数据(Reference Data)
- 主数据(Master Data)
- 交易数据(Transactional Data)
元数据
元数据(Meta Data)是用来描述数据的数据(Data that describes other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。
元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。
常见的元数据如:
- 图书编目信息
- 照片的 EXIF 信息
- 报名信息表
- 豆瓣电影信息
引用数据
引用数据(Reference Data),又叫参考数据,它来做一些普遍的定义,描述数据范围、意义。它标示元数据的可能取值范围,我们设计表时所说的数据字典往往就是引用数据。比如,性别只能是男和女,男和女就是引用数据;国家的引用数据就是世界上这100多个国家和地区。
常见的引用数据如:
- 性别男、女、其他
- 订单状态
- 商品尺码、颜色、操作系统
- 视频的发布状态
主数据
主数据(Master Data)指的是业务实体,比如用户、商品、订单、购物车、文章、视频等。主数据用于跨部门、跨系统的信息交互。
主数据的目标,一是为业务实体建模,或者说业务实体包含哪些属性和行为,二是确保在不同系统中业务实体数据的一致性。
常见的主数据如:
- 电商中的商品信息、用户信息
- 新闻网站的新闻
- 视频网站中的视频、播主
- B2B 中的商家
- 外卖平台中的店
交易数据
交易数据(Transactional Data)指主数据之间活动产生的数据。比如客户购买产品的交易记录就是交易活动数据,用户对一个播主进行了关注、打赏也是交易数据。
常见的交易数据如:
- 电商下单产生的订单、支付
- 直播平台中用户对主播点赞、刷礼物
- 社交网站中用户关注行为
- IM 工具用户发布的聊天信息、公众信息
- 关系与特点
数据类型的特点
通过以下几个维度来评估:
- 数据量、更新频率:引用数据 < 元数据 < 主数据 < 交易数据
- 生命周期、数据质量:引用数据 > 元数据 > 主数据 > 交易数据
数据类型之间的关系
典型有情况下:
- 元数据、主数据、交易数据都会用到引用数据
- 主数据会包含元数据
- 交易数据是主数据之间的行为
GIGO
垃圾进,垃圾出(英语:Garbage in, garbage out,缩写:GIGO),或译为废料进,废品出,wiki,是计算机科学与信息通信技术领域的一句习语,说明了如果将错误的、无意义的数据输入计算机系统,计算机自然也一定会输出错误、无意义的结果。同样的原则在计算机外的其他领域也有体现。
在统计学中,如果分析的原始数据是错误的、不准确的,那么统计的结论也就是不可信的。
数据质量评估
避免 GIGO 等问题,4个角度评估数据质量:
- 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;
- 准确性:一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异;
- 合理性:主要包括格式、类型、值域和业务规则的合理有效;
- 一致性:系统之间的数据差异和相互矛盾的一致性,业务指标统一定义,数据逻辑加工结果一致性;
- 及时性:数据仓库ETL、应用展现的及时和快速性,Jobs运行耗时、运行质量、依赖运行及时性。
数据质量管理
数据质量功能模块设计的主要包括监控对象管理、检核指标管理、数据质量过程监控、问题跟踪管理、推荐优化管理、知识库管理及系统管理等。其中过程监控包括离线数据监控、实时数据监控;问题跟踪处理由问题发现(支持自动检核、人工录入)、问题提报、任务推送、故障定级、故障处理、知识库沉淀等形成闭环流程。
数据治理
DAMA将数据治理的定义为:数据治理是对数据资产管理行使权力和控制的活动集合(规划、监控和执行),数据治理职能指导其他数据管理职能如何执行。这个定义看上去有点虚。我理解的数据治理其实就是优先级管理+流程管理。优先级管理指的是我们需要对数据管理各个问题优先级排序。流程管理是人、角色和责任,也就是谁是什么角色,负责什么问题。比如说,当出现数据缺失的问题时,这个问题的优先级排序怎么样,谁来解决这个问题。
数据安全
我们经常可以在网上看到某某站点用户数据泄露的消息。更有甚者,将数据库的连接信息直接保存到了github上,导致数据库被人复制。这些都是数据安全工作没做到位造成的。我个人认为数据安全从技术和制度方面着手。在技术方面,要确保数据存储、传输、应用、备份过程中的数据安全,防止数据泄露。在制度方面,要建立完善的数据访问控制和权限管理机制。
相关文章:
【数据管理】什么是数据管理?
文章目录 前言常见内容主题领域数据类型元数据引用数据主数据交易数据 数据类型的特点数据类型之间的关系GIGO数据质量评估 数据质量管理数据治理数据安全 前言 数据管理,即对数据资源的管理。按照 DAMA (国际数据管理协会)的定义࿱…...

[oneAPI] 手写数字识别-LSTM
[oneAPI] 手写数字识别-LSTM 手写数字识别参数与包加载数据模型训练过程结果 oneAPI 比赛:https://marketing.csdn.net/p/f3e44fbfe46c465f4d9d6c23e38e0517 Intel DevCloud for oneAPI:https://devcloud.intel.com/oneapi/get_started/aiAnalyticsToolk…...

通过css设置filter 属性,使整个页面呈现灰度效果,让整个网页变灰
通过css设置filter 属性设置页面整体置灰 效果图: 通过设置 filter 属性为 grayscale(100%),页面中的所有元素都会被应用灰色滤镜效果,使整个页面呈现灰度效果。 <style type"text/css"> html { filter: grayscale(100%); -webkit-f…...
ahooks.js:一款强大的React Hooks库及其API使用教程(一)
一、ahooks.js简介二、ahooks.js安装三、ahooks.js API介绍与使用教程1. useRequest2. useAntdTable3. useSize4. useBoolean5. useToggle6. useHover7. useDebounce8. useEventListener9. useFusionTable10. useKeyPress11. useLoading12. usePrevious13. useForm14. useUpdat…...
拟合圆算法源码(商业)
1、输入一些点 2、执行fitCircle算法 3、输出圆心(x,y)及半径r Box fitCircle(const std::vector<cv::Point2f>& points) {Box box;box.x = 0.0f;box.y = 0.0f;box.r = 0.0f;if (points.size() < 3){return box;}int i = 0;double X1 = 0;double Y1 = 0;doubl…...
第一章 IRIS 编程简介
文章目录 第一章 IRIS 编程简介简介ClassesRoutines 第一章 IRIS 编程简介 简介 IRIS 是一个高性能多模型数据平台,具有内置的通用编程语言 ObjectScript,以及对 Python 的内置支持。 IRIS 支持多进程并提供并发控制。每个进程都可以直接、高效地访问…...

Leetcode-每日一题【剑指 Offer 32 - III. 从上到下打印二叉树 III】
题目 请实现一个函数按照之字形顺序打印二叉树,即第一行按照从左到右的顺序打印,第二层按照从右到左的顺序打印,第三行再按照从左到右的顺序打印,其他行以此类推。 例如: 给定二叉树: [3,9,20,null,null,15,7], 3 / \ 9 20…...

.NET应用UI组件DevExpress XAF v23.1 - 全新的日程模块
DevExpress XAF是一款强大的现代应用程序框架,允许同时开发ASP.NET和WinForms。DevExpress XAF采用模块化设计,开发人员可以选择内建模块,也可以自行创建,从而以更快的速度和比开发人员当前更强有力的方式创建应用程序。 在新版中…...
UBuntu18.04 Qt之双HDMI屏切换
UBuntu18.04 Qt之双HDMI接2个4K屏并分别设置分辨率、主屏、副屏 一、设置HDMI-2为主屏 在main函数里面添加: #include "mainwindow.h" #include <QApplication>int main(int argc, char *argv[]) {QApplication a(argc, argv);{long nTotal 0;c…...
c#配置提供者
在 C# 中,配置系统是一种用于管理应用程序配置数据的机制。通常情况下,应用程序的配置数据包括连接字符串、应用程序设置、环境变量等。C# 配置系统允许您轻松地读取和使用这些配置数据,而不需要硬编码在代码中。 除了默认的配置提供者外,C# 配置系统还支持其他配置提供者…...

python rtsp 硬件解码 二
上次使用了python的opencv模块 述说了使用PyNvCodec 模块,这个模块本身并没有rtsp的读写,那么读写rtsp是可以使用很多方法的,我们为了输出到pytorch直接使用AI程序,简化rtsp 输入,可以直接使用ffmpeg的子进程 方法一 …...

搭载KaihongOS的工业平板、机器人、无人机等产品通过3.2版本兼容性测评,持续繁荣OpenHarmony生态
近日,搭载深圳开鸿数字产业发展有限公司(简称“深开鸿”)KaihongOS软件发行版的工业平板、机器人、无人机等商用产品均通过OpenAtom OpenHarmony(以下简称“OpenHarmony”)3.2 Release版本兼容性测评,获颁O…...

AIGC音视频工具分析和未来创新机会思考
编者按:相较于前两年,2023年音视频行业的使用量增长缓慢,整个音视频行业遇到瓶颈。音视频的行业从业者面临着相互竞争、不得不“卷”的状态。我们需要进行怎样的创新,才能从这种“卷”的状态中脱离出来?LiveVideoStack…...
Mybatis——返回值(resultType&resultMap)详解
之前的文章里面有对resultType和resultMap的简单介绍这一期出点详细的 resultType: 1,返回值为简单类型。 直接使用resultType“类型”,如string,Integer等。 String getEmpNameById(Integer id); <!-- 指定 result…...
多IP服务器有什么作用
1.利于搜索引擎收录: 使用多IP应用云服务器可使一个IP对应一个网站,使各个网站之间的独立性更强,这样搜索引擎会评定该网站质量更高, 更容易抓取到该网站的页面,便于搜索引擎收录。 2.提高网站的权重和排名ÿ…...
Python-主线程控制子线程结束
需求:主线程创建子线程和键盘输入监听线程,然后等待它们退出。当用户输入 q 后, 子线程会收到停止信号并退出,键盘输入监听线程也会退出,最终主线程退出。 import threading import time import keyboardclass Worker…...

水电站防雷工程综合解决方案
水电站防雷工程是指为了保护水电站的建筑物、设备和人员免受雷电危害而采取的一系列技术措施。水电站防雷工程的主要内容包括接地装置、引下线、接闪器、等电位连接、屏蔽、综合布线和电涌保护器等分项工程。水电站防雷工程的施工和质量验收应遵循国家标准《建筑物防雷工程施工…...

每日刷题(翻转+二分+BFS)
食用指南:本文为作者刷题中认为有必要记录的题目 ♈️今日夜电波:凄美地—郭顶 1:10 ━━━━━━️💟──────── 4:10 🔄 ◀️ ⏸ ▶️ ☰…...

系统卡死问题分析
CPU模式 CPU Frequency Scaling (CPUFREQ) Introduction CPU频率调节设备驱动程序的功能。该驱动程序允许在运行过程中更改CPU的时钟频率。一旦CPU频率被更改,必要的电源供应电压也会根据设备树脚本(DTS)中定义的电压值进行变化。通过降低时钟速度,这种方法可以减少功耗…...

中大许少辉博士中国建筑出版传媒八一新书《乡村振兴战略下传统村落文化旅游设计》百度百科新闻
中大许少辉博士中国建筑出版传媒八一新书《乡村振兴战略下传统村落文化旅游设计》百度百科新闻: 乡村振兴战略下传统村落文化旅游设计 - 百度百科 https://baike.baidu.com/item/乡村振兴战略下传统村落文化旅游设计/62588677 概览 《乡村振兴战略下传统村落文化旅游…...

网络编程(Modbus进阶)
思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…...

【机器视觉】单目测距——运动结构恢复
ps:图是随便找的,为了凑个封面 前言 在前面对光流法进行进一步改进,希望将2D光流推广至3D场景流时,发现2D转3D过程中存在尺度歧义问题,需要补全摄像头拍摄图像中缺失的深度信息,否则解空间不收敛…...
【JavaSE】绘图与事件入门学习笔记
-Java绘图坐标体系 坐标体系-介绍 坐标原点位于左上角,以像素为单位。 在Java坐标系中,第一个是x坐标,表示当前位置为水平方向,距离坐标原点x个像素;第二个是y坐标,表示当前位置为垂直方向,距离坐标原点y个像素。 坐标体系-像素 …...

3-11单元格区域边界定位(End属性)学习笔记
返回一个Range 对象,只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意:它移动的位置必须是相连的有内容的单元格…...

【数据分析】R版IntelliGenes用于生物标志物发现的可解释机器学习
禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍流程步骤1. 输入数据2. 特征选择3. 模型训练4. I-Genes 评分计算5. 输出结果 IntelliGenesR 安装包1. 特征选择2. 模型训练和评估3. I-Genes 评分计…...

【分享】推荐一些办公小工具
1、PDF 在线转换 https://smallpdf.com/cn/pdf-tools 推荐理由:大部分的转换软件需要收费,要么功能不齐全,而开会员又用不了几次浪费钱,借用别人的又不安全。 这个网站它不需要登录或下载安装。而且提供的免费功能就能满足日常…...

云原生安全实战:API网关Kong的鉴权与限流详解
🔥「炎码工坊」技术弹药已装填! 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 一、基础概念 1. API网关(API Gateway) API网关是微服务架构中的核心组件,负责统一管理所有API的流量入口。它像一座…...
Python网页自动化Selenium中文文档
1. 安装 1.1. 安装 Selenium Python bindings 提供了一个简单的API,让你使用Selenium WebDriver来编写功能/校验测试。 通过Selenium Python的API,你可以非常直观的使用Selenium WebDriver的所有功能。 Selenium Python bindings 使用非常简洁方便的A…...

内窥镜检查中基于提示的息肉分割|文献速递-深度学习医疗AI最新文献
Title 题目 Prompt-based polyp segmentation during endoscopy 内窥镜检查中基于提示的息肉分割 01 文献速递介绍 以下是对这段英文内容的中文翻译: ### 胃肠道癌症的发病率呈上升趋势,且有年轻化倾向(Bray等人,2018&#x…...

ABAP设计模式之---“Tell, Don’t Ask原则”
“Tell, Don’t Ask”是一种重要的面向对象编程设计原则,它强调的是对象之间如何有效地交流和协作。 1. 什么是 Tell, Don’t Ask 原则? 这个原则的核心思想是: “告诉一个对象该做什么,而不是询问一个对象的状态再对它作出决策。…...