当前位置: 首页 > news >正文

数据治理-数据质量

实现数据质量的前提就是数据本身是可靠和可信的。

导致数据质量低下的因素

        组织缺乏对低质量数据影响的理解,缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。

        所有组织都会遇到与数据质量有关的问题。数据质量需要跨职能的承诺和协调,数据质量管理不是一个项目,而是一项持续性的工作,长期成功取决于组织文化的改变和质量观念的建立。高质量数据本身不是目的,它只是组织获取成功的一种手段。

业务驱动因素

  1. 提高组织数据价值和数据利用的机会;
  2. 降低低质量数据导致的风险和成本;
  3. 提高组织效率和生产力;
  4. 保护和提高组织的声誉。【创机会、降成本、提效率、强声誉】

低质量数据造成的后果

  1. 无法正确开具发票;
  2. 增加客服电话量,降低解决问题的能力;
  3. 因错失商业机会造成收入损失;
  4. 影响并购后的整合进展;
  5. 增加受欺诈的风险;
  6. 由错误数据驱动的错误业务决策造成损失;
  7. 因缺乏良好信誉而导致业务损失。

数据质量管理的目标

  1. 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求;
  2. 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分;
  3. 定义和实施测量,监控和报告数据质量水平的过程。

数据质量管理的原则

  1. 重要性,根据数据的重要性以及数据不正确时的风险水平来制定改进的优先顺序;
  2. 全生命周期管理;
  3. 预防。重点应放在预防数据错误和降低数据可用性等;
  4. 根因修正,需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决;
  5. 治理,数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境;
  6. 标准驱动;
  7. 客观测量和透明度,数据质量水平需要得到客观、一致的测量;
  8. 嵌入业务流程,业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准;
  9. 系统强制执行,系统所有者必须让系统强制执行数据质量要求;
  10. 与服务水平关联,数据质量报告和问题管理应纳入服务水平协议(SLA)。

数据质量管理的活动

定义高质量数据

定义数据质量战略

  1. 识别关键数据;
  2. 识别已有规则和模式。

识别关键数据和业务规则

执行初始数据质量评估

  1. 确定问题并排定优先顺序;
  2. 执行问题根本原因分析。

确定改进方向并排定优先顺序

  1. 根据业务影响确定行动的优先级;
  2. 制定预防和纠正措施;
  3. 确认计划的行动。

定义数据质量改进目标

开发和部署数据质量操作

  1. 开发数据质量操作规程;
  2. 修正数据质量缺陷;
  3. 度量和监控数据质量;
  4. 报告数据质量水平和调查结果。

重要人物

Strong-Wang框架(1996)侧重于数据消费者对数据的看法

描述数据质量的4大类15个指标

内在数据质量

  1. 准确性
  2. 客观性
  3. 可信度
  4. 信誉度

场景数据质量

  1. 增值性
  2. 关联性
  3. 及时性
  4. 完整性
  5. 适量性

表达数据质量

  1. 可解释性
  2. 易理解性
  3. 表达一致性
  4. 简洁性

访问数据质量

  1. 可访问性
  2. 访问安全性

Thomas Redman

        在《信息时代的数据质量》将一个数据项定义为“可表示的三元组”:一个实体属性域与值的集合。维度可以和数据的任何组成部分相关联:模型(实体和属性)及其值。定义了一类用于记录数据项规则的表达维度,在三个类别中,描述了20个维度:

  1. 数据模型
    1. 内容
    2. 详细程度
  2. 属性的精确度
    1. 构成
    2. 一致性
    3. 应变性
    4. 数据值
    5. 数据表达

Larry English

        在《改善数据仓库和业务信息质量》提出两个类别:固有属性和实用特征

固有属性

  1. 定义的一致性
  2. 值域的完备性
  3. 有效性或业务规则的一致性
  4. 数据源的准确性
  5. 反映事实的准确性
  6. 精确性
  7. 非冗余性
  8. 冗余或分布数据的等效性
  9. 冗余或分布数据的并发性

实用质量特征

  1. 可访问性
  2. 及时性
  3. 语境清晰性
  4. 可用性
  5. 多源数据的可整合性
  6. 适当性或事实完整性

DAMA UK描述数据质量6个核心维度

  1. 完备性
  2. 唯一性
  3. 及时性
  4. 有效性
  5. 准确性
  6. 一致性

DAMA UK白皮书还描述了对质量有影响的其他特征

  1. 可用性
  2. 时间问题
  3. 灵活性
  4. 置信度
  5. 价值

ISO 8000

        目的是帮助组织定义什么是符合质量的数据,什么是不符合质量的数据,使他们能够使用标准约束要求符合数据,并检核他们已经收到了符合同一质量标准的数据。

数据质量改进生命周期

  1. 计划
  2. 执行
  3. 检查
  4. 处理

数据质量常见问题

  1. 缺乏领导力导致的问题
  2. 数据输入过程引起的问题
  3. 数据处理功能引起的问题
  4. 系统设计引起的问题
  5. 解决问题引起的问题

数据剖析

统计信息识别,跨列分析,表间分析,解决问题还需要其他形式的分析

数据质量和数据处理,可能通过某种形式的数据处理来提升数据质量

  1. 数据清理或数据清洗;
  2. 数据增强;
  3. 数据解析和格式化;
  4. 数据转换和标准化。

定义数据质量战略

必须与业务战略保持一致,一个框架包括以下方法:

  1. 了解并优先考虑业务需求;
  2. 确定满足业务需求的关键数据;
  3. 根据业务需求定义业务规则和数据质量标准;
  4. 根据预期评估数据;
  5. 分享调查结果,并从利益相关方那里获得反馈;
  6. 优先处理和管理问题;
  7. 确定并优先考虑改进机会;
  8. 测量、监控和报告数据质量;
  9. 管理通过数据质量流程生成的元数据;
  10. 将数据质量控制集成到业务和技术流程中,还要考虑如何管理数据质量和如何利用数据质量工具。

相关文章:

数据治理-数据质量

实现数据质量的前提就是数据本身是可靠和可信的。 导致数据质量低下的因素 组织缺乏对低质量数据影响的理解,缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。 所有组织都会遇到与数据质量有关的问题。数据质量需要跨职能的承诺…...

[sqoop]hive3.1.2 hadoop3.1.1安装sqoop1.4.7

参考: Hadoop3.2.4Hive3.1.2sqoop1.4.7安装部署_hadoop sqoop安装_alicely07的博客-CSDN博客 一、安装 1、解压 tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /home/data_warehouse/module mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop-1.4.72、配置文件 sqoop-env.s…...

js事件的详细介绍

11.事件 1.什么是事件 js属于事件驱动编程,把驱动,执行,调用通过一些交互,触发一些函数事件:发起-->执行绑定事件-->触发事件on 绑定 emit触发 off解绑2.事件分类 鼠标事件 点击事件 onclick 双击事件 ondblclick 按下事件 onmousedown 抬起事件 onmouseup 鼠标进…...

虚幻4学习笔记(12)操控导入的角色、动画蓝图、播放蒙太奇和打包、角色重定向

虚幻4学习笔记 操控导入的角色设置鼠标旋转关掉动态模糊 动画蓝图、播放蒙太奇和打包角色走路奔跑动画shift 奔跑F 跳舞移动打断 跳舞 打包角色重定向姿势调整解决跑步 腿分太开隐藏剑 B站UP谌嘉诚课程:https://www.bilibili.com/video/BV164411Y732 操控导入的角色…...

hive with tez:无法从链中的任何提供者加载aws凭据

环境信息 hadoop 3.1.0 hive-3.1.3 tez 0.9.1 问题描述 可以从hadoop命令行正确地访问s3a uri。我可以创建外部表和如下命令: create external table mytable(a string, b string) location s3a://mybucket/myfolder/; select * from mytable limit 20; 执行正…...

Ubuntu修改静态IP、网关和DNS的方法总结

Ubuntu修改静态IP、网关和DNS的方法总结 ubuntu系统(其他debian的衍生版本好像也可以)修改静态IP有以下几种方法。(搜索总结,可能也不太对) /etc/netplan (use) Ubuntu 18.04开始可以使用netplan配置网络&#xff0…...

Eureka服务器注册

一。Eureka服务器注册 1.pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://mav…...

Windows安装GPU版本的pytorch详细教程

文章目录 chatGLM2-6B安装教程正式安装 chatGLM2-6B ChatGLM2-6B版本要装pytorch2.0&#xff0c;而且要2.0.1 &#xff0c;因此CUDA不能用12.0 &#xff0c;也不能用10.0&#xff0c;只能用11.x 版本。 安装教程 pip install直接下载安装 官网&#xff1a; https://pytorch.…...

理解Kruskal算法的前提----深入理解并查集【超简单~】

并查集的实现思路 并查集主要分为两个部分&#xff1a;第一部分就是需要找到点对应的祖宗节点&#xff0c;第二部分&#xff0c;是要将属于同一个集合节点的祖宗节点进行统一&#xff0c;也就是结合操作。 Find函数实现 // parent数组用来存储下标值所对应的父节点值 // 比如…...

Jenkins+Gitee+Docker+Ruoyi项目前后端分离部署

前言 描述&#xff1a;本文主要是用来记录 如何用标题上的技术&#xff0c;部署到云服务器上通过ip正常访问。 一、总览 1.1、Docker做的事 拉取 mysql 镜像拉取 redis 镜像拉取 jdk 镜像拉取 nginx 镜像 解释说明&#xff1a;前端项目的打包文件放在 nginx容器运行。后端…...

笙默考试管理系统-MyExamTest----codemirror(23)

笙默考试管理系统-MyExamTest----codemirror&#xff08;23&#xff09; 目录 笙默考试管理系统-MyExamTest----codemirror&#xff08;23&#xff09; 一、 笙默考试管理系统-MyExamTest 二、 笙默考试管理系统-MyExamTest 三、 笙默考试管理系统-MyExamTest 四、 笙…...

重学Java (一) 泛型

1. 前言 泛型编程自从 Java 5.0 中引入后已经超过15个年头了。对于现在的 Java 码农来说熟练使用泛型编程已经是家常便饭的事情了。所以本文就在不对泛型的基础使用在做说明了。 如果你还不会使用泛型的话&#xff0c;可以参考下面两个链接 Java 泛型详解The Java™ Tutorial…...

Docker 部署 Redis 服务

拉取最新版本的 Redis 镜像: $ sudo docker pull redis:latest在本地预先创建好 data 目录和 conf/redis.conf 文件。 使用以下命令来运行 Redis 容器: $ sudo docker run -itd --name redis --privilegedtrue -p 6379:6379 -v /home/ubuntu/docker/redis/data:/data -v /ho…...

阿里云产品试用系列-负载均衡 SLB

阿里云负载均衡&#xff08;Server Load Balancer&#xff0c;简称SLB&#xff09;是云原生时代应用高可用的基本要素。通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力&#xff0c;消除单点故障并提升应用系统的可用性。阿里云SLB包含面向4层的网络型负载均衡NLB…...

drf 对象级权限

drf 对象级权限 Django REST Framework&#xff08;DRF&#xff09;提供了对象级别权限&#xff08;Object-level permissions&#xff09;来控制特定对象的访问权限。 简单来说&#xff1a;通过视图类中的self.get_object(pk)得到一个obj对象(视图对象)&#xff0c;在与requ…...

八大排序(二)--------冒泡排序

本专栏内容为&#xff1a;八大排序汇总 通过本专栏的深入学习&#xff0c;你可以了解并掌握八大排序以及相关的排序算法。 &#x1f493;博主csdn个人主页&#xff1a;小小unicorn ⏩专栏分类&#xff1a;八大排序汇总 &#x1f69a;代码仓库&#xff1a;小小unicorn的代码仓库…...

SmartSQL 一款开源的数据库文档管理工具

建议直接蓝奏云下载安装 蓝奏云下载&#xff1a;https://wwoc.lanzoum.com/b04dpvcxe 蓝奏云密码&#xff1a;123 项目介绍 SmartSQL 是一款方便、快捷的数据库文档查询、导出工具&#xff01;从最初仅支持 数据库、CHM文档格式开始&#xff0c;通过不断地探索开发、集思广…...

代码随想录算法训练营第56天 | ● 583. 两个字符串的删除操作 ● 72. 编辑距离 ● 动态规划之编辑距离总结篇

文章目录 前言一、583. 两个字符串的删除操作二、72. 编辑距离三、动态规划之编辑距离总结篇总结 前言 一、583. 两个字符串的删除操作 两种思路&#xff1a;1.直接动态规划&#xff0c;求两个字符串需要删除的最小次数 2.采用子序列的和-最长公共子序列。思路一分析如下&#…...

矩阵 m * M = c

文章目录 题1题2 题1 (2023江苏领航杯-prng) 题目来源&#xff1a;https://dexterjie.github.io/2023/09/12/%E8%B5%9B%E9%A2%98%E5%A4%8D%E7%8E%B0/2023%E9%A2%86%E8%88%AA%E6%9D%AF/ 题目描述&#xff1a; (没有原数据&#xff0c;自己生成的数据) from Crypto.Util.number…...

Linux——IO

✅<1>主页&#xff1a;&#xff1a;我的代码爱吃辣 &#x1f4c3;<2>知识讲解&#xff1a;Linux——文件系统 ☂️<3>开发环境&#xff1a;Centos7 &#x1f4ac;<4>前言&#xff1a;是不是只有C/C有文件操作呢&#xff1f;python&#xff0c;java&…...

大话软工笔记—需求分析概述

需求分析&#xff0c;就是要对需求调研收集到的资料信息逐个地进行拆分、研究&#xff0c;从大量的不确定“需求”中确定出哪些需求最终要转换为确定的“功能需求”。 需求分析的作用非常重要&#xff0c;后续设计的依据主要来自于需求分析的成果&#xff0c;包括: 项目的目的…...

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

使用rpicam-app通过网络流式传输视频 使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素 文章来源&#xff1a; http://raspberry.dns8844.cn/documentation 原文网址 使用 rpicam-app 通过网络流式传输视频 本节介绍来自 rpica…...

对WWDC 2025 Keynote 内容的预测

借助我们以往对苹果公司发展路径的深入研究经验&#xff0c;以及大语言模型的分析能力&#xff0c;我们系统梳理了多年来苹果 WWDC 主题演讲的规律。在 WWDC 2025 即将揭幕之际&#xff0c;我们让 ChatGPT 对今年的 Keynote 内容进行了一个初步预测&#xff0c;聊作存档。等到明…...

基于数字孪生的水厂可视化平台建设:架构与实践

分享大纲&#xff1a; 1、数字孪生水厂可视化平台建设背景 2、数字孪生水厂可视化平台建设架构 3、数字孪生水厂可视化平台建设成效 近几年&#xff0c;数字孪生水厂的建设开展的如火如荼。作为提升水厂管理效率、优化资源的调度手段&#xff0c;基于数字孪生的水厂可视化平台的…...

Springcloud:Eureka 高可用集群搭建实战(服务注册与发现的底层原理与避坑指南)

引言&#xff1a;为什么 Eureka 依然是存量系统的核心&#xff1f; 尽管 Nacos 等新注册中心崛起&#xff0c;但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制&#xff0c;是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

Android15默认授权浮窗权限

我们经常有那种需求&#xff0c;客户需要定制的apk集成在ROM中&#xff0c;并且默认授予其【显示在其他应用的上层】权限&#xff0c;也就是我们常说的浮窗权限&#xff0c;那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…...

selenium学习实战【Python爬虫】

selenium学习实战【Python爬虫】 文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装 四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码 五、报告文件爬取5.1 提…...

Android第十三次面试总结(四大 组件基础)

Activity生命周期和四大启动模式详解 一、Activity 生命周期 Activity 的生命周期由一系列回调方法组成&#xff0c;用于管理其创建、可见性、焦点和销毁过程。以下是核心方法及其调用时机&#xff1a; ​onCreate()​​ ​调用时机​&#xff1a;Activity 首次创建时调用。​…...

SiFli 52把Imagie图片,Font字体资源放在指定位置,编译成指定img.bin和font.bin的问题

分区配置 (ptab.json) img 属性介绍&#xff1a; img 属性指定分区存放的 image 名称&#xff0c;指定的 image 名称必须是当前工程生成的 binary 。 如果 binary 有多个文件&#xff0c;则以 proj_name:binary_name 格式指定文件名&#xff0c; proj_name 为工程 名&…...

安宝特案例丨Vuzix AR智能眼镜集成专业软件,助力卢森堡医院药房转型,赢得辉瑞创新奖

在Vuzix M400 AR智能眼镜的助力下&#xff0c;卢森堡罗伯特舒曼医院&#xff08;the Robert Schuman Hospitals, HRS&#xff09;凭借在无菌制剂生产流程中引入增强现实技术&#xff08;AR&#xff09;创新项目&#xff0c;荣获了2024年6月7日由卢森堡医院药剂师协会&#xff0…...