当前位置: 首页 > news >正文

数据治理-数据质量

实现数据质量的前提就是数据本身是可靠和可信的。

导致数据质量低下的因素

        组织缺乏对低质量数据影响的理解,缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。

        所有组织都会遇到与数据质量有关的问题。数据质量需要跨职能的承诺和协调,数据质量管理不是一个项目,而是一项持续性的工作,长期成功取决于组织文化的改变和质量观念的建立。高质量数据本身不是目的,它只是组织获取成功的一种手段。

业务驱动因素

  1. 提高组织数据价值和数据利用的机会;
  2. 降低低质量数据导致的风险和成本;
  3. 提高组织效率和生产力;
  4. 保护和提高组织的声誉。【创机会、降成本、提效率、强声誉】

低质量数据造成的后果

  1. 无法正确开具发票;
  2. 增加客服电话量,降低解决问题的能力;
  3. 因错失商业机会造成收入损失;
  4. 影响并购后的整合进展;
  5. 增加受欺诈的风险;
  6. 由错误数据驱动的错误业务决策造成损失;
  7. 因缺乏良好信誉而导致业务损失。

数据质量管理的目标

  1. 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求;
  2. 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分;
  3. 定义和实施测量,监控和报告数据质量水平的过程。

数据质量管理的原则

  1. 重要性,根据数据的重要性以及数据不正确时的风险水平来制定改进的优先顺序;
  2. 全生命周期管理;
  3. 预防。重点应放在预防数据错误和降低数据可用性等;
  4. 根因修正,需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决;
  5. 治理,数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境;
  6. 标准驱动;
  7. 客观测量和透明度,数据质量水平需要得到客观、一致的测量;
  8. 嵌入业务流程,业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准;
  9. 系统强制执行,系统所有者必须让系统强制执行数据质量要求;
  10. 与服务水平关联,数据质量报告和问题管理应纳入服务水平协议(SLA)。

数据质量管理的活动

定义高质量数据

定义数据质量战略

  1. 识别关键数据;
  2. 识别已有规则和模式。

识别关键数据和业务规则

执行初始数据质量评估

  1. 确定问题并排定优先顺序;
  2. 执行问题根本原因分析。

确定改进方向并排定优先顺序

  1. 根据业务影响确定行动的优先级;
  2. 制定预防和纠正措施;
  3. 确认计划的行动。

定义数据质量改进目标

开发和部署数据质量操作

  1. 开发数据质量操作规程;
  2. 修正数据质量缺陷;
  3. 度量和监控数据质量;
  4. 报告数据质量水平和调查结果。

重要人物

Strong-Wang框架(1996)侧重于数据消费者对数据的看法

描述数据质量的4大类15个指标

内在数据质量

  1. 准确性
  2. 客观性
  3. 可信度
  4. 信誉度

场景数据质量

  1. 增值性
  2. 关联性
  3. 及时性
  4. 完整性
  5. 适量性

表达数据质量

  1. 可解释性
  2. 易理解性
  3. 表达一致性
  4. 简洁性

访问数据质量

  1. 可访问性
  2. 访问安全性

Thomas Redman

        在《信息时代的数据质量》将一个数据项定义为“可表示的三元组”:一个实体属性域与值的集合。维度可以和数据的任何组成部分相关联:模型(实体和属性)及其值。定义了一类用于记录数据项规则的表达维度,在三个类别中,描述了20个维度:

  1. 数据模型
    1. 内容
    2. 详细程度
  2. 属性的精确度
    1. 构成
    2. 一致性
    3. 应变性
    4. 数据值
    5. 数据表达

Larry English

        在《改善数据仓库和业务信息质量》提出两个类别:固有属性和实用特征

固有属性

  1. 定义的一致性
  2. 值域的完备性
  3. 有效性或业务规则的一致性
  4. 数据源的准确性
  5. 反映事实的准确性
  6. 精确性
  7. 非冗余性
  8. 冗余或分布数据的等效性
  9. 冗余或分布数据的并发性

实用质量特征

  1. 可访问性
  2. 及时性
  3. 语境清晰性
  4. 可用性
  5. 多源数据的可整合性
  6. 适当性或事实完整性

DAMA UK描述数据质量6个核心维度

  1. 完备性
  2. 唯一性
  3. 及时性
  4. 有效性
  5. 准确性
  6. 一致性

DAMA UK白皮书还描述了对质量有影响的其他特征

  1. 可用性
  2. 时间问题
  3. 灵活性
  4. 置信度
  5. 价值

ISO 8000

        目的是帮助组织定义什么是符合质量的数据,什么是不符合质量的数据,使他们能够使用标准约束要求符合数据,并检核他们已经收到了符合同一质量标准的数据。

数据质量改进生命周期

  1. 计划
  2. 执行
  3. 检查
  4. 处理

数据质量常见问题

  1. 缺乏领导力导致的问题
  2. 数据输入过程引起的问题
  3. 数据处理功能引起的问题
  4. 系统设计引起的问题
  5. 解决问题引起的问题

数据剖析

统计信息识别,跨列分析,表间分析,解决问题还需要其他形式的分析

数据质量和数据处理,可能通过某种形式的数据处理来提升数据质量

  1. 数据清理或数据清洗;
  2. 数据增强;
  3. 数据解析和格式化;
  4. 数据转换和标准化。

定义数据质量战略

必须与业务战略保持一致,一个框架包括以下方法:

  1. 了解并优先考虑业务需求;
  2. 确定满足业务需求的关键数据;
  3. 根据业务需求定义业务规则和数据质量标准;
  4. 根据预期评估数据;
  5. 分享调查结果,并从利益相关方那里获得反馈;
  6. 优先处理和管理问题;
  7. 确定并优先考虑改进机会;
  8. 测量、监控和报告数据质量;
  9. 管理通过数据质量流程生成的元数据;
  10. 将数据质量控制集成到业务和技术流程中,还要考虑如何管理数据质量和如何利用数据质量工具。

相关文章:

数据治理-数据质量

实现数据质量的前提就是数据本身是可靠和可信的。 导致数据质量低下的因素 组织缺乏对低质量数据影响的理解,缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。 所有组织都会遇到与数据质量有关的问题。数据质量需要跨职能的承诺…...

[sqoop]hive3.1.2 hadoop3.1.1安装sqoop1.4.7

参考: Hadoop3.2.4Hive3.1.2sqoop1.4.7安装部署_hadoop sqoop安装_alicely07的博客-CSDN博客 一、安装 1、解压 tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /home/data_warehouse/module mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop-1.4.72、配置文件 sqoop-env.s…...

js事件的详细介绍

11.事件 1.什么是事件 js属于事件驱动编程,把驱动,执行,调用通过一些交互,触发一些函数事件:发起-->执行绑定事件-->触发事件on 绑定 emit触发 off解绑2.事件分类 鼠标事件 点击事件 onclick 双击事件 ondblclick 按下事件 onmousedown 抬起事件 onmouseup 鼠标进…...

虚幻4学习笔记(12)操控导入的角色、动画蓝图、播放蒙太奇和打包、角色重定向

虚幻4学习笔记 操控导入的角色设置鼠标旋转关掉动态模糊 动画蓝图、播放蒙太奇和打包角色走路奔跑动画shift 奔跑F 跳舞移动打断 跳舞 打包角色重定向姿势调整解决跑步 腿分太开隐藏剑 B站UP谌嘉诚课程:https://www.bilibili.com/video/BV164411Y732 操控导入的角色…...

hive with tez:无法从链中的任何提供者加载aws凭据

环境信息 hadoop 3.1.0 hive-3.1.3 tez 0.9.1 问题描述 可以从hadoop命令行正确地访问s3a uri。我可以创建外部表和如下命令: create external table mytable(a string, b string) location s3a://mybucket/myfolder/; select * from mytable limit 20; 执行正…...

Ubuntu修改静态IP、网关和DNS的方法总结

Ubuntu修改静态IP、网关和DNS的方法总结 ubuntu系统(其他debian的衍生版本好像也可以)修改静态IP有以下几种方法。(搜索总结,可能也不太对) /etc/netplan (use) Ubuntu 18.04开始可以使用netplan配置网络&#xff0…...

Eureka服务器注册

一。Eureka服务器注册 1.pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://mav…...

Windows安装GPU版本的pytorch详细教程

文章目录 chatGLM2-6B安装教程正式安装 chatGLM2-6B ChatGLM2-6B版本要装pytorch2.0&#xff0c;而且要2.0.1 &#xff0c;因此CUDA不能用12.0 &#xff0c;也不能用10.0&#xff0c;只能用11.x 版本。 安装教程 pip install直接下载安装 官网&#xff1a; https://pytorch.…...

理解Kruskal算法的前提----深入理解并查集【超简单~】

并查集的实现思路 并查集主要分为两个部分&#xff1a;第一部分就是需要找到点对应的祖宗节点&#xff0c;第二部分&#xff0c;是要将属于同一个集合节点的祖宗节点进行统一&#xff0c;也就是结合操作。 Find函数实现 // parent数组用来存储下标值所对应的父节点值 // 比如…...

Jenkins+Gitee+Docker+Ruoyi项目前后端分离部署

前言 描述&#xff1a;本文主要是用来记录 如何用标题上的技术&#xff0c;部署到云服务器上通过ip正常访问。 一、总览 1.1、Docker做的事 拉取 mysql 镜像拉取 redis 镜像拉取 jdk 镜像拉取 nginx 镜像 解释说明&#xff1a;前端项目的打包文件放在 nginx容器运行。后端…...

笙默考试管理系统-MyExamTest----codemirror(23)

笙默考试管理系统-MyExamTest----codemirror&#xff08;23&#xff09; 目录 笙默考试管理系统-MyExamTest----codemirror&#xff08;23&#xff09; 一、 笙默考试管理系统-MyExamTest 二、 笙默考试管理系统-MyExamTest 三、 笙默考试管理系统-MyExamTest 四、 笙…...

重学Java (一) 泛型

1. 前言 泛型编程自从 Java 5.0 中引入后已经超过15个年头了。对于现在的 Java 码农来说熟练使用泛型编程已经是家常便饭的事情了。所以本文就在不对泛型的基础使用在做说明了。 如果你还不会使用泛型的话&#xff0c;可以参考下面两个链接 Java 泛型详解The Java™ Tutorial…...

Docker 部署 Redis 服务

拉取最新版本的 Redis 镜像: $ sudo docker pull redis:latest在本地预先创建好 data 目录和 conf/redis.conf 文件。 使用以下命令来运行 Redis 容器: $ sudo docker run -itd --name redis --privilegedtrue -p 6379:6379 -v /home/ubuntu/docker/redis/data:/data -v /ho…...

阿里云产品试用系列-负载均衡 SLB

阿里云负载均衡&#xff08;Server Load Balancer&#xff0c;简称SLB&#xff09;是云原生时代应用高可用的基本要素。通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力&#xff0c;消除单点故障并提升应用系统的可用性。阿里云SLB包含面向4层的网络型负载均衡NLB…...

drf 对象级权限

drf 对象级权限 Django REST Framework&#xff08;DRF&#xff09;提供了对象级别权限&#xff08;Object-level permissions&#xff09;来控制特定对象的访问权限。 简单来说&#xff1a;通过视图类中的self.get_object(pk)得到一个obj对象(视图对象)&#xff0c;在与requ…...

八大排序(二)--------冒泡排序

本专栏内容为&#xff1a;八大排序汇总 通过本专栏的深入学习&#xff0c;你可以了解并掌握八大排序以及相关的排序算法。 &#x1f493;博主csdn个人主页&#xff1a;小小unicorn ⏩专栏分类&#xff1a;八大排序汇总 &#x1f69a;代码仓库&#xff1a;小小unicorn的代码仓库…...

SmartSQL 一款开源的数据库文档管理工具

建议直接蓝奏云下载安装 蓝奏云下载&#xff1a;https://wwoc.lanzoum.com/b04dpvcxe 蓝奏云密码&#xff1a;123 项目介绍 SmartSQL 是一款方便、快捷的数据库文档查询、导出工具&#xff01;从最初仅支持 数据库、CHM文档格式开始&#xff0c;通过不断地探索开发、集思广…...

代码随想录算法训练营第56天 | ● 583. 两个字符串的删除操作 ● 72. 编辑距离 ● 动态规划之编辑距离总结篇

文章目录 前言一、583. 两个字符串的删除操作二、72. 编辑距离三、动态规划之编辑距离总结篇总结 前言 一、583. 两个字符串的删除操作 两种思路&#xff1a;1.直接动态规划&#xff0c;求两个字符串需要删除的最小次数 2.采用子序列的和-最长公共子序列。思路一分析如下&#…...

矩阵 m * M = c

文章目录 题1题2 题1 (2023江苏领航杯-prng) 题目来源&#xff1a;https://dexterjie.github.io/2023/09/12/%E8%B5%9B%E9%A2%98%E5%A4%8D%E7%8E%B0/2023%E9%A2%86%E8%88%AA%E6%9D%AF/ 题目描述&#xff1a; (没有原数据&#xff0c;自己生成的数据) from Crypto.Util.number…...

Linux——IO

✅<1>主页&#xff1a;&#xff1a;我的代码爱吃辣 &#x1f4c3;<2>知识讲解&#xff1a;Linux——文件系统 ☂️<3>开发环境&#xff1a;Centos7 &#x1f4ac;<4>前言&#xff1a;是不是只有C/C有文件操作呢&#xff1f;python&#xff0c;java&…...

中南大学无人机智能体的全面评估!BEDI:用于评估无人机上具身智能体的综合性基准测试

作者&#xff1a;Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位&#xff1a;中南大学地球科学与信息物理学院论文标题&#xff1a;BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接&#xff1a;https://arxiv.…...

C++八股 —— 单例模式

文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念 线程安全&#xff08;Thread Safety&#xff09; 线程安全是指在多线程环境下&#xff0c;某个函数、类或代码片段能够被多个线程同时调用时&#xff0c;仍能保证数据的一致性和逻辑的正确性&#xf…...

基于Java Swing的电子通讯录设计与实现:附系统托盘功能代码详解

JAVASQL电子通讯录带系统托盘 一、系统概述 本电子通讯录系统采用Java Swing开发桌面应用&#xff0c;结合SQLite数据库实现联系人管理功能&#xff0c;并集成系统托盘功能提升用户体验。系统支持联系人的增删改查、分组管理、搜索过滤等功能&#xff0c;同时可以最小化到系统…...

【Go语言基础【13】】函数、闭包、方法

文章目录 零、概述一、函数基础1、函数基础概念2、参数传递机制3、返回值特性3.1. 多返回值3.2. 命名返回值3.3. 错误处理 二、函数类型与高阶函数1. 函数类型定义2. 高阶函数&#xff08;函数作为参数、返回值&#xff09; 三、匿名函数与闭包1. 匿名函数&#xff08;Lambda函…...

RabbitMQ入门4.1.0版本(基于java、SpringBoot操作)

RabbitMQ 一、RabbitMQ概述 RabbitMQ RabbitMQ最初由LShift和CohesiveFT于2007年开发&#xff0c;后来由Pivotal Software Inc.&#xff08;现为VMware子公司&#xff09;接管。RabbitMQ 是一个开源的消息代理和队列服务器&#xff0c;用 Erlang 语言编写。广泛应用于各种分布…...

免费数学几何作图web平台

光锐软件免费数学工具&#xff0c;maths,数学制图&#xff0c;数学作图&#xff0c;几何作图&#xff0c;几何&#xff0c;AR开发,AR教育,增强现实,软件公司,XR,MR,VR,虚拟仿真,虚拟现实,混合现实,教育科技产品,职业模拟培训,高保真VR场景,结构互动课件,元宇宙http://xaglare.c…...

逻辑回归暴力训练预测金融欺诈

简述 「使用逻辑回归暴力预测金融欺诈&#xff0c;并不断增加特征维度持续测试」的做法&#xff0c;体现了一种逐步建模与迭代验证的实验思路&#xff0c;在金融欺诈检测中非常有价值&#xff0c;本文作为一篇回顾性记录了早年间公司给某行做反欺诈预测用到的技术和思路。百度…...

R 语言科研绘图第 55 期 --- 网络图-聚类

在发表科研论文的过程中&#xff0c;科研绘图是必不可少的&#xff0c;一张好看的图形会是文章很大的加分项。 为了便于使用&#xff0c;本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中&#xff0c;获取方式&#xff1a; R 语言科研绘图模板 --- sciRplothttps://mp.…...

macOS 终端智能代理检测

&#x1f9e0; 终端智能代理检测&#xff1a;自动判断是否需要设置代理访问 GitHub 在开发中&#xff0c;使用 GitHub 是非常常见的需求。但有时候我们会发现某些命令失败、插件无法更新&#xff0c;例如&#xff1a; fatal: unable to access https://github.com/ohmyzsh/oh…...

Java 与 MySQL 性能优化:MySQL 慢 SQL 诊断与分析方法详解

文章目录 一、开启慢查询日志&#xff0c;定位耗时SQL1.1 查看慢查询日志是否开启1.2 临时开启慢查询日志1.3 永久开启慢查询日志1.4 分析慢查询日志 二、使用EXPLAIN分析SQL执行计划2.1 EXPLAIN的基本使用2.2 EXPLAIN分析案例2.3 根据EXPLAIN结果优化SQL 三、使用SHOW PROFILE…...