数据治理-数据质量
实现数据质量的前提就是数据本身是可靠和可信的。
导致数据质量低下的因素
组织缺乏对低质量数据影响的理解,缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。
所有组织都会遇到与数据质量有关的问题。数据质量需要跨职能的承诺和协调,数据质量管理不是一个项目,而是一项持续性的工作,长期成功取决于组织文化的改变和质量观念的建立。高质量数据本身不是目的,它只是组织获取成功的一种手段。
业务驱动因素
- 提高组织数据价值和数据利用的机会;
- 降低低质量数据导致的风险和成本;
- 提高组织效率和生产力;
- 保护和提高组织的声誉。【创机会、降成本、提效率、强声誉】
低质量数据造成的后果
- 无法正确开具发票;
- 增加客服电话量,降低解决问题的能力;
- 因错失商业机会造成收入损失;
- 影响并购后的整合进展;
- 增加受欺诈的风险;
- 由错误数据驱动的错误业务决策造成损失;
- 因缺乏良好信誉而导致业务损失。
数据质量管理的目标
- 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求;
- 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分;
- 定义和实施测量,监控和报告数据质量水平的过程。
数据质量管理的原则
- 重要性,根据数据的重要性以及数据不正确时的风险水平来制定改进的优先顺序;
- 全生命周期管理;
- 预防。重点应放在预防数据错误和降低数据可用性等;
- 根因修正,需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决;
- 治理,数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境;
- 标准驱动;
- 客观测量和透明度,数据质量水平需要得到客观、一致的测量;
- 嵌入业务流程,业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准;
- 系统强制执行,系统所有者必须让系统强制执行数据质量要求;
- 与服务水平关联,数据质量报告和问题管理应纳入服务水平协议(SLA)。
数据质量管理的活动
定义高质量数据
定义数据质量战略
- 识别关键数据;
- 识别已有规则和模式。
识别关键数据和业务规则
执行初始数据质量评估
- 确定问题并排定优先顺序;
- 执行问题根本原因分析。
确定改进方向并排定优先顺序
- 根据业务影响确定行动的优先级;
- 制定预防和纠正措施;
- 确认计划的行动。
定义数据质量改进目标
开发和部署数据质量操作
- 开发数据质量操作规程;
- 修正数据质量缺陷;
- 度量和监控数据质量;
- 报告数据质量水平和调查结果。
重要人物
Strong-Wang框架(1996)侧重于数据消费者对数据的看法
描述数据质量的4大类15个指标
内在数据质量
- 准确性
- 客观性
- 可信度
- 信誉度
场景数据质量
- 增值性
- 关联性
- 及时性
- 完整性
- 适量性
表达数据质量
- 可解释性
- 易理解性
- 表达一致性
- 简洁性
访问数据质量
- 可访问性
- 访问安全性
Thomas Redman
在《信息时代的数据质量》将一个数据项定义为“可表示的三元组”:一个实体属性域与值的集合。维度可以和数据的任何组成部分相关联:模型(实体和属性)及其值。定义了一类用于记录数据项规则的表达维度,在三个类别中,描述了20个维度:
- 数据模型
- 内容
- 详细程度
- 属性的精确度
- 构成
- 一致性
- 应变性
- 数据值
- 数据表达
Larry English
在《改善数据仓库和业务信息质量》提出两个类别:固有属性和实用特征
固有属性
- 定义的一致性
- 值域的完备性
- 有效性或业务规则的一致性
- 数据源的准确性
- 反映事实的准确性
- 精确性
- 非冗余性
- 冗余或分布数据的等效性
- 冗余或分布数据的并发性
实用质量特征
- 可访问性
- 及时性
- 语境清晰性
- 可用性
- 多源数据的可整合性
- 适当性或事实完整性
DAMA UK描述数据质量6个核心维度
- 完备性
- 唯一性
- 及时性
- 有效性
- 准确性
- 一致性
DAMA UK白皮书还描述了对质量有影响的其他特征
- 可用性
- 时间问题
- 灵活性
- 置信度
- 价值
ISO 8000
目的是帮助组织定义什么是符合质量的数据,什么是不符合质量的数据,使他们能够使用标准约束要求符合数据,并检核他们已经收到了符合同一质量标准的数据。
数据质量改进生命周期
- 计划
- 执行
- 检查
- 处理
数据质量常见问题
- 缺乏领导力导致的问题
- 数据输入过程引起的问题
- 数据处理功能引起的问题
- 系统设计引起的问题
- 解决问题引起的问题
数据剖析
统计信息识别,跨列分析,表间分析,解决问题还需要其他形式的分析
数据质量和数据处理,可能通过某种形式的数据处理来提升数据质量
- 数据清理或数据清洗;
- 数据增强;
- 数据解析和格式化;
- 数据转换和标准化。
定义数据质量战略
必须与业务战略保持一致,一个框架包括以下方法:
- 了解并优先考虑业务需求;
- 确定满足业务需求的关键数据;
- 根据业务需求定义业务规则和数据质量标准;
- 根据预期评估数据;
- 分享调查结果,并从利益相关方那里获得反馈;
- 优先处理和管理问题;
- 确定并优先考虑改进机会;
- 测量、监控和报告数据质量;
- 管理通过数据质量流程生成的元数据;
- 将数据质量控制集成到业务和技术流程中,还要考虑如何管理数据质量和如何利用数据质量工具。
相关文章:
数据治理-数据质量
实现数据质量的前提就是数据本身是可靠和可信的。 导致数据质量低下的因素 组织缺乏对低质量数据影响的理解,缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。 所有组织都会遇到与数据质量有关的问题。数据质量需要跨职能的承诺…...
[sqoop]hive3.1.2 hadoop3.1.1安装sqoop1.4.7
参考: Hadoop3.2.4Hive3.1.2sqoop1.4.7安装部署_hadoop sqoop安装_alicely07的博客-CSDN博客 一、安装 1、解压 tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /home/data_warehouse/module mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop-1.4.72、配置文件 sqoop-env.s…...

js事件的详细介绍
11.事件 1.什么是事件 js属于事件驱动编程,把驱动,执行,调用通过一些交互,触发一些函数事件:发起-->执行绑定事件-->触发事件on 绑定 emit触发 off解绑2.事件分类 鼠标事件 点击事件 onclick 双击事件 ondblclick 按下事件 onmousedown 抬起事件 onmouseup 鼠标进…...

虚幻4学习笔记(12)操控导入的角色、动画蓝图、播放蒙太奇和打包、角色重定向
虚幻4学习笔记 操控导入的角色设置鼠标旋转关掉动态模糊 动画蓝图、播放蒙太奇和打包角色走路奔跑动画shift 奔跑F 跳舞移动打断 跳舞 打包角色重定向姿势调整解决跑步 腿分太开隐藏剑 B站UP谌嘉诚课程:https://www.bilibili.com/video/BV164411Y732 操控导入的角色…...
hive with tez:无法从链中的任何提供者加载aws凭据
环境信息 hadoop 3.1.0 hive-3.1.3 tez 0.9.1 问题描述 可以从hadoop命令行正确地访问s3a uri。我可以创建外部表和如下命令: create external table mytable(a string, b string) location s3a://mybucket/myfolder/; select * from mytable limit 20; 执行正…...

Ubuntu修改静态IP、网关和DNS的方法总结
Ubuntu修改静态IP、网关和DNS的方法总结 ubuntu系统(其他debian的衍生版本好像也可以)修改静态IP有以下几种方法。(搜索总结,可能也不太对) /etc/netplan (use) Ubuntu 18.04开始可以使用netplan配置网络࿰…...

Eureka服务器注册
一。Eureka服务器注册 1.pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://mav…...

Windows安装GPU版本的pytorch详细教程
文章目录 chatGLM2-6B安装教程正式安装 chatGLM2-6B ChatGLM2-6B版本要装pytorch2.0,而且要2.0.1 ,因此CUDA不能用12.0 ,也不能用10.0,只能用11.x 版本。 安装教程 pip install直接下载安装 官网: https://pytorch.…...
理解Kruskal算法的前提----深入理解并查集【超简单~】
并查集的实现思路 并查集主要分为两个部分:第一部分就是需要找到点对应的祖宗节点,第二部分,是要将属于同一个集合节点的祖宗节点进行统一,也就是结合操作。 Find函数实现 // parent数组用来存储下标值所对应的父节点值 // 比如…...

Jenkins+Gitee+Docker+Ruoyi项目前后端分离部署
前言 描述:本文主要是用来记录 如何用标题上的技术,部署到云服务器上通过ip正常访问。 一、总览 1.1、Docker做的事 拉取 mysql 镜像拉取 redis 镜像拉取 jdk 镜像拉取 nginx 镜像 解释说明:前端项目的打包文件放在 nginx容器运行。后端…...
笙默考试管理系统-MyExamTest----codemirror(23)
笙默考试管理系统-MyExamTest----codemirror(23) 目录 笙默考试管理系统-MyExamTest----codemirror(23) 一、 笙默考试管理系统-MyExamTest 二、 笙默考试管理系统-MyExamTest 三、 笙默考试管理系统-MyExamTest 四、 笙…...
重学Java (一) 泛型
1. 前言 泛型编程自从 Java 5.0 中引入后已经超过15个年头了。对于现在的 Java 码农来说熟练使用泛型编程已经是家常便饭的事情了。所以本文就在不对泛型的基础使用在做说明了。 如果你还不会使用泛型的话,可以参考下面两个链接 Java 泛型详解The Java™ Tutorial…...
Docker 部署 Redis 服务
拉取最新版本的 Redis 镜像: $ sudo docker pull redis:latest在本地预先创建好 data 目录和 conf/redis.conf 文件。 使用以下命令来运行 Redis 容器: $ sudo docker run -itd --name redis --privilegedtrue -p 6379:6379 -v /home/ubuntu/docker/redis/data:/data -v /ho…...

阿里云产品试用系列-负载均衡 SLB
阿里云负载均衡(Server Load Balancer,简称SLB)是云原生时代应用高可用的基本要素。通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力,消除单点故障并提升应用系统的可用性。阿里云SLB包含面向4层的网络型负载均衡NLB…...
drf 对象级权限
drf 对象级权限 Django REST Framework(DRF)提供了对象级别权限(Object-level permissions)来控制特定对象的访问权限。 简单来说:通过视图类中的self.get_object(pk)得到一个obj对象(视图对象),在与requ…...

八大排序(二)--------冒泡排序
本专栏内容为:八大排序汇总 通过本专栏的深入学习,你可以了解并掌握八大排序以及相关的排序算法。 💓博主csdn个人主页:小小unicorn ⏩专栏分类:八大排序汇总 🚚代码仓库:小小unicorn的代码仓库…...

SmartSQL 一款开源的数据库文档管理工具
建议直接蓝奏云下载安装 蓝奏云下载:https://wwoc.lanzoum.com/b04dpvcxe 蓝奏云密码:123 项目介绍 SmartSQL 是一款方便、快捷的数据库文档查询、导出工具!从最初仅支持 数据库、CHM文档格式开始,通过不断地探索开发、集思广…...
代码随想录算法训练营第56天 | ● 583. 两个字符串的删除操作 ● 72. 编辑距离 ● 动态规划之编辑距离总结篇
文章目录 前言一、583. 两个字符串的删除操作二、72. 编辑距离三、动态规划之编辑距离总结篇总结 前言 一、583. 两个字符串的删除操作 两种思路:1.直接动态规划,求两个字符串需要删除的最小次数 2.采用子序列的和-最长公共子序列。思路一分析如下&#…...
矩阵 m * M = c
文章目录 题1题2 题1 (2023江苏领航杯-prng) 题目来源:https://dexterjie.github.io/2023/09/12/%E8%B5%9B%E9%A2%98%E5%A4%8D%E7%8E%B0/2023%E9%A2%86%E8%88%AA%E6%9D%AF/ 题目描述: (没有原数据,自己生成的数据) from Crypto.Util.number…...

Linux——IO
✅<1>主页::我的代码爱吃辣 📃<2>知识讲解:Linux——文件系统 ☂️<3>开发环境:Centos7 💬<4>前言:是不是只有C/C有文件操作呢?python,java&…...
React 第五十五节 Router 中 useAsyncError的使用详解
前言 useAsyncError 是 React Router v6.4 引入的一个钩子,用于处理异步操作(如数据加载)中的错误。下面我将详细解释其用途并提供代码示例。 一、useAsyncError 用途 处理异步错误:捕获在 loader 或 action 中发生的异步错误替…...

RocketMQ延迟消息机制
两种延迟消息 RocketMQ中提供了两种延迟消息机制 指定固定的延迟级别 通过在Message中设定一个MessageDelayLevel参数,对应18个预设的延迟级别指定时间点的延迟级别 通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后…...
椭圆曲线密码学(ECC)
一、ECC算法概述 椭圆曲线密码学(Elliptic Curve Cryptography)是基于椭圆曲线数学理论的公钥密码系统,由Neal Koblitz和Victor Miller在1985年独立提出。相比RSA,ECC在相同安全强度下密钥更短(256位ECC ≈ 3072位RSA…...

Qt/C++开发监控GB28181系统/取流协议/同时支持udp/tcp被动/tcp主动
一、前言说明 在2011版本的gb28181协议中,拉取视频流只要求udp方式,从2016开始要求新增支持tcp被动和tcp主动两种方式,udp理论上会丢包的,所以实际使用过程可能会出现画面花屏的情况,而tcp肯定不丢包,起码…...

2025年能源电力系统与流体力学国际会议 (EPSFD 2025)
2025年能源电力系统与流体力学国际会议(EPSFD 2025)将于本年度在美丽的杭州盛大召开。作为全球能源、电力系统以及流体力学领域的顶级盛会,EPSFD 2025旨在为来自世界各地的科学家、工程师和研究人员提供一个展示最新研究成果、分享实践经验及…...
vue3 字体颜色设置的多种方式
在Vue 3中设置字体颜色可以通过多种方式实现,这取决于你是想在组件内部直接设置,还是在CSS/SCSS/LESS等样式文件中定义。以下是几种常见的方法: 1. 内联样式 你可以直接在模板中使用style绑定来设置字体颜色。 <template><div :s…...
spring:实例工厂方法获取bean
spring处理使用静态工厂方法获取bean实例,也可以通过实例工厂方法获取bean实例。 实例工厂方法步骤如下: 定义实例工厂类(Java代码),定义实例工厂(xml),定义调用实例工厂ÿ…...

Keil 中设置 STM32 Flash 和 RAM 地址详解
文章目录 Keil 中设置 STM32 Flash 和 RAM 地址详解一、Flash 和 RAM 配置界面(Target 选项卡)1. IROM1(用于配置 Flash)2. IRAM1(用于配置 RAM)二、链接器设置界面(Linker 选项卡)1. 勾选“Use Memory Layout from Target Dialog”2. 查看链接器参数(如果没有勾选上面…...
【JavaSE】绘图与事件入门学习笔记
-Java绘图坐标体系 坐标体系-介绍 坐标原点位于左上角,以像素为单位。 在Java坐标系中,第一个是x坐标,表示当前位置为水平方向,距离坐标原点x个像素;第二个是y坐标,表示当前位置为垂直方向,距离坐标原点y个像素。 坐标体系-像素 …...
Spring AI与Spring Modulith核心技术解析
Spring AI核心架构解析 Spring AI(https://spring.io/projects/spring-ai)作为Spring生态中的AI集成框架,其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似,但特别为多语…...