数据治理-数据质量
实现数据质量的前提就是数据本身是可靠和可信的。
导致数据质量低下的因素
组织缺乏对低质量数据影响的理解,缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。
所有组织都会遇到与数据质量有关的问题。数据质量需要跨职能的承诺和协调,数据质量管理不是一个项目,而是一项持续性的工作,长期成功取决于组织文化的改变和质量观念的建立。高质量数据本身不是目的,它只是组织获取成功的一种手段。
业务驱动因素
- 提高组织数据价值和数据利用的机会;
- 降低低质量数据导致的风险和成本;
- 提高组织效率和生产力;
- 保护和提高组织的声誉。【创机会、降成本、提效率、强声誉】
低质量数据造成的后果
- 无法正确开具发票;
- 增加客服电话量,降低解决问题的能力;
- 因错失商业机会造成收入损失;
- 影响并购后的整合进展;
- 增加受欺诈的风险;
- 由错误数据驱动的错误业务决策造成损失;
- 因缺乏良好信誉而导致业务损失。
数据质量管理的目标
- 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求;
- 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分;
- 定义和实施测量,监控和报告数据质量水平的过程。
数据质量管理的原则
- 重要性,根据数据的重要性以及数据不正确时的风险水平来制定改进的优先顺序;
- 全生命周期管理;
- 预防。重点应放在预防数据错误和降低数据可用性等;
- 根因修正,需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决;
- 治理,数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境;
- 标准驱动;
- 客观测量和透明度,数据质量水平需要得到客观、一致的测量;
- 嵌入业务流程,业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准;
- 系统强制执行,系统所有者必须让系统强制执行数据质量要求;
- 与服务水平关联,数据质量报告和问题管理应纳入服务水平协议(SLA)。
数据质量管理的活动
定义高质量数据
定义数据质量战略
- 识别关键数据;
- 识别已有规则和模式。
识别关键数据和业务规则
执行初始数据质量评估
- 确定问题并排定优先顺序;
- 执行问题根本原因分析。
确定改进方向并排定优先顺序
- 根据业务影响确定行动的优先级;
- 制定预防和纠正措施;
- 确认计划的行动。
定义数据质量改进目标
开发和部署数据质量操作
- 开发数据质量操作规程;
- 修正数据质量缺陷;
- 度量和监控数据质量;
- 报告数据质量水平和调查结果。
重要人物
Strong-Wang框架(1996)侧重于数据消费者对数据的看法
描述数据质量的4大类15个指标
内在数据质量
- 准确性
- 客观性
- 可信度
- 信誉度
场景数据质量
- 增值性
- 关联性
- 及时性
- 完整性
- 适量性
表达数据质量
- 可解释性
- 易理解性
- 表达一致性
- 简洁性
访问数据质量
- 可访问性
- 访问安全性
Thomas Redman
在《信息时代的数据质量》将一个数据项定义为“可表示的三元组”:一个实体属性域与值的集合。维度可以和数据的任何组成部分相关联:模型(实体和属性)及其值。定义了一类用于记录数据项规则的表达维度,在三个类别中,描述了20个维度:
- 数据模型
- 内容
- 详细程度
- 属性的精确度
- 构成
- 一致性
- 应变性
- 数据值
- 数据表达
Larry English
在《改善数据仓库和业务信息质量》提出两个类别:固有属性和实用特征
固有属性
- 定义的一致性
- 值域的完备性
- 有效性或业务规则的一致性
- 数据源的准确性
- 反映事实的准确性
- 精确性
- 非冗余性
- 冗余或分布数据的等效性
- 冗余或分布数据的并发性
实用质量特征
- 可访问性
- 及时性
- 语境清晰性
- 可用性
- 多源数据的可整合性
- 适当性或事实完整性
DAMA UK描述数据质量6个核心维度
- 完备性
- 唯一性
- 及时性
- 有效性
- 准确性
- 一致性
DAMA UK白皮书还描述了对质量有影响的其他特征
- 可用性
- 时间问题
- 灵活性
- 置信度
- 价值
ISO 8000
目的是帮助组织定义什么是符合质量的数据,什么是不符合质量的数据,使他们能够使用标准约束要求符合数据,并检核他们已经收到了符合同一质量标准的数据。
数据质量改进生命周期
- 计划
- 执行
- 检查
- 处理
数据质量常见问题
- 缺乏领导力导致的问题
- 数据输入过程引起的问题
- 数据处理功能引起的问题
- 系统设计引起的问题
- 解决问题引起的问题
数据剖析
统计信息识别,跨列分析,表间分析,解决问题还需要其他形式的分析
数据质量和数据处理,可能通过某种形式的数据处理来提升数据质量
- 数据清理或数据清洗;
- 数据增强;
- 数据解析和格式化;
- 数据转换和标准化。
定义数据质量战略
必须与业务战略保持一致,一个框架包括以下方法:
- 了解并优先考虑业务需求;
- 确定满足业务需求的关键数据;
- 根据业务需求定义业务规则和数据质量标准;
- 根据预期评估数据;
- 分享调查结果,并从利益相关方那里获得反馈;
- 优先处理和管理问题;
- 确定并优先考虑改进机会;
- 测量、监控和报告数据质量;
- 管理通过数据质量流程生成的元数据;
- 将数据质量控制集成到业务和技术流程中,还要考虑如何管理数据质量和如何利用数据质量工具。
相关文章:
数据治理-数据质量
实现数据质量的前提就是数据本身是可靠和可信的。 导致数据质量低下的因素 组织缺乏对低质量数据影响的理解,缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。 所有组织都会遇到与数据质量有关的问题。数据质量需要跨职能的承诺…...
[sqoop]hive3.1.2 hadoop3.1.1安装sqoop1.4.7
参考: Hadoop3.2.4Hive3.1.2sqoop1.4.7安装部署_hadoop sqoop安装_alicely07的博客-CSDN博客 一、安装 1、解压 tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /home/data_warehouse/module mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop-1.4.72、配置文件 sqoop-env.s…...
js事件的详细介绍
11.事件 1.什么是事件 js属于事件驱动编程,把驱动,执行,调用通过一些交互,触发一些函数事件:发起-->执行绑定事件-->触发事件on 绑定 emit触发 off解绑2.事件分类 鼠标事件 点击事件 onclick 双击事件 ondblclick 按下事件 onmousedown 抬起事件 onmouseup 鼠标进…...
虚幻4学习笔记(12)操控导入的角色、动画蓝图、播放蒙太奇和打包、角色重定向
虚幻4学习笔记 操控导入的角色设置鼠标旋转关掉动态模糊 动画蓝图、播放蒙太奇和打包角色走路奔跑动画shift 奔跑F 跳舞移动打断 跳舞 打包角色重定向姿势调整解决跑步 腿分太开隐藏剑 B站UP谌嘉诚课程:https://www.bilibili.com/video/BV164411Y732 操控导入的角色…...
hive with tez:无法从链中的任何提供者加载aws凭据
环境信息 hadoop 3.1.0 hive-3.1.3 tez 0.9.1 问题描述 可以从hadoop命令行正确地访问s3a uri。我可以创建外部表和如下命令: create external table mytable(a string, b string) location s3a://mybucket/myfolder/; select * from mytable limit 20; 执行正…...
Ubuntu修改静态IP、网关和DNS的方法总结
Ubuntu修改静态IP、网关和DNS的方法总结 ubuntu系统(其他debian的衍生版本好像也可以)修改静态IP有以下几种方法。(搜索总结,可能也不太对) /etc/netplan (use) Ubuntu 18.04开始可以使用netplan配置网络࿰…...
Eureka服务器注册
一。Eureka服务器注册 1.pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://mav…...
Windows安装GPU版本的pytorch详细教程
文章目录 chatGLM2-6B安装教程正式安装 chatGLM2-6B ChatGLM2-6B版本要装pytorch2.0,而且要2.0.1 ,因此CUDA不能用12.0 ,也不能用10.0,只能用11.x 版本。 安装教程 pip install直接下载安装 官网: https://pytorch.…...
理解Kruskal算法的前提----深入理解并查集【超简单~】
并查集的实现思路 并查集主要分为两个部分:第一部分就是需要找到点对应的祖宗节点,第二部分,是要将属于同一个集合节点的祖宗节点进行统一,也就是结合操作。 Find函数实现 // parent数组用来存储下标值所对应的父节点值 // 比如…...
Jenkins+Gitee+Docker+Ruoyi项目前后端分离部署
前言 描述:本文主要是用来记录 如何用标题上的技术,部署到云服务器上通过ip正常访问。 一、总览 1.1、Docker做的事 拉取 mysql 镜像拉取 redis 镜像拉取 jdk 镜像拉取 nginx 镜像 解释说明:前端项目的打包文件放在 nginx容器运行。后端…...
笙默考试管理系统-MyExamTest----codemirror(23)
笙默考试管理系统-MyExamTest----codemirror(23) 目录 笙默考试管理系统-MyExamTest----codemirror(23) 一、 笙默考试管理系统-MyExamTest 二、 笙默考试管理系统-MyExamTest 三、 笙默考试管理系统-MyExamTest 四、 笙…...
重学Java (一) 泛型
1. 前言 泛型编程自从 Java 5.0 中引入后已经超过15个年头了。对于现在的 Java 码农来说熟练使用泛型编程已经是家常便饭的事情了。所以本文就在不对泛型的基础使用在做说明了。 如果你还不会使用泛型的话,可以参考下面两个链接 Java 泛型详解The Java™ Tutorial…...
Docker 部署 Redis 服务
拉取最新版本的 Redis 镜像: $ sudo docker pull redis:latest在本地预先创建好 data 目录和 conf/redis.conf 文件。 使用以下命令来运行 Redis 容器: $ sudo docker run -itd --name redis --privilegedtrue -p 6379:6379 -v /home/ubuntu/docker/redis/data:/data -v /ho…...
阿里云产品试用系列-负载均衡 SLB
阿里云负载均衡(Server Load Balancer,简称SLB)是云原生时代应用高可用的基本要素。通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力,消除单点故障并提升应用系统的可用性。阿里云SLB包含面向4层的网络型负载均衡NLB…...
drf 对象级权限
drf 对象级权限 Django REST Framework(DRF)提供了对象级别权限(Object-level permissions)来控制特定对象的访问权限。 简单来说:通过视图类中的self.get_object(pk)得到一个obj对象(视图对象),在与requ…...
八大排序(二)--------冒泡排序
本专栏内容为:八大排序汇总 通过本专栏的深入学习,你可以了解并掌握八大排序以及相关的排序算法。 💓博主csdn个人主页:小小unicorn ⏩专栏分类:八大排序汇总 🚚代码仓库:小小unicorn的代码仓库…...
SmartSQL 一款开源的数据库文档管理工具
建议直接蓝奏云下载安装 蓝奏云下载:https://wwoc.lanzoum.com/b04dpvcxe 蓝奏云密码:123 项目介绍 SmartSQL 是一款方便、快捷的数据库文档查询、导出工具!从最初仅支持 数据库、CHM文档格式开始,通过不断地探索开发、集思广…...
代码随想录算法训练营第56天 | ● 583. 两个字符串的删除操作 ● 72. 编辑距离 ● 动态规划之编辑距离总结篇
文章目录 前言一、583. 两个字符串的删除操作二、72. 编辑距离三、动态规划之编辑距离总结篇总结 前言 一、583. 两个字符串的删除操作 两种思路:1.直接动态规划,求两个字符串需要删除的最小次数 2.采用子序列的和-最长公共子序列。思路一分析如下&#…...
矩阵 m * M = c
文章目录 题1题2 题1 (2023江苏领航杯-prng) 题目来源:https://dexterjie.github.io/2023/09/12/%E8%B5%9B%E9%A2%98%E5%A4%8D%E7%8E%B0/2023%E9%A2%86%E8%88%AA%E6%9D%AF/ 题目描述: (没有原数据,自己生成的数据) from Crypto.Util.number…...
Linux——IO
✅<1>主页::我的代码爱吃辣 📃<2>知识讲解:Linux——文件系统 ☂️<3>开发环境:Centos7 💬<4>前言:是不是只有C/C有文件操作呢?python,java&…...
League-Toolkit:英雄联盟智能辅助工具的效率提升之道
League-Toolkit:英雄联盟智能辅助工具的效率提升之道 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League-Toolkit是…...
Apache Tomcat 在 IDEA 中配置完整教程(手把手保姆教程)
目录 文章内容简介 配置前提 IDEA 准备 IDEA 中的配置 文章内容简介 本文详细介绍了在IDEA中配置Apache Tomcat服务器的完整步骤。首先指导用户创建Maven Archetype项目。重点讲解了Tomcat服务器的配置过程,包括设置服务器路径、部署工件、修改HTTP端口等关键操…...
手把手教你搭建日本亚马逊CVV钓鱼系统(附自动验证功能)
网络安全防护:识别与防范钓鱼攻击的技术实践 在数字化时代,网络安全已成为个人和企业不可忽视的重要议题。随着电子商务的蓬勃发展,各类网络攻击手段也日益猖獗,其中钓鱼攻击因其低成本、高回报的特点,成为黑客常用的攻…...
程序员视角:五笔输入法98版为何更适合代码编写?
程序员视角:五笔输入法98版为何更适合代码编写? 在程序员的世界里,效率就是生命。从IDE的选择到快捷键的配置,每一个细节都可能影响编码的速度和质量。而作为中文开发者,输入法的选择往往被忽视——直到你发现自己在输…...
SpringBoot WebSocket 客户端断线重连:从心跳检测到优雅恢复
1. WebSocket与实时通信的挑战 想象一下你正在玩一款多人在线游戏,突然网络卡顿导致角色掉线,重新登录后发现之前的战斗进度全部丢失——这种糟糕体验正是WebSocket重连机制要解决的问题。WebSocket作为HTTP的"升级版",确实解决了服…...
Unsloth让AI触手可及:免费GPU+开源框架,训练自己的模型
Unsloth让AI触手可及:免费GPU开源框架,训练自己的模型 1. Unsloth简介:高效微调的开源利器 Unsloth是一个专为大型语言模型(LLM)优化的开源微调框架,它的核心使命是让AI训练变得高效且易于获取。通过创新的技术手段,…...
Word制表位全攻略:从菜鸟到高手,5分钟搞定专业文档排版
Word制表位全攻略:从菜鸟到高手,5分钟搞定专业文档排版 你是否曾经为了对齐文档中的文字而疯狂敲击空格键?或是花费大量时间调整表格边框却依然无法让数字完美对齐?这些困扰其实只需要掌握一个Word中的隐藏神器——制表位&#x…...
Axure RP中文语言包:3分钟快速汉化你的原型设计工具
Axure RP中文语言包:3分钟快速汉化你的原型设计工具 【免费下载链接】axure-cn Chinese language file for Axure RP. Axure RP 简体中文语言包,不定期更新。支持 Axure 9、Axure 10。 项目地址: https://gitcode.com/gh_mirrors/ax/axure-cn 对于…...
别再手动下载模型了!用Xinference一键部署Qwen、ChatGLM等大模型(附CUDA环境配置避坑指南)
别再手动下载模型了!用Xinference一键部署Qwen、ChatGLM等大模型(附CUDA环境配置避坑指南) 在AI模型部署的实践中,手动下载模型文件、配置复杂环境、解决依赖冲突等问题常常让开发者头疼不已。传统部署流程不仅耗时耗力࿰…...
DeerFlow资源优化实践:控制Python执行环境内存占用方法
DeerFlow资源优化实践:控制Python执行环境内存占用方法 1. 认识DeerFlow:您的智能研究助手 DeerFlow是一个基于LangStack技术框架开发的深度研究开源项目,它就像是您的个人研究团队,能够帮您完成各种复杂的调研任务。这个工具整…...
