数字化转型:概念性名词浅谈(第四讲)
大家好,本篇文章是在新年之际写的,所以在这里先给大家拜个年。
今天要介绍的名词为ETL:
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL常用于大数据和数据治理的过程中,对于2025年来说,数据资产已经越来越重要,因为数据在未来将会驱动一切,来代替人来做判断。
常与ETL一起出现的还有ELT:
ELT是利用数据库的处理能力,E=从源数据库抽取数据,L=把数据加载到目标库的临时表中,T=对临时表中的数据进行转换,然后加载到目标库目标表中。
这两个名词常常会和BI一起出现使用,BI为:
商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。
商业智能的概念在1996年最早由加特纳集团(Gartner Group)提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。

数据质量与商业智能
数据质量角色
对于增强数据资产准确度和价值而言,将数据质量规则与活动(探查、清洗和监测)和MDM流程相集成显得十分关键。在启动任何MDM项目之前,您都需要了解源数据的内容、质量和结构。在数据源进行的数据探查使数据管理员和数据仓库管理员能够在数据进入MDM系统之前,快速发现和分析跨所有数据源的所有数据异常。此流程可极大加快从MDM实施中获取价值。
由于数据清洗增强了数据的准确度,带来了数据完整性,并从源头增进了数据的可信度,因此数据清洗改善了MDM系统中的数据一致性。一旦源数据进入MDM系统,它将接受数据质量处理,其中包括验证、更正和标准化。MDM系统存储了在数据清洗前后的整个历史记录,从而开发人员不必再跟踪数据仓库中的数据沿袭。
最后,数据质量度量标准使数据仓库管理员能够更好地监控参考数据的质量,并确保可以长期持续使用高质量的数据。
因此,从技术角度看,实施MDM和Informatica Data Quality,作为数据仓库中主数据的确定来源,可以从提取、转换和加载(ETL)流程中简化数据集成。此方法可极大减低与数据仓库有关的整个开发和维护工作。通过建立数据质量度量标准和定义数据质量目标,数据仓库管理员和数据管理员能够更好地监控参考数据的质量,并确保随着时间的推移能够跨企业持续使用高质量的数据。MDM简化了对数据仓库维度更新的处理,因为用于确定更改内容的所有逻辑均封装在MDM系统中。
此外,MDM系统可以卸除大多数数据仓库的历史记录跟踪负担,使数据仓库仅管理它需要为进行聚合而应跟踪的变更。此系统可带来更小的数据仓库维度以及对负荷和查询性能的重大改进。运用MDM和Informatica Data Quality将最终降低数据集成的工作量,提高从商业智能和报表推导的洞察分析的质量,确保能够从为商业智能增效的数据仓库方案中获得预期的价值和投资回报。
数据质量水平与商业智能的关系
当无法通过商业智能系统和报告系统提供准确的数据时,业务总体上都会受到影响。以下是为创建报表的商业智能系统提供不可靠数据所造成的一些后果:
业务负责人:不准确的管理报告导致决策不够明智。
合规主管:合规性法案要求公司能为其财务和合规报表提供一定的透明度和可审计性。
业务分析师:如果业务分析师花费过多时间在多个商业智能系统间手动搜索和整理信息以更新和修正报表,则业务分析师的生产率会受到影响。此低效的工作会直接影响成本和营利能力。
这些业务问题的根源在于没有关于客户、产品、渠道合作伙伴和供应商的唯一真实版本。由于在处理每个业务流程的不同系统间收集、存储和管理这些数据(亦称之为参考数据或主数据),因此,需要正确地解析重叠和冲突的参考数据,以获得唯一真实版本,从而带来宝贵而可操作的洞察力。许多组织拥有数十或数百数据库,并且在这些数据库中有维护相同核心参考对象的数十个(有时为数百个)不同的应用程序,而这些核心参考对象还具有重叠的属性。
商业智能系统的用途是以中立的视角报告取自多个系统的现有数据。商业智能系统可以为维度分析进行一些累积工作,但是设计或配备商业智能系统并非为了创建唯一的真实版本。在取自应用程序孤岛的客户或产品数据中存在的不一致会对数据仓库中运行的分析可靠性产生消极的影响。
总而言之,企业的商业智能只会与企业的数据质量水平相当。
数据质量与五种形式的商业智能。
商业智能已经发展成为多种形式,旨在满足企业不断增长的要求和任务关键型活动日益增长的水平。这些形式都有其自己的一套数据质量要求。
仪表板
记分卡和仪表板正被广泛采用,越来越多的用户利用它们获取财务,业务和绩效监控的鸟瞰图。通过可视化的图形、图标和计量表,这些传输机制帮助跟踪性能指标并向员工通知相关趋势和可能需要的决策。提供集成视图所需的数据元素通常跨越多个部门和学科,需要绝对最新才能有效。
数据质量会影响记分卡和仪表板用户,因此这些用户必须能够:
1. 使用仪表板中计量表和刻度盘上的完整数据,并迅速采取措施。
2. 获取集成视图并使用标准化数据进行协作。
3. 利用具有一致数据的正式记分卡方法。
4. 向下钻取以查看组或个人级别绩效的准确数据。
5. 找到能够生成明显趋势且重复数据最少的业务流程。
6. 推导关联性并通过验证的数据执行交叉影响分析。
企业报告
企业报告为所有级别的个人提供来自企业资源规划(ERP)、客户关系管理(CRM)、合作伙伴关系管理(PRM)、发票和帐单系统,以及整个企业内其他源系统的各种运营报告和其他业务报告。这些报告分布广泛,而薪酬和其他激励计划通常与报告的结果有关。
数据质量会影响组织报告,因为组织必须:
1. 浏览多个报告,将它们显示到从不同来源聚合数据的多个表单中。
2. 选择各种参数并通过标准化数据为用户定制报告。
3. 利用各种性能指标的协调数据呈现多个表格和图表。
4. 使业务用户能够利用高精准数据创建自己的报告,无需IT部门参与。
5. 通过清洗和匹配的数据减少合规性管理的人工检查和审计。
6. 利用完整财务数据直接从商业智能报告开具发票和帐单。
本篇文章要介绍的就是这么多,我们下篇文章再见。
相关文章:
数字化转型:概念性名词浅谈(第四讲)
大家好,本篇文章是在新年之际写的,所以在这里先给大家拜个年。 今天要介绍的名词为ETL: ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transfor…...
标题:市场波动中的价格趋势分析与策略优化
在市场投资中,价格的波动不仅是常态,更是影响投资决策的关键因素。市场价格的变化受多种因素影响,包括供需关系、政策调整、国际市场动态等。如何理解价格走势,并在其中寻找合适的交易机会,是投资者需要长期研究的课题…...
【HarmonyOS之旅】基于ArkTS开发(三) -> 兼容JS的类Web开发(四) -> 常见组件(一)
目录 1 -> List 1.1 -> 创建List组件 1.2 -> 添加滚动条 1.3 -> 添加侧边索引栏 1.4 -> 实现列表折叠和展开 1.5 -> 场景示例 2 -> dialog 2.1 -> 创建Dialog组件 2.2 -> 设置弹窗响应 2.3 -> 场景示例 3 -> form 3.1 -> 创建…...
Linux:文件系统(软硬链接)
目录 inode ext2文件系统 Block Group 超级块(Super Block) GDT(Group Descriptor Table) 块位图(Block Bitmap) inode位图(Inode Bitmap) i节点表(inode Tabl…...
深度学习系列--01.入门
一.深度学习概念 深度学习(Deep Learning)是机器学习的分支,是指使用多层的神经网络进行机器学习的一种手法抖音百科。它学习样本数据的内在规律和表示层次,最终目标是让机器能够像人一样具有分析学习能力,能够识别文字…...
如何抓取酒店列表: 揭开秘密
搜索酒店列表是一种强大的工具,可以从各种在线资源中收集有关住宿、价格和可用性的综合数据。无论您是要比较价格、分析市场趋势,还是要创建个性化的旅行计划,搜索都能让您有效地汇编所需的信息。在本文中,我们将介绍如何搜索酒店…...
深度剖析 C++17 中的 std::byte:解锁字节级编程新境界
文章目录 一、引入背景二、基本定义三、特性详解不可隐式转换为整型显式转换为unsigned char位运算支持字面量支持四、使用场景内存操作数据序列化与反序列化网络通信文件读写操作五、与其他数据类型的交互与字符类型的交互与整数类型的交互与指针类型的交互六、注意事项避免混…...
【多线程】线程池核心数到底如何配置?
🥰🥰🥰来都来了,不妨点个关注叭! 👉博客主页:欢迎各位大佬!👈 文章目录 1. 前置回顾2. 动态线程池2.1 JMX 的介绍2.1.1 MBeans 介绍 2.2 使用 JMX jconsole 实现动态修改线程池2.2.…...
三维空间全局光照 | 及各种扫盲
Lecture 6 SH for diffuse transport Lecture 7关于 SH for glossy transport 三维空间全局光照 diffuse case和glossy case的区别 在Lambertian模型中,BRDF是一个常数 diffuse case 跟outgoing point无关 glossy case 跟outgoing point有关 (Gloss…...
通过C/C++编程语言实现“数据结构”课程中的链表
引言 链表(Linked List)是数据结构中最基础且最重要的线性存储结构之一。与数组的连续内存分配不同,链表通过指针将分散的内存块串联起来,具有动态扩展和高效插入/删除的特性。本文将以C/C++语言为例,从底层原理到代码实现,手把手教你构建完整的链表结构,并深入探讨其应…...
Polardb三节点集群部署安装--附虚拟机
1. 架构 PolarDB-X 采用 Shared-nothing 与存储计算分离架构进行设计,系统由4个核心组件组成。 计算节点(CN, Compute Node) 计算节点是系统的入口,采用无状态设计,包括 SQL 解析器、优化器、执行器等模块。负责数据…...
java s7接收Byte字节,接收word转16位二进制
1图: 2.图: try {List list getNameList();//接收base64S7Connector s7Connector S7ConnectorFactory.buildTCPConnector().withHost("192.168.46.52").withPort(102).withTimeout(1000) //连接超时时间.withRack(0).withSlot(3).build()…...
挑战项目 --- 微服务编程测评系统(在线OJ系统)
一、前言 1.为什么要做项目 面试官要问项目,考察你到底是理论派还是实战派? 1.希望从你的项目中看到你的真实能力和对知识的灵活运用。 2.展示你在面对问题和需求时的思考方式及解决问题的能力。 3.面试官会就你项目提出一些问题,或扩展需求…...
基于springboot的体质测试数据分析及可视化设计
作者:学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等 文末获取“源码数据库万字文档PPT”,支持远程部署调试、运行安装。 项目包含: 完整源码数据库功能演示视频万字文档PPT 项目编码࿱…...
java-重载与重写
介绍 在 Java 中,重载(Overloading) 和 重写(Overriding) 是两个重要的概念,它们都与方法有关,但它们的应用场景和行为完全不同。 通过理解重载和重写的区别,可以更好地设计类的继承…...
使用C++构建一个优先级队列
1.优先级队列的介绍 优先级队列是一种特殊的队列数据结构,它是队列,但又不完全是,因为它要将装载的数据进行优先级排序,找到一个最大或者最小优先级的元素,下一次出队列的元素就是这个元素,所以说它不完全是…...
linux驱动开发之字符设备与总线设备驱动模型的区别与联系
Linux驱动开发核心概念解析 1. 字符设备(Character Device) 定义与特点: 以字节流形式进行数据交换,适用于顺序访问的设备(如键盘、鼠标、串口)。 用户空间通过设备文件(如/dev/xxx࿰…...
AI deepseek对数据治理的影响
DEEPSEEK作为智能一款助手,在数据治理体系中具有深远的影响。它通过提供智能化、自动化和高效化的解决方案,推动企业在数据治理变革与领域的优化。以下是EPSEEK对数据治理体系影响的多角度分析: 一、战略层面:推动数据治理目标的…...
DeepSeek各版本说明与优缺点分析
DeepSeek各版本说明与优缺点分析 DeepSeek是最近人工智能领域备受瞩目的一个语言模型系列,其在不同版本的发布过程中,逐步加强了对多种任务的处理能力。本文将详细介绍DeepSeek的各版本,从版本的发布时间、特点、优势以及不足之处࿰…...
iOS 老项目适配 #Preview 预览功能
前言 iOS 开发者 最憋屈的就是UI 布局慢,一直以来没有实时预览功能,虽然swiftUI 早就支持了,但是目前主流还是使用UIKit在布局,iOS 17 苹果推出了 #Preview 可以支持UIKit 实时预览,但是仅仅是 iOS 17,老项目怎么办呢?于是就有了这篇 老项目适配 #Preview 预览 的文章,…...
在ubuntu22.04上先部署docker,再编译安装kamailio,附详细操作流程及docker和makailio的版本号
以下是在Ubuntu 22.04上部署Docker并编译安装Kamailio的详细操作流程,包含版本号信息: 一、部署Docker(版本:24.0.7) 更新系统包 sudo apt update && sudo apt upgrade -y安装依赖工具 sudo apt install -y ap…...
蓝桥杯试题:排序
一、问题描述 给定 nn 个正整数 a1,a2,…,ana1,a2,…,an,你可以将它们任意排序。现要将这 nn 个数字连接成一排,即令相邻数字收尾相接,组成一个数。问,这个数最大可以是多少。 输入格式 第一行输入一个正整数 nnÿ…...
C++常用拷贝和替换算法
算法简介: copy // 容器内指定的元素拷贝到另一容器replace // 将容器内指定范围的旧元素改为新元素replace_if // 容器内指定范围满足条件的元素替换为新元素swap //互换两个容器的元素 1. copy 功能描述: 将容器内指定范围的数据拷贝到另一容器中函…...
2024年12月 Scratch 图形化(三级)真题解析 中国电子学会全国青少年软件编程等级考试
202412 Scratch 图形化(三级)真题解析 中国电子学会全国青少年软件编程等级考试 一、选择题(共18题,共50分) 第 1 题 气温和对应的穿衣建议如下表所示,下列选项能正确给出穿衣建议的是?( ) A. …...
C# 中记录(Record)详解
从C#9.0开始,我们有了一个有趣的语法糖:记录(record) 为什么提供记录? 开发过程中,我们往往会创建一些简单的实体,它们仅仅拥有一些简单的属性,可能还有几个简单的方法,比如DTO等等…...
【MQTT协议 03】 抓包分析
一、MQTT测试工具 1、mqtt服务器 emqx 2、mqtt 客户端 mqttx 3、抓包工具 wireshark 搭建参考 【MQTT 协议 01】MQTT 服务器搭建_mqtt服务器搭建-CSDN博客 二、报文测试 2.1、CONNECT (客户端连接) 2.1.1、抓包 2.1.2、解析 #16进制表示 10300…...
深度学习-100-RAG技术之最简单的RAG系统概念和效果优化提升方向
文章目录 1 数据是基础2 Naive RAG(最简单的RAG系统)2.1 RAG周边技术2.2 标准的RAG流程2.3 RAG的潜在问题2.4 如何应对RAG的问题3 优化方向3.1 原始数据创建/准备3.1.1 易于理解的文本3.1.2 提高数据质量3.2 预检索优化3.2.1 分块优化3.2.2 添加元数据3.2.3 选对嵌入模型3.2.4 …...
Redis面试题总结(题目来源JavaGuide)
Redis 基础 问题1:Redis 有什么作用?为什么要用 Redis/为什么要用缓存? Redis 是一个开源的高性能键值对数据库,它的作用主要体现在以下几个方面: 缓存:Redis 常被用作缓存系统,可以将频繁访问的数据存储…...
Django 多数据库
django 支持项目连接多个数据库 DATABASES = {default: {ENGINE: django.db.backends.mysql,NAME: xxx,USER: root,"PASSWORD": xxxxx,HOST: xxxx,PORT: 3306,},bak: {ENGINE: django.db.backends.mysql,NAME: xxx,USER: root,"PASSWORD": xxxx,HOST: xxx…...
为AI聊天工具添加一个知识系统 之87 详细设计之28 Derivation 统一建模元模型 之1
文本要点 要点 Derivation 统一建模元模型 Derivation 统一建模元模型:意识原型的祖传代码,即支撑 程序框架的 符号学中的 自然和逻辑树。 这棵树的雏形中描述了三种建模工件:语用钩子,语法糖和语义胶水。 三种工件对应的三“…...
