当前位置: 首页 > news >正文

企业数字化管理中,数据治理到底怎么“治”

随着信息化、数字化的理念、技术及其应用在社会的方方面面进行扩散,数据的规模和丰富程度已经达到了一个新的高度,所以当下如何更进一步利用好数据,充分发挥数据的价值,将其真正变为高质量的数据资产成为了企业要面对的重要问题,这也就是数据治理项目如此火热的原因。

数据治理是一个庞大的工程,数据开发人员要积极介入整个数据的上下游流程,理解多个系统的内在逻辑,才能建设出高质量的数仓,并打造数据驱动型的业务。

数据治理的目标

虽然数据治理很复杂,在企业中的实际成功率也并不高,但大多数企业的数据治理目标其实很简单,就是不断提升数据质量,规范数据生产、存储、处理、分析等数据生命周期的过程,让企业能够更方便的利用数据,将数据转化为信息和知识,形成企业的重要资产。

业务数据 - 派可数据商业智能BI可视化分析平台

所以说,企业进行数据治理不需要考虑太多数据治理有什么意义,而是应该转而思考规划数据治理项目应该有什么样的目标,从而实现什么样的企业发展,给整个数据治理项目划出一个方向。

这样一来企业进行数据治理整个项目就可以转化为一个个目标,企业在将数据价值化的过程中,影响数据价值的主要原因是数据质量过低,导致数据分析结果可信度低、准确性差,所以提高数据质量是大多数企业共同的目标。

如何数据治理

(一)上报治理

作为数据的源头,上报的质量直接关系着数仓的质量。有没有、对不对、准不准是上报发展过程中依次要解决的问题。解决这个矛盾的方向是标准化采集上报工具和简单可执行的上报规范流程。有条件的业务可以开发自己的采集上报工具(SDK),完成上报时机、采集参数位置的统一,将开发人员从每个埋点的重复开发工作中解放出来。若场景比较复杂,很难用工具进行标准化,或者数据开发人力不足,无法维持上报工具的开发与维护,可以根据自己的业务特征,制定一套简单可执行的上报规范。其中简单可执行是设计的核心,一定要让开发人员一看就明白该怎做,否则在规范设计人员看来很简单的东西,推广到几十上百人时就会变成一场理解成本灾难,那么理解的统一又成了一个问题。

企业数据 - 派可数据商业智能BI可视化分析平台

(二)参数治理

大型业务的上报参数,可能已有上千个之多。原因在于不同场景下的运营和产品团队可能是独立的,就导致了即使2个参数的相似度高达90%,但上报的字段名却是不同的。

这就是上报混乱的另一个问题:参数膨胀。对于存量业务,从熟悉业务参数到找到相似参数并进行整合,上下游配合修改,是一个比较长且比较耗费人力的操作,看到收益前的投入会非常大,但如果评估出来的收益更大,那么就需要决策者有足够的定力,去持续投入和推动。更加优雅的方式应该是前端框架的功能模块化,相同的模块具有相同的功能和上报参数命名。

(三)指标治理

指标治理来到了数仓层面,同样是由于缺乏统一规范,导致相似度很高的指标,以不同的名称在多张表中呈现,给下游的使用带来疑惑。

解决的方向之一是建立统一指标库,新增指标需要进行评审才能加入指标库并进行开发。更健康的方式应该是加深数仓和下游团队彼此的理解和信任,有些比较定制化的业务指标,可以由业务方先行计算并验证其可行性,不需要从一开始就固化在数仓层面;经过验证并确认有效的,数仓人员要想办法将其融合进现有数仓。

指标 - 派可数据商业智能BI可视化分析平台

(四)流程治理

在业务已经比较成熟的数据团队内,规范化数据开发流程可以一定程度上避免野蛮开发,提高迭代效率。DataOps是一种协作数据管理实践,将数据开发、管理、分析、运营融为一体的方法论,通过更好的协作和自动化来改善组织对于数据的使用。

(五)成本优化

因为一些历史原因,有些数据表和计算任务的使用率很低或者高度重复,造成了计算和存储资源的浪费,就像每次搬家的时候往往能发现一大堆从来没用过的东西。


1、计算资源优化

定期回顾数仓计算任务,合并类似的计算任务。

基础流水的解析,在实时任务保障稳定的前提下,离线任务可以不用例行化执行,仅作为实时任务的备份。

合理设置计算任务的所需资源,避免任务申请远超于实际需求的计算资源。

适当地用视图代替实际计算。

大屏看板 - 派可数据商业智能BI可视化分析平台

2、存储资源优化

根据数据表下游使用情况,合理设置生命周期。

针对下游数据使用的时效性,合理选择存储引擎。

及时下线数仓中已失效的字段。

适当地使用视图代替实体表。

(六)价值循环

数据治理的最终目标是更大程度地发挥数据价值,融入数据价值循环中促进正反馈。其中数据团队的话语权是能够进行深度数据治理的先决条件,数据治理的成果一般在两三年后才能慢慢显现,属于长期价值投入,如果没有一定的基础是无法坚持下去的。数据治理的结果是数据质量的提升,进而可以在部分场景下产生业务决策,促进收入的增长。在这种正向驱动的作用下,数据的价值进一步凸显,数据团队也有更多的资源来继续提升数据质量和服务水平。

经营数据 - 派可数据商业智能BI可视化分析平台

数据不是万能的。在强内容质量、特定人群共识、外部公司协作等场景下,无法仅通过数据大幅提升业务的关键指标,这时更关键的业务驱动力来源于产品设计的和运营管理,此时数据团队更多的时候是提供基础的运营数据分析,以辅助和建议为主。

相关文章:

企业数字化管理中,数据治理到底怎么“治”

随着信息化、数字化的理念、技术及其应用在社会的方方面面进行扩散,数据的规模和丰富程度已经达到了一个新的高度,所以当下如何更进一步利用好数据,充分发挥数据的价值,将其真正变为高质量的数据资产成为了企业要面对的重要问题&a…...

《HelloGitHub》第 85 期

兴趣是最好的老师,HelloGitHub 让你对编程感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 https://github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 …...

自动驾驶人机交互HMI产品技术方案

1. 概述 1.1 目的 本文档描述集卡自动驾驶系统中HMI产品的技术方案,设计人员遵循本方案进行设计,为项目开发实施提供技术方案保障。 1.2 范围 本文档适用于HMI产品项目。本文档用于指导HMI产品项目的UI、前端开发过程。 1.3 术语与缩写 术语/缩写 描述 HMI...

开发感悟20230426

一、element-ui样式设置 1. 可以直接在css中写个样式文件,把对应的类名改写样式,然后在main.js中引用,可以覆盖上面的,如果想给element-ui设置样式,不用设置deep了 2.可以直接修改引入的element-ui的样式&#xff0c…...

C和C++的区别

C和C的区别 1、面向对象编程:C是面向对象的语言,而C语言则不支持面向对象编程。C提供了类、对象、封装、继承、多态等面向对象的特性,使得程序结构更加清晰、可读性更强。2、模板:C提供了模板的特性,使得程序员可以通…...

【力扣-141】 环形链表 + 【力扣-142】 环形链表 II

🖊作者 : Djx_hmbb 📘专栏 : 数据结构 😆今日分享 : 霍桑效应(霍索恩效应) : 是指那些意识到自己正在被别人观察的个人具有改变自己行为的倾向。 霍桑效应告诉我们:从旁人的角度,善意的谎言和夸奖真的可以造就一个人&a…...

云计算:优势与未来趋势

文章目录 前言一、云计算的优势1. 降低IT成本2. 提高工作效率3. 提高业务的可靠性和稳定性4. 提升安全性 二、未来发展趋势1. AI与云计算的融合2. 边缘计算的发展3. 多云的趋势4. 服务器和存储的创新 三、 行业应用案例1.金融行业2.医疗保健行业3.教育行业4.零售和物流行业 四、…...

Linux namespace

​ 前言 从《initrd&init进程》可知,我们通过ssh连接linux服务器,其实主是linux启动一shell进程与我们做交互。而Linux又是多租户的,这使用得用户与用户间产生了,资源的争抢。 如何隔离资源,且让用户都无法察觉&…...

第十三章 移动和旋转(上)

移动和旋转是游戏对象最频繁地操作。我们上个章节简单介绍了Cube的移动和旋转。移动是修改transform的position属性,旋转是修改transform的eulerAngles(欧拉角)属性,两者属性值均可以使用Vector3向量来实现。需要大家注意的是&…...

视频文件切片

1.为什么网络点播系统使用m3u8更有优势?为何点播要用M3U8来搞?存成一个文件不更好吗? 一个MP4文件可能几百M或几个G,如果读取整个MP4文件的信息并且需要下载一段内容,首次打开播放超慢(加载时间长)。如果把…...

维生素的缺乏与生理功能,是否需要补充维生素【持续学习】

health & nutrition 学习自河南大学丁勇老师:https://space.bilibili.com/510028707 去医院查体内维生素缺啥:营养科或内科开单子 直接门诊查个维生素就可以。9项不到600块 正常吃饭,保湿和防晒 伤口愈合慢——蛋白质,vc 干燥…...

CUDA下载,以及下载GPU版本的pytorch

一、下载anaconda 因为这步我之前就下好了,主要参考这个链接:史上最全最详细的Anaconda安装教程 二、下载CUDA 1.首先观察自己需要什么版本的CUDA,以及是否安装过CUDA 先cmd,输入命令 nvidia-smi结果如下,所以我们…...

学习笔记:c存储类

✨博文作者:烟雨孤舟 💖 喜欢的可以 点赞 收藏 关注哦~~ ✍️ 作者简介: 一个热爱大数据的学习者 文章目录 目录 文章目录 简介 auto 存储类 register 存储类 static 存储类 extern 存储类 总结 简介 存储类定义 C 程序中变量/函数的的存储位置…...

236. 二叉树的最近公共祖先【190】

难度等级:中等 上一篇算法: 103. 二叉树的锯齿形层序遍历【191】 力扣此题地址: 236. 二叉树的最近公共祖先 - 力扣(Leetcode) 1.题目:236. 二叉树的最近公共祖先 给定一个二叉树, 找到该树中两个指定节点…...

即时配送,即时很重要!商家能不能盈利,“快”是源头

“家里水果没有了,选几样叫个跑腿送来吧。” “现在得囤点布洛芬了,我从网上下单。” “同城配送真是太及时、太方便了。” 最近一段时间,如果要问有什么产业突然兴起的话,即时零售无疑是市场最受欢迎的产业。甚至有种说法&…...

ChatGPT原理剖析

文章目录 ChatGPT常见误解1. 罐头回应2. 网络搜寻重组 ChatGPT真正做的事——文字接龙ChatGPT背后的关键技术——预训练(Pre-train)一般机器是怎样学习的? ChatGPT带来的研究问题1. 如何精准提出需求2. 如何更改错误3. 侦测AI生成的物件4. 不…...

「C/C++」C/C++软件跨平台思维

博客主页:何曾参静谧的博客 文章专栏:「C/C」C/C学习 目录 相关术语一、编写可移植的代码:二、使用跨平台的C库和框架:三、进行兼容性测试:四、用户界面设计: 相关术语 跨平台思维:是指在软件开…...

c# 通过界面上填写的信息输出到对应的word中,并另存为一个新的文件

c# 通过界面上填写的信息输出到对应的word中,并另存为一个新的文件 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tas…...

HTML+CSS+JS 学习笔记(四)———jQuery

🌱博客主页:大寄一场. 🌱系列专栏:前端 🌱往期回顾: 😘博客制作不易欢迎各位👍点赞⭐收藏➕关注​​ 目录 jQuery 基础 jQuery 概述 下载与配置jQuery 2. 配置jQuery jQuery 选…...

TryHackMe-Mnemonic(boot2root)

Mnemonic I hope you have fun. 端口扫描 循例nmap FTP枚举 尝试anonymous Web枚举 进80 gobuster扫 对着webmasters再扫一下 对着backups继续扫 下载zip文件,发现有密码 zip2john john直接爆 查看note.txt, 给出了ftpuser hydra直接爆ftp 进到ftp 用wget下载所…...

.Net框架,除了EF还有很多很多......

文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...

Module Federation 和 Native Federation 的比较

前言 Module Federation 是 Webpack 5 引入的微前端架构方案,允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。 概念解析 Module Federation (模块联邦) Modul…...

大学生职业发展与就业创业指导教学评价

这里是引用 作为软工2203/2204班的学生,我们非常感谢您在《大学生职业发展与就业创业指导》课程中的悉心教导。这门课程对我们即将面临实习和就业的工科学生来说至关重要,而您认真负责的教学态度,让课程的每一部分都充满了实用价值。 尤其让我…...

Unsafe Fileupload篇补充-木马的详细教程与木马分享(中国蚁剑方式)

在之前的皮卡丘靶场第九期Unsafe Fileupload篇中我们学习了木马的原理并且学了一个简单的木马文件 本期内容是为了更好的为大家解释木马(服务器方面的)的原理,连接,以及各种木马及连接工具的分享 文件木马:https://w…...

比较数据迁移后MySQL数据库和OceanBase数据仓库中的表

设计一个MySQL数据库和OceanBase数据仓库的表数据比较的详细程序流程,两张表是相同的结构,都有整型主键id字段,需要每次从数据库分批取得2000条数据,用于比较,比较操作的同时可以再取2000条数据,等上一次比较完成之后,开始比较,直到比较完所有的数据。比较操作需要比较…...

水泥厂自动化升级利器:Devicenet转Modbus rtu协议转换网关

在水泥厂的生产流程中,工业自动化网关起着至关重要的作用,尤其是JH-DVN-RTU疆鸿智能Devicenet转Modbus rtu协议转换网关,为水泥厂实现高效生产与精准控制提供了有力支持。 水泥厂设备众多,其中不少设备采用Devicenet协议。Devicen…...

解析两阶段提交与三阶段提交的核心差异及MySQL实现方案

引言 在分布式系统的事务处理中,如何保障跨节点数据操作的一致性始终是核心挑战。经典的两阶段提交协议(2PC)通过准备阶段与提交阶段的协调机制,以同步决策模式确保事务原子性。其改进版本三阶段提交协议(3PC&#xf…...

ui框架-文件列表展示

ui框架-文件列表展示 介绍 UI框架的文件列表展示组件,可以展示文件夹,支持列表展示和图标展示模式。组件提供了丰富的功能和可配置选项,适用于文件管理、文件上传等场景。 功能特性 支持列表模式和网格模式的切换展示支持文件和文件夹的层…...

JDK 17 序列化是怎么回事

如何序列化?其实很简单,就是根据每个类型,用工厂类调用。逐个完成。 没什么漂亮的代码,只有有效、稳定的代码。 代码中调用toJson toJson 代码 mapper.writeValueAsString ObjectMapper DefaultSerializerProvider 一堆实…...

深入浅出WebGL:在浏览器中解锁3D世界的魔法钥匙

WebGL:在浏览器中解锁3D世界的魔法钥匙 引言:网页的边界正在消失 在数字化浪潮的推动下,网页早已不再是静态信息的展示窗口。如今,我们可以在浏览器中体验逼真的3D游戏、交互式数据可视化、虚拟实验室,甚至沉浸式的V…...