车企数据治理实践案例,实现数据生产、消费的闭环链路 | 数字化标杆
随着业务飞速发展,某汽车制造企业业务系统数量、复杂度和数据量都在呈几何级数的上涨,这就对于企业IT能力和IT架构模式的要求越来越高。加之企业大力发展数字化营销、新能源车等业务,希望通过持续优化客户体验,创造可持续发展的数字化转型之路。
为更好应对数字化变革所带来的挑战,现有的竖井架构的数据体系难以满足越来越多、越来越快的系统和数据交互、敏捷创新应用、数据共享、新业务拓展的需求。以数据驱动的数字化,将帮助车企全面了解用户的需求变化,也能为企业在营销、生产、服务等各个环节提供支撑,进一步提升企业的经营效率。
在开展某车企数据化转型时,需要解决三个核心问题:如何收集汇总和运营自己的数据?如何建立数据治理运营团队?如何在短期内快速展现成果,在企业内部建立信心?
本次某车企数据中心二期的建设重点是数据治理平台建设。数据治理平台的核心理念在于“数据取之于业务,用之于业务”,即完整构建某车企从数据生产到消费,消费后产生的数据再回流到生产流程的闭环过程。
01 数据“生产-消费-生产”闭环的数据治理方案
1、咨询服务
在某车企组织架构、制度体系和数据资产盘点的基础上,结合国际、国内和行业标准,围绕数据资产全生命周期管理,制定相关的数据规范体系。通过数据治理咨询建设所涉项目的数据治理体系,包括标准、组织、规范、流程、制度等,实现营销业务线、制造业务线、研发业务线数据分级分类标准制定,形成包含主数据、数据标准、数据模型、元数据、数据质量、数据安全、数据生命周期、数据架构等标准、流程与管理制度,并具备推广至全公司业务线的能力。
一是数据治理体系规划。数据治理整体规划方面包括数据管理愿景、组织模式、管理边界和推动策略,数据管理体系设计方面包括数据治理基础、数据管理核心领域、数据应用,任务及规划方面包括数据管理任务识别、实施原则分析、实施计划制定。
二是数据治理组织规划。根据数据管理工作的实际需要,在业务部门、技术管理部门和业务应用部门间要确定各个工作人员的职责。例如不同的业务部门应该明确各自业务开展对数据的具体要求和相关规则,而技术部门则会根据业务部门的需求负责具体的实施工作,包括将业务部门提出的要求转化成技术语言,用于事前的控制(如字段的约束)、事中的逻辑控制(例如控制不能为空)、事后的核查,以及具体的技术操作和编制定期的报告等。
2、平台搭建
提供袋鼠云数据资产管理套件与可视化开发套件,满足数据离线开发、实时开发、数据建模、数据标准、数据质量、数据血缘、数据安全、元数据管理、数据资产、数据标签等能力,集成自有大数据平台、开放平台、调度平台与可视化平台,管理数据资产、提升数据质量,打造数据资产中心、支撑业务创新的数据服务中心和应用中心。

3、项目实施
梳理营销业务线、制造业务线、研发业务线数据资产,划分数据域,构建数据应用,实现数据生命周期全流程打通。具体实施内容包括数据资产地图、数据模型、数据标准、元数据管理、数据血缘、数据分级分类、数据质量规则及报告等。
一是数据资产门户
全局统计企业数据资产情况,让企业管理者对数据的分布、增长、使用、质量情况有直观的了解。包括不限于:
1)数据指标的统计:数据源数量、表数量、存储量、使用量、质量评分。 2)数据趋势的统计:数据分布情况、数据增长趋势、数据使用热度。 3)数据使用排行:数据存储排行;元数据质量:规范趋势、规范排行。

二是数据地图
数据地图的定位是可视化的数据资产中心,用户可以在数据地图模块中查看平台内的所有数据表情况,同时可以进行全方位管理数据资产。
1)数据查找:汇聚平台内的所有数据表信息,方便开发人员快速定位所需数据表,支持用户根据类目、表名、所在项目、授权状态进行过滤,或直接根据表名搜索。
2)数据表元数据展现:用户指定某张表后,可以查看此表的基本信息,包括表名、物理存储量、生命周期、是否分区表、字段名称、字段类型、分区信息等,同时可以进行预览,直观地查看表内数据情况。
3)数据类目管理:当平台内的数据表越来越多时,数据类目的重要性就会日益突出。提供3层类目的管理,用户可自定义层级、名称,并将数据表指定至某个节点上,数据开发者在寻找数据时可根据数据类目快速定位。
4)数据审批授权:提供表级数据权限的管理,当用户需要跨项目访问表时(读/写)需先经项目管理员审批授权,审批通过后才可以对表进行跨项目访问。同时,授权审批具备有效期的概念,超出有效期后自动取消授权,提升数据访问的安全程度。
4)生命周期管理:提供表的生命周期管理,用户可在建表时指定生命周期,系统定时检测每张表/分区的数据更新时间,超出时间后自动删除数据,降低临时数据造成的存储压力。
5)数据血缘解析:提供自动解析同步任务和SQL代码,自动建立各个数据表的表级、字段级血缘关系,用户可直接在页面上看到每个指标的“前世今生”,便于快速排查指标问题,检查指标统计逻辑,依赖链路是否正常等。
三是数据质量
作为数据治理的内容,数据质量的保障与提升是大数据平台的必备功能。数据质量的管理工作大致可以按照事前、事中、事后的流程化体系来进行,即事前的监控规则定义、事中的数据生成监控、事后的数据质量分析。

1)事前管理:接入需要管理的数据源,并结合对业务需求和数据的理解,对需要监控的数据配置监控规则。
2)事中管理:通过对定义好的监控规则配置调度周期,系统自动执行,校验数据质量。
3)事后管理:对校验不满足规则的数据,及时发出错误提醒。同时系统自动生成监控报告,帮助用户复盘总结数据问题。
四是数据安全
1)数据权限控制:支持表级数据权限的管理,当用户需要跨项目访问表时(读/写)需先经项目管理员审批授权,审批通过后才可以对表进行跨项目访问。同时,授权审批具备有效期的概念,超出有效期后自动取消授权,提升数据访问的安全程度。支持数据资源服务的权限申请、审批,保障数据服务的安全性。
2)生命周期管理:支持表的生命周期管理,用户可在建表时指定生命周期,系统定时检测每张表/分区的数据更新时间,超出时间后自动删除数据,降低临时数据造成的存储压力。
3)数据影响解析:当用户配置了同步任务,并通过SQL任务进行多个步骤的清洗、转化处理之后最终会将结果数据输出,在整个处理链路中,数据的血缘关系就隐含在同步任务和SQL代码中,数据影响表示每个统计指标是如何从原始数据得到的过程。
4)数据脱敏:支持自定义脱敏规则,可应用于不同的敏感数据防止数据预览时造成数据泄露。包括支持根据国标自定义安全等级,对人、表进行分级分类定级;支持自定义脚本函数、正则表达式,按需关联识别规则、识别函数及脱敏规则,自动动态识 别敏感数据;支持内置多种敏感数据识别定期模板,即身份证、银行卡号、邮箱、手机号、IP、固定电话、 车牌号、姓名、公司、地址的识别,同时提供用户自定义规则。
02 搭建数据治理平台,数据质量大幅提升
某车企通过数据治理平台项目,完成了数据规范、标准、质量、服务体系、治理组织架构等内容建设,基本能满足企业2—3年数据发展的使用诉求。结合数据中台+数据治理方案,在该阶段取得了阶段性的成果:
一是构建强大数据开发与治理平台体系,通过数据平台的建设,为某车企实现数据基础处理平台、数据资产管理平台、数据服务平台。从而实现从标准化数据采集、数据质量管理、数据资产管理和数据应用的整套数据标准化处理流程,同时对接BI和报表工具,同时对元数据进行标准化的API管理能力。
二是快速定位数据问题根本原因,有许多数据问题不一定是真正的数据问题,如果所有使用者一碰到难以理解的问题就找技术人员协助定位,技术人员则会花费过多时间在问题定位上的,最终导致数据问题会越堆积越多的。因此,本次项目为使用者提供自助排查的功能,协助用户找到问题原因,实在解决不了的再找到技术人员协助解决。另外将数据流中间结果的数据可视化呈现,便于在最终结果报表缺失或有误的情况下,能够快速定位出是数据出错环节。
三是数据质量得到保障,数据价值高。数据质量可靠不仅提升了决策人员的决策效率以及成果,也可以降低发生风险的概率。当企业用可靠的数据时,可以更快、更一致地回答问题,做出决策。如果数据是高质量的,也能花更少的时间发现问题,而将更多的时间用于使用数据来获得洞察力、做决策、服务用户。
《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm
想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szcsdn
相关文章:
车企数据治理实践案例,实现数据生产、消费的闭环链路 | 数字化标杆
随着业务飞速发展,某汽车制造企业业务系统数量、复杂度和数据量都在呈几何级数的上涨,这就对于企业IT能力和IT架构模式的要求越来越高。加之企业大力发展数字化营销、新能源车等业务,希望通过持续优化客户体验,创造可持续发展的数…...
深入学习锁--Lock各种使用方法
一、什么是Lock Lock是一个接口,通常所说的可重入锁是指Lock的一个实现子类ReentrantLock 二、Lock实现步骤: ①创建锁对象Lock lock new ReentrantLock(); ②加锁lock.lock(); ③释放锁lock.unlock(); import java.util.concurrent.locks.Lock; import java.util…...
计算机毕设:基于机器学习的生物医学语音检测识别 附完整代码数据可直接运行
项目视频讲解: 基于机器学习的生物医学语音检测识别 完整代码数据可直接运行_哔哩哔哩_bilibili 运行效果图: 数据展示: 完整代码: #导入python的 numpy matplotlib pandas库 import pandas as pd import numpy as np import matplotlib.pyplot as plt #绘图 import se…...
VMware安装Ubuntu系统(Server端,Desktop端步骤一样)
天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…...
Navicat 与 华为云 GaussDB 合作再升级,赋能 GaussDB 分布式数据库
2023 年第三季度,Navicat 首次支持了华为云 GaussDB 主备版数据库。经过双方团队进一步的深化合作,Navicat 完成了 GaussDB 分布式的研发适配工作,赋能 GaussDB 全域数据库产品。 GaussDB 数据库分为主备版和分布式版两种模式。主备版适用于…...
【Docker】从零开始:13.Docker安装tomcat
Docker】从零开始:13.Docker安装Tomcat 下载Tomcat镜像启动Tomcat镜像新版本Tomcat修改访问Tomact首页 下载Tomcat镜像 [rootdocker ~]# docker pull tomcat Using default tag: latest latest: Pulling from library/tomcat 0e29546d541c: Pull complete 9b829c7…...
风控规则引擎(一):Java 动态脚本
风控规则引擎(一):Java 动态脚本 日常场景 共享单车会根据微信分或者芝麻分来判断是否交押金汽车租赁公司也会根据微信分或者芝麻分来判断是否交押金在一些外卖 APP 都会提供根据你的信用等级来发放贷款产品金融 APP 中会根据很复杂规则来判…...
第五十六天|583. 两个字符串的删除操作 72. 编辑距离
583. 两个字符串的删除操作 可以求出最大子序列然后用字符串长度去减,也可以用删除的思路,如下: class Solution { public:int minDistance(string word1, string word2) {vector<vector<int>> dp(word1.size()1,vector<int…...
java中Lists.newArrayList和new ArrayList的详细区别?
下面是对Lists.newArrayList()和new ArrayList<>()的详细区别进行举例说明: 创建具有初始数据的列表: java Copy code import com.google.common.collect.Lists; List<String> list1 Lists.newArrayList("apple", "banana…...
从图片或PDF文件识别表格提取内容的简单库img2table
img2table是一个基于OpenCV 图像处理的用于 PDF 和图像的表识别和提取 Python库。由于其设计基于神经网络的解决方案,提供了一种实用且更轻便的替代方案,尤其是在 CPU 上使用时。 该库的特点: 识别图像和PDF文件中的表格,包括在表…...
CSV文件中使用insert 函数在指定列循环插入不同数据
文章目录 一、系统、工具要求二、需求三、代码实现:四、核心代码解读五、逐行更改某一列数据六:实现在文件的末尾增加指定内容列 一、系统、工具要求 pandaspythoncsv Windows 系统 二、需求 我有两个文件: 文件一:subject_ma…...
【华为OD题库-064】最小传输时延I-java
题目 某通信网络中有N个网络结点,用1到N进行标识。网络通过一个有向无环图.表示,其中图的边的值表示结点之间的消息传递时延。 现给定相连节点之间的时延列表times[]{u,v, w),其中u表示源结点,v表示目的结点࿰…...
全文检索[ES系列] - 第495篇
历史文章(文章累计490) 《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 M…...
【预计IEEE出版|EI征稿通知】第六届下一代数据驱动网络国际学术会议 (NGDN 2024)
第六届下一代数据驱动网络国际学术会议 (NGDN 2024) The Sixth International Conference on Next Generation Data-driven Networks 2024年4月26-28日 | 中国沈阳 基于前几届在英国埃克塞特 (ISPA 2020) 、中国沈阳 (TrustCom 2021) 和中国武汉 (IEEETrustCom-2022) 成功举…...
C++软件在Win平台运行总结
Windows平台: 1.需要安装运行库:无论是exe还是动态库用的哪种平台工具集(visual2010-visual2019)进行编译,需要安装对应的运行时库vc_redist.x64.exe/vc_redist.x86.exe。比如Exe用的是VisualStdio2010工具集编译,其中链接的一个…...
【数电笔记】16-卡诺图绘制(逻辑函数的卡诺图化简)
目录 说明: 最小项卡诺图的组成 1. 相邻最小项 2. 卡诺图的组成 2.1 二变量卡诺图 2.2 三表变量卡诺图 2.3 四变量卡诺图 3. 卡诺图中的相邻项(几何相邻) 说明: 笔记配套视频来源:B站;本系列笔记并…...
前端面试灵魂提问(1)
1.自我介绍 2.在实习中,你负责那一模块 3.any与unknow的异同 相同点:any和unkonwn 可以接受任何值 不同点:any会丢掉类型限制,可以用any 类型的变量随意做任何事情。unknown 变量会强制执行类型检查,所以在使用一个…...
Linux中项目部署步骤
安装jdk,tomcat 安装步骤 1,将压缩包,拷贝到虚拟机中。 通过工具,将文件直接拖到虚拟机的/home下 2,回到虚拟机中,查看/home下,有两个压缩文件 3,给压缩文件做解压缩操作 tar -z…...
cmd下查看python命令的用法
在cmd下,可以运行python --help或者py --help来查看python命令的用法。例如:...
大型语言模型在实体关系提取中的应用探索(二)
上一篇文章我们探讨了如何使用大语言模型进行实体关系的抽取。本篇文章我们将进一步探索这个话题。比较一下国内外几款知名大模型在相同的实体关系提取任务下的表现。由于精力有限,我们无法全面测试各模型的实体关系抽取能力,因此,看到的效果…...
椭圆曲线密码学(ECC)
一、ECC算法概述 椭圆曲线密码学(Elliptic Curve Cryptography)是基于椭圆曲线数学理论的公钥密码系统,由Neal Koblitz和Victor Miller在1985年独立提出。相比RSA,ECC在相同安全强度下密钥更短(256位ECC ≈ 3072位RSA…...
STM32F4基本定时器使用和原理详解
STM32F4基本定时器使用和原理详解 前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...
拉力测试cuda pytorch 把 4070显卡拉满
import torch import timedef stress_test_gpu(matrix_size16384, duration300):"""对GPU进行压力测试,通过持续的矩阵乘法来最大化GPU利用率参数:matrix_size: 矩阵维度大小,增大可提高计算复杂度duration: 测试持续时间(秒&…...
[Java恶补day16] 238.除自身以外数组的乘积
给你一个整数数组 nums,返回 数组 answer ,其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法,且在 O(n) 时间复杂度…...
面试高频问题
文章目录 🚀 消息队列核心技术揭秘:从入门到秒杀面试官1️⃣ Kafka为何能"吞云吐雾"?性能背后的秘密1.1 顺序写入与零拷贝:性能的双引擎1.2 分区并行:数据的"八车道高速公路"1.3 页缓存与批量处理…...
《Offer来了:Java面试核心知识点精讲》大纲
文章目录 一、《Offer来了:Java面试核心知识点精讲》的典型大纲框架Java基础并发编程JVM原理数据库与缓存分布式架构系统设计二、《Offer来了:Java面试核心知识点精讲(原理篇)》技术文章大纲核心主题:Java基础原理与面试高频考点Java虚拟机(JVM)原理Java并发编程原理Jav…...
ZYNQ学习记录FPGA(二)Verilog语言
一、Verilog简介 1.1 HDL(Hardware Description language) 在解释HDL之前,先来了解一下数字系统设计的流程:逻辑设计 -> 电路实现 -> 系统验证。 逻辑设计又称前端,在这个过程中就需要用到HDL,正文…...
Docker、Wsl 打包迁移环境
电脑需要开启wsl2 可以使用wsl -v 查看当前的版本 wsl -v WSL 版本: 2.2.4.0 内核版本: 5.15.153.1-2 WSLg 版本: 1.0.61 MSRDC 版本: 1.2.5326 Direct3D 版本: 1.611.1-81528511 DXCore 版本: 10.0.2609…...
未授权访问事件频发,我们应当如何应对?
在当下,数据已成为企业和组织的核心资产,是推动业务发展、决策制定以及创新的关键驱动力。然而,未授权访问这一隐匿的安全威胁,正如同高悬的达摩克利斯之剑,时刻威胁着数据的安全,一旦触发,便可…...
__VUE_PROD_HYDRATION_MISMATCH_DETAILS__ is not explicitly defined.
这个警告表明您在使用Vue的esm-bundler构建版本时,未明确定义编译时特性标志。以下是详细解释和解决方案: 问题原因: 该标志是Vue 3.4引入的编译时特性标志,用于控制生产环境下SSR水合不匹配错误的详细报告1使用esm-bundler…...
