数据资产目录建设之数据分类全解
01
数据治理“洗澡论”
其实他们之前做过数据一轮数据资产盘点,做了一个分类,也挂到系统上了,但是后来就没有后来了。治理做一半,等于啥也没干。
我之前在群里开了一个玩笑,数据治理这种事情,就跟洗澡一样,首先得勤快点洗。一天不洗澡,身上就臭了。
另外,标准也很重要,南方和北方对“洗干净”的定义不一样。南方洗澡的时候,只要泡泡冲干净,就算洗干净了。北方洗澡的时候,身上不搓下来二斤泥都不叫洗干净了。
还有,洗澡得全面,有些人洗澡不洗头还说得过去,但是洗澡只洗左胳膊,这算咋回事?
最后,洗完澡得维护,水得擦干啊,衣服得换干净的,不要到外面踩泥巴,要讲卫生啊!
但是很多人认为数据治理就是弄个项目就完事的。这就像是中世纪的欧洲,一生就洗三次澡,出生一次,结婚一次,入殓一次。其他时间都靠香水度日
所以数据治理不是立一个项目就完事的,要么在家弄个浴室,要么定期去外面大众浴室,条件好可以再叫个搓澡的师傅,上个奶盐。
02
数据分类原则
这不,跟长时间没洗澡一样,长“数据虱子”了,各种指标爆炸、数据质量低下等问题让数据部门的彭友非常难受,所以他们又要开始做数据治理了。
首先要做的就是数据资产盘点,建立数据资产目录。盘点的时候好说,就是各种整理呗。
但是到建立数据资产目录的时候就傻眼了,他们先是按照自己的理解整了一版目录结构。
但是在把数据资产装进去的时候就发现有些数据资源不属于现有的任何一个分类,然后又来调整,但是一会儿又发现有些数据资源放这里也行,放在那里也行,这就蒙圈了
这是因为没有把握住数据分类的原则。具体可以分为:
1、全量:能够容纳组织全量数据资产;
2、系统:数据分类必须系统化、体系化,层次清晰、逻辑鲜明,形成具有隶属和并列关系的分类体系,展示数据之间的联系和区别;
3、规范:目录名称要能准确的表达该类目的实际内涵和外延,在整个目录中保持规范;
4、唯一:目录体系内,各自界限分明,尽可能保证不重复、不交叉、相互独立且唯一;
5、稳定可扩展:建立的数据分类要保持一定的稳定性,保持一段时间内的可持续使用,并保留可扩展的余地。
03
数据分类方法
数据分类其实来源于信息分类法,一共有三种:线分类法、面分类法、混合分类法。
线分类法:简单来说,就是将数据按选定的若干个属性或特征,逐次分为若干层级, 每个层级又分为若干类别。
同一分支的同层级类别之间构成并列关系,不同层级类别之间构成隶属关系。同层级类别互不重复,互不交叉。
线分类法适用于针对一个类别只选取单一分类维度进行分类的场景。最典型的线分类法就是生物分类系统,有一个学科专门研究这个,叫“生物分类学”。
你仔细看看上面的图,就知道线分类法有很大的局限:一个分类只能描述单一的逻辑复杂一点就没法弄了,比如集团中有好几个不同的业态...
面分类法:就是把数据依据各种属性或特征,分成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。
还可以将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起,可以组成一个复合类别。
比如服装,有材料、颜色、款式等多个面,可以自由搭配组成任意内容。下面这个例子则是螺丝的面分类法,可以分为材料、直径、钉头、表面处理:
面分类法是并行化分类方式,同一层级可有多个分类维度。面分类法适用于对一个类别同时选取多个分类维度进行分类的场景。
混合分类法:顾名思义,就是线分类+面分类结合咯。一般来说,还是得以某一个方法为主,另外一个为辅。
这下就能集合两种方式的优点,规避它们各自的缺点了。比如用面分类法解决多业态的问题,再用线分类法细化;或者用线分类法搞定前面几层,再用面分类法进行细化。
04
数据分类的层次关系
会后,彭友还找我要PPT。讲真,不是老彭我小气,关键是我还真没有专门为这个事情做一个PPT。
因为这些内容其实早就有很全的指导了,比如《证券期货数据分类分级指南》里就很全:
这张图把业务、数据和数据表现形态之间的关系表现的很清楚。我们需要从业务、数据和形态三个视角对数据分类进行理解。
其中,最先要了解的,就是业务。业务可以按条线和子类进行拆分,就算是集团公司,也能拆的很清晰。
然后从业务角度,向下再进行拆解,从数据角度进行分类。所以数据角度的第一个层级应该是业务主题域,而不是纯粹的数据角度。
数据分类应该从主题域不断细分,直到最细颗粒度。一般来说,在数据资产目录里,是要能看到详细的样例数据,并能申请API访问权限的。在这个时候,我们需要对数据进行分级,便于进行权限分配和安全管控。
最下面,其实不是数据的分类,而是数据的展示形态。数据最终是要在系统中用业务流程、数据查询、报表分析、大屏展示等各种形态利用起来的。
05
本标准采用多维度和线分类法相结合的方法,在主题、行业和服务三个维度对贵州省政府数据进行 分类,对于每个维度采用线分类法将其分为大类、中类和小类三级。业务部门可以根据业务需要,对数据分类进行小类之后的细分。对小类的细分,各部门可以根据业务数据的性质、功能、技术手段等一系 列问题进行扩展细分。本标准采用面分类法将政府数据按照多个维度进行关键词的标签构造。
根据基础电信企业业务运营特点和企业内部管理方法,收集企业内所有部门的数据资源,梳理所有数据资源。按照线分类法,按照业务属性(或特征),将基础电信企业数据分为若干数据大类,然后按照大类内部的数据隶属逻辑关系,将每个大类的数据分为若干层级,每个层级分为若干子类,同一分支的同层级子类之间构成并列关系,不同层级子类之间构成隶属关系。所有数据类及数据子类构成数据资源目录树,如图1所示。目录树的所有叶子节点是最小数据类。最小数据类是指属性(或特征)相同或 相似的一组数据。
用户相关数据:
4.用户统计分析类数据(用户使用习惯和行为分析数据、用户上网行为相关统计分析数据)
企业自身相关数据:
管理主体就是“WHO”,管理范围就是“WHERE”,这两个对象一确定,就说清楚了是“谁”具体负责“哪里”的事情,职责范围就清晰了,业务条线自然而然就划分出来了。
业务细分一共分为四个步骤:
步骤一:确定业务一级子类——基本业务条线。参考《证券期货行业数据模型》确定的业务条线作为基础。对!数据分类和模型是紧密关联的!!!
步骤二:确定每个业务条线下所有的业务管理主体(MS)。
步骤三:确定每个业务管理主体对应的管理范围,明确对应关系(MS-MS)
步骤四:命名映射关系——业务二级子类。
此方法可以在每一层都这么用,无限套娃,理论上可以把所有的业务细分到足够细的颗粒度,直到每个人。
但是我们分类的时候一般就分个3、4级就行了,在《指引》里,建议用MS-MS划分一次就行,剩下的层级放在数据归类阶段进行。
在数据归类阶段,参考他们提出的MS-MO(管理范围、管理对象)方法,对数据进行归类。
MS-MO方法其实也很好理解。管理范围就是延续上面“MS-MS”后面的MS。汇总起来就是MS-MS-MO,就是管理主体(WHO)、管理范围”WHERE“、管理对象”WHAT",即谁,在哪些业务范围,具体管理那些数据。
步骤一:明确各个业务二级子类的管理范围(MS)。
步骤二:确定业务二级子类的管理范围对应的管理对象(MS-MO),即找到业务二级子类下的全部数据。
步骤三:按照数据细分方法对各个“单类业务数据总和”分别细分,得到数据一级子类。
步骤四:命名数据一级子类。
经过上面的两大阶段,8个小步骤,就能得到一个完整的数据分类目录:
相关文章:
数据资产目录建设之数据分类全解
01 数据治理“洗澡论” 其实他们之前做过数据一轮数据资产盘点,做了一个分类,也挂到系统上了,但是后来就没有后来了。治理做一半,等于啥也没干。 我之前在群里开了一个玩笑,数据治理这种事情,就跟洗澡一…...
大模型的数据隐私问题有解了,浙江大学提出联邦大语言模型
作者 | 小戏、Python 理想化的 Learning 的理论方法作用于现实世界总会面临着诸多挑战,从模型部署到模型压缩,从数据的可获取性到数据的隐私问题。而面对着公共领域数据的稀缺性以及私有领域的数据隐私问题,联邦学习(Federated Le…...
flask-sqlalchemy使用
# sqlalchemy 集成到flask中 # 第三方: flask-sqlalchemy 封装了用起来,更简洁 安装 pip install flask-sqlalchemy 使用 # 使用flask-sqlalchemy集成1 导入 from flask_sqlalchemy import SQLAlchemy2 实例化得到对象db SQLAlchemy()3 将db注册到app中db.in…...
flask处理token的装饰器
以下是在 Flask 中基于 token 实现的登录验证装饰器的示例代码: import jwt from functools import wraps from flask import request, jsonify, current_appdef login_required(f):wraps(f)def decorated_function(*args, **kwargs):token request.headers.get(A…...
【Express.js】页面渲染
页面渲染 常见的页面分为两种,一种是静态页面,比如用 Vue、React 等写好的静态页面,另一种是动态模板页面,如 Thymeleaf,JSP 等。 本节将简要介绍如何在 express 中渲染静态页面,以及适用于 express 的模…...
2.UE数字人语音交互(UE数字人系统教程)
上一篇:1.Fay-UE5数字人工程导入 2.UE数字人语音交互(UE数字人系统教程) 1、启动ue数字人 2、下载Fay数字人控制器 Fay数字人控制器下载地址 3、依照说明配置运行Fay 4、启动Fay控制器 5、切换到UE界面开始说话 6、完成了…...
C语言——水仙花数字
//水仙花数字 //每个数位上的数字的 3次幂之和等于它本身 //列如:1531^35^33^3 #include<stdio.h> int main() {int i,x,y,z;for(i100;i<1000;i){xi%10;yi/10%10;zi/100%10;if(i(x*x*xy*y*yz*z*z))printf("%d\n",i);}return 0; } //输出100-1000…...
java中list对象拷贝至新的list对象并保持两个对象独立的方法
在Java中,如果你想拷贝一个List对象到一个新的List对象,并且修改原来的List不影响新的List中的内容,有几种方法可以实现:使用构造函数: 可以使用List的构造函数,传递原始List作为参数来创建一个新的List对象…...
使用AI工具Lama Cleaner一键去除水印、人物、背景等图片里的内容
使用AI工具Lama Cleaner一键去除水印、人物、背景等图片里的内容 前言前提条件相关介绍Lama Cleaner环境要求安装Lama Cleaner启动Lama CleanerCPU方式启动GPU方式启动 使用Lama Cleaner测试结果NO.1 检测框NO.2 水印NO.3 广州塔NO.4 人物背景 参考 前言 由于本人水平有限&…...
瑞数系列及顶像二次验证LOGS
瑞数商标局药监局专利局及顶像二次验证 日期:20230808 瑞数信息安全是一个专注于信息安全领域的公司,致力于为企业和个人提供全面的信息安全解决方案。他们的主要业务包括网络安全、数据安全、应用安全、云安全等方面的服务和产品。瑞数信息安全拥有一支…...
Anaconda版本和Python版本对应关系(持续更新...)
简介 Anaconda是包管理工具,是专注于数据分析的Python发行版本,其包含Python和许多常用软件包,不同的Anaconda版本里面也配备了不同的Python版本,并且Python的出现时间比Anaconda早很多;相对而言,python原生的pip安装方…...
vscode 搭建STM32开发环境
1.需要软件 1.1 vscode 1.2 STM32CubeMX,这个不是必须的,我是为了方便生成STM32代码 2.vscode配置 2.1安装keil Assistant 2.2配置keil Assistant 3.STMCUBE生成个STM32代码 ,如果有自己的代码可以忽略 4.代码添加到vscode,并…...
6款好用的思维导图在线制作网站盘点,拒绝低效、探索创意!
思维导图以其直观、系统的特性,成为了我们理清思路、整理信息的强大助手。利用好思维导图,我们可以更好地理解信息、链接概念,进一步提高我们的学习和工作效率。 在众多制作思维导图的软件中,在线思维导图制作网站更是因其…...
js的Promise
目录 异步任务回调地域Promise Promise的三种状态resolve传入值 Promise的实例方法thenthen的返回值返回Promise的状态 catchcatch的返回值 finally Promise的类方法resolverejectallallSettledraceany 异步任务 在js中,有些任务并不是立即执行的,如set…...
2.4g无线芯片G350规格书详细介绍
G350是一款高度集成的2.4GHz无线收发芯片,旨在为各种应用提供低成本、高性能的无线通信解决方案。该芯片通过降低功耗,在保持寄存器值条件下,实现最低电流为5μA,从而显著提高了电池寿命。它内置了发射接收FIFO寄存器,…...
React中使用mobx管理状态数据使用样例
MobX 是一个身经百战的库,它通过运用透明的函数式响应编程(Transparent Functional Reactive Programming,TFRP)使状态管理变得简单和可扩展。官网地址:关于 MobX | MobX中文文档 | MobX中文网 安装依赖 mobx-react-…...
《HeadFirst设计模式(第二版)》第五章代码——单例模式
代码文件目录: 初始版本: package Chapter5_SingletonPattern.origin;/*** Author 竹心* Date 2023/8/5**/public class Singleton {private static Singleton uniqueInstance;private Singleton(){}public static Singleton getInstance(){if(uniqueIn…...
Linux: network: tools: tcpdump,抓取vlan包需要注意的事情;不然会出现LLC协议
https://bugzilla.redhat.com/show_bug.cgi?id498981#c4 https://serverfault.com/questions/544651/vlan-tags-not-shown-in-packet-capture-linux-via-tcpdump 如果不加-e参数,抓取不到 vlan信息,会导致wireshark解析出现问题。因为,抓到…...
大数据离线阶段01:Apache Zookeeper
1.Zookeeper基本知识 ZooKeeper概述 Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。 ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理…...
数字孪生轨道交通,地铁视频孪生三维可视化管控平台
为促进数字孪生城市领域高质量发展,延续《数字孪生城市应用案例汇编(2022年)》已有研究成果,宣传推广一批创新性强、具有示范效应的优秀案例,为各部委及地方政府推动数字孪生城市建设提供有力支撑,中国信息…...
JavaSec-RCE
简介 RCE(Remote Code Execution),可以分为:命令注入(Command Injection)、代码注入(Code Injection) 代码注入 1.漏洞场景:Groovy代码注入 Groovy是一种基于JVM的动态语言,语法简洁,支持闭包、动态类型和Java互操作性,…...
抖音增长新引擎:品融电商,一站式全案代运营领跑者
抖音增长新引擎:品融电商,一站式全案代运营领跑者 在抖音这个日活超7亿的流量汪洋中,品牌如何破浪前行?自建团队成本高、效果难控;碎片化运营又难成合力——这正是许多企业面临的增长困局。品融电商以「抖音全案代运营…...
在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module
1、为什么要修改 CONNECT 报文? 多租户隔离:自动为接入设备追加租户前缀,后端按 ClientID 拆分队列。零代码鉴权:将入站用户名替换为 OAuth Access-Token,后端 Broker 统一校验。灰度发布:根据 IP/地理位写…...
【Oracle】分区表
个人主页:Guiat 归属专栏:Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...
使用 SymPy 进行向量和矩阵的高级操作
在科学计算和工程领域,向量和矩阵操作是解决问题的核心技能之一。Python 的 SymPy 库提供了强大的符号计算功能,能够高效地处理向量和矩阵的各种操作。本文将深入探讨如何使用 SymPy 进行向量和矩阵的创建、合并以及维度拓展等操作,并通过具体…...
Python 实现 Web 静态服务器(HTTP 协议)
目录 一、在本地启动 HTTP 服务器1. Windows 下安装 node.js1)下载安装包2)配置环境变量3)安装镜像4)node.js 的常用命令 2. 安装 http-server 服务3. 使用 http-server 开启服务1)使用 http-server2)详解 …...
Spring AI Chat Memory 实战指南:Local 与 JDBC 存储集成
一个面向 Java 开发者的 Sring-Ai 示例工程项目,该项目是一个 Spring AI 快速入门的样例工程项目,旨在通过一些小的案例展示 Spring AI 框架的核心功能和使用方法。 项目采用模块化设计,每个模块都专注于特定的功能领域,便于学习和…...
Ubuntu Cursor升级成v1.0
0. 当前版本低 使用当前 Cursor v0.50时 GitHub Copilot Chat 打不开,快捷键也不好用,当看到 Cursor 升级后,还是蛮高兴的 1. 下载 Cursor 下载地址:https://www.cursor.com/cn/downloads 点击下载 Linux (x64) ,…...
前端中slice和splic的区别
1. slice slice 用于从数组中提取一部分元素,返回一个新的数组。 特点: 不修改原数组:slice 不会改变原数组,而是返回一个新的数组。提取数组的部分:slice 会根据指定的开始索引和结束索引提取数组的一部分。不包含…...
【UE5 C++】通过文件对话框获取选择文件的路径
目录 效果 步骤 源码 效果 步骤 1. 在“xxx.Build.cs”中添加需要使用的模块 ,这里主要使用“DesktopPlatform”模块 2. 添加后闭UE编辑器,右键点击 .uproject 文件,选择 "Generate Visual Studio project files",重…...
