AI大模型在数据治理中的应用
目前,企业的数据治理工作以人工实施为主,其中一些重复性较强的工作,如:数据标准制定和映射、元数据信息完善、数据目录挂载等,需要消耗大量的人力和时间成本,这给本来就难以量化业务价值的治理工作的顺利推进带来了更多的困难。AI大模型的引入,可以有效地解决这一难题。相比传统的人工为主的数据治理,基于AI大模型的数据治理具有以下优势:
自动化:AI大模型可以通过学习和分析数据治理各项工作的特征和规则,自动化批量进行大规模数据的数据标准、元数据、数据质量管理、数据安全管理等数据治理任务,减少了人工处理的工作量,提升治理工作效率。
实时性:AI大模型可以实时监控和分析数据的变化,并及时进行预警或直接处理,提升数据治理的响应速度。
扩展性:AI大模型可以通过学习和迭代,持续提升自己的能力,以适应高度变化的业务和技术环境对数据治理的需求。
基于上述考量,在数据治理领域,基于AI大模型的能力,可以从如下主要场景实现从人工治理到智能治理的进化。
(一) 数据标准管理
无论是以人工为主的数据标准管理,还是基于AI大模型的智能化数据标准管理,首先都需要我们对企业的数据标准现状进行详尽的调研工作。调研的内容包括:企业当前的数据业务含义、数据标准分类、数据标准内容,业务和技术团队对当前数据标准的改进需求(以下简称“改进需求”),相关的国际标准、国家标准、地方标准和行业标准(以下统一简称为“外部标准”)等。
在此基础之上,利用AI大模型,可以从以下几个方面提升数据标准管理的智能化程度:
1.标准智能制定
基于企业现有标准、改进需求和外部标准,自动制定适合企业的数据标准。和人工制定的标准一样,自动制定的标准,也需要经过企业的业务和技术专家的审定后,才能正式发布使用。
2.标准智能落标
前向落标:按企业的数据标准实施策略,逐步赋能周边系统,在建表时,自动为字段推荐/匹配合适的数据标准。
后向落标:按企业的数据标准实施策略,逐步治理存量数据,批量自动化为其推荐/匹配合适的数据标准。
3.标准智能维护
随着业务需求和环境的变化,数据标准需要不断更新和维护。我们可以通过AI大模型,自动监测和分析业务数据的变化,提供标准的新增、变更、下线建议,帮助企业及时进行数据标准维护。
(二) 元数据管理
Gartner在其“数据编织”的架构中提出了Metadata Activation(国内一般翻译为“主动元数据”或“元数据激活”)的概念,随后又在其“元数据管理成熟度”中(见图3-2)对主动元数据进行了解释,概括来说就是:主动元数据指的是一种数据管理方式,即,发现、获取尽可能多的元数据,并以丰富的元数据为基础,利用各种AI技术手段(ML、NGL、知识图谱等),主动改进数据管理的工具和活动,提升数据管理的效率,降低管理成本。
图3:Gartner数据编织架构
图4:Gartner元数据管理技术成熟度
Gartner在提出数据编织概念时,AI大模型还没出圈,但我们可以想象,如果Gartner更新其对数据编织的阐述,肯定会毫不犹豫地把AI大模型加入其架构中。
在元数据管理中,利用AI大模型,可以从以下几个方面提升智能化程度:
1.元数据智能挖掘
企业在做元数据采集时,由于源系统设计和管理的不规范,大多数情况下只能采集到最基础的技术元数据信息(如:数据库、Schema、表名、字段名等),需要花费大量人力和时间完善其他的核心元数据信息(如:表的中文名、业务口径、描述、标签,字段的中文名、描述、取值说明、敏感等级等)。通过AI大模型的推理能力,可以基于最基础的技术元数据信息和业务样例数据,自动填充其他的核心元数据信息。
2.数据血缘智能挖掘
业务和技术的发展,以及随之而来的日益复杂的加工逻辑、多源异构的数据库和多种类型的加工脚本,这些都给数据血缘解析(尤其是字段级血缘解析)带来了极大的挑战。通过AI大模型的代码解读能力,可以提升复杂代码、异构数据库和多类型的加工脚本场景下,血缘解析的成功率和准确率。再进一步,如果能利用AI大治理模型总结并生成表级和字段级的业务口径或者数据处理逻辑,将极大地提升人们理解数据、数据溯源和数据影响分析的效率。
3.数据智能分类
基于数据对象的元数据、业务样例数据,自动推荐数据对象所属的数据分类或挂载的数据目录。
4.数据推荐
基于企业中数据使用者的个人信息(部门、岗位、参与的业务等)、在大数据体系平台(数据开发平台、数据治理平台、BI报表平台等)中的操作行为(搜索、查看、收藏、订阅等)和数据对象的元数据、业务样例数据,向数据使用者推荐他们需要的数据对象。
(三) 数据质量管理
在数据质量管理中,利用AI大模型,可以从以下几个方面提升管理的智能化程度:
1.质量规则推荐
基于数据对象的元数据和业务样例数据,自动为数据对象推荐/匹配表级和字段级的数据质量规则。
2.质量阈值推荐
通过持续分析历史的质量校验结果数据,向用户提供建议的质量异常阈值,并能持续调整建议的结果。
3.质量异常自动定位
基于数据血缘链路和数据质量校验结果,自动定位数据质量异常的源头。
4.质量异常智能修复
针对部分数据质量异常(如重复数据、缺失数据、不一致数据等),基于数据对象的元数据和质量正常的业务样例数据,自动修复数据中的异常。
(四) 数据安全管理
在数据安全管理中,利用AI大模型,可以从以下几个方面提升管理的智能化程度:
1.敏感数据智能识别
基于数据对象的元数据、业务样例数据和企业的数据分级策略,自动识别数据对象的敏感等级。
2.脱敏/加密规则推荐
基于数据对象的元数据、业务样例数据、敏感等级和企业的数据安全策略,自动为数据对象推荐/匹配脱敏或加密规则。
3.数据风险智能识别
基于数据对象的元数据、血缘、敏感等级,企业的数据安全策略和已有的数据权限策略,自动识别数据风险并提供异常处理策略,应用场景主要包括:
相关文章:

AI大模型在数据治理中的应用
目前,企业的数据治理工作以人工实施为主,其中一些重复性较强的工作,如:数据标准制定和映射、元数据信息完善、数据目录挂载等,需要消耗大量的人力和时间成本,这给本来就难以量化业务价值的治理工作的顺利推…...

【初学人工智能原理】【12】循环:序列依赖问题
前言 本文教程均来自b站【小白也能听懂的人工智能原理】,感兴趣的可自行到b站观看。 代码及工具箱 本专栏的代码和工具函数已经上传到GitHub:1571859588/xiaobai_AI: 零基础入门人工智能 (github.com),可以找到对应课程的代码 正文 对于…...

【QT】无法打开QT的ui文件,出现闪退情况
打开qt的ui文件出现闪退的情况: 解决办法:点击扩展-Qt VS Tools-Options 找到Qt General中的Qt Designer 的Run in detached window改为True。...
三、Spring-WebFlux实战案例-流式
目录 一、springboot之间通讯方式 1. 服务端 (Spring Boot) 1.1 添加依赖 1.2 控制器 2. 客户端 (WebClient) 2.1 添加依赖 2.2 客户端代码 3. 运行 二、web与服务之间通讯方式 1、服务端代码 2、客户端代码 3、注意事项 三、移动端与服务端之间通讯方式…...

html+css 实现hover双层按钮
前言:哈喽,大家好,今天给大家分享htmlcss 绚丽效果!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 文…...

SPIFFS与LittleFS的对gz文件格式的区别
SPIFFS 只能安装在Arduino上。LittleFS支持Arduino IDE和VScode的 PlatformIO。 SPIFFS serveStatic: server.serveStatic("/", SPIFFS, "/") 负责提供 SPIFFS 文件系统中的文件。您可以在 SPIFFS 上放置 .gz 文件,并该方法将自动处理它们。 …...

STM32L051K8U6-开发资料
STM32L051测试 (四、Flash和EEPROM的读写)-云社区-华为云 (huaweicloud.com) STM32L051测试 (四、Flash和EEPROM的读写) - 掘金 (juejin.cn) STM32L0 系列 EEPROM 读写,程序卡死?_stm32l0片内eeprom_stm3…...
Markdown语法学习
Markdown学习 一、基础语法讲解 1. 换行 本行末尾双空格然后回车(在Typora的中直接回车也可以) 2. 换段 本段末尾两次回车 3. 加粗 **加粗** __加粗__效果:加粗 4. 斜体 *加粗* _加粗_效果:斜体 5. 斜体加粗 ***加粗**…...
[最短路Floyd],启动!!!
B3647 【模板】Floyd #include<bits/stdc.h> #define ll long long #define fi first #define se second #define pb push_back #define PII pair<int,int > #define IOS ios::sync_with_stdio(false),cin.tie(0),cout.tie(0) using namespace std; const int N …...

7月29(信息差)
🌍最强模型 Llama 3.1 如期而至!扎克伯格最新访谈:Llama 会成为 AI 界的 Linux 🎄谷歌AlphaProof攻克国际奥赛数学题 https://www.51cto.com/article/793632.html ✨SearchGPT第一波评测来了!响应速度超快还没广告&…...
ubuntu中禁止使用鼠标拖动来移动文件
windows和ubuntu中都可以拖动文件到其他路径,然后达到移动文件的目的。 这种方式有好处也有坏处,好处是移动文件方便了,坏处是误操作后会造成故障,尤其是ubuntu中,本身鼠标就特别灵敏并且操作不便,拖动一个…...

【密码学】椭圆曲线密码体制(ECC)
椭圆曲线密码体制(Elliptic Curve Cryptography, ECC)是一种基于椭圆曲线数学特性的公钥密码系统。在介绍椭圆曲线之前,我们先来了解一下椭圆曲线的基本概念。 一、椭圆曲线是什么? (1)椭圆曲线的数学定义…...

第25集《大佛顶首楞严经》
丑二、腾疑细释 分二:寅一、阿难腾疑;寅二、如来细释 请大家打开讲义第五十六页,“丑二、腾疑细释”。 本经的修学重点,就是修学首楞严王三昧。它的整个重点,其实就是一个心地法门。我们在行菩萨道的时候慢慢会发觉…...
python 读写文件之 open 和 with open() 详细解析
python 读写文件之 open 和 with open() 详细解析 文章目录 python 读写文件之 open 和 with open() 详细解析1. open() 和 with open() 能打开不同的文件类型吗?2. 文本文件和二进制文件的区别2.1 文本文件 (Text Files)2.2 二进制文件 (Binary Files)区别 3. 读文…...
操作系统:内存----知识点
什么是虚拟内存? 虚拟内存简称虚存,是计算机系统内存管理的一种技术。它是相对于物理内存而言的,可以理解为“假的”内存。它使得应用程序认为它拥有连续可用的内存(一个连续完整的地址空间),允许程序员编…...
pfx如何配置到nginx中
有pfx文件的时候如何在nginx上使用 好的,如果您已经确认没有中间证书(或中间证书内容为空),那么可以直接使用服务器证书和私钥。以下是简化后的步骤: 从PFX文件中导出私钥: openssl pkcs12 -in xxx.com.pfx…...

详细测评下搬瓦工香港CN2 GIA VPS
搬瓦工香港VPS分移动CMI和电信CN2 GIA两个大类,一个属于骨干网,一个属于轻负载。搬瓦工的香港CN2 GIA根据测试来看实际上是CN2 GIABGP,并非三网纯CN2 GIA。详细测评数据如下: 用FIO再给测试一下硬盘I/O,可以仔细看看数…...

Java中的五种线程池类型
Java中的五种线程池类型 1. CachedThreadPool (有缓冲的线程池)2. FixedThreadPool (固定大小的线程池)3. ScheduledThreadPool(计划线程池)4. SingleThreadExecutor (单线程线程池)…...

FFmpeg Windows安装教程
一. 下载ffmpeg 进入Download FFmpeg网址,点击下载windows版ffmpeg。 下载第一个essentials版本就行。 二. 环境配置 上面源码解压后如下 将bin添加到系统环境变量 验证安装是否成功,输入ffmpeg –version,显示版本即为安装成功。...

‘#‘ is not followed by a macro parameter 关于宏定义的错误
今天在项目代码上想定义一个这样的宏,结果编译错误,这个宏定义类似这样的: #define DELETE_FILE_DPP(key) \ #ifdef PLATFORM_DPP \delete_file(&key); \ #endif 因为有平台之分需要用到编译宏,但不想每个调用的地方都写 #i…...
质量体系的重要
质量体系是为确保产品、服务或过程质量满足规定要求,由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面: 🏛️ 一、组织架构与职责 质量体系明确组织内各部门、岗位的职责与权限,形成层级清晰的管理网络…...

Unity | AmplifyShaderEditor插件基础(第七集:平面波动shader)
目录 一、👋🏻前言 二、😈sinx波动的基本原理 三、😈波动起来 1.sinx节点介绍 2.vertexPosition 3.集成Vector3 a.节点Append b.连起来 4.波动起来 a.波动的原理 b.时间节点 c.sinx的处理 四、🌊波动优化…...
鸿蒙DevEco Studio HarmonyOS 5跑酷小游戏实现指南
1. 项目概述 本跑酷小游戏基于鸿蒙HarmonyOS 5开发,使用DevEco Studio作为开发工具,采用Java语言实现,包含角色控制、障碍物生成和分数计算系统。 2. 项目结构 /src/main/java/com/example/runner/├── MainAbilitySlice.java // 主界…...

【C++特殊工具与技术】优化内存分配(一):C++中的内存分配
目录 一、C 内存的基本概念 1.1 内存的物理与逻辑结构 1.2 C 程序的内存区域划分 二、栈内存分配 2.1 栈内存的特点 2.2 栈内存分配示例 三、堆内存分配 3.1 new和delete操作符 4.2 内存泄漏与悬空指针问题 4.3 new和delete的重载 四、智能指针…...

淘宝扭蛋机小程序系统开发:打造互动性强的购物平台
淘宝扭蛋机小程序系统的开发,旨在打造一个互动性强的购物平台,让用户在购物的同时,能够享受到更多的乐趣和惊喜。 淘宝扭蛋机小程序系统拥有丰富的互动功能。用户可以通过虚拟摇杆操作扭蛋机,实现旋转、抽拉等动作,增…...

FFmpeg avformat_open_input函数分析
函数内部的总体流程如下: avformat_open_input 精简后的代码如下: int avformat_open_input(AVFormatContext **ps, const char *filename,ff_const59 AVInputFormat *fmt, AVDictionary **options) {AVFormatContext *s *ps;int i, ret 0;AVDictio…...

【UE5 C++】通过文件对话框获取选择文件的路径
目录 效果 步骤 源码 效果 步骤 1. 在“xxx.Build.cs”中添加需要使用的模块 ,这里主要使用“DesktopPlatform”模块 2. 添加后闭UE编辑器,右键点击 .uproject 文件,选择 "Generate Visual Studio project files",重…...

聚六亚甲基单胍盐酸盐市场深度解析:现状、挑战与机遇
根据 QYResearch 发布的市场报告显示,全球市场规模预计在 2031 年达到 9848 万美元,2025 - 2031 年期间年复合增长率(CAGR)为 3.7%。在竞争格局上,市场集中度较高,2024 年全球前十强厂商占据约 74.0% 的市场…...

GraphRAG优化新思路-开源的ROGRAG框架
目前的如微软开源的GraphRAG的工作流程都较为复杂,难以孤立地评估各个组件的贡献,传统的检索方法在处理复杂推理任务时可能不够有效,特别是在需要理解实体间关系或多跳知识的情况下。先说结论,看完后感觉这个框架性能上不会比Grap…...

如何做好一份技术文档?从规划到实践的完整指南
如何做好一份技术文档?从规划到实践的完整指南 🌟 嗨,我是IRpickstars! 🌌 总有一行代码,能点亮万千星辰。 🔍 在技术的宇宙中,我愿做永不停歇的探索者。 ✨ 用代码丈量世界&…...