当前位置: 首页 > news >正文

【2023 云栖】阿里云田奇铣:大模型驱动 DataWorks 数据开发治理平台智能化升级

云布道师

本文根据 2023 云栖大会演讲实录整理而成,演讲信息如下:

演讲人:田奇铣 | 阿里云 DataWorks 产品负责人

演讲主题:大模型驱动 DataWorks 数据开发治理平台智能化升级

随着大模型掀起 AI 技术革新浪潮,大数据也进入了与 AI 深度结合的创新时期。2023 年云栖大会上,阿里云 DataWorks 产品负责人田奇铣发布了 DataWorks Copilot、DataWorks AI 增强分析、DataWorks 湖仓融合数据管理等众多新产品能力,让 DataWorks 这款已经发展了 14 年的大数据开发治理平台产品,从一站式向智能化不断升级演进。

Data+AI 双轮驱动

进入 AIGC 时代,AI for Data 和 Data for AI 成为当下的热词。AI for Data,这个比较好理解,通过大模型驱动的 AI 智能助手,可以提升数据平台工具的效率。DataWorks 为企业搭建了一站式、全链路的工具链,在这个过程中,也源源不断地为企业构建数据资产,比如数据模型、元数据、数据血缘、数据指标等,在大模型时代,这些也可以称之为企业专属的领域知识,借助大模型强大的语义理解、推理、上下文学习、记忆能力,通过大模型的 Prompt Engineering,DataWorks 一站式平台可以为 AI 智能助手提供更接近的、更及时的、更全面的上下文信息,从而可以让AI 获得更好的效果和性能,这是 Data for AI。有了良好的数据基础,今天我们发布的众多新品就是借助 AI 大模型的能力,通过 Data + AI 双轮驱动,为数据开发和分析提供了新的范式,进一步提升企业获得数据价值的效率。在这里插入图片描述

云栖发布: DataWorks Copilot 智能 SQL 编程助手提升 30% 数据开发分析效率

DataWorks Copilot 是基于 NL2SQL 大模型打造的 SQL 编程助手,我们使用基于公开的数据集训练和微调的 NL2SQL 大模型,结合 Prompt Engineering,提供了丰富的自然语言生成 SQL 的操作。

  • SQL 生成

输入想要查询分析的自然语言描述,例如“统计最近 7 天的商品销售排行”,DataWorks Copilot 将自动生成对应的 SQL 语句。

  • SQL 续写

在 SQL IDE 中编写 SQL 代码时,DataWorks Copilot 能够提供智能代码提示建议,提升 SQL 编程效率。

  • SQL 纠错

当 SQL 运行报错时,DataWorks Copilot 可提供一键纠错服务,帮助 ETL 工程师和分析师快速修复 SQL 错误。

  • SQL 注释

以前写代码注释是个负担,我们自己不想写注释,却又希望别人的代码有注释。DataWorks Copilot 可以批量为建表语句生成字段 Comment 信息,也可以为 SQL 语句添加逐行注释,提升 SQL 的可读性。

  • SQL 解释

对于部分业务人员或者分析师,经常拿到是数仓工程师给到一段比较复杂的取数脚本,使用到的一些高级 SQL 语法和函数不懂什么意思但又想改一改取数逻辑,以前就要到处查资料或者请教别人。DataWorks Copilot 可以直接对 SQL 代码进行解释,帮助我们的业务人员更快理解 SQL 逻辑、用途,提高取数分析和 SQL 学习的效率。
DataWorks Copilot 智能 SQL 编程助手,在我们内部已经使用了一段时间了,根据我们的一些观测,可以为 ETL 开发和数据分析提效 30% 以上。
从 GUI 到 LUI,DataWorks Copilot 辅助 ETL 数仓开发
40 多年前出现了图形用户界面(GUI),大模型强大的自然语言理解能力,带来了全新的自然语言用户界面(LUI),这也是一种全新的人机交互方式,一个软件产品,能否提供 LUI,这也是大模型应用从AI智能助手迈向 AI 原生应用的标志能力之一。DataWorks 也在思考和探索,如何将复杂的产品操作逻辑隐藏在背后,借助大模型,对用户提供简单直接、更符合人性的自然语言用户界面。
我们做了一些产品实践。举几个应用场景,在实际工作中,找表是件头疼的问题,业务人员为了计算一个指标要找数仓的同学问该用哪张表,数仓同学天天应付这类咨询,也很烦躁。DataWorks Copilot 则可以提供通过自然语言快捷找表,让找表这件事情不用东问西问,从而提升企业的数据消费效率。在 ETL 开发过程中,有些操作是比较复杂或者繁琐的,比如调度配置、参数配置、数据质量规则配置,过去往往需要到不同的产品页面来回跳转和手工配置,现在 DataWorks Copilot 提供了对话式的自然语言用户界面,在一个统一对话窗口中,通过自然语言交互就可以完成很多跨产品工具的操作,比如说一句“给某某表配置一个什么质量规则”就可以完成数据质量检测的规则配置。未来,我们将持续丰富自然语言交互界面的覆盖范围。

DataWorks Copilot 提供了两种模型服务,第一种是基于公开数据集训练和微调的NL2SQL 大模型,当前在阿里云 DataWorks 官网可以直接申请参与邀测。如果有的企业对我们的模型效果有更高的期待,或者希望 Copilot 能够回答更贴近企业内部业务,我们可以提供企业专属的模型微调服务,结合阿里云人工智能平台 PAI 以及大模型专家服务,可以为企业量身定制专属代码大模型以及私有化大模型部署服务。

云栖发布:DataWorks AI 增强数据分析

企业在数据生产建设上投入这么多资源,最终希望是洞察数据中的业务价值,指导企业的经营、决策。传统的统计分析方法常常先假设一种统计模型,然后根据数据样本来估计模型参数,从而了解数据的特征,但实际中往往有很多数据并不符合假设的统计模型。探索性数据分析强调让数据自身“说话”,先对数据特征、统计量进行探索,然后再选取合适的模型进一步分析,这是一种更加贴合实际情况的分析方法。在 AI 时代,数据洞察也不断向智能化演进,AI 增强分析利用 AI 技术,可以加速或者自动化数据探索与洞察,帮助分析师从手工数据探索中解放出来。AI 技术还能更好地发现数据中隐藏的规律和趋势,帮助分析师进一步突破自身固有认知的局限。
DataWorks 联合 DataV 数据可视化产品,深度结合 AI 技术,推出了 AI 增强分析产品。目前提供了四项核心能力:

  • 自动数据探查

自动探查数据集,无需专业技术背景即可快速了解数据特征、统计分布。

  • AI 自动图表生成

基于自动数据探查的信息,自动生成数据图表卡片,结合 AI 技术,自动识别不同数据字段组合之间的相关性并生成图表,不需要你手动写很多 SQL 进行分析,可以帮助你快速获得灵感,保存见解。

  • AI 智能数据查询

结合大模型技术,通过自然语言生成 SQL 查询数据,并自动为查询结果自动推荐和生成数据图表卡片。

  • 一键构建和分享数据报告

可以像制作 PPT 一样,将上面生成的数据图表卡片一键生成数据长图报告,支持导出为图片或者一键分享。
DataWorks AI 增强分析,让数据自己“说话”,将数据洞察过程尽可能的自动化、无代码化,通过 AI 还能自动发现数据中的潜在趋势,讲好数据故事,表达数据观点。这款产品目前在公测当中,大家开通 DataWorks 后进入数据分析产品即可申请公测体验。

云栖发布:DataWorks 湖仓融合数据管理

随着市场的不断变化,企业业务也不断的发展,企业面临的竞争和不确定性也越来越大,数据需求从简单的查询、统计到 BI 到数据科学到推荐预测到 AI 应用,整体上从简单的固定查询统计到复杂多变灵活的智能化分析,相应企业数据架构也发生了变化,从数据库到数据仓库到数据湖,再到湖仓融合,整个演进过程是在追求更高的数据效率和更好更快的满足企业的各种灵活多变的数据需求。湖仓融合数据架构既兼顾数据仓库的规范性和企业级能力,又兼顾数据湖的灵活性和生态开放性,成为越来越多企业所关注的数据架构。在这里插入图片描述
DataWorks 当前全面支持湖仓融合的数据管理,在存储层,离线数据仓库MaxCompute 和实时数据仓库 Hologres 以及数据湖存储 OSS/OSS-HDFS,它们之间已经在存储层做了无缝的打通,不需要复制移动数据就可以进行数据的联邦查询。在这之上,DataWorks 提供了统一的湖仓融合数据管理用户界面。

  • 实时数据秒级入湖

在数据集成上,DataWorks 本身支持 50 多种异构数据源的离线、实时同步入仓。今年新增实时数据入湖的能力,实现数据秒级实时入湖,并且支持在数据同步过程中自动进行库表字段的更新,同时在这个过程中也能够进行元数据的自动发现和注册,借助 DLF 可以在 DataWorks 数据地图里进行湖仓统一的元数据管理。

  • 湖仓融合 ETL 开发调度

面向湖仓融合架构中多种计算引擎,如 MaxCompute、Hologres、Spark、Hive、Presto 等,提供了统一的 ETL 任务开发、任务编排调度和运维服务,实现统一的数据开发流水线,解决企业因数据架构不统一造成的数据生产链路割裂、不稳定等难以管理的问题。

  • 湖仓融合数据治理

DataWorks 新增支持了湖仓融合数据治理。不仅能支持湖仓统一的元数据管理、数据建模和数据质量管理,而且 DataWorks 的主动式、自动化数据治理工具“DataWorks 数据治理中心”也全面支持了 EMR+OSS 数据湖。
DataWorks 数据治理中心,将成熟的数仓治理能力全面扩展到了 EMR+OSS 数据湖。为了简化湖仓架构下的数据治理难度,让数据治理不再是运动式的,而是能够真正可持续、可跟进、可落地,DataWorks 数据治理中心,新增了“数据治理计划”功能,来协助用户完成主动式的数据治理规划和诊断。
数据治理计划内置了面向数据管理者的计算存储的成本治理、任务的稳定性治理等数据治理场景的模板,支持企业设置一个数据治理目标,提供多个维度的数据治理健康度的评估模型,帮助大家去评估数据治理的成效。
数据治理计划面向数据治理的执行者,提供 60 余项覆盖 5 个维度的治理规则库,结合设置的数据治理目标方向,数据治理产品可以自动推荐圈选和目标相关的数据治理问题,并且提供相应的治理手段和方法,帮助数据治理的执行者可以及时的发现问题解决问题。同时数据治理中心提供事前的问题拦截,在数据开发阶段可以事前发现很多的问题,比如代码规范问题,表明任务名命名规范问题,可以进行提前的拦截,这些事前拦截的插件和事后问题发现的插件都是允许支持企业自己定义。
数据治理应用:成本优化-无效任务自动化下线
随着企业业务的不断变化,企业人员变动,不可避免地会出现越来越多的无效数据任务,每天都在消耗着大量的计算成本和存储成本。传统的手动治理,需要依赖数据工程师人工分析判断,进行复杂的影响分析,还存在与相关被影响人员的沟通协同成本,极容易因不小心失误影响了线上任务造成故障,从而导致数据工程师因害怕出问题而对无效任务不敢治理,不愿治理。
DataWorks 数据治理中心,提供了一项称之为“优雅下线”的产品功能,可对无效任务进行批量的流程化、自动化的下线治理。首先会自动进行任务下线的影响分析,然后将任务下线分解为延迟调度、暂停调度、下线任务、备份产出表、删除产出表五个步骤,每个步骤还提供一个静默期并自动通知相关责任人或者受影响人。整个过程类似于一种“灰度下线”机制,一旦出问题可以快速恢复,并将影响范围降到最低。在这里插入图片描述
在阿里内部数据团队,原先治理下线一组涉及到 30 个责任人的 1000 个任务,从拉群拉会沟通,分析下线影响,制定下线计划,各自分别执行下线操作到结果跟进,要花费 3-5 个月时间。有了 DataWork s数据治理中心的优雅下线功能,2 天完成治理动作,1 周完成影响观察,15 天即可正式结项。DataWorks 数据治理中心的优雅下线已经帮助阿里内部数仓团队成功下线了数万个无效任务,节省在大量的存储计算成本。
DataWorks 数据治理中心已经在 DataWorks 企业版提供服务,近期也会推出企业版的试用活动,大家可以关注产品的官网信息。在这里插入图片描述

从 2009 年诞生在阿里巴巴集团内部开始,DataWorks 一直是一站式平台的倡导者与坚定执行者,包含从数据集成、数据开发的工具链、数据治理的工具链,以及到数据消费侧的分析及服务的产品,我们通过一站式平台不断为企业构建、沉淀企业的数据资产。在 AI 时代,DataWorks 将 14 年积累的产品能力不断与大模型进行融合创新,为企业一站式智能化的数据平台产品,提升企业数据流转效率,加速企业数据价值获取。

相关文章:

【2023 云栖】阿里云田奇铣:大模型驱动 DataWorks 数据开发治理平台智能化升级

云布道师 本文根据 2023 云栖大会演讲实录整理而成,演讲信息如下: 演讲人:田奇铣 | 阿里云 DataWorks 产品负责人 演讲主题:大模型驱动 DataWorks 数据开发治理平台智能化升级 随着大模型掀起 AI 技术革新浪潮,大数…...

Rust语言入门教程(二) - 变量与作用域

变量与作用域 变量的声明与初始化 Rust的基本语法格式如下: fn main(){let bunnies 2; }语句以分号结尾,用花括号包含语句块。 Rust的语法其实借鉴了很多其他的语言,比如C语言和Python, 所以变量定义的格式看起来也跟很多我们…...

芯知识 | Flash可更换声音语音芯片—引领音频IC技术革新的新篇章

随着科技的飞速发展,人们对于电子产品的音频性能要求越来越高。在这种背景下,Flash可更换声音语音芯片应运而生,成为音频技术领域的一颗璀璨明星。本文将详细介绍Flash可更换声音语音芯片的特点、优势以及应用场景,展望其在未来科…...

合共软件创新亮相:第102届上海电子展成就技术新篇章

2023年,第102届中国(上海)电子展活动在全球瞩目中圆满落幕。作为下半年华东地区最具影响力的电子展会,此次盛会吸引了来自全球的600家领先企业,共同探讨电子元器件行业的最新发展成果和趋势。 本届展会围绕核心先导元器…...

Ubuntu20.04清理垃圾vscode缓存

使用VM虚拟机安装了Ubuntu系统,主目录空间越来越小,硬盘扩容之后很快又空间不足,甚至出现了开机卡黑屏的情况,这里记录一下解决过程。 1 重新开机进入系统 状态:卡到了开机黑屏状态,左上角有一条小横杠 原…...

网络数据结构skb_buff原理

skb_buff基本原理 内核中sk_buff结构体在各层协议之间传输不是用拷贝sk_buff结构体,而是通过增加协议头和移动指针来操作的。如果是从L4传输到L2,则是通过往sk_buff结构体中增加该层协议头来操作;如果是从L4到L2,则是通过移动sk_…...

SpringCache使用详解

SpringCache 1.新建测试项目SpringCache2.SpringCache整合redis2.1.Cacheable2.2.CacheEvict2.3.Cacheput2.4.Caching2.5.CacheConfig 3.SpringCache问题4.SpringCache实现多级缓存 1.新建测试项目SpringCache 引入依赖 <dependencies><dependency><groupId&g…...

windows版本的grafana如何离线安装插件

本文以安装clickhouse的插件为例&#xff0c;记录下如何离线安装插件 1 下载插件 ClickHouse plugin for Grafana | Grafana Labs 2 找到grafana的配置文件 打开编辑&#xff0c;搜索plugin关键字&#xff0c;修改plugin的加载目录 目录不存在&#xff0c;手动创建&#xff0…...

ElasticSearch01

ElasticSearch 版本&#xff1a;7.8 学习视频&#xff1a;尚硅谷 笔记&#xff1a;https://zgtsky.top/ ElasticSearch介绍 Elaticsearch&#xff0c;简称为es&#xff0c; es是一个开源的高扩展的分布式全文检索引擎&#xff0c;它可以近乎实时的存储、检索数据&#xff1b…...

GPT、GPT-2、GPT-3论文精读笔记

视频&#xff1a;GPT&#xff0c;GPT-2&#xff0c;GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili MAE论文&#xff1a;把bert用回计算机视觉领域 CLIP论文&#xff1a;打通文本和图像 GPT 论文&#xff1a;Improving Language Understanding by Generative Pre-Training …...

深度学习八股文:混合精度训练过程出nan怎么办

其实如果是FP32的训练&#xff0c;基本的调试方法还是差不多&#xff0c;这里就讲一下混合精度训练过程中的nan。 混合精度训练使用较低的数值精度&#xff08;通常是半精度浮点数&#xff0c;例如FP16&#xff09;来加速模型训练&#xff0c;但在一些情况下&#xff0c;可能会…...

竞赛选题 题目:基于卷积神经网络的手写字符识别 - 深度学习

文章目录 0 前言1 简介2 LeNet-5 模型的介绍2.1 结构解析2.2 C1层2.3 S2层S2层和C3层连接 2.4 F6与C5层 3 写数字识别算法模型的构建3.1 输入层设计3.2 激活函数的选取3.3 卷积层设计3.4 降采样层3.5 输出层设计 4 网络模型的总体结构5 部分实现代码6 在线手写识别7 最后 0 前言…...

Cesium-terrain-builder编译入坑详解

本以为编译cesium-terrian-tools编译应该没那么难&#xff0c;不想问题重重&#xff0c;不想后人重蹈覆辙&#xff0c;也记录下点点滴滴。 目前网上存在的cesium代码版本主要有两个分支&#xff1a; 原始网站【不能生成layer文件&#xff0c;且经久不更新&#xff0c;使用gdal…...

3.1 CPU内部结构与时钟与指令

CPU内部结构 总线一些自定义部件总线图内存指令执行流程:取指令,译码,执行pc做的事内存地址寄存器内存缓存寄存器指令寄存器,译码第一步指令寄存器传递地址到内存地址寄存器指令MOV_A的过程(译码第二步)第一条指令执行完毕第三条指令的执行第四条指令第四条指令不同的执行流程…...

电机应用-直流有刷电机多环控制实现

目录 直流有刷电机多环控制实现 硬件设计 直流电机三环&#xff08;速度环、电流环、位置环&#xff09;串级PID控制-位置式PID 编程要点 配置ADC可读取电流值 配置基本定时器6产生定时中断读取当前电路中驱动电机的电流值并执行PID运算 配置定时器1输出PWM控制电机 配…...

Java常量池理论篇:Class常量池、运行时常量池、String常量池、基本类型常量池,intern方法1.6、1.7的区别

文章目录 Class常量池运行时常量池String常量池基本类型常量池Integer 常量池Long 常量池 加餐部分 Class常量池 每个Class字节码文件中包含类常量池用来存放字面量以及符号引用等信息。 运行时常量池 java文件被编译成class文件之后&#xff0c;也就是会生成我上面所说的 …...

module java.base does not “opens java.io“ to unnamed module

环境 如上图所示&#xff0c; Runtime version的版本是JAVA 17 项目所需要JDK版本为JAVA 8 解决...

鸿蒙原生应用/元服务开发-AGC分发如何配置签名信息

使用制作的私钥&#xff08;.p12&#xff09;文件、在AGC申请的证书文件和Profile&#xff08;.p7b&#xff09;文件&#xff0c;在DevEco Studio配置工程的签名信息&#xff0c;以构建携带发布签名信息的APP。 1.打开DevEco Studio&#xff0c;菜单选择“File > Project S…...

【HTML5-webscoket实时通信(web)】

websocket是什么&#xff1f; 就是用来创建网络聊天室&#xff0c;实时通信websocket的方法有哪些&#xff1f; https://developer.mozilla.org/zh-CN/docs/Web/API/WebSockets如何实现&#xff1a;&#xff08;以下实现流程&#xff09; 前端&#xff1a; // 直播中// 聊天web…...

如何在Android平板上远程连接Ubuntu服务器code-server进行代码开发?

文章目录 1.ubuntu本地安装code-server2. 安装cpolar内网穿透3. 创建隧道映射本地端口4. 安卓平板测试访问5.固定域名公网地址6.结语 1.ubuntu本地安装code-server 准备一台虚拟机&#xff0c;Ubuntu或者centos都可以&#xff0c;这里以VMwhere ubuntu系统为例 下载code serve…...

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站&#xff0c;会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后&#xff0c;网站没有变化的情况。 不熟悉siteground主机的新手&#xff0c;遇到这个问题&#xff0c;就很抓狂&#xff0c;明明是哪都没操作错误&#x…...

超短脉冲激光自聚焦效应

前言与目录 强激光引起自聚焦效应机理 超短脉冲激光在脆性材料内部加工时引起的自聚焦效应&#xff0c;这是一种非线性光学现象&#xff0c;主要涉及光学克尔效应和材料的非线性光学特性。 自聚焦效应可以产生局部的强光场&#xff0c;对材料产生非线性响应&#xff0c;可能…...

【JVM】- 内存结构

引言 JVM&#xff1a;Java Virtual Machine 定义&#xff1a;Java虚拟机&#xff0c;Java二进制字节码的运行环境好处&#xff1a; 一次编写&#xff0c;到处运行自动内存管理&#xff0c;垃圾回收的功能数组下标越界检查&#xff08;会抛异常&#xff0c;不会覆盖到其他代码…...

从深圳崛起的“机器之眼”:赴港乐动机器人的万亿赛道赶考路

进入2025年以来&#xff0c;尽管围绕人形机器人、具身智能等机器人赛道的质疑声不断&#xff0c;但全球市场热度依然高涨&#xff0c;入局者持续增加。 以国内市场为例&#xff0c;天眼查专业版数据显示&#xff0c;截至5月底&#xff0c;我国现存在业、存续状态的机器人相关企…...

【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张(Windows/Linux)

要让本地PC电脑作为服务器运行时出现卡顿和资源紧张的情况&#xff0c;可以通过以下几种方式模拟或触发&#xff1a; 1. 增加CPU负载 运行大量计算密集型任务&#xff0c;例如&#xff1a; 使用多线程循环执行复杂计算&#xff08;如数学运算、加密解密等&#xff09;。运行图…...

SpringTask-03.入门案例

一.入门案例 启动类&#xff1a; package com.sky;import lombok.extern.slf4j.Slf4j; import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; import org.springframework.cache.annotation.EnableCach…...

基于Springboot+Vue的办公管理系统

角色&#xff1a; 管理员、员工 技术&#xff1a; 后端: SpringBoot, Vue2, MySQL, Mybatis-Plus 前端: Vue2, Element-UI, Axios, Echarts, Vue-Router 核心功能&#xff1a; 该办公管理系统是一个综合性的企业内部管理平台&#xff0c;旨在提升企业运营效率和员工管理水…...

Proxmox Mail Gateway安装指南:从零开始配置高效邮件过滤系统

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐&#xff1a;「storms…...

嵌入式学习之系统编程(九)OSI模型、TCP/IP模型、UDP协议网络相关编程(6.3)

目录 一、网络编程--OSI模型 二、网络编程--TCP/IP模型 三、网络接口 四、UDP网络相关编程及主要函数 ​编辑​编辑 UDP的特征 socke函数 bind函数 recvfrom函数&#xff08;接收函数&#xff09; sendto函数&#xff08;发送函数&#xff09; 五、网络编程之 UDP 用…...

篇章二 论坛系统——系统设计

目录 2.系统设计 2.1 技术选型 2.2 设计数据库结构 2.2.1 数据库实体 1. 数据库设计 1.1 数据库名: forum db 1.2 表的设计 1.3 编写SQL 2.系统设计 2.1 技术选型 2.2 设计数据库结构 2.2.1 数据库实体 通过需求分析获得概念类并结合业务实现过程中的技术需要&#x…...