当前位置: 首页 > news >正文

火山引擎DataLeap推出两款大模型应用: 对话式检索与开发 打破代码语言屏障

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

自上世50年代,以“计算机”作为代表性象征的信息革命开始,社会对于先进生产力的认知便开始逐步更迭——从信息化(通常认为是把企业中的信息资源与信息技术有机结合,从而提高企业的管理水平和效率)到数字化(普遍认为是以数据分析为核心,利用各种业务数据去反哺和优化业务过程)转变。

企业希望通过数字化来突破业务瓶颈,实现转型升级。而这期间,数据作为新的生产要素,其重要性毋庸置疑。

9月19日,2023火山引擎数据驱动科技峰会发布数据产品大语言模型(Large Language Models)应用:DataLeap-找数助手、DataLeap-开发助手和DataWind-分析助手,为企业提供从数据资产的检索、到数据开发,再到数据应用的全链路AI能力。

上述能力的发布,其目的就是让企业能更便捷地生产数据、应用数据,实现更普惠的数据消费,为数字化提供现实基础。

DataLeap是火山引擎数智平台(VeDI)推出的大数据研发治理套件,核心是帮助企业快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设。

DataLeap此次升级发布的两款大模型应用能力“DataLeap-找数助手”“DataLeap-开发助手”,主要聚焦在企业数据资产查询与数据开发运维两大核心场景,通过大模型能力的加持,降低企业数据资产检索和数据开发的准入门槛。

“DataLeap-找数助手”:AI+数据资产查询 提升数据资产检索效率

利用“DataLeap-找数助手”,可以实现多种数据类型及相关业务知识的问答式检索。

从企业数据消费的链路来看,数据资产的检索、管理可以看作是消费的第一环。找到正确的数据资产,继而才能实现数据的消费。

数据的查找和使用本身强依赖业务专业知识的输入。过去传统技术方案下,数据资产检索重依赖数据结构化管理,需要大量的人力保障,且不够灵活。同时,非结构化数据与数据资产的关联缺失,会导致大量业务信息缺失,而以往基于关键词在结构化及非结构化数据中的检索,由于检索链路割裂,会大大降低基于业务场景的数据查找和消费效率。此外,检索提供的是基于关键词的候选答案集合,需要人为再次筛选确认,不是直接的答案,导致用户很难有良好体验。

与大语言模型(LLM)结合后,资产查询的方式变得更“拟人化”:在与用户对话式的过程中,大语言模型(LLM)可以理解用户真实意图,让搜索过程更聚焦,节约了人为判断的成本。同时,伴随模型语义理解分析能力的逐步提升,对话式检索相比单纯地用关键词检索的方式,其全链路的检索效率也更高。

在功能上,“DataLeap-找数助手”目前主要提供三类:

  1. 找数据,表、数据集、仪表盘等

  2. 问含义,指标的口径信息、维度枚举值含义等

  3. 业务咨询,业务知识咨询,如业务常见术语含义,业务分类等信息

其核心优势在于:

  1. 问答式查询方式,查询效率更高;

  2. 轻量化接入能力,支持自助接入企业知识库;

  3. 语料充分,元数据中心能力完善可提供企业级服务

能力发布后,“DataLeap-找数助手”将让企业的数据资产检索变得更快,使得低成本管理、真正的自助式数据消费变得可行。

“DataLeap-开发助手”:AI+数据生产 降低数据开发门槛

利用“DataLeap-开发助手”,可以实现通过自然语言描述,自动生成代码;针对已有的代码可以自动实现Bug修复,代码优化、解释与注释等;对话式方式进行文档搜索、函数使用、代码示例等问题咨询。

过去,研发人员必须充分熟悉SQL等数据开发语言,才能高效支持数据分析背后的开发需求。但在现实场景中,数据分析师、依赖数据的业务运营人员都会有大量的数据消费诉求,也就意味着需要大量的专业数据研发人员来支持一些看似基础但仍需要人为介入的开发工作。

“DataLeap-开发助手”底层采用大语言模型,经过海量的代码和语料训练,可以根据用户的自然语言输入,自动关联包括表Schema在内的元数据信息,生成高质量的数据加工代码,并具备代码的理解、改写以及领域知识的问答能力。

目前看,“DataLeap-开发助手”主要提供以下3个细分场景的服务:

  1. 生成代码:描述需要处理的问题可以自动生成代码,例如:从多张数据表中,通过关联,自动查询、统计指标数据;

  2. 智能问答:根据你描述的问题进行答疑,例如忘记 Spark 函数怎么写,唤起智能开发助手,询问函数使用方式;

  3. 修复/优化代码:用户可以直接在SQL 编辑器中通过AI修复功能,了解详细的报错原因,并基于修复建议“一键完成”选中代码的修复/优化。

“DataLeap-开发助手”的核心优势在于:

  1. 适配多场景数据开发,简单场景自动开发,复杂场景辅助提效

  2. 内置于编辑器,灵活唤起,减少多工具切换成本,交互体验对齐桌面原生 IDE(集成开发环境)

  3. 模型来源可扩展,支持企业自有模型接入

其核心价值是打破了语言障碍,极大程度降低了数据开发的准入门槛,同时让专业数据研发人员更聚焦复杂场景的需求,利用开发助手优化代码,提高研发生产效率与代码质量。

以DataLeap为代表的火山引擎多个数据产品拥抱AI,本质是为了降低数据消费门槛,通过数据消费来实现企业数据资产与业务应用的飞轮效应,提升企业活力。

点击跳转大数据研发治理套件 DataLeap了解更多

相关文章:

火山引擎DataLeap推出两款大模型应用: 对话式检索与开发 打破代码语言屏障

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 自上世50年代,以“计算机”作为代表性象征的信息革命开始,社会对于先进生产力的认知便开始逐步更迭——从信息化(通常认为是把企…...

windows上配置vscode C/C++代码跳转

windows上配置vscode C/C代码跳转 安装插件 C/C 官方的 C/C 插件,必备的插件,是代码跳转、自动补全、代码大纲显示等功能的基础。 Gtags C/C GNU Global GNU Global除了安装该插件之外,还需要在本地下载安装GNU Global工具。多看下插件…...

【Xilinx】基于MPSoC的OpenAMP实现(一)

【Xilinx】基于MPSoC的OpenAMP实现(一) 一、开发环境1、开发思路2、下载官方bsp包 二、编译Linux1、配置petalinux环境变量2、创建工程3、进入目录4、设置缓存目录(重点:可离线编译,加快编译速度)5、配置u-…...

代码随想录算法训练营总结篇|完结撒花

完结撒花,真不敢相信60天坚持下来了。 算法一直是我的超级超级弱项,属于小白中的小白。一开始是想自己刷的,打开leetcode第一题,吼哟好家伙,梦开始的地方直接破碎。之前刷B站的时候就有学习up推荐算法可以看看代码随想…...

uniapp、vue实现滑动拼图验证码

uniapp、vue实现滑动拼图验证码 实际开发工作中,在登陆的时候需要短信验证码,但容易引起爬虫行为,需要用到反爬虫验证码,今天介绍一下拼图验证码,解决验证码反爬虫中的滑动验证码反爬虫。滑动拼图验证码是在滑块验证码…...

【ArcGIS】土地利用变化分析详解(矢量篇)

土地利用变化分析详解-矢量篇 土地利用类型分类1 统计不同土地利用类型的面积/占比1.1 操作步骤Step1:Step2:计算面积Step3:计算占比 2 统计不同区域各类土地利用类型的面积2.1 操作步骤 3 土地利用变化转移矩阵3.1 研究思路3.2 操作步骤 4 分…...

VS2022创建控制台应用程序后没有Main了,如何显示Main?

文章目录 问题描述原因解决方案简单的顶级语句试用计算器 其他文章 问题描述 用VS2022创建一个控制台应用后,没有名称空间和Main函数了,只有一个WriteLine,如下所示。 // See https://aka.ms/new-console-template for more information Co…...

当当网商品详情数据接口

当当网商品详情数据接口可以通过当当网的开放平台获取相关信息。您可以注册当当开放平台账号,并按照要求提交申请获取API接口的调用凭证。获得授权后,您将会收到一组AccessKey和SecretKey。使用编程语言(如Java)调用API接口&#…...

ultraEdit正则匹配多行(xml用)

在ultraEdit中&#xff0c;我想选取<channel到</channel>之间的多行&#xff08;进行删除&#xff09;。在perl模式下&#xff0c;命令为“<channel[\s\S]?</channel>”。下面是xml文件&#xff1a; <!--This XML file does not appear to have any sty…...

Mac上的utools无法找到本地搜索插件

utools安装地址 utools本地搜索用法 目前本地搜索只在win下&#xff0c;mac无福了 Mac可用cmdspace方法使用聚焦搜索&#xff0c;来搜索本地文件...

win11 administrator 账户运行不提示授权

...

docker部署nginx下日志自动切割方法

前言&#xff1a;nginx采用docker部署&#xff0c;简单方便&#xff0c;但出现一个问题&#xff0c;就是日志没有自动切割&#xff0c;导致access.log 无限增大。如果非docker安装&#xff0c;则nginx的日志默认有切割的&#xff0c;那docker为何没有呢&#xff0c;最后发现&am…...

3D目标检测实战 | 图解KITTI数据集与数据格式

目录 1 数据集简介2 传感器坐标系3 数据集下载与组织4 数据内容说明4.1 矫正文件calib4.2 图像文件image4.3 点云文件velodyne4.4 标签文件label4.5 平面文件plane 1 数据集简介 KITTI数据集是一个广泛应用于自动驾驶和计算机视觉领域的公开数据集。该数据集由德国卡尔斯鲁厄理…...

周界警戒AI算法+视频智能分析在安全生产场景中的应用

长期以来&#xff0c;周界防范安防系统在大型园区、工厂、社区、机场、火车站站台、重点单位等领域应用较为广泛和常见。随着AI人工智能等新兴技术的快速发展与落地应用&#xff0c;通过AI智能检测与视频智能分析技术&#xff0c;现代化的周界安防系统可以做到全天候快速、准确…...

C++中执行shell命令,popen与system的区别

C中执行shell命令&#xff0c;popen与system的区别_c popen_Op_chaos的博客-CSDN博客 2.system system()函数执行过程&#xff1a; 1.fork一个子进程&#xff1b; 2.在子进程中调用exec函数去执行command&#xff1b; 3.在父进程中调用wait去等待子进程结束。 由于system没…...

Flink相关

墨滴社区 用 Flink 取代 Spark Streaming&#xff01;知乎实时数仓架构演进_天池技术圈-阿里云天池 关于flink实时数仓的实际问题_flink datastream 按天,小时写入hdfs_一个写湿的程序猿的博客-CSDN博客 基于 Flink Hudi 的实时数仓在 Shopee 的实践 - 墨天轮...

数据结构题型9-顺序栈

#include <iostream> //引入头文件 using namespace std;typedef int Elemtype;#define Maxsize 10 #define ERROR 0 #define OK 1typedef struct {Elemtype data[Maxsize];int top; }SqStack;void InitStack(SqStack& S) {S.top -1; } bool StackEmpty(SqStack…...

时间复杂度、空间复杂度

一、时间复杂度 1、概念 时间复杂度&#xff1a;计算的是当一个问题量级增加的时间&#xff0c;时间增长的趋势&#xff1b; O&#xff08;大O表示法&#xff09;&#xff1a;渐进的时间复杂度 2、举例 ① 以下 for 循环的时间复杂度&#xff1a;O(1 3n) O(n) 去掉常数…...

C++---多态

多态 前言多态的概念多态的定义及实现多态的构成条件虚函数虚函数的重写虚函数重写的两个例外协变(基类与派生类虚函数返回值类型不同)析构函数的重写 override和final 虚函数的默认参数 抽象基类 前言 在买火车票的时候&#xff0c;如果你是学生&#xff0c;是买半价票&#…...

Android 滑动事件消费监控,Debug 环境下通用思路

Android Debug 环境下滑动事件消费监控通用思路 背景 Android 开发中&#xff0c;经常会遇到滑动事件冲突。在一些简单的场景下&#xff0c;我们如果能够知道是那个 View 拦截了事件&#xff0c;那我们能够很容易得解决。解决方法通常就是内部拦截法或者外部拦截法。ViewPage…...

企业SEO优化与网站内容建设的关系是什么

企业SEO优化与网站内容建设的关系是什么 在现代数字营销中&#xff0c;企业SEO优化与网站内容建设是两个密不可分的重要环节。SEO优化&#xff08;Search Engine Optimization&#xff09;旨在提升网站在搜索引擎中的排名&#xff0c;而网站内容建设则是展示和传递企业信息的基…...

CSS Scroll Snap:打造丝滑滚动体验

CSS Scroll Snap&#xff1a;打造丝滑滚动体验让滚动不再是粗暴的跳跃&#xff0c;而是优雅的吸附。CSS Scroll Snap 让页面流动如丝绸般顺滑。一、为什么需要 Scroll Snap&#xff1f; 作为一名追求像素级还原的 UI 匠人&#xff0c;我深知一个粗糙的滚动体验能瞬间毁掉精心设…...

Tensorflow-Cookbook最佳实践:如何避免常见陷阱与性能优化技巧

Tensorflow-Cookbook最佳实践&#xff1a;如何避免常见陷阱与性能优化技巧 【免费下载链接】Tensorflow-Cookbook Simple Tensorflow Cookbook for easy-to-use 项目地址: https://gitcode.com/gh_mirrors/te/Tensorflow-Cookbook TensorFlow作为深度学习领域最流行的框…...

基于单片机的井盖监测系统

摘 要 当前我国设计的井盖监测主要通过在井盖上放置标识等放置被盗&#xff0c;然后监测到被盗后&#xff0c;通过摄像头对其进行跟踪&#xff0c;导致当前还是存在很多井盖被盗&#xff0c;因此此次设计一款主要针对井盖防盗系统&#xff0c;监测到井盖移动时发送信息到管理人…...

SIwave阻抗仿真进阶:如何利用Workflow Wizard和高级设置,精准优化你的DDR/高速线阻抗

SIwave阻抗仿真进阶&#xff1a;Workflow Wizard与高级设置实战指南 在高速PCB设计中&#xff0c;阻抗控制从来都不是简单的"达标"或"不达标"二分法。当你的设计进入DDR4/5或SerDes领域&#xff0c;那些看似微小的阻抗波动可能成为信号完整性的隐形杀手。…...

计算机毕业设计:Python新能源汽车数据洞察与个性化推荐平台 Django框架 snowNLP 协同过滤推荐算法 requests爬虫 可视化(建议收藏)✅

博主介绍&#xff1a;✌全网粉丝10W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战6年之久&#xff0c;选择我们就是选择放心、选择安心毕业✌ > &#x1f345;想要获取完整文章或者源码&#xff0c;或者代做&#xff0c;拉到文章底部即可与…...

【最新最权威】ArcGIS ArcMap中添加在线地图-天地图(地形、矢量、影像、全球境界)的方法

1 图源介绍地理信息公共服务平台&#xff08;天地图&#xff09;是县级以上自然资源主管部门向社会提供各类在线地理信息公共服务、推动地理信息数据开放共享的政府网站&#xff0c;由国家级节点、省级&#xff08;兵团&#xff09;节点、市县级节点组成。在底图服务方面&#…...

别只盯着图像分类了:CVPR 2025揭示的对抗攻击新战场——扩散模型与说话人生成

CVPR 2025&#xff1a;生成式AI安全新战场——扩散模型与说话人生成对抗攻防全景 当Stable Diffusion生成的虚拟网红开始接管社交媒体&#xff0c;当InstantID克隆的真人数字分身接听你的银行电话&#xff0c;当Talking-Head视频会议中的"同事"实为AI合成——我们正站…...

提升效率:用快马生成自动化工具批量处理战网更新睡眠问题

最近在游戏开发测试过程中&#xff0c;经常遇到战网更新服务进入睡眠模式的问题。每次手动唤醒不仅耗时&#xff0c;还容易遗漏步骤。经过多次实践&#xff0c;我总结出一套自动化处理方案&#xff0c;显著提升了工作效率。下面分享具体实现思路和工具设计要点。 后台监控模块设…...

终极指南:如何快速诊断与修复FanControl风扇识别问题

终极指南&#xff1a;如何快速诊断与修复FanControl风扇识别问题 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/…...