当前位置: 首页 > news >正文

CCKS2023:基于企业数仓和大语言模型构建面向场景的智能应用

8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS 2023)在沈阳召开。大会以“知识图谱赋能通用AI”为主题,探讨知识图谱对通用AI技术的支撑能力,探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。

作为国内知识图谱、语义技术、自然语言理解与知识获取等领域的核心学术会议,每年的CCKS都会邀请相关技术领域顶尖专家学者参会,探讨AI前沿技术。今年以来,大语言模型掀起的新一轮AI浪潮席卷全球。本次大会上,大语言模型也成为众多参会专家学者关注的焦点。

在会上,酷克数据首席科学家杨胜文博士发表了题为《用知识增强“小”语言模型》的主旨演讲,从产业实践的角度分享了在企业数据仓库环境下,利用中小规模语言模型构建面向场景的智能应用的探索与实践,并对企业数智化转型过程中AI与数据如何更好地协同做了探讨。

大模型VS小模型?

在过去的几个月中,大语言模型在公众当中的关注度有所缓和,但学术界和产业界的投入热情并未减弱。国内外各大厂商都在加速技术迭代,众多初创公司也在奋起直追,开源社区的发展也非常迅猛。

杨胜文指出,目前千亿级参数的大语言模型在生成能力方面仍存在一些不足,如生成“幻觉”问题。更为重要的是,企业在实际应用大模型过程中还面临着数据安全、私有化成本高、关键应用场景识别难和高质量数据缺乏等诸多挑战。

图片

图1:酷克数据首席科学家杨胜文博士

相对动辄千亿级甚至万亿参数的大语言模型而言,十亿级或百亿级参数的“小”语言模型,已经具备良好的语言理解和生成能力,并且在落地方面有着显著的成本优势。小语言模型能够以极低的成本在企业私有化部署,微调、推理所需的硬件成本也较低。通过与企业自有数据紧密结合(包括微调和Prompt增强等),在很多垂直场景都可以取得良好的应用效果。凭借其出色的性价比和灵活性,小语言模型成为现阶段LLM在企业落地应用的可行替代方案。

同时,日益繁荣的开源生态为小语言模型在企业低成本、规模化的应用创造了条件。在代码和工具层面,已经出现了很多优秀的开源项目和公开数据集,能够满足百亿级参数模型的训练需求。在模型层面,出现了很多由大型商业公司、研究机构和初创公司研发的模型,参数规模从数十亿到数百亿参数不等,大部分模型都允许免费商用,这为小语言模型的规模化落地进一步创造了条件。

企业数据仓库与大语言模型的有机结合

大语言模型的训练、微调以及知识增强的应用离不开高质量数据的支持。作为企业数据的存储、加工和分析的核心场所,企业数据仓库蕴藏着巨大的企业数据资产。

杨胜文认为,数据仓库为企业打造垂类模型、搭建面向场景的智能应用提供了天然的数据和计算环境。他同时指出,上一代数仓普遍采用传统MPP架构,存在数据冗余、时效性差、数据一致性难保障、数据孤岛治理成本高等难题,增加了数据管理和模型开发的复杂度。

酷克数据的旗舰产品HashData云数仓,是国内最早实现存算分离的云原生分析型数据库,目前已服务金融、电信、能源等行业众多大型企业。HashData数仓系统由1个元数据集群、若干个计算集群、1个对象存储以及1个管理控制台构成,具备极佳的弹性和可扩展性。

相比传统架构的数据仓库,HashData采用存算分离的架构,不仅能够通过SQL计算引擎对传统的数仓业务提供很好的支持,还能够借助ML/DL计算引擎实现对机器学习和深度学习的高效支持,其中包括对大语言模型微调和推理的支持,显著降低了系统的复杂性,也大幅降低了运营成本。

HashData云数仓还内置了对向量数据的支持,基于分布式并行处理技术,可以支持海量语义向量数据的存储和高效检索。

杨胜文表示,以HashData为代表的现代企业数据仓库,为数据查询、分析和AI计算提供了统一的软硬件平台,将极大地推动AI技术在企业中的实际应用。

HashML助力企业轻松构建大模型应用

为了进一步降低AI技术的应用门槛,酷克数据基于HashData云数仓自主研发了下一代In-Database高级分析和数据科学工具HashML。

杨胜文介绍,HashML首要设计目标就是简单易用,帮助企业无门槛地使用各种经典和最前沿的AI算法和模型能力,解决实际业务问题。

为了实现这个目标,HashML对编程接口做了高度抽象和标准化,允许客户只编写少量代码就可以完成从数据加载到数据处理,再到模型训练、模型部署、推理预测的全流程工作。

图片

图2:HashML主要功能概览

就大语言模型而言,借助HashML可以实现高质量数据挖掘、模型微调和Prompt增强,用户只需要少量的代码就能完成智能应用的搭建,包括向量知识库的建库和检索、模型的高效微调、模型部署和在线服务,以及对话式Web应用的快速开发。另外,HashML针对知名的开源语言模型,例如ChatGLM、Baichuan、Llama2等,提供了额外的功能封装,方便客户更加便捷地使用这些模型。

在会上,杨胜文介绍了基于HashML和小语言模型构建的两个智能应用:检索增强的智能问答(ReQA)和基于自然语言交互的数据分析(ChatData)。

在ReQA中,通过将企业长期积累的产品手册、技术手册、行业标准、客户服务记录等资料进行向量化,并以向量知识库的形式存放在HashData,再结合语义向量检索技术和语言模型,就能实现基于本地知识库的精准问答。

图片

图3:基于向量知识库的检索增强的智能问答(ReQA)

在ChatData中,用户能够以自然语言的方式与HashData数据库进行交互, 实现数据查询和结果展示,还能够以自然语言的方式对查询结果进行可视化,从而大幅降低数据分析应用的门槛,允许企业更多的员工在职权范围内借助数据分析提升工作效率和工作质量。为了让模型能够更好的理解用户查询意图并生成正确的SQL语句,酷克数据团队准备了近十万条的训练语料,对模型进行了微调。

图片

图4:基于自然语言的交互式数据分析(ChatData)

展望未来,杨胜文认为,新一代人工智能技术正在加速企业数字化、智能化进程,将对企业的研发、生产、经营带来深远影响。只有让AI计算贴近应用场景、贴近企业数据资产,才能更好地推动AI落地。以HashData为代表的现代企业数据仓库为依托,结合小语言模型,低成本快速试错,发掘高价值应用场景,是现阶段推动大语言模型技术在企业规模化落地的一种可行路径。

本次大会现场,酷克数据云数仓解决方案HashData及下一代数据科学工具HashML受到众多参会者关注。HashML将于近期正式发布,后续我们会带来更多相关技术分享。敬请关注!

相关文章:

CCKS2023:基于企业数仓和大语言模型构建面向场景的智能应用

8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS 2023)在沈阳召开。大会以“知识图谱赋能通用AI”为主题,探讨知识图谱对通用AI技术的支撑能力,探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。 作为…...

LeetCode 热题 100——无重复字符的最长子串(滑动窗口)

题目链接 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 题目解析 从s字符串中,去找出连续的子串,使该子串中没有重复字符,返回它的最长长度。 暴力枚举 依次以第一个、第二个、第三个等等为起点去遍历字符串&a…...

【zookeeper】zookeeper的shell操作

Zookeeper的shell操作 本章节将分享一些zookeeper客服端的一些命令,实验操作有助于理解zookeeper的数据结构。 Zookeeper命令工具 在前一章的基础上,在启动Zookeeper服务之后,输入以下命令,连接到Zookeeper服务。连接成功之后&…...

R语言Meta分析核心技术

Meta分析是针对某一科研问题,根据明确的搜索策略、选择筛选文献标准、采用严格的评价方法,对来源不同的研究成果进行收集、合并及定量统计分析的方法,最早出现于“循证医学”,现已广泛应用于农林生态,资源环境等方面。…...

Oracle数据库尚硅谷学习笔记

文章目录 Oracle数据库体系结构简介补充SQL初步导入sql文件别名连接符distinct去重的坑 过滤和排序数据日期格式比较运算其它比较运算符逻辑运算优先级排序 单行函数SQL中不同类型的函数单行函数字符数值日期转换通用 使用条件表达式嵌套查询 多表查询等值连接非等值连接左外连…...

CG MAGIC进行实体渲染后!分析渲染器CR和VR的区别之处!

新手小白来说,如何选择渲染器,都会提出疑问? 渲染效果图究竟用CR渲染器还是VR渲染器呢? 今天,CG MAGIC小编通过一个真实的项目场景,实例渲染之后,CR渲染器和VR渲染器区别有哪几点? 1…...

Ubuntu下Python3与Python2相互切换

参考文章:https://blog.csdn.net/Nicolas_shen/article/details/124144931 设置优先级 sudo update-alternatives --install /usr/bin/python python /usr/bin/python2 100 sudo update-alternatives --install /usr/bin/python python /usr/bin/python3 200...

【深度学习】实验07 使用TensorFlow完成逻辑回归

文章目录 使用TensorFlow完成逻辑回归1. 环境设定2. 数据读取3. 准备好placeholder4. 准备好参数/权重5. 计算多分类softmax的loss function6. 准备好optimizer7. 在session里执行graph里定义的运算 附:系列文章 使用TensorFlow完成逻辑回归 TensorFlow是一种开源的…...

2023-09-04 Linux 让shell编译脚本里面设置的环境变量改变kernel里面驱动文件的宏定义值方法,我这里用来做修改固件版本

一、原生的读取版本接口是/proc/version,我这里需要提供获取固件版本号的api给app,因为版本号会经常需要修改,如果每次都到kernel下修改比较麻烦,我这里是想在编译脚本里面对版本号进行修改,这样方便一点。 二、主要修…...

Python操作Excel实战:Excel行转列

# 1、原始数据准备 样例数据准备 地区1m2-5m6-10m11-20m21-40m地区单价计费单位费用最小值费用最大值北京13012011010090     天津13012011010090     石家庄13012011010090     保定140130120110100     张家口170150130120110     邢台1401201101…...

java实现迭代器模式

迭代器模式(Iterator Pattern)是一种行为型设计模式,它提供一种方法来顺序访问一个聚合对象(如列表、集合、数组等)中的元素,而不暴露聚合对象的内部表示。迭代器模式通常包括以下角色:迭代器&a…...

C++day7模板、异常、auto关键字、lambda表达式、数据类型转换、STL、list、文件操作

作业 封装一个学生的类,定义一个学生这样类的vector容器, 里面存放学生对象(至少3个) 再把该容器中的对象,保存到文件中。 再把这些学生从文件中读取出来,放入另一个容器中并且遍历输出该容器里的学生。 #include …...

【校招VIP】产品分析之活动策划宣传

考点介绍: 产品的上线运营是非常重要的。应该来说好的产品都是运营出来的,在一运营过程中难免会依靠策划活动来提高产品知名度、用户数。用户粘度等等指标一,如何策划一个成功的活动就显得非常重要。 产品分析之活动策划宣传-相关题目及解析…...

node基础之一:fs 模块

概念:文件的创建、删除、重命名、移动、写入、读取等 const fs require("fs");// 写入 fs.writeFile("./demo.txt", "hello", (err) > {}); fs.writeFileSync();// 追加 fs.appendFile("./demo.txt", "hello&quo…...

如何快速搭建母婴行业的微信小程序?

如果你想为你的母婴行业打造一个独特的小程序,但没有任何编程经验,别担心!现在有许多小程序制作平台提供了简单易用的工具,让你可以轻松地建立自己的小程序。接下来,我将为你详细介绍搭建母婴行业小程序的步骤。 首先&…...

【科普向】Jmeter 如何测试接口保姆式教程

现在对测试人员的要求越来越高,不仅仅要做好功能测试,对接口测试的需求也越来越多!所以也越来越多的同学问,怎样才能做好接口测试? 要真正的做好接口测试,并且弄懂如何测试接口,需要从如下几个…...

阿里云2核4G服务器5M带宽5年费用价格明细表

阿里云2核4G服务器5M带宽可以选择轻量应用服务器或云服务器ECS,轻量2核4G4M带宽服务器297元一年,2核4G云服务器ECS可以选择计算型c7、c6或通用算力型u1实例等,买5年可以享受3折优惠,阿腾云分享阿里云服务器2核4G5M带宽五年费用表&…...

【图解RabbitMQ-2】图解JMS规范与AMQP协议是什么

🧑‍💻作者名称:DaenCode 🎤作者简介:CSDN实力新星,后端开发两年经验,曾担任甲方技术代表,业余独自创办智源恩创网络科技工作室。会点点Java相关技术栈、帆软报表、低代码平台快速开…...

springboot整合mybatis实现增删改查(xml)--项目阶段1

目录 一、前言 二、创建项目 创建MySQL数据库和表 创建springboot项目 本文总体代码结构图预览 三、编写代码 (一)新建实体层属性类 (二)新建数据层mapper接口 (三)新建mapper的映射SQL&#xff08…...

springboot文件上传异步报错

因为迁移的生产环境,在新的服务器发生了之前没有遇到的问题,这种问题是在异步文件上传的时候才会出现 错误信息如下 16:17:50.009 ERROR c.w.einv.minio.service.impl.MinioFileServiceImpl - 文件上传错误! java.io.FileNotFoundException: /applicati…...

error: unable to unlink old ‘.gitlab-ci.yml‘: Permission denied

#gitlab-runner 执行代码git pull origin xxx 更新时候报 error: unable to unlink old ‘.gitlab-ci.yml’: Permission denied 问题环境:centos 部署gitlab-runner 执行脚本方式 选的shell 产生问题的原因:gitlab-runner程序进程占用锁定了.gitlab-ci…...

AJAX学习笔记3练习

AJAX学习笔记2发送Post请求_biubiubiu0706的博客-CSDN博客 1.验证用户名是否可用 需求,用户输入用户名,失去焦点-->onblur失去焦点事件,发送AJAX POST请求,验证用户名是否可用 新建表 前端页面 WEB-INF下新建lib包引入依赖,要用JDBC 后端代码 package com.web;import jav…...

springboot实战(五)之sql业务日志输出,重要

目录 环境: 一、mybatis-plus之sql分析日志输出 1.配置 2.验证 3.高级输出方式 二、业务日志输出到文件 1.添加log4j2依赖 2.排除logback依赖 3.新增log4j2的配置文件 4.添加配置 5.启动测试 6.给日志请求加个id 6.1、过滤器filter实现 6.2、测试 6.3、…...

redis7.2.0 centos源码编译安装并设置开机自启动

下载源码包 wget https://github.com/redis/redis/archive/7.2.0.tar.gz tar -zxf 7.2.0.tar.gz 编译编码 编译编码 cd redis-7.2.0 make && make install 此时默认redis-server redis-cli等命令行安装到目录/usr/local/bin/目录中。 如果你想安装命令行到指定目录中你…...

网易低代码引擎Tango正式开源

一、Tango简介 Tango 是一个用于快速构建低代码平台的低代码设计器框架,借助 Tango 只需要数行代码就可以完成一个基本的低代码平台前端系统的搭建。Tango 低代码设计器直接读取前端项目的源代码,并以源代码为中心,执行和渲染前端视图,并为用户提供低代码可视化搭建能力,…...

Apache Linkis 与 OceanBase 集成:实现数据分析速度提升

导语:恭喜 OceanBase 生态全景图中又添一员,Apache Linkis 构建了一个计算中间件层,以促进上层应用程序和底层数据引擎之间的连接、治理和编排。 近日,计算中间件 Apache Linkis 在其新版本中通过数据源功能,支持用户通…...

EXPLAIN概述与字段剖析

6. 分析查询语句:EXPLAIN(重点) 6.1 概述 定位了查询慢的sQL之后,我们就可以使用EXPLAIN或DESCRIBE 工具做针对性的分析查询语句。DESCRIBE语句的使用方法与EXPLAIN语句是一样的,并且分析结果也是一样的。 MySQL中有专门负责优化SELECT语句…...

基于Java IO 序列化方案的memcached-session-manager多memcached节点配置

session的序列化方案官方推荐的有4种 java serializationmsm-kryo-serializermsm-javolution-serializermsm-xstream-serializer 关于这几种,官方也给出了比较: Java serialization is very robust and a proven technology. The biggest disadvantage IMHO is th…...

LinkedList(3):并发异常

1 LinkedList并发异常 package com.example.demo;import java.util.Iterator; import java.util.LinkedList;public class TestLinkedList {public static void main(String[] args) {LinkedList linkedList new LinkedList(); //双向链表linkedList.add(11);linkedList.add(…...

vue里el-form+el-table实现验证规则的写法

vue里el-formel-table实现验证规则的写法 vue里el-formel-table实现验证规则的写法 vue里el-formel-table实现验证规则的写法 重点是因为使用el-form el-table与单独使用el-form时数据不同,前者是对象json数组,后者是对象,导致了el-form-ite…...