CCKS2023:基于企业数仓和大语言模型构建面向场景的智能应用
8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS 2023)在沈阳召开。大会以“知识图谱赋能通用AI”为主题,探讨知识图谱对通用AI技术的支撑能力,探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。
作为国内知识图谱、语义技术、自然语言理解与知识获取等领域的核心学术会议,每年的CCKS都会邀请相关技术领域顶尖专家学者参会,探讨AI前沿技术。今年以来,大语言模型掀起的新一轮AI浪潮席卷全球。本次大会上,大语言模型也成为众多参会专家学者关注的焦点。
在会上,酷克数据首席科学家杨胜文博士发表了题为《用知识增强“小”语言模型》的主旨演讲,从产业实践的角度分享了在企业数据仓库环境下,利用中小规模语言模型构建面向场景的智能应用的探索与实践,并对企业数智化转型过程中AI与数据如何更好地协同做了探讨。
大模型VS小模型?
在过去的几个月中,大语言模型在公众当中的关注度有所缓和,但学术界和产业界的投入热情并未减弱。国内外各大厂商都在加速技术迭代,众多初创公司也在奋起直追,开源社区的发展也非常迅猛。
杨胜文指出,目前千亿级参数的大语言模型在生成能力方面仍存在一些不足,如生成“幻觉”问题。更为重要的是,企业在实际应用大模型过程中还面临着数据安全、私有化成本高、关键应用场景识别难和高质量数据缺乏等诸多挑战。
图1:酷克数据首席科学家杨胜文博士
相对动辄千亿级甚至万亿参数的大语言模型而言,十亿级或百亿级参数的“小”语言模型,已经具备良好的语言理解和生成能力,并且在落地方面有着显著的成本优势。小语言模型能够以极低的成本在企业私有化部署,微调、推理所需的硬件成本也较低。通过与企业自有数据紧密结合(包括微调和Prompt增强等),在很多垂直场景都可以取得良好的应用效果。凭借其出色的性价比和灵活性,小语言模型成为现阶段LLM在企业落地应用的可行替代方案。
同时,日益繁荣的开源生态为小语言模型在企业低成本、规模化的应用创造了条件。在代码和工具层面,已经出现了很多优秀的开源项目和公开数据集,能够满足百亿级参数模型的训练需求。在模型层面,出现了很多由大型商业公司、研究机构和初创公司研发的模型,参数规模从数十亿到数百亿参数不等,大部分模型都允许免费商用,这为小语言模型的规模化落地进一步创造了条件。
企业数据仓库与大语言模型的有机结合
大语言模型的训练、微调以及知识增强的应用离不开高质量数据的支持。作为企业数据的存储、加工和分析的核心场所,企业数据仓库蕴藏着巨大的企业数据资产。
杨胜文认为,数据仓库为企业打造垂类模型、搭建面向场景的智能应用提供了天然的数据和计算环境。他同时指出,上一代数仓普遍采用传统MPP架构,存在数据冗余、时效性差、数据一致性难保障、数据孤岛治理成本高等难题,增加了数据管理和模型开发的复杂度。
酷克数据的旗舰产品HashData云数仓,是国内最早实现存算分离的云原生分析型数据库,目前已服务金融、电信、能源等行业众多大型企业。HashData数仓系统由1个元数据集群、若干个计算集群、1个对象存储以及1个管理控制台构成,具备极佳的弹性和可扩展性。
相比传统架构的数据仓库,HashData采用存算分离的架构,不仅能够通过SQL计算引擎对传统的数仓业务提供很好的支持,还能够借助ML/DL计算引擎实现对机器学习和深度学习的高效支持,其中包括对大语言模型微调和推理的支持,显著降低了系统的复杂性,也大幅降低了运营成本。
HashData云数仓还内置了对向量数据的支持,基于分布式并行处理技术,可以支持海量语义向量数据的存储和高效检索。
杨胜文表示,以HashData为代表的现代企业数据仓库,为数据查询、分析和AI计算提供了统一的软硬件平台,将极大地推动AI技术在企业中的实际应用。
HashML助力企业轻松构建大模型应用
为了进一步降低AI技术的应用门槛,酷克数据基于HashData云数仓自主研发了下一代In-Database高级分析和数据科学工具HashML。
杨胜文介绍,HashML首要设计目标就是简单易用,帮助企业无门槛地使用各种经典和最前沿的AI算法和模型能力,解决实际业务问题。
为了实现这个目标,HashML对编程接口做了高度抽象和标准化,允许客户只编写少量代码就可以完成从数据加载到数据处理,再到模型训练、模型部署、推理预测的全流程工作。
图2:HashML主要功能概览
就大语言模型而言,借助HashML可以实现高质量数据挖掘、模型微调和Prompt增强,用户只需要少量的代码就能完成智能应用的搭建,包括向量知识库的建库和检索、模型的高效微调、模型部署和在线服务,以及对话式Web应用的快速开发。另外,HashML针对知名的开源语言模型,例如ChatGLM、Baichuan、Llama2等,提供了额外的功能封装,方便客户更加便捷地使用这些模型。
在会上,杨胜文介绍了基于HashML和小语言模型构建的两个智能应用:检索增强的智能问答(ReQA)和基于自然语言交互的数据分析(ChatData)。
在ReQA中,通过将企业长期积累的产品手册、技术手册、行业标准、客户服务记录等资料进行向量化,并以向量知识库的形式存放在HashData,再结合语义向量检索技术和语言模型,就能实现基于本地知识库的精准问答。
图3:基于向量知识库的检索增强的智能问答(ReQA)
在ChatData中,用户能够以自然语言的方式与HashData数据库进行交互, 实现数据查询和结果展示,还能够以自然语言的方式对查询结果进行可视化,从而大幅降低数据分析应用的门槛,允许企业更多的员工在职权范围内借助数据分析提升工作效率和工作质量。为了让模型能够更好的理解用户查询意图并生成正确的SQL语句,酷克数据团队准备了近十万条的训练语料,对模型进行了微调。
图4:基于自然语言的交互式数据分析(ChatData)
展望未来,杨胜文认为,新一代人工智能技术正在加速企业数字化、智能化进程,将对企业的研发、生产、经营带来深远影响。只有让AI计算贴近应用场景、贴近企业数据资产,才能更好地推动AI落地。以HashData为代表的现代企业数据仓库为依托,结合小语言模型,低成本快速试错,发掘高价值应用场景,是现阶段推动大语言模型技术在企业规模化落地的一种可行路径。
本次大会现场,酷克数据云数仓解决方案HashData及下一代数据科学工具HashML受到众多参会者关注。HashML将于近期正式发布,后续我们会带来更多相关技术分享。敬请关注!
相关文章:

CCKS2023:基于企业数仓和大语言模型构建面向场景的智能应用
8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS 2023)在沈阳召开。大会以“知识图谱赋能通用AI”为主题,探讨知识图谱对通用AI技术的支撑能力,探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。 作为…...

LeetCode 热题 100——无重复字符的最长子串(滑动窗口)
题目链接 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 题目解析 从s字符串中,去找出连续的子串,使该子串中没有重复字符,返回它的最长长度。 暴力枚举 依次以第一个、第二个、第三个等等为起点去遍历字符串&a…...

【zookeeper】zookeeper的shell操作
Zookeeper的shell操作 本章节将分享一些zookeeper客服端的一些命令,实验操作有助于理解zookeeper的数据结构。 Zookeeper命令工具 在前一章的基础上,在启动Zookeeper服务之后,输入以下命令,连接到Zookeeper服务。连接成功之后&…...

R语言Meta分析核心技术
Meta分析是针对某一科研问题,根据明确的搜索策略、选择筛选文献标准、采用严格的评价方法,对来源不同的研究成果进行收集、合并及定量统计分析的方法,最早出现于“循证医学”,现已广泛应用于农林生态,资源环境等方面。…...

Oracle数据库尚硅谷学习笔记
文章目录 Oracle数据库体系结构简介补充SQL初步导入sql文件别名连接符distinct去重的坑 过滤和排序数据日期格式比较运算其它比较运算符逻辑运算优先级排序 单行函数SQL中不同类型的函数单行函数字符数值日期转换通用 使用条件表达式嵌套查询 多表查询等值连接非等值连接左外连…...

CG MAGIC进行实体渲染后!分析渲染器CR和VR的区别之处!
新手小白来说,如何选择渲染器,都会提出疑问? 渲染效果图究竟用CR渲染器还是VR渲染器呢? 今天,CG MAGIC小编通过一个真实的项目场景,实例渲染之后,CR渲染器和VR渲染器区别有哪几点? 1…...

Ubuntu下Python3与Python2相互切换
参考文章:https://blog.csdn.net/Nicolas_shen/article/details/124144931 设置优先级 sudo update-alternatives --install /usr/bin/python python /usr/bin/python2 100 sudo update-alternatives --install /usr/bin/python python /usr/bin/python3 200...
【深度学习】实验07 使用TensorFlow完成逻辑回归
文章目录 使用TensorFlow完成逻辑回归1. 环境设定2. 数据读取3. 准备好placeholder4. 准备好参数/权重5. 计算多分类softmax的loss function6. 准备好optimizer7. 在session里执行graph里定义的运算 附:系列文章 使用TensorFlow完成逻辑回归 TensorFlow是一种开源的…...

2023-09-04 Linux 让shell编译脚本里面设置的环境变量改变kernel里面驱动文件的宏定义值方法,我这里用来做修改固件版本
一、原生的读取版本接口是/proc/version,我这里需要提供获取固件版本号的api给app,因为版本号会经常需要修改,如果每次都到kernel下修改比较麻烦,我这里是想在编译脚本里面对版本号进行修改,这样方便一点。 二、主要修…...
Python操作Excel实战:Excel行转列
# 1、原始数据准备 样例数据准备 地区1m2-5m6-10m11-20m21-40m地区单价计费单位费用最小值费用最大值北京13012011010090 天津13012011010090 石家庄13012011010090 保定140130120110100 张家口170150130120110 邢台1401201101…...
java实现迭代器模式
迭代器模式(Iterator Pattern)是一种行为型设计模式,它提供一种方法来顺序访问一个聚合对象(如列表、集合、数组等)中的元素,而不暴露聚合对象的内部表示。迭代器模式通常包括以下角色:迭代器&a…...

C++day7模板、异常、auto关键字、lambda表达式、数据类型转换、STL、list、文件操作
作业 封装一个学生的类,定义一个学生这样类的vector容器, 里面存放学生对象(至少3个) 再把该容器中的对象,保存到文件中。 再把这些学生从文件中读取出来,放入另一个容器中并且遍历输出该容器里的学生。 #include …...

【校招VIP】产品分析之活动策划宣传
考点介绍: 产品的上线运营是非常重要的。应该来说好的产品都是运营出来的,在一运营过程中难免会依靠策划活动来提高产品知名度、用户数。用户粘度等等指标一,如何策划一个成功的活动就显得非常重要。 产品分析之活动策划宣传-相关题目及解析…...
node基础之一:fs 模块
概念:文件的创建、删除、重命名、移动、写入、读取等 const fs require("fs");// 写入 fs.writeFile("./demo.txt", "hello", (err) > {}); fs.writeFileSync();// 追加 fs.appendFile("./demo.txt", "hello&quo…...

如何快速搭建母婴行业的微信小程序?
如果你想为你的母婴行业打造一个独特的小程序,但没有任何编程经验,别担心!现在有许多小程序制作平台提供了简单易用的工具,让你可以轻松地建立自己的小程序。接下来,我将为你详细介绍搭建母婴行业小程序的步骤。 首先&…...

【科普向】Jmeter 如何测试接口保姆式教程
现在对测试人员的要求越来越高,不仅仅要做好功能测试,对接口测试的需求也越来越多!所以也越来越多的同学问,怎样才能做好接口测试? 要真正的做好接口测试,并且弄懂如何测试接口,需要从如下几个…...

阿里云2核4G服务器5M带宽5年费用价格明细表
阿里云2核4G服务器5M带宽可以选择轻量应用服务器或云服务器ECS,轻量2核4G4M带宽服务器297元一年,2核4G云服务器ECS可以选择计算型c7、c6或通用算力型u1实例等,买5年可以享受3折优惠,阿腾云分享阿里云服务器2核4G5M带宽五年费用表&…...

【图解RabbitMQ-2】图解JMS规范与AMQP协议是什么
🧑💻作者名称:DaenCode 🎤作者简介:CSDN实力新星,后端开发两年经验,曾担任甲方技术代表,业余独自创办智源恩创网络科技工作室。会点点Java相关技术栈、帆软报表、低代码平台快速开…...

springboot整合mybatis实现增删改查(xml)--项目阶段1
目录 一、前言 二、创建项目 创建MySQL数据库和表 创建springboot项目 本文总体代码结构图预览 三、编写代码 (一)新建实体层属性类 (二)新建数据层mapper接口 (三)新建mapper的映射SQL(…...
springboot文件上传异步报错
因为迁移的生产环境,在新的服务器发生了之前没有遇到的问题,这种问题是在异步文件上传的时候才会出现 错误信息如下 16:17:50.009 ERROR c.w.einv.minio.service.impl.MinioFileServiceImpl - 文件上传错误! java.io.FileNotFoundException: /applicati…...
KubeSphere 容器平台高可用:环境搭建与可视化操作指南
Linux_k8s篇 欢迎来到Linux的世界,看笔记好好学多敲多打,每个人都是大神! 题目:KubeSphere 容器平台高可用:环境搭建与可视化操作指南 版本号: 1.0,0 作者: 老王要学习 日期: 2025.06.05 适用环境: Ubuntu22 文档说…...
反向工程与模型迁移:打造未来商品详情API的可持续创新体系
在电商行业蓬勃发展的当下,商品详情API作为连接电商平台与开发者、商家及用户的关键纽带,其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息(如名称、价格、库存等)的获取与展示,已难以满足市场对个性化、智能…...
【磁盘】每天掌握一个Linux命令 - iostat
目录 【磁盘】每天掌握一个Linux命令 - iostat工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景 注意事项 【磁盘】每天掌握一个Linux命令 - iostat 工具概述 iostat(I/O Statistics)是Linux系统下用于监视系统输入输出设备和CPU使…...
vue3 字体颜色设置的多种方式
在Vue 3中设置字体颜色可以通过多种方式实现,这取决于你是想在组件内部直接设置,还是在CSS/SCSS/LESS等样式文件中定义。以下是几种常见的方法: 1. 内联样式 你可以直接在模板中使用style绑定来设置字体颜色。 <template><div :s…...
数据链路层的主要功能是什么
数据链路层(OSI模型第2层)的核心功能是在相邻网络节点(如交换机、主机)间提供可靠的数据帧传输服务,主要职责包括: 🔑 核心功能详解: 帧封装与解封装 封装: 将网络层下发…...

第一篇:Agent2Agent (A2A) 协议——协作式人工智能的黎明
AI 领域的快速发展正在催生一个新时代,智能代理(agents)不再是孤立的个体,而是能够像一个数字团队一样协作。然而,当前 AI 生态系统的碎片化阻碍了这一愿景的实现,导致了“AI 巴别塔问题”——不同代理之间…...
linux 下常用变更-8
1、删除普通用户 查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行,YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID: YW3…...

QT: `long long` 类型转换为 `QString` 2025.6.5
在 Qt 中,将 long long 类型转换为 QString 可以通过以下两种常用方法实现: 方法 1:使用 QString::number() 直接调用 QString 的静态方法 number(),将数值转换为字符串: long long value 1234567890123456789LL; …...

10-Oracle 23 ai Vector Search 概述和参数
一、Oracle AI Vector Search 概述 企业和个人都在尝试各种AI,使用客户端或是内部自己搭建集成大模型的终端,加速与大型语言模型(LLM)的结合,同时使用检索增强生成(Retrieval Augmented Generation &#…...

回溯算法学习
一、电话号码的字母组合 import java.util.ArrayList; import java.util.List;import javax.management.loading.PrivateClassLoader;public class letterCombinations {private static final String[] KEYPAD {"", //0"", //1"abc", //2"…...