CCKS2023:基于企业数仓和大语言模型构建面向场景的智能应用
8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS 2023)在沈阳召开。大会以“知识图谱赋能通用AI”为主题,探讨知识图谱对通用AI技术的支撑能力,探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。
作为国内知识图谱、语义技术、自然语言理解与知识获取等领域的核心学术会议,每年的CCKS都会邀请相关技术领域顶尖专家学者参会,探讨AI前沿技术。今年以来,大语言模型掀起的新一轮AI浪潮席卷全球。本次大会上,大语言模型也成为众多参会专家学者关注的焦点。
在会上,酷克数据首席科学家杨胜文博士发表了题为《用知识增强“小”语言模型》的主旨演讲,从产业实践的角度分享了在企业数据仓库环境下,利用中小规模语言模型构建面向场景的智能应用的探索与实践,并对企业数智化转型过程中AI与数据如何更好地协同做了探讨。
大模型VS小模型?
在过去的几个月中,大语言模型在公众当中的关注度有所缓和,但学术界和产业界的投入热情并未减弱。国内外各大厂商都在加速技术迭代,众多初创公司也在奋起直追,开源社区的发展也非常迅猛。
杨胜文指出,目前千亿级参数的大语言模型在生成能力方面仍存在一些不足,如生成“幻觉”问题。更为重要的是,企业在实际应用大模型过程中还面临着数据安全、私有化成本高、关键应用场景识别难和高质量数据缺乏等诸多挑战。

图1:酷克数据首席科学家杨胜文博士
相对动辄千亿级甚至万亿参数的大语言模型而言,十亿级或百亿级参数的“小”语言模型,已经具备良好的语言理解和生成能力,并且在落地方面有着显著的成本优势。小语言模型能够以极低的成本在企业私有化部署,微调、推理所需的硬件成本也较低。通过与企业自有数据紧密结合(包括微调和Prompt增强等),在很多垂直场景都可以取得良好的应用效果。凭借其出色的性价比和灵活性,小语言模型成为现阶段LLM在企业落地应用的可行替代方案。
同时,日益繁荣的开源生态为小语言模型在企业低成本、规模化的应用创造了条件。在代码和工具层面,已经出现了很多优秀的开源项目和公开数据集,能够满足百亿级参数模型的训练需求。在模型层面,出现了很多由大型商业公司、研究机构和初创公司研发的模型,参数规模从数十亿到数百亿参数不等,大部分模型都允许免费商用,这为小语言模型的规模化落地进一步创造了条件。
企业数据仓库与大语言模型的有机结合
大语言模型的训练、微调以及知识增强的应用离不开高质量数据的支持。作为企业数据的存储、加工和分析的核心场所,企业数据仓库蕴藏着巨大的企业数据资产。
杨胜文认为,数据仓库为企业打造垂类模型、搭建面向场景的智能应用提供了天然的数据和计算环境。他同时指出,上一代数仓普遍采用传统MPP架构,存在数据冗余、时效性差、数据一致性难保障、数据孤岛治理成本高等难题,增加了数据管理和模型开发的复杂度。
酷克数据的旗舰产品HashData云数仓,是国内最早实现存算分离的云原生分析型数据库,目前已服务金融、电信、能源等行业众多大型企业。HashData数仓系统由1个元数据集群、若干个计算集群、1个对象存储以及1个管理控制台构成,具备极佳的弹性和可扩展性。
相比传统架构的数据仓库,HashData采用存算分离的架构,不仅能够通过SQL计算引擎对传统的数仓业务提供很好的支持,还能够借助ML/DL计算引擎实现对机器学习和深度学习的高效支持,其中包括对大语言模型微调和推理的支持,显著降低了系统的复杂性,也大幅降低了运营成本。
HashData云数仓还内置了对向量数据的支持,基于分布式并行处理技术,可以支持海量语义向量数据的存储和高效检索。
杨胜文表示,以HashData为代表的现代企业数据仓库,为数据查询、分析和AI计算提供了统一的软硬件平台,将极大地推动AI技术在企业中的实际应用。
HashML助力企业轻松构建大模型应用
为了进一步降低AI技术的应用门槛,酷克数据基于HashData云数仓自主研发了下一代In-Database高级分析和数据科学工具HashML。
杨胜文介绍,HashML首要设计目标就是简单易用,帮助企业无门槛地使用各种经典和最前沿的AI算法和模型能力,解决实际业务问题。
为了实现这个目标,HashML对编程接口做了高度抽象和标准化,允许客户只编写少量代码就可以完成从数据加载到数据处理,再到模型训练、模型部署、推理预测的全流程工作。

图2:HashML主要功能概览
就大语言模型而言,借助HashML可以实现高质量数据挖掘、模型微调和Prompt增强,用户只需要少量的代码就能完成智能应用的搭建,包括向量知识库的建库和检索、模型的高效微调、模型部署和在线服务,以及对话式Web应用的快速开发。另外,HashML针对知名的开源语言模型,例如ChatGLM、Baichuan、Llama2等,提供了额外的功能封装,方便客户更加便捷地使用这些模型。
在会上,杨胜文介绍了基于HashML和小语言模型构建的两个智能应用:检索增强的智能问答(ReQA)和基于自然语言交互的数据分析(ChatData)。
在ReQA中,通过将企业长期积累的产品手册、技术手册、行业标准、客户服务记录等资料进行向量化,并以向量知识库的形式存放在HashData,再结合语义向量检索技术和语言模型,就能实现基于本地知识库的精准问答。

图3:基于向量知识库的检索增强的智能问答(ReQA)
在ChatData中,用户能够以自然语言的方式与HashData数据库进行交互, 实现数据查询和结果展示,还能够以自然语言的方式对查询结果进行可视化,从而大幅降低数据分析应用的门槛,允许企业更多的员工在职权范围内借助数据分析提升工作效率和工作质量。为了让模型能够更好的理解用户查询意图并生成正确的SQL语句,酷克数据团队准备了近十万条的训练语料,对模型进行了微调。

图4:基于自然语言的交互式数据分析(ChatData)
展望未来,杨胜文认为,新一代人工智能技术正在加速企业数字化、智能化进程,将对企业的研发、生产、经营带来深远影响。只有让AI计算贴近应用场景、贴近企业数据资产,才能更好地推动AI落地。以HashData为代表的现代企业数据仓库为依托,结合小语言模型,低成本快速试错,发掘高价值应用场景,是现阶段推动大语言模型技术在企业规模化落地的一种可行路径。
本次大会现场,酷克数据云数仓解决方案HashData及下一代数据科学工具HashML受到众多参会者关注。HashML将于近期正式发布,后续我们会带来更多相关技术分享。敬请关注!
相关文章:
CCKS2023:基于企业数仓和大语言模型构建面向场景的智能应用
8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS 2023)在沈阳召开。大会以“知识图谱赋能通用AI”为主题,探讨知识图谱对通用AI技术的支撑能力,探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。 作为…...
LeetCode 热题 100——无重复字符的最长子串(滑动窗口)
题目链接 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 题目解析 从s字符串中,去找出连续的子串,使该子串中没有重复字符,返回它的最长长度。 暴力枚举 依次以第一个、第二个、第三个等等为起点去遍历字符串&a…...
【zookeeper】zookeeper的shell操作
Zookeeper的shell操作 本章节将分享一些zookeeper客服端的一些命令,实验操作有助于理解zookeeper的数据结构。 Zookeeper命令工具 在前一章的基础上,在启动Zookeeper服务之后,输入以下命令,连接到Zookeeper服务。连接成功之后&…...
R语言Meta分析核心技术
Meta分析是针对某一科研问题,根据明确的搜索策略、选择筛选文献标准、采用严格的评价方法,对来源不同的研究成果进行收集、合并及定量统计分析的方法,最早出现于“循证医学”,现已广泛应用于农林生态,资源环境等方面。…...
Oracle数据库尚硅谷学习笔记
文章目录 Oracle数据库体系结构简介补充SQL初步导入sql文件别名连接符distinct去重的坑 过滤和排序数据日期格式比较运算其它比较运算符逻辑运算优先级排序 单行函数SQL中不同类型的函数单行函数字符数值日期转换通用 使用条件表达式嵌套查询 多表查询等值连接非等值连接左外连…...
CG MAGIC进行实体渲染后!分析渲染器CR和VR的区别之处!
新手小白来说,如何选择渲染器,都会提出疑问? 渲染效果图究竟用CR渲染器还是VR渲染器呢? 今天,CG MAGIC小编通过一个真实的项目场景,实例渲染之后,CR渲染器和VR渲染器区别有哪几点? 1…...
Ubuntu下Python3与Python2相互切换
参考文章:https://blog.csdn.net/Nicolas_shen/article/details/124144931 设置优先级 sudo update-alternatives --install /usr/bin/python python /usr/bin/python2 100 sudo update-alternatives --install /usr/bin/python python /usr/bin/python3 200...
【深度学习】实验07 使用TensorFlow完成逻辑回归
文章目录 使用TensorFlow完成逻辑回归1. 环境设定2. 数据读取3. 准备好placeholder4. 准备好参数/权重5. 计算多分类softmax的loss function6. 准备好optimizer7. 在session里执行graph里定义的运算 附:系列文章 使用TensorFlow完成逻辑回归 TensorFlow是一种开源的…...
2023-09-04 Linux 让shell编译脚本里面设置的环境变量改变kernel里面驱动文件的宏定义值方法,我这里用来做修改固件版本
一、原生的读取版本接口是/proc/version,我这里需要提供获取固件版本号的api给app,因为版本号会经常需要修改,如果每次都到kernel下修改比较麻烦,我这里是想在编译脚本里面对版本号进行修改,这样方便一点。 二、主要修…...
Python操作Excel实战:Excel行转列
# 1、原始数据准备 样例数据准备 地区1m2-5m6-10m11-20m21-40m地区单价计费单位费用最小值费用最大值北京13012011010090 天津13012011010090 石家庄13012011010090 保定140130120110100 张家口170150130120110 邢台1401201101…...
java实现迭代器模式
迭代器模式(Iterator Pattern)是一种行为型设计模式,它提供一种方法来顺序访问一个聚合对象(如列表、集合、数组等)中的元素,而不暴露聚合对象的内部表示。迭代器模式通常包括以下角色:迭代器&a…...
C++day7模板、异常、auto关键字、lambda表达式、数据类型转换、STL、list、文件操作
作业 封装一个学生的类,定义一个学生这样类的vector容器, 里面存放学生对象(至少3个) 再把该容器中的对象,保存到文件中。 再把这些学生从文件中读取出来,放入另一个容器中并且遍历输出该容器里的学生。 #include …...
【校招VIP】产品分析之活动策划宣传
考点介绍: 产品的上线运营是非常重要的。应该来说好的产品都是运营出来的,在一运营过程中难免会依靠策划活动来提高产品知名度、用户数。用户粘度等等指标一,如何策划一个成功的活动就显得非常重要。 产品分析之活动策划宣传-相关题目及解析…...
node基础之一:fs 模块
概念:文件的创建、删除、重命名、移动、写入、读取等 const fs require("fs");// 写入 fs.writeFile("./demo.txt", "hello", (err) > {}); fs.writeFileSync();// 追加 fs.appendFile("./demo.txt", "hello&quo…...
如何快速搭建母婴行业的微信小程序?
如果你想为你的母婴行业打造一个独特的小程序,但没有任何编程经验,别担心!现在有许多小程序制作平台提供了简单易用的工具,让你可以轻松地建立自己的小程序。接下来,我将为你详细介绍搭建母婴行业小程序的步骤。 首先&…...
【科普向】Jmeter 如何测试接口保姆式教程
现在对测试人员的要求越来越高,不仅仅要做好功能测试,对接口测试的需求也越来越多!所以也越来越多的同学问,怎样才能做好接口测试? 要真正的做好接口测试,并且弄懂如何测试接口,需要从如下几个…...
阿里云2核4G服务器5M带宽5年费用价格明细表
阿里云2核4G服务器5M带宽可以选择轻量应用服务器或云服务器ECS,轻量2核4G4M带宽服务器297元一年,2核4G云服务器ECS可以选择计算型c7、c6或通用算力型u1实例等,买5年可以享受3折优惠,阿腾云分享阿里云服务器2核4G5M带宽五年费用表&…...
【图解RabbitMQ-2】图解JMS规范与AMQP协议是什么
🧑💻作者名称:DaenCode 🎤作者简介:CSDN实力新星,后端开发两年经验,曾担任甲方技术代表,业余独自创办智源恩创网络科技工作室。会点点Java相关技术栈、帆软报表、低代码平台快速开…...
springboot整合mybatis实现增删改查(xml)--项目阶段1
目录 一、前言 二、创建项目 创建MySQL数据库和表 创建springboot项目 本文总体代码结构图预览 三、编写代码 (一)新建实体层属性类 (二)新建数据层mapper接口 (三)新建mapper的映射SQL(…...
springboot文件上传异步报错
因为迁移的生产环境,在新的服务器发生了之前没有遇到的问题,这种问题是在异步文件上传的时候才会出现 错误信息如下 16:17:50.009 ERROR c.w.einv.minio.service.impl.MinioFileServiceImpl - 文件上传错误! java.io.FileNotFoundException: /applicati…...
开源动作捕捉新纪元:FreeMoCap低成本解决方案全解析
开源动作捕捉新纪元:FreeMoCap低成本解决方案全解析 【免费下载链接】freemocap Free Motion Capture for Everyone 💀✨ 项目地址: https://gitcode.com/GitHub_Trending/fr/freemocap 问题:动作捕捉技术的高门槛困境 在数字内容创作…...
FanControl深度应用指南:从噪音溯源到智能散热系统搭建
FanControl深度应用指南:从噪音溯源到智能散热系统搭建 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/f…...
Spring Boot项目SQL执行监控实战:手把手集成P6spy,自定义日志格式并输出到文件
Spring Boot生产环境SQL监控全方案:P6spy高阶配置与日志持久化实战 当你负责的电商系统在促销活动期间突然出现响应迟缓,或是金融交易系统在月末结算时频繁超时,数据库查询性能往往是首要怀疑对象。但生产环境的数据库通常不允许直接连接进行…...
提升开发效率与视觉舒适度:LxgwWenKai字体全场景配置指南
提升开发效率与视觉舒适度:LxgwWenKai字体全场景配置指南 【免费下载链接】LxgwWenKai LxgwWenKai: 这是一个开源的中文字体项目,提供了多种版本的字体文件,适用于不同的使用场景,包括屏幕阅读、轻便版、GB规范字形和TC旧字形版。…...
【Python多解释器隔离终极指南】:20年CTO亲授GIL绕过术、内存隔离与并发安全实战(附可运行代码库)
第一章:Python多解释器隔离的核心概念与演进脉络Python长期以来以全局解释器锁(GIL)为标志性设计,单进程内仅能存在一个活跃的CPython解释器状态(PyInterpreterState),这使得“多解释器”长期处…...
OpenOCD入门到精通:第23章 添加新的 JTAG 适配器驱动
第23章 添加新的 JTAG 适配器驱动 导读摘要:OpenOCD 支持 40 余种调试适配器,每种适配器背后都有一个遵循统一接口规范的驱动程序。本章从 adapter_driver 结构体出发,逐一解析其回调函数语义,介绍 libusb/HIDAPI 通信层封装,并通过一个完整的简易驱动实现示例,帮助读者掌…...
LFM2.5-1.2B-Thinking-GGUF部署指南:ss端口监听+curl health检测标准化运维流程
LFM2.5-1.2B-Thinking-GGUF部署指南:ss端口监听curl health检测标准化运维流程 1. 平台简介 LFM2.5-1.2B-Thinking-GGUF是Liquid AI推出的轻量级文本生成模型,特别适合在资源有限的环境中快速部署和使用。这个镜像内置了GGUF模型文件和llama.cpp运行时…...
Python实战:用LangGraph和MCP打造你的第一个AI代理(附完整代码)
Python实战:用LangGraph和MCP构建智能代理的完整指南 在当今快速发展的AI领域,构建能够理解和执行复杂任务的智能代理已成为开发者关注的焦点。本文将带您深入了解如何利用LangGraph框架和模型上下文协议(MCP)构建一个功能完备的AI代理,从基础…...
MedGemma Medical Vision LabGPU优化:FP16量化+KV Cache压缩使A10显存占用降低42%
MedGemma Medical Vision Lab GPU优化:FP16量化KV Cache压缩使A10显存占用降低42% 1. 项目背景与挑战 MedGemma Medical Vision Lab 是一个基于 Google MedGemma-1.5-4B 多模态大模型构建的医学影像智能分析 Web 系统。这个系统通过 Web 界面实现医学影像与自然语…...
人工智能高质量数据集概述
人工智能高质量数据集,是指经过标准化采集、清洗、标注、质检、脱敏及结构化处理,能够直接用于人工智能模型开发、训练与优化,且能有效提升模型性能、保障模型泛化能力,具备高可用性、高一致性、高安全性和高适配性的结构化或非结…...
