大模型在数据分析场景下的能力评测|进阶篇
做数据分析,什么大模型比较合适?
如何调优大模型,来更好地做数据计算和洞察分析?
如何降低整体成本,同时保障分析体验?10月25日,我们发布了数据分析场景下的大模型能力评测框架(点击查看:Kyligence LLM Benchmark for Data & Analytics)
该评测发出后,我们陆续收到多家客户、大模型厂商等对于评测大模型的询问。在过去的近一个月,我们又陆续新增了一批大模型作为评测对象,如 GPT-4、文心一言 Ernie-Bot-turbo、通义千问 Qwen-14B、Minimax 等,初步得出以下结论,并在下文第 4 章节给出相应的优化建议。
- GPT-4 综合成绩最强,国产大模型表现已经基本不弱于 GPT-3.5
- 不同大模型在“数据计算”方面的差异较大,且参数越高,表现越好
- 多数大模型在“数据洞察”方面的表现接近,一些低参数大模型的表现依然强劲,这意味着可以通过“大数据+大模型”结合来实现低成本的 AI 数据分析场景

图 1 大模型在数据分析场景下的能力评测结果,2023-11
#01 评测坐标系
从普遍意义上来讲,“数据分析”的定义为:数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。我们从这个定义出发,把数据分析拆解为如下两个关键过程:数据计算和数据洞察。
1.1 数据计算
数据计算过程指在用户给定分析指令的前提下,由大模型进行指令解读,并识别用户的分析意图、匹配业务指标,并从数据库或其他数据源获取指标数值的过程。
值得说明的是,从外部获取数据一般有两种方式:一种是传统的 Text-to-SQL 即大模型生成 SQL 语句访问原始数据库,并完成取数、计算等工作,另一种是大模型生成 API 请求来访问指标平台,以直接获取指标结果。我们在 Kyligence Copilot 使用第二种方式,因为在这种方式下,所有的指标结果是由指标平台提供的,而不是大模型计算,从而确保指标数据准确性,避免“幻觉”的出现,同时保障企业内的指标口径一致性和治理合规。
对于大模型而言,这个过程重点考察两个方面:一是对业务问题的理解和意图识别能力,二是生成代码以访问外部系统的能力。
1.2 数据洞察
数据洞察过程指在用户拿到指标数据之后,开展一系列分析、洞察动作,并获得洞察结论。在传统数据分析的模式下,很多数据分析师会以 Excel 或 CSV 格式的文件形式获取指标数据,并由此开始进行可视化作图、归因分析等操作。
对于大模型而言,这个过程重点考察两个方面:一是以专业的语言表达和润色能力来解读所发现的洞察信息,二是通过可视化、文字总结等形式对统计数据进行可视化展现,向用户证明和支撑自己所发现的洞察。
#02 评测方案
在上个月发布的《大模型在数据分析场景下的能力评测》中,我们提供了 7 个评测维度。在本文中,我们将从数据计算、数据洞察这两个方面对这 7 个评分维度进行归类,并通过这 7 个维度的评分来反映各个大模型在这两方面的能力表现。
关于这 7 个维度的介绍,本文不再重复介绍,如需了解详情,请查阅《大模型在数据分析场景下的能力评测》文章。

图 2 评测坐标系的 7 个评分维度
在本轮评测工作中,我们新增了以下大模型进行评测:Azure OpenAI GPT-4、通义千问 Qwen-14B、文心一言 Ernie-Bot-turbo、MiniMax 等。另外,由于测试数据集更新迭代,我们也对上一轮评测的大模型进行重跑,包括 Azure OpenAI GPT-3.5-Turbo、智谱 AI 的 ChatGLM-Pro 和 ChatGLM-Std、百川智能 Baichuan2-53B 和 Baichuan2-13B、开源 Falcon-40B 和 LLaMA2-13B 等大模型。
#03 评测结果
根据《大模型在数据分析场景下的能力评测》提到的 7 个评分维度,我们对上述所有的受测大模型进行评测,并整理分数如下:

图 3 大模型在数据分析场景下的能力评分
我们根据图 2 所示的分类关系,把这 7 个评分维度投射到由数据计算、数据洞察两个角度组成的评测坐标系中,可以很直观的看到不同大模型的能力分布情况(X/Y 坐标代表该分类各维度评分的平均值,气泡大小代表综合能力评分):

图 4 大模型在数据分析场景下的能力评测结果,2023-11根据以上测试结果,我们初步得出以下结论:
- GPT-4 综合成绩最强,国产大模型表现已经基本不弱于 GPT-3.5
- 从数据计算的角度看,不同大模型表现差异很大;参数越高,表现越好
- 从数据洞察的角度看,多数大模型表现接近,一些低参数大模型的表现依然强劲,这意味着可以通过“大数据+大模型”结合来实现低成本的 AI 数据分析场景
#04 结果分析和优化建议
4.1 从“数据计算”角度
首先,我们从数据计算方面对评测结果进行分析。如结论中提到,不同大模型表现差异很大,尤其是参数较高时表现较好。但参数越高的模型往往需要较高的算力成本,在企业实际落地时往往需要综合考虑收益和成本比例(ROI)。

图 5 优化大模型在“数据计算”方面的表现
因数据计算过程主要是自然语言理解以及代码生成过程,是比较通用的大模型能力,对专业的数据分析能力涉及不多。如图 5 所示,如希望在优化模型表现的同时兼顾算力成本,可以通过集成第三方数据服务平台的方式,如与指标平台实现更紧密的集成。即企业通过指标平台定义并管理所有业务指标的名称、计算逻辑等,并通过 API 方式供应用端获取指标定义和指标数据。在这种方式下,大模型进行指标匹配、代码生成等的难度将降低,有助于保障整体准确度。除此之外,所有的指标数据将由指标平台计算得出,而不是大模型自行计算,这也将在数据计算准确度和指标口径统一管理方面带来显著增强。
4.2 从“数据洞察”角度
其次,我们从数据洞察角度对评测结果进行分析。如结论中提到,多数大模型表现接近,个别模型表现欠佳。因为数据洞察过程是分析数据并产生结论的核心过程,有较强的专业性。我们猜测这和模型训练时使用的语料有关,因为数据洞察场景的 Prompt 输入和输出要求较为专业,且和相应的业务分析场景有关,而大模型训练时的语料库主要来自互联网,和数据分析场景的语料类型可能有较大差异。

图 6 优化大模型在“数据洞察”方面的表现
如图 6 所示,如希望提升模型在数据洞察方面的表现,可以通过增加更多数据分析场景的语料输入对模型进行微调,从而优化大模型在该场景下的效果。
#05 已知限制和情况说明
- 本次评测数据集基于 Kyligence Copilot 使用场景总结,可能不适用于企业所有数据分析场景
- 本次评测基于各大模型服务的默认配置,未进行任何调参;值得说明的一点是,对大模型服务进行调优可能进一步优化评测结果
- 本次评测针对不同大模型所使用的算力情况如下:
- GPT-4 / GPT-3.5-Turbo / ChatGLM / Baichuan2-53B / MiniMax / 文心一言均基于厂商提供的 SaaS 服务,算力资源不详
- Falcon-40B / Baichuan2-13B / LLaMa2-13B / 通义千问 Qwen-14B 是基于对应的开源模型在实验室私有化部署了本地服务,算力为 4 块 NVIDIA RTX 4090 24GB 显卡
- 因算力有限等因素,我们尚未对 LLaMa2-70B 完成评测;同时,我们期待在开源大模型有更好中文支持的情况下再次进行评测
#06 结语
在本轮评测中,我们从数据计算、数据洞察两个方面对大模型评测结果进行了归类,并提出不同方向的优化建议。如果您正在对大模型进行技术选型,或正在探索大模型在数据分析场景的应用落地与优化方案,欢迎与我们联系沟通。
11月21日,Kyligence 将举办线上数智论坛暨产品发布会,我们特邀了来自德勤、智谱 AI、百川智能、阿斯利康等嘉宾分享大模型 + 大数据的最新探索与实践,届时我们将发布 AI 数智助理 Kyligence Copilot 支持国产化大模型以及智能一站式指标平台的企业级能力与实践。欢迎大家点击「链接」查看完整议程并报名参会👇
关于 Kyligence
跬智信息(Kyligence)由 Apache Kylin 创始团队于 2016 年创办,是领先的大数据分析和指标平台供应商,提供企业级 OLAP(多维分析)产品 Kyligence Enterprise 和一站式指标平台 Kyligence Zen,为用户提供企业级的经营分析能力、决策支持系统及各种基于数据驱动的行业解决方案。
Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制造、零售、医疗等行业客户,包括建设银行、平安银行、浦发银行、北京银行、宁波银行、太平洋保险、中国银联、上汽、长安汽车、星巴克、安踏、李宁、阿斯利康、UBS、MetLife 等全球知名企业,并和微软、亚马逊云科技、华为、安永、德勤等达成全球合作伙伴关系。Kyligence 获得来自红点、宽带资本、顺为资本、斯道资本、Coatue、浦银国际、中金资本、歌斐资产、国方资本等机构多次投资。
相关文章:
大模型在数据分析场景下的能力评测|进阶篇
做数据分析,什么大模型比较合适? 如何调优大模型,来更好地做数据计算和洞察分析? 如何降低整体成本,同时保障分析体验?10月25日,我们发布了数据分析场景下的大模型能力评测框架(点击…...
服务注册发现 springcloud netflix eureka
文章目录 前言角色(三个) 工程说明基础运行环境工程目录说明启动顺序(建议):运行效果注册与发现中心服务消费者: 代码说明服务注册中心(Register Service)服务提供者(Pro…...
Spring cloud负载均衡@LoadBalanced LoadBalancerClient
LoadBalance vs Ribbon 由于Spring cloud2020之后移除了Ribbon,直接使用Spring Cloud LoadBalancer作为客户端负载均衡组件,我们讨论Spring负载均衡以Spring Cloud2020之后版本为主,学习Spring Cloud LoadBalance,暂不讨论Ribbon…...
6.运行mysql容器-理解容器数据卷
运行mysql容器-理解容器数据卷 1.什么是容器数据卷2.如何使用容器数据卷2.1 数据卷挂载命令2.2 容器数据卷的继承2.3 数据卷的读写权限2.4 容器数据卷的小实验(加深理解)2.4.1 启动挂载数据卷的centos容器2.4.2 启动后,在宿主机的data目录下会…...
golang学习笔记——查找质数
查找质数 编写一个程序来查找小于 20 的所有质数。 质数是大于 1 的任意数字,只能被它自己和 1 整除。 “整除”表示经过除法运算后没有余数。 与大多数编程语言一样,Go 还提供了一种方法来检查除法运算是否产生余数。 我们可以使用模数 %(百…...
C++ 基础二
文章目录 四、流程控制语句4.1 选择结构4.1.1 if语句 4.1.2 三目运算符4.1.3 switch语句注意事项 4.1.4 if和switch的区别【CHAT】4.2 循环结构4.2.1 while循环语句4.2.2 do...while循环语句 4.2.3 for循环语句九九乘法表 4.3 跳转语句4.3.1 break语句4.3.2 continue语句4.3.3 …...
鼎盛合 | 宠物智能投食机方案设计开发
养宠物是一件治愈并解压的事情,与动物的相处中能够释放压力,并在与宠物的互动中小可爱们往往能带给你一种治愈的力量,所以养宠物成为了人们尤为热衷的事情。我们生活中随处可见主人与宠物相处的温馨画面,但养宠物也有些问题在困扰…...
ERR_PNPM_INVALID_WORKSPACE_CONFIGURATION packages field missing or empty
vue执行 pnpm install命令时,报 ERR_PNPM_INVALID_WORKSPACE_CONFIGURATION packages field missing or empty错,在网上查询了很久,也没有传出来结果,最后发现是pnpm的版本不对引起的。 我先执行的是npm install -g pnpm&…...
ubuntu 23.04从源码编译安装rocm运行tensorflow-rocm
因为ubuntu22.04的RDP不支持声音转发,所以下载了ubuntu23.04.但官方的rocm二进制包最高只支持ubuntu22.04,不支持ubuntu 23.04,只能自己从源码编译虽然有网友告诉我可以用docker运行rocm。但是我已经研究了好几天,沉没成本太多&am…...
echarts 图表文字大小自适应 字体大小自适应
将文字大小自适应方法挂载到全局 //main.js Vue.prototype.fontSize function(res) {// 获取视口宽度const clientWidth window.innerWidth ||document.documentElement.clientWidth ||document.body.clientWidth;if (!clientWidth) return; // 如果获取不到视口宽度…...
【项目】云备份系统基础功能实现
目录 一.项目介绍1.云备份认识2.服务端程序负责功能与功能模块划分3.客户端程序负责功能与功能模块划分4.开发环境 二.环境搭建1.gcc升级7.3版本2.安装jsoncpp库3.下载bundle数据压缩库4.下载httplib库 三.第三方库认识1.json(1)json认识(2)jsoncpp认识(3)json实现序列化(4)jso…...
【Shell脚本13】Shell 文件包含
Shell 文件包含 和其他语言一样,Shell 也可以包含外部脚本。这样可以很方便的封装一些公用的代码作为一个独立的文件。 Shell 文件包含的语法格式如下: . filename # 注意点号(.)和文件名中间有一空格或source filename实例 创建两个 shell 脚本文件…...
2023.11.15 关于 Spring Boot 配置文件
目录 引言 Spring Boot 配置文件 properties 配置文件说明 基本语法 读取配置文件 优点 缺点 yml 配置文件说明 基本语法 读取配置文件 yml 配置不同数据数据类型及 null 字符串 加单双引号的区别 yml 配置 列表(List) 和 映射(…...
2023年第九届数维杯国际大学生数学建模挑战赛A题
2023年第九届数维杯国际大学生数学建模挑战赛正在火热进行,小云学长又在第一时间给大家带来最全最完整的思路代码解析!!! A题思路解析如下: 完整版解题过程及代码,稍后继续给大家分享~ 更多题目完整解析点…...
IDEA写mybatis程序,java.io.IOException:Could not find resource mybatis-config.xml
找不到mybatis-config.xml 尝试maven idea:module,不是模块构造问题 尝试检验pom.xml,在编译模块添加了解析resources内容依旧不行 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.or…...
1软件管理
2.1软件管理 一、Linux软件包管理机制 红帽系操作系统软件管理分类 yum rpm source bin 二、Rpm工具管理RPM软件包 1、认识RPM软件包 rpm软件包名称 软件名称 版本号(主版本、次版本、修订号) 操作系统 cpu平台 操作系统:el6 el5 fedora suse debin ubuntu cpu平台:i386 …...
flutter 绘制右上角圆角三角形标签
绘制: import package:jade/utils/JadeColors.dart; import package:flutter/material.dart; import dart:math as math;class LabelTopRightYellow extends StatefulWidget {final String labelTitle; // 只能两个字的(文字偏移量没有根据文字长度改变…...
C/C++输出整数部分 2021年12月电子学会青少年软件编程(C/C++)等级考试一级真题答案解析
目录 C/C输出整数部分 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序编写 四、程序说明 五、运行结果 六、考点分析 C/C输出整数部分 2021年12月 C/C编程等级考试一级编程题 一、题目要求 1、编程实现 输入一个双精度浮点数f, 输出其整…...
通过20天预测7天
训练集和测试集如何划分,我如何知道期望和实际的对比。 当你希望通过过去20天的数据来预测未来7天时,你需要进行以下步骤: 1. **数据准备:** 将过去20天的数据整理成合适的格式,其中包括20天的特征和未来7天的目标。…...
【python】均值、中值和高斯滤波详解和示例
本文对均值、中值和高斯滤波进行详解,以帮助大家理解和使用。 这里写目录标题 均值滤波中值滤波高斯滤波核大小为(9,9)核大小为(51,51) 小结 下面是示例中使用的原图。 均值滤波 均值滤波是一种简单的平滑滤波器&…...
Prompt Tuning、P-Tuning、Prefix Tuning的区别
一、Prompt Tuning、P-Tuning、Prefix Tuning的区别 1. Prompt Tuning(提示调优) 核心思想:固定预训练模型参数,仅学习额外的连续提示向量(通常是嵌入层的一部分)。实现方式:在输入文本前添加可训练的连续向量(软提示),模型只更新这些提示参数。优势:参数量少(仅提…...
【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密
在实际项目中,用户注册、登录、修改密码等操作,都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输,在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...
【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪 宝可梦GO游戏自组网系统
目录 游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性 宝可梦玩法融合设计游戏构想要素1. 地图探索(基于物理空间 广播范围)2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法 安全性设计 技术选…...
Element Plus 表单(el-form)中关于正整数输入的校验规则
目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入(联动)2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...
基于matlab策略迭代和值迭代法的动态规划
经典的基于策略迭代和值迭代法的动态规划matlab代码,实现机器人的最优运输 Dynamic-Programming-master/Environment.pdf , 104724 Dynamic-Programming-master/README.md , 506 Dynamic-Programming-master/generalizedPolicyIteration.m , 1970 Dynamic-Programm…...
零基础在实践中学习网络安全-皮卡丘靶场(第九期-Unsafe Fileupload模块)(yakit方式)
本期内容并不是很难,相信大家会学的很愉快,当然对于有后端基础的朋友来说,本期内容更加容易了解,当然没有基础的也别担心,本期内容会详细解释有关内容 本期用到的软件:yakit(因为经过之前好多期…...
初探Service服务发现机制
1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。 主要功能:服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源…...
DingDing机器人群消息推送
文章目录 1 新建机器人2 API文档说明3 代码编写 1 新建机器人 点击群设置 下滑到群管理的机器人,点击进入 添加机器人 选择自定义Webhook服务 点击添加 设置安全设置,详见说明文档 成功后,记录Webhook 2 API文档说明 点击设置说明 查看自…...
实战三:开发网页端界面完成黑白视频转为彩色视频
一、需求描述 设计一个简单的视频上色应用,用户可以通过网页界面上传黑白视频,系统会自动将其转换为彩色视频。整个过程对用户来说非常简单直观,不需要了解技术细节。 效果图 二、实现思路 总体思路: 用户通过Gradio界面上…...
6️⃣Go 语言中的哈希、加密与序列化:通往区块链世界的钥匙
Go 语言中的哈希、加密与序列化:通往区块链世界的钥匙 一、前言:离区块链还有多远? 区块链听起来可能遥不可及,似乎是只有密码学专家和资深工程师才能涉足的领域。但事实上,构建一个区块链的核心并不复杂,尤其当你已经掌握了一门系统编程语言,比如 Go。 要真正理解区…...
