当前位置: 首页 > news >正文

国产大模型基础能力大比拼 - 计数:通义千文 vs 文心一言 vs 智谱 vs 讯飞-正经应用场景的 LLM 逻辑测试

在大语言模型(LLM)不断涌现的时代,如何评估这些国产大模型的逻辑推理能力,尤其是在处理基础计数问题上的表现,成为了一个备受关注的话题。随着越来越多的国产大模型进入市场,比较它们在不同任务中的表现尤为重要。本文聚焦于计数这一基础能力,对通义千文、文心一言、智谱以及讯飞的多个版本进行了对比测试,探索它们在处理简单逻辑题时的表现,并特别考察了推理链(Chain-of-Thought,COT)方法的必要性,以揭示这些模型在实际应用场景中的逻辑推理深度。

主要是非娱乐的业务场景,对于准确性、基础逻辑能力和理解能力要求较高,如果一个模型通过提示也无法变得更好,就很难在生产环境使用了

计数测试场景:“一一遇见给一个小孩子一个冰淇淋和一个糖果”

在测试中,我们使用了一道简单的计数题:“一一遇见给一个小孩子一个冰淇淋和一个糖果”,要求模型回答这句话中一共有几个“一”。正确答案是 5,其中包含了“一一遇见”、“一个小孩子”、“一个冰淇淋”以及“一个糖果”。这种类型的题目虽然简单,但对于大语言模型来说,能否正确回答却反映了模型对文本细节的理解能力。

第一轮测试结果

  • GPTo1-mini:5(正确)
    GPTo1-mini
    GPTo1-mini 成功给出了正确答案“5”。这说明它在处理基础计数任务时表现非常稳定,展示了较强的文本细节理解能力。

  • GPT4o:4(错误)
    GPT4o
    GPT4o 在这次测试中错误地给出了答案“4”。这表明它在处理重复性计数的细节时可能存在一些不足。

  • 通义千文2.5:3(错误)
    通义千文2.5
    通义千文2.5 给出了错误答案“3”,并详细解释了其原因,显然对于“一一”的解释存在偏差。这也反映出它在识别特定表达时缺乏对上下文的全面理解。

  • 文心一言3.5:5(正确)
    文心一言3.5
    文心一言3.5 成功给出了正确的答案,展示了它在基础计数和对“一”的理解方面的优异表现。

  • 智谱GLM-4-plus:3(错误)
    智谱GLM-4-plus
    智谱GLM-4-plus 在这一轮中错误地给出了答案“3”。这表明它在处理计数时对相似的重复元素的识别存在一定的挑战。

  • 讯飞4.0Ultra:5(正确)
    讯飞4.0Ultra
    讯飞4.0Ultra 准确地回答了“5”,这说明它具备良好的文本理解和计数能力,能够正确分析和识别句中的重复元素。

  • 讯飞4.0-Lite:2(错误)
    讯飞4.0-Lite
    讯飞4.0-Lite 显然未能正确理解题意,只给出了答案“2”,这表明其在处理细节分析方面存在明显的不足。

败者组再战:COT 提示的效果

为了进一步考察这些模型的推理能力,我们对未能通过第一轮测试的模型进行了提示调整,引导它们使用链式推理(COT)的方法,即“请仔细思考”。这一提示的目的在于测试模型在获得引导和提示后的表现是否有所改善,从而验证 COT 的有效性。

  • GPT4o:5(正确)
    GPT4o-COT
    经过提示引导,GPT4o 成功得出了正确答案“5”。这表明链式推理的提示能够帮助 GPT4o 更好地理解和分析文本细节。

  • 讯飞4.0-Lite:2(错误)
    讯飞4.0-Lite-COT
    尽管提示了仔细思考,讯飞4.0-Lite 依然没有改变其错误答案。这说明即使有 COT 提示,该模型在处理类似计数任务时仍然存在不足,可能与其整体推理能力的局限性有关。

  • 智谱GLM-4:5(正确)
    智谱GLM-4-COT
    在 COT 提示下,智谱GLM-4 成功得出了正确答案,这说明链式推理提示能够帮助其更好地逐步分析文本,从而提高正确率。

  • 通义千文2.5:5(正确)
    通义千文2.5-COT
    通义千文2.5 在链式推理提示下也得出了正确答案“5”,进一步表明该模型在获得适当提示时,其逻辑推理能力得到了有效激发。

总结:COT 能力的重要性

在这次测试中,GPTo1-mini、文心一言3.5、讯飞4.0Ultra 成功通过了第一轮测试,而 GPT4o、智谱GLM-4、通义千文2.5 则在经过 COT 提示后取得了正确答案。这说明大多数大模型在面临逻辑推理和计数任务时,借助 COT 提示能够显著提高其正确率。链式推理提示可以让模型逐步分析问题,从而减少犯错的概率。

唯一的失败者是 讯飞4.0-Lite,即使在提示下也未能改善其答案,这反映了其在推理链方面的不足。这表明该模型在面对需要复杂推理的任务时,仍有待提高,这可能需要进一步的算法优化和训练改进。

其实大模型还有不少,比如扣子等,但效果不是很理想

补充:免费模型

目前文心、讯飞、智谱都有免费版本,正如这次的测试结果一样,免费版本下的glm比较靠谱,相对来说文心和讯飞的免费版本性能就一般,除非娱乐或简单场景,难以应用。

待改善部分

  • 更多的大模型 - 因为某些原因,有些大模型无法体验或使用,尤其是比较想用到的盘古大模型
  • 更好的比对方式 - 如果国产大模型有类似竞技场的就好了,但国外的那个因为网络和接入原因并不能够很好的测试国产商用大模型
  • 更多的测试项目 - 本文只是给新人提一个思路,具体的可以扩散性思维发挥

最后强调一下,这个测试并不是很严谨,仅仅是一次简单的测试,不构成任何的商业建议,如果使用免费版本,glm挺不错,开源的模型llama3.2:3b在提示一步步计算时就可以胜任了,还是希望过程大模型越来越好吧

相关文章:

国产大模型基础能力大比拼 - 计数:通义千文 vs 文心一言 vs 智谱 vs 讯飞-正经应用场景的 LLM 逻辑测试

在大语言模型(LLM)不断涌现的时代,如何评估这些国产大模型的逻辑推理能力,尤其是在处理基础计数问题上的表现,成为了一个备受关注的话题。随着越来越多的国产大模型进入市场,比较它们在不同任务中的表现尤为…...

YOLO11改进 | 注意力机制 | 正确的 Self-Attention 与 CNN 融合范式,性能速度全面提升【独家创新】

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 卷积和自注意力是两种强大的表征学习技术…...

0基础学java之Day11

二维数组 静态二位数组 理解:二维数组中包含了多个一维数组 声明: 数据类型 变量名;--推荐 数据类型 变量名; //静态初始化1//String[][] names new String[][]{{"小红","小绿","小蓝"},{"小黄","小紫…...

python主流框架Django:ORM框架关联查询与管理器

目录 注意 使用前要调用之前的模型类 F对象 Q对象 聚合函数 排序 关联查询(连表查询) 修改 删除 查询集 QuerySet 注意 使用前要调用之前的模型类 F对象 之前的查询都是对象的属性与常量值比较,两个属性怎么比较呢? 答:使用 "F对象&quo…...

如何有效维护您的WordPress在线商店内容:提高客户参与度与转化率的实用技巧

在电子商务领域,内容为王。新鲜、相关且有吸引力的内容能显著提升客户参与度和转化率。本文将探讨如何有效更新和维护您的在线商店内容,确保客户始终获得最佳体验。 定期更新产品信息 产品描述 产品描述是吸引客户和促成销售的关键。定期检查并更新产…...

【Java】认识异常

1.异常概念与体系结构 1.1异常的概念 在我们日常开发中,代码都是尽可能完善,但是难免会出现一些奇奇怪怪的问题。而这些奇奇怪怪的问题可能很难通过代码去控制,比如格式不对会报错,网络不好也会报错等。 在Java中,将…...

20 Shell Script输入与输出

标出输入、标准输出、错误输出 一、程序的基本三个IO流 一)文件描述符 ​ 任何程序在Linux系统中都有3个基本的文件描述符 ​ 比如: ​ cd/proc/$$/fd ​ 进入当前shell程序对于内核在文件系统的映射目录中: [rootlocalhost ~]# cd /proc/$$/fd [rootlocalhos…...

HCIP-HarmonyOS Application Developer 习题(十六)

(判断)1、HiLink通过分布式软总线的方式连接所有设备,强能力设备可对弱能力设备进行设备虚拟化,将弱设备当做本机设备直接调用。 答案:错误 分析:HiLink 主要针对的是应用开发者与第三方设备开发者&#xf…...

没有什么可以抵达乌托邦,包括AI

本文为《智人之上:从石器时代到AI时代的信息网络简史》书评 可以说,尤瓦尔赫拉利又一次让我们获得了理解人类文明的新视角。 这是他一直以来都在做的:构建理解人类文明史的新知识框架。从此前的《人类简史》《未来简史》《今日简史》,到今天的新书《智人之上》,他一直保…...

家庭事务管理系统|基于java和vue的家庭事务管理系统设计与实现(源码+数据库+文档)

家庭事务管理系统 目录 基于java和vue的家庭事务管理系统 一、前言 二、系统功能设计 三、系统实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️大厂码农|毕设布道师,阿里云…...

doris创建异步物化视图(加速数据低频变更的复杂实时计算)

异步物化视图,可以把那些每次实时计算非常耗时的,而需要计算的数据变更比较低频的这些计算创建对应的异步物化视图,当相关数据变化的时候触发异步任务去更新计算结果,或者定时计算也可以。例如该处示范为计算订单的订单标识&#…...

PhpSpreadsheet创建带复杂表头的excel数据

目录 一:背景 二:excel表头数据实现 三:excel渲染数据实现: 四:最终效果如下: 一:背景 最近需要统计一些数据,导出到excel,主要是一些区域的人员销售统计数据,涉及到复杂的表头和…...

BurpSuite渗透工具的简单使用

BurpSuite渗透工具 用Burp Suite修改请求 step1: 安装Burp Suite。官网链接:Burp Suite官网 step2: 设置代理 step3: 如果要拦截https请求,还需要在客户端安装证书 step4: 拦截到请求可以在Proxy ->…...

洞察云上风险,主机安全尽在掌握

在实战攻防演练中,主机一直是攻击方的最终目标。作为网络架构中的重要组成部分,主机包含了大量的敏感数据、关键服务和系统资源。同时主机拥有网络资源的访问权限,攻击者通过入侵主机获得权限,进而控制整个网络或系统。因此做好主…...

使用kimi编辑助手,开始搭建一个微信小程序!第一天

为什么开源?因为不开源,一个人开发小程序,一点突如其来的变故就会导致自己整体处于一个不舒服的状态,同时自己从0开始1开始搭建小程序,也是自己个体之间能力的验证! 目前小程序版本:2.5.2 目前…...

【已解决】libev not found

学习韦东山老师的Linux应用开发实验班的JSON部分,在编译JSON包的过程中 报错命令: ./configure --hostarm-buildroot-linux-gnueabihf -prefix$PWD/tmp 错误信息: checking for libev support... checking for arm-buildroot-linux-gnue…...

qt QVariant详解

QVariant是Qt框架中一个功能强大的变体类,它提供了一种通用的方式来存储Qt对象及其他类的值,能够以类似于指针的方式存储任意类型的值。 一、 主要特性 通用性:QVariant可以存储几乎所有数据类型,包括基本数据类型(如…...

再获殊荣!通付盾当选信息技术应用创新工作委员会技术活动单位称号

近日,通付盾凭借其在信息技术应用创新领域的卓越贡献和突出表现,荣获“信息技术应用创新工作委员会技术活动单位”称号。这一荣誉不仅是对通付盾在技术创新和信息安全领域努力的肯定,更是对其在推动国家信息技术应用创新发展中发挥重要作用的…...

PostgreSQL模板数据库template0和template1的异同点

PostgreSQL模板数据库 PostgreSQL有两个模板数据库:template0和template1,template0是不可修改的,而template1是可以修改的。 那模板数据库有什么作用呢?顾名思义,当做模板。 其实我们创建数据库 CREATE DATABASE 其…...

手机ip切换成全局模式怎么弄

在当今数字化时代,智能手机已成为我们日常生活中不可或缺的一部分,无论是工作、学习还是娱乐,都离不开它的陪伴。随着网络技术的不断发展,手机IP地址的切换技术也逐渐走进大众视野,中,“全局模式” 作为IP切…...

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…...

label-studio的使用教程(导入本地路径)

文章目录 1. 准备环境2. 脚本启动2.1 Windows2.2 Linux 3. 安装label-studio机器学习后端3.1 pip安装(推荐)3.2 GitHub仓库安装 4. 后端配置4.1 yolo环境4.2 引入后端模型4.3 修改脚本4.4 启动后端 5. 标注工程5.1 创建工程5.2 配置图片路径5.3 配置工程类型标签5.4 配置模型5.…...

day52 ResNet18 CBAM

在深度学习的旅程中,我们不断探索如何提升模型的性能。今天,我将分享我在 ResNet18 模型中插入 CBAM(Convolutional Block Attention Module)模块,并采用分阶段微调策略的实践过程。通过这个过程,我不仅提升…...

cf2117E

原题链接&#xff1a;https://codeforces.com/contest/2117/problem/E 题目背景&#xff1a; 给定两个数组a,b&#xff0c;可以执行多次以下操作&#xff1a;选择 i (1 < i < n - 1)&#xff0c;并设置 或&#xff0c;也可以在执行上述操作前执行一次删除任意 和 。求…...

2025 后端自学UNIAPP【项目实战:旅游项目】6、我的收藏页面

代码框架视图 1、先添加一个获取收藏景点的列表请求 【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口&#xff08;适配服务端返回 Token&#xff09; export const login async (code, avatar) > {const res await http…...

【决胜公务员考试】求职OMG——见面课测验1

2025最新版&#xff01;&#xff01;&#xff01;6.8截至答题&#xff0c;大家注意呀&#xff01; 博主码字不易点个关注吧,祝期末顺利~~ 1.单选题(2分) 下列说法错误的是:&#xff08; B &#xff09; A.选调生属于公务员系统 B.公务员属于事业编 C.选调生有基层锻炼的要求 D…...

SpringCloudGateway 自定义局部过滤器

场景&#xff1a; 将所有请求转化为同一路径请求&#xff08;方便穿网配置&#xff09;在请求头内标识原来路径&#xff0c;然后在将请求分发给不同服务 AllToOneGatewayFilterFactory import lombok.Getter; import lombok.Setter; import lombok.extern.slf4j.Slf4j; impor…...

算法笔记2

1.字符串拼接最好用StringBuilder&#xff0c;不用String 2.创建List<>类型的数组并创建内存 List arr[] new ArrayList[26]; Arrays.setAll(arr, i -> new ArrayList<>()); 3.去掉首尾空格...

Mysql中select查询语句的执行过程

目录 1、介绍 1.1、组件介绍 1.2、Sql执行顺序 2、执行流程 2.1. 连接与认证 2.2. 查询缓存 2.3. 语法解析&#xff08;Parser&#xff09; 2.4、执行sql 1. 预处理&#xff08;Preprocessor&#xff09; 2. 查询优化器&#xff08;Optimizer&#xff09; 3. 执行器…...

给网站添加live2d看板娘

给网站添加live2d看板娘 参考文献&#xff1a; stevenjoezhang/live2d-widget: 把萌萌哒的看板娘抱回家 (ノ≧∇≦)ノ | Live2D widget for web platformEikanya/Live2d-model: Live2d model collectionzenghongtu/live2d-model-assets 前言 网站环境如下&#xff0c;文章也主…...