当前位置: 首页 > news >正文

国产大模型基础能力大比拼 - 计数:通义千文 vs 文心一言 vs 智谱 vs 讯飞-正经应用场景的 LLM 逻辑测试

在大语言模型(LLM)不断涌现的时代,如何评估这些国产大模型的逻辑推理能力,尤其是在处理基础计数问题上的表现,成为了一个备受关注的话题。随着越来越多的国产大模型进入市场,比较它们在不同任务中的表现尤为重要。本文聚焦于计数这一基础能力,对通义千文、文心一言、智谱以及讯飞的多个版本进行了对比测试,探索它们在处理简单逻辑题时的表现,并特别考察了推理链(Chain-of-Thought,COT)方法的必要性,以揭示这些模型在实际应用场景中的逻辑推理深度。

主要是非娱乐的业务场景,对于准确性、基础逻辑能力和理解能力要求较高,如果一个模型通过提示也无法变得更好,就很难在生产环境使用了

计数测试场景:“一一遇见给一个小孩子一个冰淇淋和一个糖果”

在测试中,我们使用了一道简单的计数题:“一一遇见给一个小孩子一个冰淇淋和一个糖果”,要求模型回答这句话中一共有几个“一”。正确答案是 5,其中包含了“一一遇见”、“一个小孩子”、“一个冰淇淋”以及“一个糖果”。这种类型的题目虽然简单,但对于大语言模型来说,能否正确回答却反映了模型对文本细节的理解能力。

第一轮测试结果

  • GPTo1-mini:5(正确)
    GPTo1-mini
    GPTo1-mini 成功给出了正确答案“5”。这说明它在处理基础计数任务时表现非常稳定,展示了较强的文本细节理解能力。

  • GPT4o:4(错误)
    GPT4o
    GPT4o 在这次测试中错误地给出了答案“4”。这表明它在处理重复性计数的细节时可能存在一些不足。

  • 通义千文2.5:3(错误)
    通义千文2.5
    通义千文2.5 给出了错误答案“3”,并详细解释了其原因,显然对于“一一”的解释存在偏差。这也反映出它在识别特定表达时缺乏对上下文的全面理解。

  • 文心一言3.5:5(正确)
    文心一言3.5
    文心一言3.5 成功给出了正确的答案,展示了它在基础计数和对“一”的理解方面的优异表现。

  • 智谱GLM-4-plus:3(错误)
    智谱GLM-4-plus
    智谱GLM-4-plus 在这一轮中错误地给出了答案“3”。这表明它在处理计数时对相似的重复元素的识别存在一定的挑战。

  • 讯飞4.0Ultra:5(正确)
    讯飞4.0Ultra
    讯飞4.0Ultra 准确地回答了“5”,这说明它具备良好的文本理解和计数能力,能够正确分析和识别句中的重复元素。

  • 讯飞4.0-Lite:2(错误)
    讯飞4.0-Lite
    讯飞4.0-Lite 显然未能正确理解题意,只给出了答案“2”,这表明其在处理细节分析方面存在明显的不足。

败者组再战:COT 提示的效果

为了进一步考察这些模型的推理能力,我们对未能通过第一轮测试的模型进行了提示调整,引导它们使用链式推理(COT)的方法,即“请仔细思考”。这一提示的目的在于测试模型在获得引导和提示后的表现是否有所改善,从而验证 COT 的有效性。

  • GPT4o:5(正确)
    GPT4o-COT
    经过提示引导,GPT4o 成功得出了正确答案“5”。这表明链式推理的提示能够帮助 GPT4o 更好地理解和分析文本细节。

  • 讯飞4.0-Lite:2(错误)
    讯飞4.0-Lite-COT
    尽管提示了仔细思考,讯飞4.0-Lite 依然没有改变其错误答案。这说明即使有 COT 提示,该模型在处理类似计数任务时仍然存在不足,可能与其整体推理能力的局限性有关。

  • 智谱GLM-4:5(正确)
    智谱GLM-4-COT
    在 COT 提示下,智谱GLM-4 成功得出了正确答案,这说明链式推理提示能够帮助其更好地逐步分析文本,从而提高正确率。

  • 通义千文2.5:5(正确)
    通义千文2.5-COT
    通义千文2.5 在链式推理提示下也得出了正确答案“5”,进一步表明该模型在获得适当提示时,其逻辑推理能力得到了有效激发。

总结:COT 能力的重要性

在这次测试中,GPTo1-mini、文心一言3.5、讯飞4.0Ultra 成功通过了第一轮测试,而 GPT4o、智谱GLM-4、通义千文2.5 则在经过 COT 提示后取得了正确答案。这说明大多数大模型在面临逻辑推理和计数任务时,借助 COT 提示能够显著提高其正确率。链式推理提示可以让模型逐步分析问题,从而减少犯错的概率。

唯一的失败者是 讯飞4.0-Lite,即使在提示下也未能改善其答案,这反映了其在推理链方面的不足。这表明该模型在面对需要复杂推理的任务时,仍有待提高,这可能需要进一步的算法优化和训练改进。

其实大模型还有不少,比如扣子等,但效果不是很理想

补充:免费模型

目前文心、讯飞、智谱都有免费版本,正如这次的测试结果一样,免费版本下的glm比较靠谱,相对来说文心和讯飞的免费版本性能就一般,除非娱乐或简单场景,难以应用。

待改善部分

  • 更多的大模型 - 因为某些原因,有些大模型无法体验或使用,尤其是比较想用到的盘古大模型
  • 更好的比对方式 - 如果国产大模型有类似竞技场的就好了,但国外的那个因为网络和接入原因并不能够很好的测试国产商用大模型
  • 更多的测试项目 - 本文只是给新人提一个思路,具体的可以扩散性思维发挥

最后强调一下,这个测试并不是很严谨,仅仅是一次简单的测试,不构成任何的商业建议,如果使用免费版本,glm挺不错,开源的模型llama3.2:3b在提示一步步计算时就可以胜任了,还是希望过程大模型越来越好吧

相关文章:

国产大模型基础能力大比拼 - 计数:通义千文 vs 文心一言 vs 智谱 vs 讯飞-正经应用场景的 LLM 逻辑测试

在大语言模型(LLM)不断涌现的时代,如何评估这些国产大模型的逻辑推理能力,尤其是在处理基础计数问题上的表现,成为了一个备受关注的话题。随着越来越多的国产大模型进入市场,比较它们在不同任务中的表现尤为…...

YOLO11改进 | 注意力机制 | 正确的 Self-Attention 与 CNN 融合范式,性能速度全面提升【独家创新】

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 卷积和自注意力是两种强大的表征学习技术…...

0基础学java之Day11

二维数组 静态二位数组 理解:二维数组中包含了多个一维数组 声明: 数据类型 变量名;--推荐 数据类型 变量名; //静态初始化1//String[][] names new String[][]{{"小红","小绿","小蓝"},{"小黄","小紫…...

python主流框架Django:ORM框架关联查询与管理器

目录 注意 使用前要调用之前的模型类 F对象 Q对象 聚合函数 排序 关联查询(连表查询) 修改 删除 查询集 QuerySet 注意 使用前要调用之前的模型类 F对象 之前的查询都是对象的属性与常量值比较,两个属性怎么比较呢? 答:使用 "F对象&quo…...

如何有效维护您的WordPress在线商店内容:提高客户参与度与转化率的实用技巧

在电子商务领域,内容为王。新鲜、相关且有吸引力的内容能显著提升客户参与度和转化率。本文将探讨如何有效更新和维护您的在线商店内容,确保客户始终获得最佳体验。 定期更新产品信息 产品描述 产品描述是吸引客户和促成销售的关键。定期检查并更新产…...

【Java】认识异常

1.异常概念与体系结构 1.1异常的概念 在我们日常开发中,代码都是尽可能完善,但是难免会出现一些奇奇怪怪的问题。而这些奇奇怪怪的问题可能很难通过代码去控制,比如格式不对会报错,网络不好也会报错等。 在Java中,将…...

20 Shell Script输入与输出

标出输入、标准输出、错误输出 一、程序的基本三个IO流 一)文件描述符 ​ 任何程序在Linux系统中都有3个基本的文件描述符 ​ 比如: ​ cd/proc/$$/fd ​ 进入当前shell程序对于内核在文件系统的映射目录中: [rootlocalhost ~]# cd /proc/$$/fd [rootlocalhos…...

HCIP-HarmonyOS Application Developer 习题(十六)

(判断)1、HiLink通过分布式软总线的方式连接所有设备,强能力设备可对弱能力设备进行设备虚拟化,将弱设备当做本机设备直接调用。 答案:错误 分析:HiLink 主要针对的是应用开发者与第三方设备开发者&#xf…...

没有什么可以抵达乌托邦,包括AI

本文为《智人之上:从石器时代到AI时代的信息网络简史》书评 可以说,尤瓦尔赫拉利又一次让我们获得了理解人类文明的新视角。 这是他一直以来都在做的:构建理解人类文明史的新知识框架。从此前的《人类简史》《未来简史》《今日简史》,到今天的新书《智人之上》,他一直保…...

家庭事务管理系统|基于java和vue的家庭事务管理系统设计与实现(源码+数据库+文档)

家庭事务管理系统 目录 基于java和vue的家庭事务管理系统 一、前言 二、系统功能设计 三、系统实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️大厂码农|毕设布道师,阿里云…...

doris创建异步物化视图(加速数据低频变更的复杂实时计算)

异步物化视图,可以把那些每次实时计算非常耗时的,而需要计算的数据变更比较低频的这些计算创建对应的异步物化视图,当相关数据变化的时候触发异步任务去更新计算结果,或者定时计算也可以。例如该处示范为计算订单的订单标识&#…...

PhpSpreadsheet创建带复杂表头的excel数据

目录 一:背景 二:excel表头数据实现 三:excel渲染数据实现: 四:最终效果如下: 一:背景 最近需要统计一些数据,导出到excel,主要是一些区域的人员销售统计数据,涉及到复杂的表头和…...

BurpSuite渗透工具的简单使用

BurpSuite渗透工具 用Burp Suite修改请求 step1: 安装Burp Suite。官网链接:Burp Suite官网 step2: 设置代理 step3: 如果要拦截https请求,还需要在客户端安装证书 step4: 拦截到请求可以在Proxy ->…...

洞察云上风险,主机安全尽在掌握

在实战攻防演练中,主机一直是攻击方的最终目标。作为网络架构中的重要组成部分,主机包含了大量的敏感数据、关键服务和系统资源。同时主机拥有网络资源的访问权限,攻击者通过入侵主机获得权限,进而控制整个网络或系统。因此做好主…...

使用kimi编辑助手,开始搭建一个微信小程序!第一天

为什么开源?因为不开源,一个人开发小程序,一点突如其来的变故就会导致自己整体处于一个不舒服的状态,同时自己从0开始1开始搭建小程序,也是自己个体之间能力的验证! 目前小程序版本:2.5.2 目前…...

【已解决】libev not found

学习韦东山老师的Linux应用开发实验班的JSON部分,在编译JSON包的过程中 报错命令: ./configure --hostarm-buildroot-linux-gnueabihf -prefix$PWD/tmp 错误信息: checking for libev support... checking for arm-buildroot-linux-gnue…...

qt QVariant详解

QVariant是Qt框架中一个功能强大的变体类,它提供了一种通用的方式来存储Qt对象及其他类的值,能够以类似于指针的方式存储任意类型的值。 一、 主要特性 通用性:QVariant可以存储几乎所有数据类型,包括基本数据类型(如…...

再获殊荣!通付盾当选信息技术应用创新工作委员会技术活动单位称号

近日,通付盾凭借其在信息技术应用创新领域的卓越贡献和突出表现,荣获“信息技术应用创新工作委员会技术活动单位”称号。这一荣誉不仅是对通付盾在技术创新和信息安全领域努力的肯定,更是对其在推动国家信息技术应用创新发展中发挥重要作用的…...

PostgreSQL模板数据库template0和template1的异同点

PostgreSQL模板数据库 PostgreSQL有两个模板数据库:template0和template1,template0是不可修改的,而template1是可以修改的。 那模板数据库有什么作用呢?顾名思义,当做模板。 其实我们创建数据库 CREATE DATABASE 其…...

手机ip切换成全局模式怎么弄

在当今数字化时代,智能手机已成为我们日常生活中不可或缺的一部分,无论是工作、学习还是娱乐,都离不开它的陪伴。随着网络技术的不断发展,手机IP地址的切换技术也逐渐走进大众视野,中,“全局模式” 作为IP切…...

谷歌浏览器插件

项目中有时候会用到插件 sync-cookie-extension1.0.0:开发环境同步测试 cookie 至 localhost,便于本地请求服务携带 cookie 参考地址:https://juejin.cn/post/7139354571712757767 里面有源码下载下来,加在到扩展即可使用FeHelp…...

23-Oracle 23 ai 区块链表(Blockchain Table)

小伙伴有没有在金融强合规的领域中遇见,必须要保持数据不可变,管理员都无法修改和留痕的要求。比如医疗的电子病历中,影像检查检验结果不可篡改行的,药品追溯过程中数据只可插入无法删除的特性需求;登录日志、修改日志…...

YSYX学习记录(八)

C语言&#xff0c;练习0&#xff1a; 先创建一个文件夹&#xff0c;我用的是物理机&#xff1a; 安装build-essential 练习1&#xff1a; 我注释掉了 #include <stdio.h> 出现下面错误 在你的文本编辑器中打开ex1文件&#xff0c;随机修改或删除一部分&#xff0c;之后…...

Objective-C常用命名规范总结

【OC】常用命名规范总结 文章目录 【OC】常用命名规范总结1.类名&#xff08;Class Name)2.协议名&#xff08;Protocol Name)3.方法名&#xff08;Method Name)4.属性名&#xff08;Property Name&#xff09;5.局部变量/实例变量&#xff08;Local / Instance Variables&…...

Python实现prophet 理论及参数优化

文章目录 Prophet理论及模型参数介绍Python代码完整实现prophet 添加外部数据进行模型优化 之前初步学习prophet的时候&#xff0c;写过一篇简单实现&#xff0c;后期随着对该模型的深入研究&#xff0c;本次记录涉及到prophet 的公式以及参数调优&#xff0c;从公式可以更直观…...

如何在看板中有效管理突发紧急任务

在看板中有效管理突发紧急任务需要&#xff1a;设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP&#xff08;Work-in-Progress&#xff09;弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中&#xff0c;设立专门的紧急任务通道尤为重要&#xff0c;这能…...

ESP32 I2S音频总线学习笔记(四): INMP441采集音频并实时播放

简介 前面两期文章我们介绍了I2S的读取和写入&#xff0c;一个是通过INMP441麦克风模块采集音频&#xff0c;一个是通过PCM5102A模块播放音频&#xff0c;那如果我们将两者结合起来&#xff0c;将麦克风采集到的音频通过PCM5102A播放&#xff0c;是不是就可以做一个扩音器了呢…...

04-初识css

一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...

【OSG学习笔记】Day 16: 骨骼动画与蒙皮(osgAnimation)

骨骼动画基础 骨骼动画是 3D 计算机图形中常用的技术&#xff0c;它通过以下两个主要组件实现角色动画。 骨骼系统 (Skeleton)&#xff1a;由层级结构的骨头组成&#xff0c;类似于人体骨骼蒙皮 (Mesh Skinning)&#xff1a;将模型网格顶点绑定到骨骼上&#xff0c;使骨骼移动…...

让AI看见世界:MCP协议与服务器的工作原理

让AI看见世界&#xff1a;MCP协议与服务器的工作原理 MCP&#xff08;Model Context Protocol&#xff09;是一种创新的通信协议&#xff0c;旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天&#xff0c;MCP正成为连接AI与现实世界的重要桥梁。…...