GPT-4o文科成绩超一本线,理科为何表现不佳?
目录
01 评测榜单
02 实际效果
什么?许多大模型的文科成绩竟然超过了一本线,还是在竞争激烈的河南省?
没错,最近有一项大模型“高考大摸底”评测引起了广泛关注。
河南高考文科今年的一本线是521分,根据这项评测,共有四个大模型的分数大于或等于这个分数,其中最值得关注的是前两名:
GPT-4o:562分
字节豆包:542.5分
……

从结果来看,GPT-4o依旧表现领先,而在国产大模型中,豆包的成绩尤为亮眼。
没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤
https://www.zhihu.com/pin/1768399982598909952如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!官网有更详细介绍:WildCard

在语文和历史等科目上,豆包超越了GPT-4o。
这让不少网友感叹:
AI在文科成绩上表现如此出色,看来在处理语言和逻辑方面确实有优势。
不过,考虑到国产大模型的竞争如此激烈,这份评测的排名真的靠谱吗?
01 评测榜单
要回答这些问题,我们不妨先查一查豆包在最新的权威评测榜单中的表现是否一致。
首先来看由智源研究院发布的FlagEval(天秤)。
它的评测方式如下:

对于开源模型,FlagEval会综合概率选择和自由生成两种方式来评测;对于闭源模型,FlagEval只采用自由生成的方式来评测,两种评测方式的区别参照。
在主观评测时,部分闭源模型对极小部分题目有拒绝回答的情况,这部分题目并没有计入能力分数的计算。
在“客观评测”这个维度上,榜单成绩如下。

不难看出,在FlagEval的客观评测维度中,前四名的成绩与“高考大摸底”的名次一致。
大模型依旧分别来自OpenAI、字节跳动、百度和百川智能。
并且豆包在“知识运用”和“数学能力”两个维度上的成绩还高于第一名的GPT-4。
如果将评测方式调整至“主观评测”,结果如下。
此时,百度的大模型跃居第一,而字节的豆包依旧稳居第二。
由此可见,无论是主观还是客观维度,前几位的名次都与“高考大摸底”的成绩相当接近。
02 实际效果
接下来的实际效果测试,采用“LLM链路+数学”的方式进行。
首先,试试这次的选择题:

把题目在PC端“喂”豆包之后,它的作答如下:

因此,豆包给出的答案是:
A、C、D、D、B、B、A、A
这里我们再来引入排名第一选手GPT-4o的作答:
A、D、B、D、C、A、C、B

对于更多的数学题的作答,其实复旦大学自然语言处理实验室在高考试卷曝光后第一时间做了更加全面的测试(所有大模型只能依靠LLM推理答题,不能通过RAG检索答案):


由此可见,大模型并不能完全应对高考数学题目,并且不同人生成的答案结果也会有所偏差。
反复测试后发现,在对话答题时存在一定的随机性,多轮测试的结果并不完全一致。上文仅展示了其中一轮的结果。
这也正如广大网友所反馈的那样——大模型在文科方面表现强劲,而在理科方面则相对较弱。
推荐阅读:
超越GPT-4o!新王Claude 3.5 Sonnet来啦!
GPT-4替代大学生参加考试,94%成功作弊未被发现!
相关文章:
GPT-4o文科成绩超一本线,理科为何表现不佳?
目录 01 评测榜单 02 实际效果 什么?许多大模型的文科成绩竟然超过了一本线,还是在竞争激烈的河南省? 没错,最近有一项大模型“高考大摸底”评测引起了广泛关注。 河南高考文科今年的一本线是521分,根据这项评测&…...
Lombok的hashCode方法
Lombok对于重写hashCode的算法真的是很经典,但是目前而言有一个令人难以注意到的细节。在继承关系中,父类的hashCode针对父类的所有属性进行运算,而子类的hashCode却只是针对子类才有的属性进行运算,立此贴提醒自己。 目前重写ha…...
关于springboot创建kafkaTopic
工具类提供,方法名见名知意。使用kafka admin import org.apache.kafka.clients.admin.*; import org.apache.kafka.common.KafkaFuture;import java.util.*; import java.util.concurrent.ExecutionException;import org.apache.kafka.clients.admin.AdminClient; …...
OOAD的概念
面向对象分析与设计(OOAD, Object-Oriented Analysis and Design)是一种软件开发方法,它利用面向对象的概念和技术来分析和设计软件系统。OOAD 主要关注对象、类以及它们之间的关系,通过抽象、封装、继承和多态等面向对象的基本原…...
Day47
Day47 手写Spring-MVC之DispatcherServlet DispatcherServlet的思路: 前端传来URI,在TypeContainer容器类中通过uri得到对应的类描述类对象(注意:在监听器封装类描述类对象的时候,是针对于每一个URI进行封装的&#x…...
【面试系列】后端开发工程师 高频面试题及详细解答
欢迎来到我的博客,很高兴能够在这里和您见面!欢迎订阅相关专栏: ⭐️ 全网最全IT互联网公司面试宝典:收集整理全网各大IT互联网公司技术、项目、HR面试真题. ⭐️ AIGC时代的创新与未来:详细讲解AIGC的概念、核心技术、…...
mac|浏览器链接不上服务器但可以登微信
千万千万千万不要没有关梯子直接关机,不然就会这样子呜呜呜 设置-网络,点击三个点--选择--位置--编辑位置(默认是自动) 新增一个,然后选中点击完成 这样就可以正常上网了...
Spring Cloud Alibaba之负载均衡组件Ribbon
一、什么是负载均衡? (1)概念: 在基于微服务架构开发的系统里,为了能够提升系统应对高并发的能力,开发人员通常会把具有相同业务功能的模块同时部署到多台的服务器中,并把访问业务功能的请求均…...
tkinter显示图片
tkinter显示图片 效果代码解析打开和显示图像 代码 效果 代码解析 打开和显示图像 def open_image():file_path filedialog.askopenfilename(title"选择图片", filetypes(("PNG文件", "*.png"), ("JPEG文件", "*.jpg;*.jpeg&q…...
000.二分查找算法题解目录
000.二分查找算法题解目录 69. x 的平方根(简单)34. 在排序数组中查找元素的第一个和最后一个位置(中等)...
数据资产赋能企业决策:通过精准的数据分析和洞察,构建高效的数据资产解决方案,为企业提供决策支持,助力企业实现精准营销、风险管理、产品创新等目标,提升企业竞争力
一、引言 在信息化和数字化飞速发展的今天,数据已成为企业最宝贵的资产之一。数据资产不仅包含了企业的基本信息,还蕴含了丰富的市场趋势、消费者行为和潜在商机。如何通过精准的数据分析和洞察,构建高效的数据资产解决方案,为企…...
【java开发环境】多版本jdk 自由切换window和linux
win10 一、准备 各种版本的jdk,按自己的需要下载。 我这里是需要jdk17和jdk8。 1、jdk17 下载:Java Downloads | Oracle,选择exe后缀文件 2、jdk8下 载:Java Downloads | Oracle,选择exe后缀文件 二、详细步骤 1、…...
MySQL实训项目——餐饮点餐系统
项目简介:餐饮点餐系统是一款为餐厅和顾客提供便捷点餐服务的在线平台。通过该系统,餐厅能够展示其菜单,顾客可以浏览菜品,并将其加入购物车或直接下单。系统还提供了订单管理功能,方便餐厅跟踪和处理顾客的订单。 1. …...
昇思MindSpore学习总结七——模型训练
1、模型训练 模型训练一般分为四个步骤: 构建数据集。定义神经网络模型。定义超参、损失函数及优化器。输入数据集进行训练与评估。 现在我们有了数据集和模型后,可以进行模型的训练与评估。 2、构建数据集 首先从数据集 Dataset加载代码࿰…...
AI时代创新潮涌,从探路到引路,萤石云引领千行百业创新
步入AI新时代,AI、云计算、大数据等技术迅速迭代,并日益融入经济社会发展各领域全过程,数字经济成为推动千行百业转型升级的重要驱动力量。 今年的政府工作报告提出,深入推进数字经济创新发展。积极推进数字产业化、产业数字化&a…...
计算机毕业设计Python深度学习美食推荐系统 美食可视化 美食数据分析大屏 美食爬虫 美团爬虫 机器学习 大数据毕业设计 Django Vue.js
Python美食推荐系统开题报告 一、项目背景与意义 随着互联网和移动技术的飞速发展,人们的生活方式发生了巨大变化,尤其是餐饮行业。在线美食平台如雨后春笋般涌现,为用户提供了丰富的美食选择。然而,如何在海量的餐饮信息中快速…...
【鸿蒙学习笔记】鸿蒙ArkTS学习笔记
应用开发导读:https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/application-dev-guide-V5 这里写目录标题 基础组件通用属性容器组件Button 迭代完备 【鸿蒙培训】第1天・环境安装 【鸿蒙培训】第2天・装饰器・组件和页面…...
广东行政职业学院数据智能订单班开班暨上进双创工作室签约仪式圆满结束
为响应教育领域数字化与智能化浪潮这一变革,给学生提供更好的教育资源和实践机会,6月27日,“泰迪广东行政职业学院数据智能订单班开班仪式暨上进双创工作室签约授牌”在广东行政职业学院举行。广东行政职业学院智慧政务学院(电子信…...
python与matlab微分切片的区别
python python使用np中的linespace生成等间隔数值, import numpy as np numpy.linspace(start, stop, num50, endpointTrue, retstepFalse, dtypeNone, axis0)start:序列的起始值。stop:序列的结束值。如果 endpoint 为 True,该…...
MSPG3507——蓝牙接收数据显示在OLED,滴答定时器延时500MS
#include "ti_msp_dl_config.h" #include "OLED.h" #include "stdio.h"volatile unsigned int delay_times 0;//搭配滴答定时器实现的精确ms延时 void delay_ms(unsigned int ms) {delay_times ms;while( delay_times ! 0 ); } int a0; …...
BookGet 终极指南:一键下载全球50+图书馆古籍资源的完整教程
BookGet 终极指南:一键下载全球50图书馆古籍资源的完整教程 【免费下载链接】bookget bookget 数字古籍图书下载工具。 项目地址: https://gitcode.com/gh_mirrors/bo/bookget 在数字时代,古籍研究者和历史爱好者面临着一个共同挑战:如…...
基于树莓派与ROS的桌面机器人开发:从硬件组装到AI集成实战
1. 项目概述:一个“会思考”的桌面机器人伙伴最近在机器人爱好者圈子里,一个名为“Wall-E”的开源项目热度不低。这可不是那个动画电影里可爱的垃圾处理机器人,而是一个由SRA-VJTI团队开发的、运行在树莓派上的桌面级智能机器人项目。我第一次…...
Open-Meteo:高性能开源天气API架构深度解析与技术实践
Open-Meteo:高性能开源天气API架构深度解析与技术实践 【免费下载链接】open-meteo Free Weather Forecast API for non-commercial use 项目地址: https://gitcode.com/GitHub_Trending/op/open-meteo 技术痛点与解决方案定位 传统天气数据服务面临三大技术…...
从CTF赛题到真实漏洞:LFSR与BM算法在流密码攻击中的实战指南
从CTF赛题到真实漏洞:LFSR与BM算法在流密码攻击中的实战指南 在网络安全竞赛中,线性反馈移位寄存器(LFSR)类题目一直是密码分析方向的经典题型。许多参赛者第一次接触这类题目时,往往会被其数学理论吓退,但…...
NHSE动物森友会存档编辑器完整指南:打造梦想岛屿的终极工具
NHSE动物森友会存档编辑器完整指南:打造梦想岛屿的终极工具 【免费下载链接】NHSE Animal Crossing: New Horizons save editor 项目地址: https://gitcode.com/gh_mirrors/nh/NHSE 还在为《集合啦!动物森友会》中收集稀有物品而烦恼吗࿱…...
别再手动配置时钟树了!用STM32CubeMX 6.10 + Keil MDK 5分钟搞定LED闪烁工程
5分钟极速开发:STM32CubeMX图形化工具颠覆传统嵌入式开发模式 第一次接触STM32开发时,面对密密麻麻的寄存器手册和复杂的时钟树配置,我花了整整三天才让一个LED灯闪烁起来。直到发现STM32CubeMX这个神器——它彻底改变了嵌入式开发的入门门槛…...
MATLAB集成大语言模型:架构设计与工程实践指南
1. 项目概述:当MATLAB遇见大语言模型如果你和我一样,是个长期泡在MATLAB环境里的工程师或研究员,面对这两年大语言模型(LLM)的狂潮,心里可能既兴奋又有点“隔岸观火”的疏离感。我们习惯了用MATLAB处理矩阵…...
自建密码管理器:基于Web Crypto API与Flask的零知识安全架构实践
1. 项目概述:一个基于Web的密码管理器最近在GitHub上看到一个挺有意思的项目,叫clawvault。乍一看名字,可能会联想到“爪子”和“保险库”,其实它就是一个用Python写的、基于Web界面的密码管理器。这类工具大家应该不陌生…...
基于LLM的AI新闻智能体:自动化信息采集与周报生成实战
1. 项目概述:一个能自动追踪AI新闻的智能体 最近在GitHub上看到一个挺有意思的项目,叫 ai-news-weekly-agent 。光看名字,你大概能猜到它是个和AI新闻相关的自动化工具。没错,它的核心目标就是扮演一个“AI新闻周刊编辑”的角色…...
Protégé工具与OWL本体建模实践指南
1. 本体建模基础与Protg工具概述本体(Ontology)作为知识工程领域的核心概念,最初源自哲学领域,在计算机科学中被重新定义为"对共享概念体系的明确形式化规范说明"。在语义网架构中,本体位于XML和RDF层之上&a…...
