Evaluating the Generation Capabilities of Large Chinese Language Models
文章目录
- 题目
- 摘要
- 相关工作
- CG-Eval
- 实验
题目
评估大型中文语言模型的生成能力
论文地址:https://arxiv.org/abs/2308.04823
项目地址:http://cgeval.besteasy.com/
摘要
本文介绍了 CG-Eval,这是有史以来第一个全面的自动化评估框架,旨在评估跨学科的大型中文语言模型的生成能力。CG-Eval 以其自动化流程脱颖而出,该流程基于模型在六个关键领域内生成精确且与上下文相关的各种问题的答案的能力对模型进行严格评估:科学与工程、人文与社会科学、数学计算、执业医师资格考试、司法考试和注册会计师考试。除此之外,我们还推出了 Gscore,这是一个由多个指标的加权总和开发的创新综合指数。Gscore 独特地根据参考标准自动测量模型的文本生成质量,提供对模型性能的详细和细致的评估。这种自动化不仅提高了评估过程的效率和可扩展性,而且还确保了对各种模型的客观和一致的评估。
大规模语言模型的出现预示着自然语言处理领域的新纪元,其特点是具有前所未有的理解和生成复杂文本的能力。这一现象最初由 ChatGPT等模型推广,并导致了学术研究和行业应用的重大转变。在这一发展之后,中文大规模语言模型显著涌现,涵盖开源和闭源领域。这些模型,例如 ERNIE Bot、Spark Desk、等,引入了数千亿个参数,有望在不同的语言和文化背景下增强文本生成能力。然而,在系统评估这些模型方面仍然存在一个关键的差距,特别是在它们满足不同学科的细微需求的能力方面。
本文介绍了 CG-Eval,这是一个开创性的评估框架,专门用于填补大型中文语言模型评估中的一个关键空白。与 MMLU 等主要通过多项选择题形式关注理解能力的传统基准不同,CG-Eval 通过全面评估生成能力开辟了新局面。我们的框架涵盖了广泛的学科,集中在六个主要领域:科学与工程、人文与社会科学、数学计算、执业医师资格考试、司法考试和注册会计师考试。CG-Eval 的创新之处在于其全面的方法——评估模型而不仅仅是语言理解。它深入研究模型生成精确、上下文相关和学科特定响应的能力,从而更全面地了解它们的能力。
此外,我们引入了 Gscore,这是一种新颖的综合指数,旨在根据参考标准客观地衡量模型生成的文本的质量。 Gscore 代表了多种评估标准的综合,这些标准经过加权以捕捉模型性能的不同方面。该指标是一个重大飞跃,超越了传统的以理解为重点的评估,以评估文本生成的细节方面。CG-Eval 的一个关键特点是其快速、自动化的评估过程。这种自动化不仅加快了评估周期,使对各种模型进行广泛的评估成为可能,而且还确保了高度的客观性,不受人为偏见的影响。通CG-Eval 解决了现有评估方法的差距,对优势和劣势提供了深刻的分析当前汉语语言模型的局限性。
相关工作
为了评估这些实质性的汉语语言模型的性能,已经相继推出了几个专门为它们设计的基准和数据集。其中包括 2023 年 4 月 25 日发布的 MMCU数据集、2023 年 5 月 9 日发布的 SuperCLUE 基准、2023 年 5 月 15 日发布的 C-Eval基准、2023 年 5 月 17 日发布的 M3KE基准、2023 年 5 月 21 日发布的 GAOKAO-Bench、2023 年 6 月 9 日发布的獬豸、2023 年 6 月 10 日发布的天秤大型语言模型评估框架以及 2023 年推出的 CMMLU2023 年 6 月 15 日。MMCU 数据集 首先采用 8 个学科的 3,331 道高考选择题来衡量模型对世界的基本理解。随后,它使用 2,819、3,695 和 2,001 道多项选择题来衡量中文大型语言模型在医学、法律和心理学等专业垂直领域的专业知识。数据集中的问题和答案都是公开的,旨在促进中文大型模型的开发和评估。与 MMCU不同,SuperCLUE 基准的细节仍未公开,因为既没有提供数据集也没有提供评估代码。C-Eval 基准采用多项选择题格式进行评估,包含 52 个学科的 13,948 个问题。虽然这套试题可供下载,但研究人员需要将模型答案上传到评估网站进行自动评分。M3KE 基准包含 20,477 道多项选择题,涵盖 71 项任务。目前,只有试题可用,答案不公开。
有兴趣评估的人必须与 M3KE 团队联系。GAOKAO-Bench汇编了 2010 年至 2022 年全国高考的试题,包括 1,781 道客观题和 1,030 道主观题。评估分为客观题的自动评估和主观题的专家评审评分。獬豸包含 13 个类别、516 个主题和总共 249,587 道多项选择题,但该数据集只有一小部分可供公众使用。FlagEval(天秤)基准主要使用 Chinese_MMLU(从英文 MMLU数据集翻译而来)、C-Eval和 GaoKao2023 作为其中文多项选择题数据集。此外,还有一个基于中国语言学与认知挑战数据集的开放式问题部分。它由两部分组成:CLCC-H,其中 190 道问题通过人工判断进行评估;CLCC-G,由 GPT-4 根据评估维度生成 550 个问题,随后由人工策展人进行完善。CLCC-G 的评估结果由 GPT-4 自动生成。此外,FlagEval(天秤)模型评估需要注册和申请。最后,CMMLU包含 11,528 个多项选择题,涵盖 67 个科目,可公开下载。
总之,在可用的基准中,只有 MMCU 、C-Eval 和 CMMLU 提供带有自动评估的开放数据集。值得注意的是,C-Eval 不公开其答案,需要研究人员上传问题的模型答案才能获得自动评分。 MMCU和CMMLU都公开分享问题和答案,方便中文大型模型领域的研究人员评估和改进他们的系统。然而,值得注意的是,所有这些基准测试主要侧重于评估中文的理解能力,而不是专门用于评估生成能力。评估任务只使用多项选择题,其中模型要么直接生成答案,要么产生潜在答案选项的概率分布。这种评估模式似乎主要从MMLU中汲取灵感。鉴于大型语言模型的生成能力多种多样,这种评估方法存在很大的局限性。
CG-Eval
为了衡量中文大型语言模型的生成能力,我们引入了 CG-Eval(中文生成评估)基准。 在这次评估中,测试模型需要对 11,000 个不同的问题提供准确和相关的答案,这些问题涵盖六大学科类别:科学与工程、人文与社会科学、数学计算、医师资格考试、司法考试和注册会计师考试。这些类别进一步细分为 55 个子学科。问题可分为三类:术语定义、简答题和计算问题。我们设计了一个综合评分系统:对于非计算类问题,每个术语定义和简答题都有一个参考标准答案。分数来自多个生成指标,然后使用加权和进行汇总。对于计算类问题,我们同时评估最终的计算结果和问题解决过程,最终得出一个综合分数。
CG-Eval基准测试包含三种不同类型的问题:术语定义,简答题和计算问题。只有数学计算部分涉及计算问题。在术语定义类别中,我们展示了每个子学科的专业术语,需要测试模型阐明它们的含义。简答题会针对各个学科提出问题,模型需要根据问题给出准确的答案。数学计算部分包括四个学科:小学数学、初中数学、高中数学和大学数学。小学数学的问题类型包括基础算术和应用题。基础算术要求模型能够读取问题并直接返回数值结果。应用题要求模型提供逐步的求解过程,并以规定的格式给出最终的计算结果。初中数学、高中数学和大学数学都只有一种类型的问题——计算问题求解,包括数值计算、因式分解、方程分解、微积分等,也要求模型能够描述求解步骤,并按照规定的格式给出最终答案。
我们采用了一种动态灵活的提示词生成方法,确保每个问题都与一个唯一的提示词配对。对于非计算性问题,我们对答案的长度施加了限制。我们为模型提供参考答案的字符长度,促使它生成近似于给定参考长度的响应。定义问题的提示词格式如下:以下是{科目名称}科目的术语:{术语},请解释其含义,把回复控制在{答案长度}个汉字左右。“简答题”相关提示的格式如下:以下是{科目名称}科目的问题,请解答并把回复控制在{答案长度}个汉字左右。\n{问题}计算题的提示稍微复杂一些。“小学计算”题的提示格式如下:以下是{subject}科目的问题,请进行计算并给出阿拉伯数字结果。请直接返回数值结果,不需要任何的汉字解释。\n{题目}初等数学中“应用题”相关提示的格式如下:以下是{科目名称}科目的问题,请以“解:”开始给出解题过程,并在解题过程的最后换行,在最后一行以“最终答案:”开头,按顺序给出数值及其单位,采用英文逗号分割,例如“最终答案:1元,1次,1公顷,1人”。\n{题目}初中、高中、大学数学的题目格式相同,且非常复杂。结构如下:以下是{科目名称}科目的问题,请使用latex语法给出解题过程,并在解题过程的最后换行,在最后一行以“最终答案:”开头,根据不同的题目类型按照latex语法给出数值、表达式、导数、积分、方程的根。导数根据题目表述采用latex语法按照y’或者f’(x)表示。如果方程的一个未知数有多个解,答案采用形如“x=1或x=-3”的方式表示。如果方程有多个未知数,答案采用形如“x=1,y=-3,z=5”的方式表示,用英文逗号分隔。以下为需要解答的题目:\n{题目}
在评估文本生成质量时,传统上有几个指标占据主导地位:BLEU、ROUGE、CHRF 和语义相似性度量。这些指标都为该领域做出了独特的贡献。BLEU主要用于机器翻译,强调 n-gram 匹配,但经常忽略语义细微差别。ROUGE面向摘要,平衡了准确率和召回率,但可能忽略了冗余和语义深度。CHRF提供字符级分析,提供粒度,但有时过分强调表面形式。语义相似性利用预先训练的模型,捕捉更深层次的语义关系,但计算量可能很大,有时会错过更细微的差别。
然而,这些指标虽然单独使用时很有用,但在单独使用时往往提供有限的视角。为了克服这些传统指标的局限性和偏见,我们开发了 Gscore。这个综合指标融合了每个指标的优势,旨在提供更全面、更平衡的文本生成质量评估。Gscore 整合了 BLEU 的精确度、ROUGE 的平衡召回率和精确度、CHRF 的粒度以及语义相似性度量捕获的语义深度。通过这样做,它解决了单个指标的狭窄焦点,提供了更广泛、更细致入微的文本质量视图。
BLEU 概述:BLEU 通过将 n-gram 重叠与参考翻译进行比较来评估机器翻译。优点:简单、高效、与人类判断相关。局限性:词汇匹配重点、短句问题、有限的多样性处理。ROUGE 概述:ROUGE 通过 n-gram 重叠评估文本摘要,重点关注精确度和召回率。优点:全面评估、与人工评估的相关性。局限性:回忆偏差、词汇匹配重点、参考摘要依赖性。CHRF 概述:CHRF 在字符级别评估翻译,强调更精细的词汇细节。优点:灵活性、粒度、对拼写错误的容忍度。局限性:计算复杂性、强调表面形式、参考依赖性。语义相似性概述:使用预训练语言模型的矢量化表示来测量语义相关性。优点:丰富的语义理解、泛化能力。局限性:计算需求、潜在的细节丢失、模型偏差。
Gscore Gscore 的开发基于对现有文本生成评估指标的彻底分析和批判性评估。认识到虽然 BLEU、ROUGE、CHRF 和语义相似性度量各有其优势,但它们在独立使用时也具有固有的局限性。例如,BLEU 和 ROUGE 主要关注 n-gram 匹配,可能无法完全捕捉语义复杂性;CHRF 虽然在字符级别提供更精细的分析,但可能过分强调表面形式;使用预训练模型进行语义相似性评估,虽然可以捕捉更深层次的语义关系,但计算量可能很大,并且可能会忽略某些细微差别。因此,我们提出了 Gscore,这是一种综合指标,可以协同整合这些方法的优势。在设计 Gscore 时,我们采用了加权求和方法来合并这些不同的指标。每个指标的权重都经过仔细调整和测试,以确保在综合评估中做出平衡的贡献。具体来说,Gscore 包括:20% 来自 BLEU,反映精度和 n-gram 匹配;25% 来自 ROUGE,提供精度和召回率的平衡视图;另外 25% 来自 CHRF,增加了字符级粒度;30% 来自语义相似性,确保考虑深层语义关联。
Gscore=0.2Bleu4+0.25Rouge2+0.25Chrf+0.3语义相似度 计算语义相似度时,我们先用中文预训练模型对模型答案和参考答案进行向量化,然后计算它们的余弦相似度。CG-Eval第二版使用BAAI/bge-large-zh-v1.5,CG-Eval第一版使用text2vec-large-chinese。由于模型答案和参考答案可能超出模型的最大处理长度,我们设计了一个滑动窗口编码模块。该模块以滑动的方式对窗口内的文本进行编码,将编码后的向量存储在列表中。在每个窗口内,我们利用预训练的语言模型对文本进行编码。所有窗口处理完成后,我们将编码向量聚合起来,取平均值或者拼接起来,表示整个文本。对于数学计算任务,Gscore的计算稍微复杂一些。对于小学数学的算术题,我们直接比较最终的数值结果,如果模型的输出与参考答案完全匹配,则该题得1分,否则得0分,最终的Gscore是所有小学算术题的平均分。
对于小学数学的应用题,以及初中、高中、大学数学的计算解题题,需要通过答案分析模块提取解题过程和最终答案,如果提取出的最终答案与参考答案完全匹配,则该题的Accuracy为1,否则为0。然后计算提取出的解题过程相对于参考解题过程的Chrf分数StepChrf。然后使用以下公式计算最终的 Gscore:Gscore=Accuracy+(1-Accuracy)0.3StepChrf 如果最终答案正确,则该问题的 Gscore 设置为 1。相反,如果最终答案不正确,则可获得的最大 Gscore 上限为 0.3,实际值为 StepChrf 分数的 0.3 倍。总之,Gscore 的开发基于对现有评估指标的深入分析和批判性理解。我们的目标是创建一个保留个人优势的综合指标指标,同时弥补各自的局限性。这样的设计使 Gscore 成为一种灵活、全面、可靠的文本生成质量评估工具,适用于广泛的场景和不同类型的文本生成任务。
实验
为了评估大规模中文语言模型的生成能力,我们在 CG-Eval 数据集上对 19 个模型进行了零样本测试,包括但不限于:GPT-4 、ChatGLM-Pro 、ChatGLM-Std 、Spark Desk 、ERNIE Bot、Qwen-7B-Chat、Baichuan-13BChat 、Ziya-LLaMA-13B-v1.1 、ChatGLM2-6B、AquilaChat-7B 、tigerbot-sft-7b 等。所有测试模型的名称、开发机构、参数数量和用途的详细信息可以在表1中找到
如表 2 所示,对大型中文语言模型的综合评估揭示了不同模型的能力和性能的多样性。在本次评估中,模型在六个不同的学科领域接受了严格测试,从而全面了解了它们的生成能力。结果以 Gscore 来概括,让我们了解这些模型在这些专业领域内生成准确且相关的响应方面的表现。由 OpenAI 开发的 GPT-4 以最高平均 Gscore 成为领跑者,展示了其在不同学科领域的稳健性和多功能性。紧随其后的是智浦·AI 的 ChatGLM-Pro 和 ChatGLM-Std ,表明它们在处理复杂文本生成任务方面表现出色。其他模型,如百川人工智能的 Baichuan2-53B和阿里云的 Qwen-14B-Chat,也展示了令人称赞的能力,与学术和专业环境不断变化的需求相得益彰。
另一方面,Tigerobo 的 tigerbot-sft-7b和 BAAI 的 AquilaChat 系列等模型虽然仍表现出显著的熟练程度,但在整体 Gscore 方面落后。这表明它们的算法和训练方法还有进一步改进的空间。这些模型性能的多样性凸显了语言建模领域的快速进步,特别是在中文背景下。它还强调了持续创新和发展的重要性,以提高这些人工智能驱动工具的准确性、相关性和语境理解能力。表 3 中的平均 Gscores 表明,对科学与工程领域大型中文语言模型的评估提供了对该特定领域中 AI 驱动文本生成的现状的深刻观察。该评估侧重于模型在科学与工程领域生成精确且上下文相关的内容的能力,反映了这些复杂工具的细微功能。
讯飞开发的 Spark Desk以最高的 Gscore 领先,表明其在处理复杂的科学和工程查询方面非常熟练。这表明其先进的算法和针对特定领域数据集的训练,可以深入了解技术主题。紧随其后的是来自智浦·AI、ChatGLM-Std和 ChatGLMPro的模型,以及 OpenAI 的 GPT-4,它们都表现出色。这些模型的高分表明它们在生成准确和相关的响应方面具有全面的能力,凸显了它们在学术和专业环境中的潜在实用性在科学与工程领域。 有趣的是,结果还揭示了具有竞争力的中间层模型,例如百川AI的Baichuan2-53B和阿里云的Qwen14B-Chat。它们的表现虽然不是榜首,但仍然值得称赞,表明该领域取得了重大进步。另一方面,像Tigerobo的tigerbot-sft-7b和BAAI的AquilaChat系列这样的模型,虽然展示了显着的能力,但仍表明需要改进的地方,以便与该领域的领导者相匹配。
在这一类别中表现领先的是百川AI的Baichuan2-53B,展示了其对人文社会科学固有概念和思想的卓越掌握和表达能力。该模型取得的高分表明该模型对该领域的细微差别和多样化背景有着深刻的理解。紧随其后的是 ZHIPU·AI 的 ChatGLM-Pro和 OpenAI 的 GPT-4,它们都表现出在这些主题上生成连贯且相关的响应的强大能力。它们的表现凸显了语言模型在处理人文和社会主题的复杂性方面取得的进步。
阿里云的 Qwen-14B-Chat和 01-ai 的 Yi-34BChat等模型也表现出了令人称赞的性能,表明它们有效的训练和算法结构有利于人文和社会科学内容的生成。这表明这些模型不仅技术精湛,而且能够处理这些学科中发现的各种主题和观点。另一方面,Tigerobo 的 tigerbot-sft-7b和 BAAI 的 AquilaChat 的一些迭代等模型虽然仍显示出该领域的能力,但却落后于同行。不同模型之间性能的差异凸显了微调语言模型以满足人文和社会科学的细微要求所固有的挑战。这也表明了该领域进一步发展和专业化的潜力。表 5、6、7 反映了专业资格考试中大型汉语模型的综合评估,让我们一窥大型汉语模型的适用性和有效性。这些模型在高度专业化和知识密集型领域中的表现都十分出色。这些考试以其严谨性和复杂性而闻名,是测试模型理解、处理和生成符合专业标准的响应的能力的坚实试验场。
在执业医师资格考试中,智谱·AI的ChatGLM-Std和ChatGLM-Pro,以及讯飞的Spark Desk等模型表现出色,展示了它们在医学术语和概念方面的能力。这表明这些模型在处理领域特定语言和概念的能力方面取得了显著的进步,这在医疗环境中至关重要。司法考试结果也显示出类似的趋势,百川AI的Baichuan2-53B和智谱·AI的ChatGLM-Pro得分最高。它们的优异表现表明它们能够熟练地处理法律语境中所需的复杂语言和细微推理。这种能力对于法律研究和实践的应用至关重要,因为语言的准确性和清晰度至关重要。在注册会计师考试中,领先的模型诸如百川AI的Baichuan2-53B和智浦·AI的ChatGLM-Pro等模型表现出色,表明它们在理解和生成与财务和会计原则相关的响应方面非常有效。这种驾驭复杂财务术语和概念的能力表明了这些模型在财务分析和会计实践中的潜在效用。
在所有三项考试中,很明显,领先的模型不仅在语言处理方面表现出色,而且还展示了对专业知识领域的深刻理解。这证明了人工智能驱动的语言模型的进步,它们不仅精通语言,而且还能够处理特定领域的挑战。然而,模型之间的性能存在明显差异,特别是在需要高度专业知识的领域。这表明,虽然一些模型在处理特定的专业环境方面越来越熟练,但仍有改进的空间,特别是在确保各个专业领域的一致性和理解深度方面。总之,在专业资格考试中对这些模型的评估不仅衡量了它们当前的能力,而且还突出了它们在专业环境中的应用潜力。这次评估的见解强调了持续开发和微调这些模型以满足各个专业领域的特定需求的重要性。
如表 8 所示,大型中文语言模型在数学计算领域的评估结果显示,它们在处理计算任务的能力方面存在显著差异。这些结果特别具有启发性,因为它们强调了这些模型处理和执行数学推理的不同程度,而数学推理是众多科学和工程应用中的关键方面。OpenAI 的 GPT-4在这一类别中脱颖而出,获得了最高的平均 Gscore。这一出色表现可以归因于其先进的算法和广泛的训练,其中包括对数值和逻辑处理能力的关注。GPT-4 在数学计算方面表现出色,表明它在需要复杂计算任务的领域具有潜在用途。继 GPT-4 之后,智浦·AI 的 ChatGLM-Std 和 ChatGLM-Pro等模型也表现出色。虽然它们的表现不如GPT-4,但在一定程度上表明了这些模型在处理数学计算方面的能力。这表明了它们的训练和算法设计在处理数值数据和执行计算方面的有效性。
然而,随着榜单的下滑,性能表现明显下降,阿里云的 Qwen-14B-Chat、百川人工智能的 Baichuan253B和讯飞的 Spark Desk(等模型的得分明显较低。这种下降凸显了许多语言模型在数学环境中面临的挑战,因为数学环境中的精度和逻辑连贯性至关重要。Tigerobo 的 tigerbot-sft-7b、Langboat 的 mengzi-gpt-40b和 BAAI 的 AquilaChat 系列等模型处于榜单的低端,表明它们的数学计算能力还有很大的提升空间。这表明,尽管这些模型可能擅长语言任务,但它们执行数学计算的能力却有限,这凸显了需要专门的训练或算法调整来提高它们在这些任务中的表现。总之,这些模型在数学计算中的不同表现为了解人工智能在处理计算密集型任务方面的现状提供了重要的见解。此次评估的结果不仅可以作为中文语言模型数学能力的基准,而且还强调了在这一特定领域进行有针对性的改进的必要性。这些知识对于推动该领域的发展和扩大这些模型在数学能力至关重要的领域的适用性至关重要。
类别 1:准确但过于冗长的回答示例 1 和 2:这些示例说明了模型的回答准确但比参考答案更冗长的情况。尽管篇幅较长,但较高的 Rouge2 和相似度得分表明核心信息得到了很好的传达。这反映在最终的 Gscores 0.83 和 0.79 中,与手动评分 1.0 非常接近。类别 2:缺少关键信息示例 3、4 和 5:在这里,模型的回答缺少关键信息,这严重影响了手动评分。但是,高相似度得分表明对主题的理解不完整。最终的 Gscores 0.7、0.6 和 0.59 与手动评分非常接近,表明 Gscore 能够捕捉这些细微差别。类别 3:有意义但不相关的回答示例 10、11 和 12:在这些情况下,模型的回答与问题完全无关。尽管相似度得分出奇的高,但较低的 BLEU、Rouge2 和 CHRF 得分反映了相关性的缺乏。最终的 Gscores 为 0.25、0.15 和 0.24,与手动得分为 0,说明 Gscore 在惩罚不相关回答方面很有效。类别 4:部分正确的回答示例 6 和 7:这些示例展示了模型提供部分正确信息但遗漏重要细节的回答。最终的 Gscore 为 0.1 和 0.6,表明模型的部分准确性,与手动得分一致。类别 5:偏离预期含义示例 8:此回答部分正确,但后半部分与预期含义有显著偏差。最终的 Gscore 为 0.25,与手动得分 0.3 相符,表明该指标能够辨别和惩罚与参考答案的偏差。类别 6:表达不同,含义相同示例 9:尽管模型的表达与参考不同,但传达了相同的含义。最终的 Gscore 为 0.58,接近手动评分 0.8,凸显了 Gscore 能够识别不同措辞下的语义等价性。
Bleu4 权重 (0.2):尽管 Bleu4 对响应的字面准确性很敏感,但在自然语言处理中,语义重要性通常比字面精度更重要。上述示例表明,即使 Bleu 分数较低,由于语义相似度高,Gscore 仍能有效反映人工评估。因此,为 Bleu4 分配较低的权重是合理的。Rouge2 和 Chrf 权重(各 0.25):这些指标评估重复性和覆盖率,反映响应的全面性。示例表明,即使响应偏离参考答案,Rouge2 和 Chrf 也能在一定程度上保持 Gscore 的稳定性,从而验证了它们的适当权重。语义相似度权重 (0.3):这具有最高权重,强调了语义一致性在评估模型响应中的重要性。多个示例表明,即使其他指标的分数较低,高语义相似度分数也可以使 Gscore 接近人工评估,证明了其重要权重的合理性。结论:Gscore公式通过平衡各个评估维度的权重,全面反映了模型响应的质量。它不仅考虑了文字准确性,还高度重视语义相似性,这对于评估自然语言生成模型至关重要。这种权重确保了即使与参考答案存在显著的文字差异,只要保持语义接近度,Gscore也能有效反映模型性能。
这种方法与强调语义理解的自然语言处理原理非常吻合。
计算问题示例在我们的评估中,如表10所示,我们提供了四个不同的计算问题案例,每个案例都旨在测试模型的数学问题解决能力。这些问题的复杂性和类型各不相同,可以全面评估模型的计算能力。对于每个问题,我们设置了特定的提示和格式输出要求,以标准化测试程序并确保不同模型之间的可比性。每个计算问题的评估过程分为几个系统步骤:提取最终答案:首先,我们从模型的响应中提取最终答案。此步骤至关重要,因为它专注于隔离模型针对计算问题生成的核心数字或符号输出。答案标准化:提取最终答案后,我们将进行标准化过程。这涉及删除任何空格、多余的符号或对答案的数学有效性没有贡献的无关字符。此步骤的目的是确保可以统一评估答案,而不管格式或表示方式可能存在的细微差异出现在模型的响应中。与参考答案的比较:然后将标准化的最终答案与参考最终答案进行比较。参考答案是已知正确的预定解决方案。这种比较对于确定模型响应的准确性至关重要。
正确答案的 Gscore 计算:如果模型的标准化最终答案与参考最终答案完全匹配,则表明问题已正确解决。在这种情况下,模型将获得 1 的 Gscore,表示解决问题的准确性和正确性满分。错误答案的 Gscore 计算:在模型的答案与参考答案不匹配的情况下,我们将继续评估解决问题的过程。我们计算模型的整个问题解决过程与参考过程的 Chrf 分数,这是一个字符级评估指标。因此,Chrf 分数反映了模型的方法和中间步骤与标准方法的接近程度。然后将该分数乘以 0.3 以获得该问题的最终 Gscore。这种降低的权重不仅强调了过程的重要性,也强调了最终答案的准确性。通过这种细致而结构化的评估过程,我们旨在对每个模型处理和准确解决数学问题的能力进行稳健而公平的评估。这种方法不仅测试模型的计算准确性,还测试它们对逻辑问题解决方法的遵守情况,从而全面了解它们在数学推理和计算方面的能力
相关性结果如下所示,散点图如图 2 所示。Kendall Tau 相关性:0.6137523339513649 P 值:1.5991267354009107e-215 为了评估 Gscore 与人工评估之间的相关性,我们进行了一项研究,使用 11,000 个问题来测试 10 个大型语言模型,得出相应的 Gscores。为了评估相关性,我们从总集合中提取了 1,100 个问答对的子集。这些对来自 55 个不同的主题和由 10 个不同模型生成的响应。随后,我们邀请人类专家对这 1,100 对进行评分。最后一步是计算 Gscores 与专家人工评估之间的相关性。这种方法可确保对模型在各种主题上的表现进行全面且具有代表性的评估。人工专家参与评分为评估 Gscores 的有效性和可靠性提供了强有力的基准。抽样方案概述如下:分层随机抽样:鉴于科目多样性,总共有 55 个不同的科目,应首先按科目分层,以确保每个层内的代表性。在每个科目中,将采用随机抽样来选择问题,确保样本的多样性和代表性。
模型覆盖保证:从10个大型模型提供的答案中,对于每个选定的问题,将随机选择一个模型的答案纳入其中。这种方法确保分析涵盖所有参与模型的答案,从而提高评估的全面性。主题分布均衡:确保1100个抽样问题中每个主题的比例大致相当于其在11000个问题的总池中的比例。这种平衡保持了样本的代表性,避免了某些主题的过度代表或被忽略。为什么采用固定提示?一致性和可比性:固定提示确保评估过程的一致性,允许直接比较不同模型之间的结果。这种标准化对于公平评估各种模型的性能至关重要。变量控制:在科学研究中,控制变量是必不可少的。通过使用固定提示,研究人员可以消除不同提示导致的性能差异,从而更准确地评估模型的固有能力。可重复性:固定提示增强了实验的可重复性。其他研究人员可以使用相同的提示词重复实验,并验证或比较他们的结果。简化评估过程:使用固定提示简化了评估过程,使模型评估更容易理解,尤其是对于非专家用户而言。
相关文章:
Evaluating the Generation Capabilities of Large Chinese Language Models
文章目录 题目摘要相关工作CG-Eval实验 题目 评估大型中文语言模型的生成能力 论文地址:https://arxiv.org/abs/2308.04823 项目地址:http://cgeval.besteasy.com/ 摘要 本文介绍了 CG-Eval,这是有史以来第一个全面的自动化评估框架…...
YOLOv8添加注意力模块并测试和训练
YOLOv8添加注意力模块并测试和训练 参考bilibili视频 yolov8代码库中写好了注意力模块,但是yolov8的yaml文件中并没用使用它,如下图的通道注意力和空间注意力以及两者的结合CBAM,打开conv.py文件可以看到,其中包含了各种卷积块的…...
「Unity3D」自动布局LayoutElement、ContentSizeFitter、AspectRatioFitter、GridLayoutGroup
布局元素与布局控制器 布局元素实现ILayoutElement接口,布局控制器实现ILayoutController接口,后者根据前者的属性控制具体布局——有些布局控制器也是布局元素,即同时实现这两个接口,如LayoutGroup。 public interface ILayout…...
【Golang 面试 - 进阶题】每日 3 题(十六)
✍个人博客:Pandaconda-CSDN博客 📣专栏地址:http://t.csdnimg.cn/UWz06 📚专栏简介:在这个专栏中,我将会分享 Golang 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞👍收藏…...
Redis2
为什么Redis要给缓存数据设置过期时间? 内存是有限的,如果缓存中的所有数据都是一直保存,很容易OOM Redis如何判断数据是否过期? 通过过期字典来保存数据的过期时间 过期删除策略 Redis采用的是定期删除惰性删除 Redis内存淘…...
C语言--函数
1. 函数定义 语法: 类型标识符 函数名(形式参数) {函数体代码 } (1)类型标识符 --- 数据类型(函数要带出的结果的类型) 注:数组类型不能做函数返回结果的类型,如果函…...
Shell 编程的高级技巧和实战应用
第一步:高级函数和模块化设计 1.1 高级函数设计 探讨函数的参数处理和默认值设置。示例:实现一个可以处理可选参数的函数。 #!/bin/bashgreet() {local name${1:-"World"} # 如果没有提供参数,使用默认值 "World"ech…...
VMWare虚拟机如何连接U盘
检查配置 1)Win R键,输入services.msc,打开服务。 2)将AMware USB Arbitration Services 服务开启,并设置为自动启动; 连接U盘 目前作者了解有两种连接方式,如有其他连接方式,欢…...
【学习笔记】后缀自动机(SAM)
前言 之前对后缀自动机的理解太浅薄了,故打算重新写一篇。 后缀自动机是什么 后缀自动机是一个字符串的所有后缀建起来的自动机。它把所有子串(后缀的前缀)用 O ( n ) O(n) O(n) 的空间装了起来。后缀自动机的边会构成一个 D A G DAG DA…...
Godot的节点与场景
要深入的理解节点与场景,我们需要跳出这两个概念来看他。说的再直白一些godot本质就是一个场景编辑器! 场景的概念应该在我们平时看电影看电视时会经常提到,比如某一个打斗的场景,这个场景可能会被设在某一个街道,那么…...
C++ 学习(2) ---- std::cout 格式化输出
目录 std::cout 格式化输出简介使用成员函数使用流操作算子 std::cout 格式化输出简介 C 通常使用cout输出数据,和printf()函数相比,cout实现格式化输出数据的方式更加多样化; 一方面,cout 作为 ostream 类的对象,该类…...
前端拿不到Long类型成员变量,用@JsonSerialize(using = ToStringSerializer.class)序列化一下
EqualsAndHashCode(callSuper true) Data TableName("la_school_business") Schema(description "商务负责人表") public class SchoolBusiness extends BaseEntity {private static final long serialVersionUID -7124481085999629236L;/*** 商务负责人…...
JWT登录校验流程
jwt令牌的基本概念: 1. JWT(JSON Web Token) 定义:JWT 是一种开放标准(RFC 7519),用于在各方之间作为 JSON 对象安全地传输信息。它可以被验证和信任,因为它是数字签名的。结构&am…...
yarn安装和部署
文章目录 概述安装部署1.构建项目2.测试3.清理构建目录 小结 概述 yarn是一个快速、可靠和安全的JavaScript包管理工具,由Facebook开发。它被设计用来替代npm(Node Package Manager),尽管它与npm在很多方面兼容。yarn提供了以下一…...
Visual Studio的安装教程与使用方法
Visual Studio的安装教程与使用方法 一、Visual Studio的安装教程 1. 准备工作 确认系统要求: 在开始安装Visual Studio之前,请确保您的计算机满足Visual Studio的系统要求这。包括操作系统版本、内存、硬盘空间等。您可以在Visual Studio的官方网站…...
一键换装软件哪个好?6个换装工具让你秒变穿搭达人
#紫色跑道的city穿搭#火了,很多人都开始打卡各种紫色穿搭,展示自己的时尚态度。 但对于没有时间或金钱去精心搭配的我们来说,有没有一种更简单、更快捷的方式,让我们也能轻松跟上潮流呢? 当然有!今天&…...
【EtherCAT】Windows+Visual Studio配置SOEM主站——源码配置
目录 一、准备工作 1. Visual Studio 2022 2. Npcap 1.79 3. SOEM源码 二、源码部署 1. 新建Visual Studio工程 2. 创建文件夹 3. 创建主函数 4. 复制源代码 5. 删除无关项 6. 将soem源码添加进工程 7. 添加soem头文件 8. 配置头文件路径 9. 配置静态库和静态库路…...
GPTPDF深度解析:开源文档处理技术全攻略
GPTPDF深度解析:开源文档处理技术全攻略 在数字化信息时代,PDF文件因其稳定性和跨平台兼容性,已成为学术交流、技术文档和电子书籍等领域的首选格式。然而,PDF文档的处理和内容提取一直是一个难题。随着人工智能技术的飞速发展&a…...
网络学习:应用层DNS域名解析协议
目录 一、简介 二、工作流程 一、简介 DNS( Domain Name System)是“域名系统”的英文缩写,是一种组织成域层次结构的计算机和网络服务命名系统,它用于TCP/IP网络,它所提供的服务是用来将主机名和域名转换为IP地址的工作。 同时,DNS…...
7.怎么配置一个axios来拦截前后端请求
首先创建一个axios.js文件 导入我们所需要的依赖 import axios from "axios"; import Element from element-ui import router from "./router"; 设置请求头和它的类型和地址 注意先注释这个url,还没有解决跨域问题,不然会出现跨域 // axios.defaults.…...
Day17_1--AJAX学习之GET/POST传参
AJAX 简介 AJAX 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。其实AJAX就可以理解为就是JS。通过AJAX也就实现了前后端分离,前端只写页面,后端生成数据! 现在开始通过实例学习: 1--GET传参 <!…...
golang国内proxy设置
go env -w GOPROXYhttps://goproxy.cn,direct经常使用的两个, goproxy.cn 和 goproxy.io 连接分别是 https://goproxy.cn https://goproxy.io 如果遇到某些包下载不下来的情况,可尝试更换数据源 更推荐使用https://goproxy.cn 速度快,缓存的包多 提醒…...
全网最适合入门的面向对象编程教程:31 Python的内置数据类型-对象Object和类型Type
全网最适合入门的面向对象编程教程:31 Python 的内置数据类型-对象 Object 和类型 Type 摘要: Python 中的对象和类型是一个非常重要的概念。在 Python 中,一切都是对象,包括数字、字符串、列表等,每个对象都有自己的类型。 原文链接: Fre…...
【mongodb】mongodb副本集的搭建和使用
本站以分享各种运维经验和运维所需要的技能为主 《python零基础入门》:python零基础入门学习 《python运维脚本》: python运维脚本实践 《shell》:shell学习 《terraform》持续更新中:terraform_Aws学习零基础入门到最佳实战 《k8…...
Java后端面试复习7.24
lock加锁解锁尝试获取锁方法lock底层基于什么实现lock和lock的底层实现分别面向什么用户lock和synchronized异同如何选择合适的锁ReentrantLock如何实现冲入内部类三个公平和非公平获取锁怎么实现的RL默认公平还是非公平,构造参数ReentrantRedaWriteLock的特性什么是…...
前端 HTML 概述
目录 1. HTML概述 1.1 超文本标记语言 1.2 标签 2. HTML 解析与编辑 2.1 解析与访问 2.2 编辑 html文件 1. HTML概述 HTML( Hyper Text Markup Language:超文本标记语言 ):主要用于网页主体结构的搭建,在网页上…...
探索Thymeleaf:用动态Web模板引擎打造吸引人的用户界面(SpringBoot的html详解)
什么是Thymeleaf? Thymeleaf是一个用于Web和独立环境的现代服务器端Java模板引擎,用于处理XML/XHTML/HTML5内容。它特别适合基于Spring框架的Web应用程序,因为它提供了与Spring MVC的出色集成。Thymeleaf以其自然的模板语法和强大的数据绑定…...
视频教程 - 自研Vue3 Tree组件高级功能:虚拟滚动新增节点实现自动滚动
感谢小伙伴们对本套自研vue3 tree组件教程的关注,在前一篇媲美Element Plus JuanTree终极实战:虚拟滚动的功能演示中发现了小bug,特地整理了相关录屏来说明怎么一步步解决bug的,来回馈小伙伴们的支持。 Tree组件高级功能ÿ…...
职业生涯阶段总结3:转眼毕业三年
不知不觉,科班毕业三年多了,也换了三个单位了; 个人软件开发的理论和技术能力确实比以前刚出来的时候,强了不少; 在行情越发下滑的形势,似乎只有进大厂才能拿到不错的收入,但是大厂的压力也是比…...
项目经理面试总结
先上结论:每个公司问的问题侧重点都不太一样,五花八门,评判标准也不一样,目前我能感觉到的就是自己需要很了解项目,也就是工作过程中经常做出总结,需要你经常去思考,包括对内和对外的思考。 自我…...
网站开发需求文件/百度一下官网首页百度
c#mysql 中文乱码遇到一个奇怪的问题,C#读取mysql中文正常,写入时发生乱码网上查阅原因,发现如下信息---------------------------------------------------------------------一、错误读出现象:一个已经存在数据的MySQL数据库&am…...
一个旅游网站建设/广告免费发布信息平台
云计算:如果你现在还没听说过这个词,那么你肯定不是做IT的。不过,现在读到了这篇文章,我们就假设你和你的企业还对购买云服务持观望态度。和许多其他事物一样,安全问题是企业决定将IT部门的某部分转交给第三方…...
那个网做网站便宜/广告海外推广
client 翻译过来就是客户端,我们使用 client 系列的相关属性来获取元素可视区的相关信息。通过 client 系列 的相关属性可以动态的得到该元素的边框大小、元素大小等。 值是120,没有将边框算进去;实际上的用法和offsetwidth相似的,…...
wordpress要不要套餐/建网站找哪个公司
这里我的代码里面使用的是“不确定性加权方法” 基本思想:难学的任务给予更小的权重使得整体的多任务模型的训练更加顺畅和有效。 前提概念:认知不确定性和偶然不确定性。前提概念:认知不确定性和偶然不确定性 认知不确定性(epis…...
呼市浩特网站建设外包公司/香飘飘奶茶软文
Two Phase Commit Protocol分布式事务通常采用2PC协议,全称Two Phase Commitment Protocol。该协议主要为了解决在分布式数据库场景下,所有节点间数据一致性的问题。在分布式事务环境下,事务的提交会变得相对比较复杂,因为多个节点…...
火烈鸟门户网站开发/品牌如何做推广
注: xxxx代表你的分支名称1:本地新建一个分支,与远程分支关联:git branch --set-upstream-to origin/xxxx xxxx2:创建本地分支:git branch xxxx3:切换本地分支:git checkout xxxx4:创建,并切换到新的分支&…...