当前位置：首页 > news >正文

顶会评测集解读-AlignBench: 大语言模型中文对齐基准

news 2026/4/1 19:08:48

评测集社区 CompssHub 作为司南 OpenCompass大模型评测体系的重要组成部分，致力于简化并加快研究人员和行业人士搜索和使用评测集的过程。评测集社区 CompssHub 目前已收录了学科、推理、知识、代码等12个方向的评测集，欢迎大家探索。

为了将评测集社区 CompssHub 收录的优秀评测集更好的展现给大家，司南 OpenCompass 特别开展了顶会评测集解读系列，今天我们将解读 ACL 2024 Accepted Papers — AlignBench: Benchmarking Chinese Alignment of Large Language Models.

论文地址：

https://aclanthology.org/2024.acl-long.624.pdf

AlignBench 开源仓库：

https://github.com/THUDM/AlignBench

评测集社区 CompssHub：

https://hub.opencompass.org.cn/dataset-detail/AlignBench

摘要

在人工智能和自然语言处理领域的飞速发展中，大语言模型（LLMs）展现出令人惊叹的能力。然而，对于新兴的中文 LLMs，其对齐效果的评估仍然是一个亟待探索的领域。为了填补这一空白， AlignBench 应运而生，这是一个全面的、多维度的基准测试，专门用于评估 LLMs 在中文环境下的对齐情况。

AlignBench 的独特之处在于其精心设计的人机协作数据策划流程。它包含了八个主要类别，涵盖683个基于真实场景的查询，每个查询都配有经过人工验证的参考答案。此外，对于知识密集型的查询，AlignBench 还提供了来自可靠网络来源的证据，包括 URL 和引用，大大提高了评估的可靠性和真实性。

在评估方法上，AlignBench 采用了创新的规则校准多维 LLM-as-Judge方法，并结合了思维链（Chain-of-Thought）技术。这种方法不仅能生成解释性评价，还能给出最终评分，为研究人员提供了深入洞察LLMs表现的窗口。

本期顶会评测集解读让我们一起深入探讨 AlignBench 评测基准，揭示中文LLMs在对齐方面的潜力与挑战，推动中文自然语言处理技术迈向新高度！

介绍

在自然语言处理（NLP）领域，对齐（Alignment）已成为大型语言模型（LLMs）发展的关键挑战。随着ChatGPT等产品的兴起，LLMs在各种任务中展现出惊人的能力。然而，如何准确评估这些模型在中文环境下的对齐程度，一直是一个亟待解决的问题

针对上述问题，该团队提出了 AlignBench，这是一个全面的多维评测基准，用于评估中文 LLMs 的对齐能力。参考一个线上 LLM 服务，该团队建立了一个半自动化的数据策划流程并结合人类参与，以创建高质量的查询来构建 AlignBench。AlignBench 总结了一个包含 8 个主要类别的查询分类法，以全面覆盖和对齐真实场景的使用情况（参见图 1）。为了使评估模型生成客观和公正的评估，每个样本都附有一个经过人类修正的 LLM 生成的参考。为确保知识密集型查询（占 66.5%）的参考正确性，该团队要求注释员提供在网上搜索的包括 URL 和引用，最终合成参考文献。

为了增强评估的自动化，AlignBench 利用 GPT-4 作为其主要模型评估器，这有助于识别数据样本并通过逐点分结合 CoT 进行评估。不同于 MT-Bench 的是，AlignBench 进一步强调了评分中的规则校准和任务特定多维判断。实验表明，这些策略有助于 AlignBench 与人类判断更加一致并拥有更好的可解释性。基于 AlignBench，该团队评估了 17 个常见的中文 API LLMs 和开源 LLMs，并提供了这些模型在中文对齐能力的细致比较。

数据集

数据集构成

AlignBench 基于真实用户指令，将大语言模型（LLMs）的能力框架总结为 8 个主要类别，共包含 683 个样本。这种分类旨在进行系统性的评估，涵盖了 LLMs 在各种场景下的应用能力。如表 1 所示。

数据集构建

AlignBench 中的每个样本包含一个任务导向的查询、高质量的参考答案，以及它所属于的类别。详细的构建流程如下所述。

查询筛选：为了确保查询的多样性和真实性，该团队主要参考两个来源：在线聊天服务中的场景和研究人员撰写的挑战性问题。考虑到数据的噪声特性，该团队需要经过高标准的数据筛选流程：1) 任务导向: 查询应体现人类意图，并引导 LLMs 完成指定任务。2) 清晰度与流畅性: 查询应清晰易懂，要求应流畅表达。3) 复杂性与难度: 查询应对大多数 LLMs 来说具有挑战性，需要它们充分利用能力来全面解决。4) 去敏感化: 确保查询是安全的且不具敏感性。

参考答案的获取与改进：对于 AlignBench 的逐点评分，已有研究发现使用关键参考答案进行评分有助于提高 LLM-as-Judge 的可靠性（Zheng et al., 2023; Zhang et al., 2020）。因此，该团队决定提供由人类筛选的参考答案，以帮助评审者判断答案的正确性。然而，由于 AlignBench 被设计为具有挑战性且覆盖广泛，初步试验中人类注释者从零开始提供答案非常困难。因此，该团队首先利用 GPT-4 生成答案，然后要求人类注释者仔细审查、修订和完善这些答案，作为 AlignBench 的参考答案。为了确保参考答案的质量，特别是对于来自专业知识、数学和逻辑推理等类别的知识密集型查询，该团队明确要求注释者在验证过程中进行网络搜索。在搜索过程中，要求记录网页的 URL 和引用内容，以便撰写参考文献，如表 2 所示。

过滤与分类：为了区分强 LLMs 之间的评分，有必要过滤出更具挑战性的样本进行评估。因此，该团队使用了三种相对先进的支持中文的 LLMs，包括 GPT-3.5-turbo、ChatGLM APIs 和 Sparkdesk，作为该团队构建流程中的难度过滤器。该团队对这些模型进行评估，分析它们对处理过的查询的响应，然后利用 GPT-4 对答案进行评分。通过计算响应的平均分，并将其作为信号，该团队丢弃了获得最高平均分的 50% 查询，这表明它们的难度较低。这种方法确保了样本的细致和精准选择，有效地区分了不同能力的强 LLMs。

方法

AlignBench评估系统的核心是使用GPT-4作为主要评估模型。这种方法充分利用了强大LLM的理解和分析能力，但同时也面临着确保评判一致性和公正性的挑战。

因此，在 AlignBench 中，该团队设计了一种新颖的规则校准多维逐点 LLM-as-Judge 的方法，图 2 展示了一个例子。

逐点评分与思维链

在使用 LLM-as-Judge 时，之前研究已经实现了两种评分方法：逐点评分 (point-wise grading)（Zheng et al., 2023）和成对评分 (pairwise grading)（Li et al., 2023）。然而，先前的研究表明，逐点评分与人类意图一致性相比于成对评分更高，后者存在位置偏差。此外，考虑到评估效率，逐点评分在费用和时间方面具有优势。因此，AlignBench 也采用逐点评分。在评估过程中，输入查询、模型响应和人类筛选的参考答案，输出为多维分析解释和最终评分，范围从 1 到 10。由于评分任务涉及复杂推理，引入思维链（Chain-of-Thought）有助于提高评分的可靠性和可解释性。

规则校准参考

为使AI评判更接近人类评判习惯，该方法提供了详细的评分指南，明确定义了不同分数区间的标准。特别地，将参考答案设置为8分作为评分基准。这种规则校准机制有效提高了评分的区分度，使得评分分布更加合理，更接近人类评判的结果。

图 3 绘制了人类评审、一般评审和规则校准评审的累积分布，显示规则校准评审与人类评估的累积分布之间的差距更小。通常，规则校准评审的高分（9 和 10）数量明显少于一般评审，这与人类评分习惯一致，从而增强了 AlignBench 的区分能力。

多维分析

由于任务性质和特点各不相同，使用相同的评估标准来评估所有任务是不公平的。例如，写作任务应优先考虑创造力，而逻辑推理任务则主要需要逻辑连贯性。为了解决这一问题，该团队提出了一种多维评分方法来评估 LLM 的响应，针对具体任务量身定制评估，从而提供更全面和有条理的解释。它不仅给出评分，还提供了详细的分析过程，使评估结果更加可靠和可解释，为中文大语言模型的对齐评估提供了有力工具。

人类评估

为了验证该团队为 AlignBench 设计的规则校准多维逐点评分 LLM-as-Judge 的方法，该团队对 AlignBench 选定的查询进行了广泛的人类评估。主要关注两个方面：方法与人类评审的一致性，以及方法对于更具人类可解释性的结果的批判质量。

一致性评估

基准：实验中包含了两个稳健的基准比较，以评估该团队的方法。请注意，所有方法均使用 GPT-4 进行评估，以确保公平性。1) 一般评分: 采用 MT-bench 中的中文版评估提示；2) 规则校准评分: 为了更好地指导模型比较模型答案和参考答案，并减少评分差异，该团队将评分规则纳入评估过程。该方法包含五个评分区间，每个区间与特定的质量描述相关联。参考答案的评分设定为 8，作为相对评分基准。

分析：一致性实验的结果呈现在表 3 中。结果显示，该团队的规则校准多维逐点评分 LLM-as-Judge 的方法表现最佳，特别是在样本级皮尔逊相关指标和成对一致性（不含平局）指标上，从而证明了与人类评审的一致性极佳。此外值得注意的是，所有方法在系统级皮尔逊相关指标上均表现出色，表明 LLM-as-Judge 的可靠性和稳健性。

质量评估

先前的研究主要关注模型评审与人类评审在评估 LLM-as-Judge 方法时的一致性。然而评估在评分之前模型评审生成的解释质量也具有重要意义。为了评估方法生成的解释质量，以及确定最终评分，该团队进行了成对质量比较实验。

质量评估的结果呈现在表 4 中。结果表明，该团队的方法生成了最高质量的解释和有用的反馈，在成对比较中以高胜率击败了两个基准。此外，基于规则的评分在解释方面优于一般评分，该结果证明了评分规则能够提供明确的基于参考的标准，从而有助于清晰地比较参考答案和模型答案。

AlignBench 评测结果

基于 AlignBench 的 LLM-as-Judge 评分的有效性，该团队评测了多种 LLMs 的中文对齐能力。该团队使用 gpt-4-0613 作为评审模型来评估各个模型的表现。结果如表 5 所示，大多数闭源 LLMs 分数较高（超过或接近 6 分），表明这些 LLMs 在满足用户意图和提供高质量响应方面具有强大的能力，表现了优秀的对齐水平。对于中文 LLMs 而言，某些中文 LLMs 的表现与 gpt-3.5-turbo 相当，甚至略有超越，逐渐接近领先模型 gpt-4-1106-preview。

结论

在本文中，介绍了AlignBench，这是一个全面的多维度基准测试，用于评估大语言模型（LLMs）在中文环境下的对齐程度。该团队设计了一个可持续的、包含人工参与的数据策划流程，并改进了LLM作为评判者（LLM-as-Judge）的方法，使AlignBench能够对LLMs的中文对齐进行高质量的自动评估。

局限性

改进自动化 LLM-as-Judge

AlignBench 展示了利用 GPT-4 作为评审可以与人类评估实现相对高的一致性，但在一致性和细致度方面仍有很大改进空间。此外，研究表明 LLM-as-Judge 存在一些潜在的偏差，包括位置偏差、复杂度和自我增强等。这些偏差可能会影响对某些模型评估的正确性。

拓展主题与查询

尽管 AlignBench 在类别中拥有相对较大的查询集，但仍需要进一步丰富，以实现更稳定和可靠的 LLMs 评估。此外，AlignBench 目前未涵盖对长文本查询的评估。

司南 OpenCompass 将持续推动大模型评测的公正性和客观性，提供丰富的大模评测基准信息，以促进大语言模型技术的健康发展和持续创新。本篇解读的 AlignBench 评测集已在评测集社区 CompssHub 上线，欢迎大家点击了解更多！

https://hub.opencompass.org.cn/dataset-detail/AlignBench

同时，司南 OpenCompass 期待更多的社区用户在评测集社区 CompssHub 发布各专业领域的评测集，让您的学术成果在我们的平台上得到更多的关注与应用！

https://hub.opencompass.org.cn/home

摘要

介绍

数据集