当前位置：首页 > article >正文

腾讯：揭示评估幻觉并构建知识驱动新范式

article 2026/3/23 23:42:25

标题Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge来源arXiv, 2603.11027v1摘要LLM-as-a-judge的范式依赖于一个关键假设即评价者之间的高度一致表明评价是可靠和客观的。我们提出了两个互补的发现来挑战这一假设。首先我们证明这种共识经常是虚幻的。我们识别并形式化评价幻觉这是一种现象LLM法官产生复杂的批评但将分数锚定在共同的表面启发式而不是实质性质量上。通过对105,600个评估实例32个LLM×3个前沿法官×100个任务×11个温度的大规模研究我们发现模型级协议Spearmanρ0.99掩盖了脆弱的样本级协议Pearson r0.72绝对协议ICC0.67仅仅共享规则结构就恢复了总协议的62%而高质量的输出反而得到了最不一致的评估。其次我们证明了基于领域知识的动态生成评估规则会产生更有意义的评估。我们引入了MERG元认知增强规则生成这是一个知识驱动的规则生成框架其领域选择效应证实了这一点。在知识将评估者锚定在共享标准上的编纂领域教育22%学术27%一致性增加而在真正的评估多元化出现的主观领域一致性减少。这些发现表明评估标准应该用专家知识动态丰富而不是依赖通用标准这对RLAIF中的奖励建模有影响。️文章简介研究问题大模型作为裁判时表现出的高一致性究竟反映了真实的质量共识还是基于表面启发式规则的虚假幻觉主要贡献论文形式化了“评估幻觉”概念揭示了现有共识的脆弱性并提出 MERG 框架证明引入领域知识能产生更具实质意义的评估。重点思路提出“评估幻觉”理论指出多个裁判的高分一致往往源于对格式、语气等表面特征的共享偏好而非对内容实质的共同理解。设计 MERG元认知增强评分标准生成框架强制裁判在打分前激活领域知识并反思自身偏见从系统一快思考转向系统二慢思考。开展大规模实验涉及 32 个模型、3 个前沿裁判及 10 万多次评估实例通过对比基线与 MERG 结果来诊断共识的真实来源。利用消融实验分离评分标准结构的影响量化了仅共享维度名称即可恢复大部分一致性证明现有可靠性多为仪器 artifacts。分析总结注入领域知识后裁判间的一致性显著下降降低 21%-34%证实基线共识主要由表面启发式驱动而非真实 deliberation。一致性变化具有领域选择性在教育和学术等有明确标准的领域知识注入提升了一致性而在文学等主观领域则降低了虚假共识。发现“分辨率悖论”即模型层面的排名相关性极高0.99但样本层面的绝对一致性较低0.72高分输出反而最难获得一致评价。评分标准的结构本身解释了约 62% 的一致性表明文献中报告的高可靠性很大程度上是共享评估工具的人为产物。个人观点论文颠覆了“高一致性即高可靠性”的传统假设指出了当前自动化评估中存在的“共谋式浅层共识”发现高质量输出的评估最容易陷入幻觉。附录

腾讯：揭示评估幻觉并构建知识驱动新范式

相关文章：

腾讯：揭示评估幻觉并构建知识驱动新范式

【图形图像处理】之栅格化：从原理到实时渲染的引擎核心

科技伦理兜着岐金兰

避坑指南：ESP32-S3 Flash加密后，如何用Flash下载工具重新烧录固件？

美团：融合先验与稀疏采样的自适应基线

ROS2 编译依赖缺失的排查与修复指南

记忆走私犯：倒卖富豪脑数据的暗网暴富术——软件测试从业者的技术警示与防御蓝图

Nunchaku FLUX.1 CustomV3效果展示：多角色互动场景中姿态/光影/透视一致性保障

如何通过Jar包快速集成工作流设计器？

本科毕业论文写作效率革命：Paperzz 智能写作，让毕业创作告别熬夜内耗

leetcode 1451. Rearrange Words in a Sentence 重新排列句子中的单词

全连接神经网络 , 详解 .

1.军用涡扇发动机本体结构与能量转换底层逻辑

密码学实战：如何利用生日攻击破解数字签名

linux中从零开始,将OpenClaw 接入 QQ 机器人

OpenClaw+GLM-4.7-Flash自动化数据处理：Excel报表生成实例

OpenClaw 刚启动就挂了？别急，八成是你的环境变量没弄对！

jsontop.cn 深度测评：从 JSON 格式化到全能工具集，开发者的效率革命

Python基于深度学习的声音识别青少年防沉迷系统【附源码、文档说明】

Linux 数据链路层

【鸿蒙PC命令行移植适配】rsync 三方库鸿蒙化适配后在鸿蒙PC运行的完整实践

华为FusionCompute：从虚拟化基石到云数据中心智能引擎

SQL Server 学习

Qwen3.5-9B行业应用：建筑图纸关键信息提取+自然语言说明生成

Qwen-Image镜像效果展示：RTX4090D运行Qwen-VL完成图像情感分析与文案生成

PID控制算法避坑指南：为什么你的自整定总震荡？5个调试技巧

【资源分享】Z-Image-Base(NSFW)最新无限制版整合包下载和使用教程，支持极致真实的AI人像生成+支持海报设计无乱码完美还原真实肤质

Matlab完整源码和数据 1.基于WOA-TCN-BiGRU-Attention鲸鱼算法优化...

NEC红外编解码模块：UART接口即插即用设计解析

VSCode调试必备：快速添加项目根目录到PYTHONPATH的4种姿势