当前位置: 首页 > article >正文

腾讯:揭示评估幻觉并构建知识驱动新范式

标题Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge来源arXiv, 2603.11027v1摘要LLM-as-a-judge的范式依赖于一个关键假设即评价者之间的高度一致表明评价是可靠和客观的。我们提出了两个互补的发现来挑战这一假设。首先我们证明这种共识经常是虚幻的。我们识别并形式化评价幻觉这是一种现象LLM法官产生复杂的批评但将分数锚定在共同的表面启发式而不是实质性质量上。通过对105,600个评估实例32个LLM×3个前沿法官×100个任务×11个温度的大规模研究我们发现模型级协议Spearmanρ0.99掩盖了脆弱的样本级协议Pearson r0.72绝对协议ICC0.67仅仅共享规则结构就恢复了总协议的62%而高质量的输出反而得到了最不一致的评估。其次我们证明了基于领域知识的动态生成评估规则会产生更有意义的评估。我们引入了MERG元认知增强规则生成这是一个知识驱动的规则生成框架其领域选择效应证实了这一点。在知识将评估者锚定在共享标准上的编纂领域教育22%学术27%一致性增加而在真正的评估多元化出现的主观领域一致性减少。这些发现表明评估标准应该用专家知识动态丰富而不是依赖通用标准这对RLAIF中的奖励建模有影响。️文章简介研究问题大模型作为裁判时表现出的高一致性究竟反映了真实的质量共识还是基于表面启发式规则的虚假幻觉主要贡献论文形式化了“评估幻觉”概念揭示了现有共识的脆弱性并提出 MERG 框架证明引入领域知识能产生更具实质意义的评估。重点思路提出“评估幻觉”理论指出多个裁判的高分一致往往源于对格式、语气等表面特征的共享偏好而非对内容实质的共同理解。设计 MERG元认知增强评分标准生成框架强制裁判在打分前激活领域知识并反思自身偏见从系统一快思考转向系统二慢思考。开展大规模实验涉及 32 个模型、3 个前沿裁判及 10 万多次评估实例通过对比基线与 MERG 结果来诊断共识的真实来源。利用消融实验分离评分标准结构的影响量化了仅共享维度名称即可恢复大部分一致性证明现有可靠性多为仪器 artifacts。分析总结注入领域知识后裁判间的一致性显著下降降低 21%-34%证实基线共识主要由表面启发式驱动而非真实 deliberation。一致性变化具有领域选择性在教育和学术等有明确标准的领域知识注入提升了一致性而在文学等主观领域则降低了虚假共识。发现“分辨率悖论”即模型层面的排名相关性极高0.99但样本层面的绝对一致性较低0.72高分输出反而最难获得一致评价。评分标准的结构本身解释了约 62% 的一致性表明文献中报告的高可靠性很大程度上是共享评估工具的人为产物。个人观点论文颠覆了“高一致性即高可靠性”的传统假设指出了当前自动化评估中存在的“共谋式浅层共识”发现高质量输出的评估最容易陷入幻觉。附录

相关文章:

腾讯:揭示评估幻觉并构建知识驱动新范式

📖标题:Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge 🌐来源:arXiv, 2603.11027v1 🌟摘要 LLM-as-a-judge的范式依赖于一个关键假设,即…...

【图形图像处理】之栅格化:从原理到实时渲染的引擎核心

1. 为什么游戏和VR离不开栅格化? 第一次接触栅格化这个概念时,我正试图在Unity里实现一个简单的3D场景。当时发现无论模型多复杂,最终显示在屏幕上的永远是由无数小像素组成的画面。这个将矢量图形转换为像素矩阵的过程,就是栅格化…...

科技伦理兜着岐金兰

科技伦理兜着岐金兰引言当前,人工智能技术的迅猛发展正深刻重塑着人类社会的权力结构和话语体系。在这一背景下,科技伦理作为调节技术发展与社会价值的重要机制,其话语建构过程本身就蕴含着复杂的权力博弈。岐金兰在其系列文章中敏锐地捕捉到…...

避坑指南:ESP32-S3 Flash加密后,如何用Flash下载工具重新烧录固件?

ESP32-S3 Flash加密后固件更新实战:Release模式下的救砖指南 当ESP32-S3芯片开启Flash加密(特别是Release模式)后,常规的固件烧录方法将完全失效。这给产品迭代和bug修复带来了巨大挑战。本文将深入剖析加密机制背后的原理&#x…...

美团:融合先验与稀疏采样的自适应基线

📖标题:V0.5:Generalist Value Model as a Prior for Sparse RL Rollouts 🌐来源:arXiv, 2603.10848v1 🌟摘要 在具有可验证奖励的强化学习(RLVR)中,构建稳健的优势基线对…...

ROS2 编译依赖缺失的排查与修复指南

1. ROS2编译依赖缺失的典型表现 第一次用ROS2编译功能包时,看到满屏红色报错确实容易懵。最常见的就是CMake哭着告诉你"找不到某某包",就像你去超市买酱油却发现货架空空如也。这种报错通常长这样: CMake Error at CMakeLists.txt:…...

记忆走私犯:倒卖富豪脑数据的暗网暴富术——软件测试从业者的技术警示与防御蓝图

脑数据走私的崛起与技术危机2026年初,暗网曝出富豪思维记录以每秒计价拍卖,单条记忆数据标价高达250万美元,这标志着脑数据走私已成为新型犯罪风口。脑机接口(BCI)技术的普及让神经数据成为“数字黄金”,但…...

Nunchaku FLUX.1 CustomV3效果展示:多角色互动场景中姿态/光影/透视一致性保障

Nunchaku FLUX.1 CustomV3效果展示:多角色互动场景中姿态/光影/透视一致性保障 1. 引言:当AI绘画遇上复杂场景 你有没有试过让AI画一张多个人物互动的图?比如两个人在咖啡馆聊天,或者一群朋友在公园里野餐。结果常常让人哭笑不得…...

如何通过Jar包快速集成工作流设计器?

1. 为什么需要Jar包集成工作流设计器? 在企业级应用开发中,工作流引擎就像交通信号灯控制系统。想象一下,如果没有红绿灯,城市交通会乱成什么样子?工作流引擎就是帮我们管理业务流程的"红绿灯系统"。 传统集…...

本科毕业论文写作效率革命:Paperzz 智能写作,让毕业创作告别熬夜内耗

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿paperzz - 毕业论文-AIGC论文检测-AI智能降重-ai智能写作https://www.paperzz.cc/dissertation 一、引言:当 AI 重构本科毕业论文写作,毕业季的效率壁垒被彻底打破 对于每一位本科毕…...

leetcode 1451. Rearrange Words in a Sentence 重新排列句子中的单词

Problem: 1451. Rearrange Words in a Sentence 重新排列句子中的单词 先抠出单词,然后按照题意排序,最后拼起来 Code class Solution { public:string arrangeWords(string text) {text ;int n text.size(), cnt 0, ind, start 0;string tg;char…...

全连接神经网络 , 详解 .

用矩阵形式理解全连接网络偏置矩阵:训练完成后,每个神经元的偏置项 b 会学习到一个具体的数值。这个数值的作用是控制神经元激活的“阈值”,或者说为模型的输出提供一个“基准线”。在线性变换 z Wx b 中,偏置 b 实现了对决策边界的平移&am…...

1.军用涡扇发动机本体结构与能量转换底层逻辑

本文 100% 遵循全球航空工程通用标准、国内 GJB 国军标规范,所有术语、定义、流程逻辑、参数均符合现役军用加力式涡扇发动机的设计、使用与维护标准。要理解全流程工作原理,首先要明确发动机的核心结构与能量转换的本质,所有工况、系统、控制…...

密码学实战:如何利用生日攻击破解数字签名

1. 从生日悖论到数字签名攻击 我第一次听说生日攻击这个概念时,感觉特别有意思。想象一下,如果一个教室里只有23个人,那么其中两个人生日相同的概率就超过50%。这个反直觉的现象就是著名的生日悖论,而它在密码学领域有着惊人的应用…...

linux中从零开始,将OpenClaw 接入 QQ 机器人

Linux 从零开始:将 OpenClaw 接入 QQ 机器人 本文提供完整的 OpenClaw 安装和 QQ 机器人接入指南,适用于 Debian 12 系统,模型使用华为云提供MAAS 📋 目录 系统准备安装 OpenClaw配置 QQ 机器人测试与验证常见问题 &#x1f680…...

OpenClaw+GLM-4.7-Flash自动化数据处理:Excel报表生成实例

OpenClawGLM-4.7-Flash自动化数据处理:Excel报表生成实例 1. 为什么选择这个工具组合 上周处理季度销售数据时,我经历了从多个渠道手动收集数据、清洗格式、计算指标再到生成可视化报表的全过程。这种重复性工作不仅耗时,还容易在复制粘贴时…...

OpenClaw 刚启动就挂了?别急,八成是你的环境变量没弄对!

刚折腾完 OpenClaw 正打算爽一把,结果控制台直接蹦出一堆红字 Error: Configuration failed?或者好不容易跑起来了,一问大模型就回你 Missing API Key?先稳住!根据 2026 年的最新反馈,十个启动失败的里有九…...

jsontop.cn 深度测评:从 JSON 格式化到全能工具集,开发者的效率革命

在开发者的日常工作中,「琐碎的小需求」往往会占据大量的时间:比如接口返回的 JSON 数据杂乱无章,需要格式化才能查看;比如需要将文本转换为 Base64 编码,却要临时找在线工具;比如编写了正则表达式&#xf…...

Python基于深度学习的声音识别青少年防沉迷系统【附源码、文档说明】

博主介绍:✌Java老徐、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇&…...

Linux 数据链路层

1.数据链路层的作用简单来说。TCP协议实现的是数据传输的可靠性,IP协议实现的是数据能跨主机送达目标主机的能力,数据链路层保证相邻的两台设备进行数据交互的问题。2.以太网以太网的帧格式如下所示:目的地址和源地址都是 mac 地址&#xff0…...

【鸿蒙PC命令行移植适配】rsync 三方库鸿蒙化适配后在鸿蒙PC运行的完整实践

欢迎加入 开源鸿蒙跨平台开发者社区,与大家一起共建鸿蒙化 C/C 三方库生态。 1. 前言 本教程面向 C/C 开发者,带你完成 rsync 三方库的鸿蒙平台适配,并能够在鸿蒙PC上进行验证。 通过本教程,你将掌握: 使用 lycium…...

华为FusionCompute:从虚拟化基石到云数据中心智能引擎

1. 华为FusionCompute的进化之路:从虚拟化到智能引擎 第一次接触华为FusionCompute还是在五年前的一个数据中心改造项目上。当时客户的需求很简单——把二十多台老旧服务器整合成虚拟化环境。说实话,那时候的FusionCompute给我的印象就是个不错的虚拟化工…...

SQL Server 学习

SQL Server 是微软公司提供的一款关系型数据库。由于C#也是微软官方提供的语言,所以我们C#可以直接连接SQL Server使用,而不需要其他导入文件。一. SQL 概述1.1 语法关键字不区分大小写。多行或单行书写,用;结尾。可使用空格缩进增…...

Qwen3.5-9B行业应用:建筑图纸关键信息提取+自然语言说明生成

Qwen3.5-9B行业应用:建筑图纸关键信息提取自然语言说明生成 1. 项目概述 Qwen3.5-9B是阿里云推出的新一代多模态大模型,在建筑行业图纸处理领域展现出强大的应用潜力。该模型基于unsolth/Qwen3.5-9B架构,通过Gradio Web UI提供服务&#xf…...

Qwen-Image镜像效果展示:RTX4090D运行Qwen-VL完成图像情感分析与文案生成

Qwen-Image镜像效果展示:RTX4090D运行Qwen-VL完成图像情感分析与文案生成 1. 开箱即用的专业AI环境 当拿到这台搭载RTX4090D显卡的工作站时,我原本以为要花上大半天时间配置环境。没想到这个Qwen-Image定制镜像让我直接跳过了所有繁琐的安装步骤&#…...

PID控制算法避坑指南:为什么你的自整定总震荡?5个调试技巧

PID控制算法避坑指南:为什么你的自整定总震荡?5个调试技巧 在工业自动化领域,PID控制算法就像一位经验丰富的舵手,默默掌控着无数设备的稳定运行。然而,这位"舵手"有时也会表现出令人头疼的脾气——要么反应…...

【资源分享】Z-Image-Base(NSFW)最新无限制版整合包下载和使用教程,支持极致真实的AI人像生成+支持海报设计无乱码 完美还原真实肤质

【资源分享】Z-Image-Base(NSFW)最新无限制版整合包下载和使用教程,支持极致真实的AI人像生成支持海报设计无乱码 完美还原真实肤质 最近很多朋友都在问我:“到底怎么才能画出那种皮肤纹理清晰、像单反直出一样的真人美女图?”,还…...

Matlab完整源码和数据 1.基于WOA-TCN-BiGRU-Attention鲸鱼算法优化...

Matlab完整源码和数据 1.基于WOA-TCN-BiGRU-Attention鲸鱼算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测,要求Matlab2023版以上; 2.输入多个特征,输出单个变量,考虑历史特征的影响,多变量时间序列…...

NEC红外编解码模块:UART接口即插即用设计解析

1. 红外解码编码模块技术解析与工程实现红外通信作为最成熟、成本最低的短距离无线控制技术之一,在消费电子、工业控制和智能家居领域持续发挥着不可替代的作用。本模块并非简单的红外收发器件堆叠,而是一个经过完整协议封装、具备标准化串口接口的嵌入式…...

VSCode调试必备:快速添加项目根目录到PYTHONPATH的4种姿势

VSCode调试必备:快速添加项目根目录到PYTHONPATH的4种姿势 每次在VSCode中调试Python项目时,你是否遇到过"ModuleNotFoundError"的报错?这种问题往往源于Python解释器无法定位项目中的模块。作为Python开发者,我们经常需…...