当前位置: 首页 > article >正文

ICML Desk Reject 引发热议,AI审稿究竟该如何科学检测

今天 ICML 2026 的一批 desk reject 结果出来之后学术圈又炸了一次。起因其实很简单有不少人发现——部分论文被 desk reject理由是 reviewer 使用了 LLM 写 review。更具体一点有人晒出的 rejection comment 里写得很直接reviewer violated LLM reviewing policy并检测到 LLM 使用痕迹一时间Twitter/X 上各种声音都有。但如果把情绪先放一边这件事本身其实很值得认真聊一聊。1. ICML 今年到底做了什么先说结论ICML 2026 确实在“主动检测 reviewer 是否用 LLM”而且不是传统那种“文本检测器”而是一个更激进的方案——watermark-based detection带诱导的隐式水印机制本质简单讲人话版核心思路类似“钓鱼检测”canary tokenICML 在提交的 PDF 中插入隐藏信息/提示如果 reviewer把论文直接丢进 LLMLLM 读到了这些隐藏 prompt就会在生成的 review 里带上某些“特定短语”ICML 只需要检测这些短语 → 就能判断你用了 LLM换句话说这是一个不是检测“像不像 AI”而是检测“有没有喂给 AI”这种方法在安全领域其实很常见本质属于in-context watermark / prompt injection detection为什么 ICML 要这么做看官方 policy其实动机不难理解ICML 今年采用双政策体系Policy A / Policy B有的 reviewer完全禁止用 LLM有的 reviewer允许辅助但不能让 LLM 做判断但现实问题是“大家嘴上说不用实际上呢”所以他们明确提到会使用自动化工具来检测 LLM 使用情况但不保证完全准确watermark本质就是这个“自动化工具”的一种实现。2. 支持 vs 反对争议点在哪这件事之所以炸不是因为技术而是因为“感觉不对”。 支持者这是必要的“反作弊机制”支持方的逻辑很直接reviewer 把论文丢给 LLM → 本质是外包判断这会降低 review 质量破坏 peer review 的信任基础watermark detection比传统 AI detector 更可靠不用猜“语言风格”而是直接抓“行为”一句话总结这是在防止 reviewer 把责任甩给模型 反对者这更像“以暴制暴”反对声音其实更大而且有几个关键点1. 不透明最大的问题是reviewer 并不知道自己在被“下套”这和普通规则 enforcement 不一样更像是你在考试但题目里埋了 trap一旦踩到就直接判作弊很多人觉得这已经越过了“合理监管”的边界。2. 误伤风险虽然 watermark 理论上很精确但现实中reviewer 可能用了工具做摘要但没让模型判断或无意触发某些 patternICML 自己也承认detection 并不是 infallible不是万无一失这就带来一个问题desk reject 的代价是否过高3. 一条更“干净”的路线检测“判断”而不是“文本”这正是最近一篇很有意思的论文在做的事论文Whos Your Judge? On the Detectability of LLM-Generated Judgments链接https://arxiv.org/abs/2509.25154这篇论文抓住了一个很容易被忽略的现实在很多场景里文本本身并不可靠甚至根本不存在。例子 1reviewer 会“洗稿”一个 reviewer 可能会用 LLM 生成完整 review再自己手动删 AI 味改写句子压缩表达最后提交的版本看起来很自然可以绕过各种 AI detector但核心判断其实已经来自 LLM 这时再去“检测文本”其实已经没有意义。例子 2根本没有文本只有评分很多真实系统里只有打分score偏好选择A / B标注标签比如conference review 分数RLHF 数据众包标注标注员完全可以把内容丢给 LLM让它给判断自己再点提交 最终你拿到的只有(Candidate, Score)没有任何文本可以分析。 所以这篇论文的关键转变是从“文本检测”转向“判断检测”也就是不再问“这段话像不像 AI 写的”而是问这个判断是不是 AI 做的4. 怎么抓出“AI裁判”靠的不是玄学是“偏见”既然不看或者没有文本那靠什么来抓 AI这篇论文提出判断一个打分是真人给的还是 AI 给的关键在于捕捉两种特征 打分内在特征说白了就是“打分分布的规律” 。在多维度的评审中人类和 AI 给分的高低错落感和分布模式是完全不同的 。打分与文本的交互特征这是重点也就是“分数”和“被评文章”之间的猫腻 。现有的很多小模型文本检测器根本抓不到这种交互信息所以在只有单维度打分的任务中直接变成了“瞎猜” 。5. J-Detector 闪亮登场不用大炮打蚊子为了精准识别出 AI 裁判作者们搞出了一个叫J-Detector的检测器 。特别接地气的是它没有搞什么花里胡哨的百亿参数大模型而是用了极其轻量级、可解释性极强的机器学习模型比如 Random Forest、LGBM、XGB 等 。它的核心秘籍在于提取了两大类特征把 AI 的“狐狸尾巴”揪得死死的大模型增强特征作者用大模型去反向提取文本的“表面光鲜度”风格、排版、措辞等和特定的评价维度 。因为研究发现AI 裁判骨子里特别容易被这种“表面功夫”给唬住产生虚假的偏好 。语言学特征就是一些底层的统计指标 。比如文章长度AI 喜欢长篇大论、词汇多样性AI 偏爱词藻华丽、句法复杂度AI 喜欢复杂的从句还有语篇特征比如 AI 爱用充满自信的语气词和连接词 。6. 扒一扒 AI 裁判的“癖好”它到底偏爱什么样的论文有了 J-Detector作者在四个不同场景的数据集上跑了跑实验结果可以说是“薄纱”全场 。相比于传统的文本检测模型RoBERTa 等在只有分数的场景下命中率暴跌到50%左右跟抛硬币没区别J-Detector 依然能稳稳维持在85%到92%的高分 。更有意思的是由于 J-Detector 是可解释的作者直接用它量化了 AI 裁判的“偏见” 在 NeurIPS 评审和 Helpsteer2 数据集里AI 裁判的底裤都被扒穿了 “复杂控”与“迷之自信”AI 裁判特别容易给结构复杂、语气非常自信的回答打高分 。“长篇大论就是好”经典的长度偏见依然存在只要写得长AI 就觉得你牛 。“颜值即正义”表面排版和风格好看同样能骗过 AI 裁判的眼睛 。7. 什么情况下的 AI 裁判最容易翻车吃瓜吃到这大家肯定想问作为被评审的人或者摸鱼的审稿人在什么样的情况下AI 打分最容易被查出来论文给了几个非常实用的结论 干得越多死得越快批量大小如果你只让 AI 审了一篇那确实难抓 。但如果你批量丢给 AI 审比如一次审 16 篇它在群体上暴露的规律性瞬间拉满检测准确率直线飙升 。打分越细马脚越多打分维度与颗粒度让你给 5 个维度创新性、合理性等分别打分比只给 1 个综合分更容易暴露 。同理如果打分区间是非常细的标尺AI 也很容易露出非人类的死板习惯 。这里还有一个极为炸裂的发现模型越强越难抓作者弄了个包含 20 种不同大模型的“检测排行榜” 。 像 GPT-4o、Claude 3.5 Sonnet 这种闭源顶流因为它们的输出更对齐人类的价值观LMArena 得分高所以它们做出的判断跟真实人类极度相似最难被揪出来 。而相对较小的开源模型那基本上是一抓一个准 。8. 终极杀招当“打分检测”遇上“文本检测”如果说 ICML 官方现在用的“钓鱼水印”是一种激进的防守那这篇论文提出的“打分判断检测”就是一种降维打击 。在现实的学术评审中有些审稿人为了防查重可能会交个 AI 打的分但把文字评审写得很短甚至用几个词敷衍了事比如写个 N/A 。在这种“文本缺失”的极端场景下如果把传统的文本检测和 J-Detector 结合起来使用检测准确率居然能直接飙到99.3%总结一下天下苦 AI 审稿久矣。但“道高一尺魔高一丈”既然你可以让 AI 帮你做决定那学术界自然也有办法通过你做决定的“姿势”把你揪出来 。对于广大学术打工人来说合理的 AI 润色是好帮手但把生杀大权彻底外包给大模型—— 你的 Judge可能马上就要被 Judge 了。

相关文章:

ICML Desk Reject 引发热议,AI审稿究竟该如何科学检测

今天 ICML 2026 的一批 desk reject 结果出来之后,学术圈又炸了一次。起因其实很简单:有不少人发现——部分论文被 desk reject,理由是 reviewer 使用了 LLM 写 review。更具体一点,有人晒出的 rejection comment 里写得很直接&am…...

深入解析SCT分散加载文件:从FLASH到SRAM的高效内存管理策略

1. 嵌入式系统中的内存管理挑战 在嵌入式系统开发中,内存管理一直是个让人头疼的问题。我刚开始接触STM32开发时,就遇到过FLASH空间不足导致编译失败的尴尬情况。当时项目需要实现一个复杂的通信协议栈,代码量激增到接近芯片FLASH容量上限。通…...

Qwen-Image在金融文档理解中的应用:RTX4090D驱动财报图表自动解析实战案例

Qwen-Image在金融文档理解中的应用:RTX4090D驱动财报图表自动解析实战案例 1. 金融文档处理的痛点与机遇 金融行业每天需要处理海量的财报、研报和各类文档,其中包含大量关键数据隐藏在图表中。传统的人工提取方式面临三大挑战: 效率低下&…...

QT界面布局实战:3种Layouts让你的UI设计更高效(附代码示例)

QT界面布局实战:3种Layouts让你的UI设计更高效(附代码示例) 第一次接触QT界面设计时,最让我头疼的就是控件排列问题。手动调整每个按钮的位置和大小不仅耗时,而且在不同分辨率下显示效果参差不齐。直到掌握了QT的布局管…...

雪女-斗罗大陆-造相Z-Turbo硬件基础:STM32F103C8T6最小系统板控制生成任务指示灯

雪女-斗罗大陆-造相Z-Turbo硬件基础:用STM32F103C8T6最小系统板做个“任务状态灯” 你有没有过这种体验?在网页上点了个按钮,让AI模型生成一张图片,然后就是漫长的等待。后台到底在不在处理?是卡住了还是快好了&#…...

同事在京东App开的发票,发票抽奖中了800元,高兴了一整天。千万别说你是中奖绝缘体,你也来试一试吧!!

发票抽奖的活动正在如火如荼的进行着,几个大的平台都可以上传发票参加,只要你的发票满足开票日期和实名开票,那就有机会中奖。就在前几天,同事在京东上开的发票,发票抽奖,居然中了一等奖800元。真是喜从天降…...

华为eNSP进阶实战:从零构建企业级网络,打通仿真与认证的最后一公里

1. 为什么你需要掌握华为eNSP? 作为一名网络工程师,或者正在备考华为HCIP/HCIE认证的学习者,你一定遇到过这样的困扰:想要搭建一个完整的企业级网络环境进行实验,但硬件设备成本高昂,物理环境搭建复杂。这时…...

【2025最新】基于SpringBoot+Vue的农业设备租赁系统管理系统源码+MyBatis+MySQL

摘要 随着现代农业的快速发展,农业设备的智能化与高效管理成为提升农业生产力的关键因素。传统农业设备租赁模式存在信息不透明、管理效率低下等问题,亟需通过信息化手段优化业务流程。农业设备租赁系统通过整合设备资源、优化租赁流程,为农户…...

【QT开发笔记-实战篇】| 第二章 常用控件 | 2.12 表格控件 QTableWidget 数据管理实战

1. QTableWidget基础入门 第一次接触QTableWidget时,我被它强大的功能震撼到了。这个控件就像Excel表格一样直观,但又能通过代码灵活控制。在实际项目中,我经常用它来展示数据库查询结果、配置参数列表或者像今天要做的学生信息管理系统。 QT…...

ThinkPad散热管理新纪元:TPFanCtrl2智能双风扇技术解析

ThinkPad散热管理新纪元:TPFanCtrl2智能双风扇技术解析 【免费下载链接】TPFanCtrl2 ThinkPad Fan Control 2 (Dual Fan) for Windows 10 and 11 项目地址: https://gitcode.com/gh_mirrors/tp/TPFanCtrl2 一、问题发现:解码散热系统的隐形枷锁 …...

Ubuntu图形界面崩溃的快速修复指南

1. 当Ubuntu图形界面突然罢工时 刚泡好的咖啡还在冒热气,你满心期待地按下Ubuntu开机键,却发现熟悉的图形界面消失了——这种场景我遇到过不下十次。作为从Ubuntu 12.04一路用到22.04的老用户,我可以负责任地告诉你:90%的图形界面…...

DeepSeek V3 vs R1:哪个更适合你的项目?从架构到性能的实战对比

DeepSeek V3与R1架构深度解析:如何根据项目需求选择最优模型 在人工智能技术快速迭代的今天,选择适合的模型架构往往成为项目成功的关键因素。DeepSeek作为业界领先的自然语言处理解决方案,其V3和R1两个版本各有特色,适用于不同场…...

通义千问1.5-1.8B-Chat-GPTQ-Int4快速部署:.NET开发者调用本地模型API指南

通义千问1.5-1.8B-Chat-GPTQ-Int4快速部署:.NET开发者调用本地模型API指南 如果你是一名.NET开发者,对最近火热的AI大模型感兴趣,想在自己的C#应用里集成智能对话能力,但又觉得调用云端API有延迟、成本或数据隐私的顾虑&#xff…...

ChatTTS流式音频合成实战:从原理到避坑指南

最近在做一个智能语音交互项目,用到了ChatTTS来做文本转语音。项目有个硬性要求:语音合成必须“快”,用户说完话,系统得几乎无延迟地回应。一开始用ChatTTS的常规接口,生成整段音频再播放,那个等待时间&…...

告别Appium!用Python+facebook-wda搞定iOS自动化测试,保姆级环境搭建与实战避坑

从Appium到facebook-wda:iOS自动化测试的轻量化实战指南 当iOS自动化测试成为团队持续交付流程中的标配时,测试工程师们往往陷入工具选择的困境。我曾带领多个移动测试团队完成从零到一的自动化体系建设,见证了从Appium的"全家桶式"…...

FPGA信号采集系统实战:从AD7606选型到低功耗优化全流程解析

FPGA信号采集系统实战:从AD7606选型到低功耗优化全流程解析 1. 工业级信号采集系统的核心挑战 在工业自动化测试、电力监测和医疗设备等领域,多通道高精度信号采集系统正面临三大技术痛点:采样精度与速度的平衡、多通道同步性控制和长期运行稳…...

【实战指南】PowerShell + robocopy 高效迁移海量数据:编码与脚本优化全解析

1. 为什么选择PowerShell robocopy组合 当你需要迁移几十GB甚至上TB级别的数据时,Windows自带的资源管理器复制功能就显得力不从心了。我经历过无数次复制过程中断、速度不稳定、无法续传的崩溃时刻,直到发现了robocopy这个神器。它就像是文件复制界的&…...

ESP32 ESP-NOW实战:从零构建双向点对点数据链路

1. ESP-NOW协议:无线通信的轻量级解决方案 第一次接触ESP-NOW时,我被它的简洁高效惊艳到了。这个由乐鑫专门为ESP32设计的协议,完美解决了传统Wi-Fi连接中握手过程复杂、功耗高的问题。想象一下,两个ESP32开发板就像对讲机一样&am…...

Flask框架实战:从零构建你的第一个Python Web应用

1. 为什么选择Flask作为你的第一个Web框架 作为一个Python开发者,当你决定踏入Web开发领域时,框架选择往往会让你眼花缭乱。我当初也面临同样的困惑,直到发现了Flask这个"小而美"的框架。Flask最吸引我的地方在于它的微框架特性——…...

Ubuntu终端会话守护者:Screen命令从入门到精通实战

1. 为什么你需要Screen这个终端守护者? 想象一下这样的场景:你正在通过SSH连接远程服务器运行一个耗时很长的数据分析脚本,突然网络波动导致连接中断,几个小时的运算成果瞬间消失。或者你需要同时监控服务器日志、运行测试脚本和编…...

Python Pandas实战:自动化生产线数据分析全流程解析与代码复现

1. 自动化生产线数据分析实战入门 第一次拿到生产线CSV日志时,我盯着密密麻麻的几十列数据发呆了半小时。作为刚接手工厂数据分析的新人,面对"抓取次数"、"故障代码"这些陌生字段,连从哪里开始分析都毫无头绪。直到发现P…...

STM32F103C8T6驱动DS18B20:从单总线协议到OLED显示的完整温度监测系统

1. 项目背景与硬件选型 温度监测在工业控制、智能家居等领域应用广泛,而STM32F103C8T6作为性价比极高的Cortex-M3内核微控制器,搭配DS18B20单总线数字温度传感器,可以构建一个简单可靠的温度监测系统。这个组合特别适合嵌入式初学者练手&…...

【无人机】多避障轨迹的混合整数线性规划设计附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室👇 关注我领取海量matlab电子书和…...

2022年个人错题整理--2026.3.19

1、PaaS (Platform as a Service),平台即服务;Saas (software as a Service),软件(应用)即服务;laas (Infrastructure as a Service),基出设施即服务;2、移臂就是找柱面,旋转则找扇区。(同柱面,优先找扇区近…...

BH1750光照传感器驱动开发与I²C通信详解

1. BH1750光照强度传感器技术解析与嵌入式驱动实现1.1 传感器核心特性与工程价值BH1750FVI是ROHM公司推出的高精度数字环境光传感器芯片,其设计目标直指工业级光照测量场景对精度、稳定性与易用性的综合需求。该器件采用CMOS工艺制造,内置16位模数转换器…...

【Unity实战解析】ECS架构与帧同步在多人游戏中的高效实现

1. ECS架构:游戏开发的范式革命 第一次接触ECS架构是在开发一款多人在线战术游戏时,当时我们的传统OOP架构已经难以应对复杂的网络同步需求。ECS(Entity-Component-System)彻底改变了我的开发思维——它把游戏对象拆解成三个基本元…...

CentOS 与主流 Linux 发行版:版本与时间表(年表)

CentOS 与主流 Linux 发行版:版本与时间表(年表) 本文收录 CentOS / CentOS Stream、Debian、Ubuntu、RHEL、Fedora、openSUSE Leap、Slackware 等主线版本的代号、首发时间与大致生命周期,便于检索与对照。 重要:日期…...

英雄联盟数据网站OPGG直连卡顿问题丨修改DNS

我发现在不同的网吧,不同的设备,连接OPGG的速度不同。 OPGG英雄联盟数据网站 AI回答: 有时候卡顿是因为域名解析到了错误的或拥堵的海外节点。 修改DNS:将电脑的DNS服务器改为 8.8.8.8 (Google) 或 1.1.1.1 (Cloudflare)&#x…...

CentOS下LibreOffice转换Word/PPT到PDF的常见问题与解决方案

1. 为什么选择LibreOffice在CentOS上转换PDF? 如果你在CentOS服务器上需要批量处理文档转换,LibreOffice绝对是性价比最高的选择。作为开源办公套件,它不仅能完美兼容微软Office格式,更重要的是支持命令行无界面操作——这对服务器…...

CentOS 与主流 Linux 发行版历史与版本综述

CentOS 与主流 Linux 发行版历史与版本综述 本文梳理 CentOS 从 RHEL 兼容克隆到 CentOS Stream 的变迁,并概括 Debian / Red Hat / SUSE / 独立发行版 等主流谱系及其版本演进脉络,便于选型和查阅。具体 EOL 与发布日以各项目官方文档为准。 目录 一、…...