当前位置：首页 > article >正文

重温DIRE:走向通用人工智能生成的图像检测

article 2026/5/11 22:39:27

1.摘要生成模型的快速发展提高了图像质量并使图像合成广泛可用引起了对内容可信度的关注。为了解决这个问题我们提出了一种称为通用重建残差分析(UR2EA)的方法来检测合成图像。我们的研究表明当通过预训练的扩散模型重建GAN和扩散生成的图像时与真实图像相比它们在重建误差方面表现出显著差异:GAN生成的图像显示出比真实图像更低的重建质量而扩散生成的图像重建得更精确在进行图像重构时GAN的重构误差比真实图像更低扩散模型的重构误差比真实图像更高。在训练用于检测合成图像的模型之前我们利用这些残差图作为通用图。此外我们引入了多尺度通道和窗口注意(MCWA)模块从多个尺度的残差图中提取细粒度特征捕捉局部和全局细节。为了便于探索不同的检测方法我们构建了一个新的UniversalForensics数据集其中包括由30个不同模型生成的合成图像的各种表示。与性能最佳的基线相比我们的方法将平均准确度提高了3.3 %精度提高了1.6 %达到了最先进的结果。2.引言受益于生成性对抗网络(GANs)的进步(Goodfellow等人2014Karras等人2019)和扩散模型(Ho等人2020Rombach等人2022)高质量的图像合成或编辑技术近年来受到了广泛关注因为它可以合成人眼无法分辨的照片级真实感图像并具有从娱乐和营销到电影创作等更复杂场景的多种应用。然而在每一个收获中都有一个损失。如果图像合成或编辑技术被犯罪分子使用也会带来风险因为它也可能被用于传播虚假信息和伪造图像。因此检测由GAN基和扩散基模型产生的合成图像成为一个紧迫的问题。介绍背景GAN和扩散进步飞快生成检测器的开发迫在眉睫。为了识别生成的图像我们注意到研究人员已经开发了各种基于CNN的通用生成图像检测器他们的核心思想是提高模型的泛化能力以识别真伪图片但是用扩散训练的模型在GAN上效果不好在GAN上训练的模型在扩散上效果不好。因此构建用于同时识别基于GAN的生成图像和基于扩散的生成图像的可推广的生成图像检测器是紧迫的但也是重要的。套话说泛化性不足然后开发一种能够同时检测GAN和扩散的模型十分重要作者认为一个优秀的模型应该具有三种特征(I)强检测能力能够跨不同家族和训练范式检测来自不同生成模型的AI生成图像(ii)对看不见的合成模式的良好概括(iii)对输入扰动和畴变的强鲁棒性。第一个挑战是构建数据集该数据集可以确保生成的图像检测器可以同时推广到看不见的基于GAN的图像和基于扩散的图像。借鉴pioneer works 中常用的程序生成图像或扩散生成图像我们构造了一个新的集合UniversalForensics以探索如何构建一个生成图像检测器它可以同时推广到看不见的基于GAN和基于扩散的图像。UniversalForensics提供了一个训练集其中包含来自ForenSynths的80000个基于程序的生成图像、来自DiffusionForensics的40000个基于扩散的图像以及120000个真实图像。此外UniversalForensics还提供了由30个不同的生成模型产生的多个测试子集。就是拿别人的数据集做一个整合其实AIGCDetect数据集就以及可以实现了但是作者还是自己构建了一个数据集第二个挑战是设计一个具有合适先验的通用生成图像检测器。直觉思维是在基于程序生成的、扩散生成的和真实的图像上训练CNN二元分类器。然而先前的研究(王等人2023)表明这种简单的方法是次优的并且对于看不见的图像具有有限的推广性。为了应对这一挑战我们根据经验发现扩散重建误差(DIRE)仍然是检测基于GAN生成的图像和扩散生成的图像的合适先验但是DIRE背后的假设即与真实图像相比由扩散过程生成的图像可以通过预先训练的扩散模型更准确地重建对于基于GAN生成的图像并不成立。如表1所示其总结了跨多个重建模型的图像重建质量结果包括MAE、VQGAN、稳定扩散和DDIM我们可以看到两个相反的现象:1)与真实图像相比由扩散过程产生的图像可以由预训练的扩散模型更精确地重建。2)与GAN产生的图像相比通过预训练的扩散模型可以更准确地重建真实图像。当我们同时面对基于GANbased生成的图像和扩散生成的图像时这两个矛盾的现象使得背后的假设不成立。作者提出了自己的分类模型架构命名为UR2EA然后作者说DIRE这种方法只这对扩散他对GAN失效作者提出自己的假设GAN的重构误差更小扩散的重构误差更大真实图像的重构误差在中间。作者发现真实图像和生成图像之间的差距很大扩散和真实的图像TSNE图差距很大GAN和真实图像的TSNE图差距很大。我们改变了DIRE背后的假设即在特征空间中生成的图像和真实图像之间的强可区分性并且将扩散重建误差概括为用于检测基于GAN生成的图像和扩散生成的图像的先验。因此我们提出了通用重建残差分析(UR2EA ),用于检测由各种生成模型(包括基于GAN的模型和基于扩散的模型)生成的合成图像。我们提出了通用重建残差分析(UR2EA ),用于检测由各种生成模型(包括基于GAN的模型和基于扩散的模型)生成的合成图像。UR2EA将重建误差作为输入并在改进的ResNet的帮助下为生成的图像和真实图像学习更全面和更有区别的特征表示。具体而言为了更有效地捕捉残差图中的细微特征我们提出了一种新的多尺度通道和窗口注意(MCWA ),通过将MCWA合并到ResNet中的残差块中从空间和通道角度来细化提取的图像特征。MCWA将多尺度窗口注意与通道注意相结合能够在不同的空间尺度上同时处理局部和全局特征同时跨频率通道动态调整注意。此外MCWA通过循环移位操作扩展了模型的感受域增强了其捕捉超越传统卷积边界的大规模结构关系的能力。这种设计可以通过更好地处理残差图中的细微特征来提升ResNet以检测合成图像。提出了一种通用的生成图像检测方法UR2EA以扩散重建误差为输入同时检测GAN基生成图像和扩散生成图像。我们提出了一种新的MCWA来增强残差图像中的特征提取。MCWA将通道注意与多尺度窗口注意相结合使用不同的窗口大小来捕捉从局部到全局尺度的相关性并使用通道注意来加强特征表示从而提高辨别能力。我们构建了UniversalForensics数据集用于构建通用检测器以同时检测看不见的基于GAN的图像和基于扩散的图像。提出的UR2EA在30个不同生成模型的广泛评估中表现出卓越的泛化能力。与现有方法相比平均准确率提高了8.2 %精确度提高了3.6 %。这些结果强调UR2EA在现实场景中的有效性和优越性。3.相关工作由于我们提出的UR2EA方法利用预训练的扩散模型进行图像重建因此本节简要概述了扩散模型和常用通用图像检测器的发展。2.1.生成模型的演进在扩散模型成熟之前图像生成主要依赖 GAN 系列方法如 StarGAN 能够在单一模型中实现多域风格迁移StyleGAN 则显著提升了人脸合成质量。随后扩散模型逐渐成为图像生成领域的重要方向。Sohl-Dickstein et al. 最早将扩散过程引入数据生成任务为后续扩散模型奠定理论基础Ho et al. 提出的 DDPM 通过反向去噪过程显著提升了生成质量引发了广泛关注。此后DDIM、ADM、PNDM 等方法分别从采样效率、噪声控制和实时生成等角度对扩散模型进行改进。进一步地VQ-VAE 和 LDM 将图像压缩到低维潜空间中进行建模有效降低了计算成本并通过交叉注意力引入条件信息。当前广泛使用的 Stable Diffusion v1 和 v2 即建立在 LDM 框架之上标志着扩散模型在高质量图像生成中的主流化应用。2.2.生成图像检测研究生成图像检测早期主要面向 GAN 生成图像研究者通常从颜色分布、饱和度、光照、像素共现关系以及 GAN 伪影等角度提取特征用于区分真实图像与生成图像。随着生成模型不断演进检测方法逐渐从依赖特定伪影转向提升跨模型泛化能力例如利用 ProGAN 数据训练分类器、结合全局与局部特征、借助 CLIP-ViT 或预训练 CNN 表征以及通过 DIRE 等重构式方法比较输入图像与扩散重构图像之间的差异。与此同时频域特征也成为重要研究方向。相关工作发现GAN 与扩散模型在上采样、噪声去除和图像重建过程中会引入明显的频谱异常和高频伪影因此 F3Net、FreGAN、BiHPF、ADD、FreqNet 和 FatFormer 等方法分别从频率统计、高通滤波、频率扰动、注意力蒸馏以及离散小波变换等角度增强检测能力。整体来看现有检测研究已从早期的空间域伪影分析逐步发展为融合空间、语义、重构误差与频域特征的综合检测框架。4.方法5.UniversalForensics数据集用于评估的UniversalForensics数据集的统计数据。“IN”代表ImageNet“数量”表示每个子集中包含的样本数量“分辨率”指定图像尺寸范围“多样性”表示源域包括面部、场景和对象。包含了三十种类别ProGAN、StyleGAN、StyleGAN2、BigGAN、CycleGAN、StarGAN、GauGAN、Deepfake、ATTGAN、BEGAN、CramerGAN、InfoMaxGAN、MMDGAN、RelGAN、S3GAN、SNGAN、STGAN、DDPM、IDDPM、ADM、LDM、PNDM、VQDiffusion、Glide、稳定扩散v1、稳定扩散v2、DALLE、DALLE2、悟空和Midjourney把五个数据集的值取平均实验参数对比不同扰动方法的对比不同尺度的大小对比6.结论在本文中我们提出了一种用于合成图像的通用检测方法——通用重建残差分析(UR2EA ),该方法将扩散重建误差重新解释为用于检测由不同模型生成的图像的通用先验。为了更有效地捕捉残差图像中的细微特征我们引入了一种新的多尺度通道和窗口注意(MCWA)机制该机制将多尺度窗口注意与通道注意相结合以捕捉残差中的细粒度特征。此外我们开发了UniversalForensics数据集以促进通用检测方法的探索。在30个生成模型上的大量实验表明提出的UR2EA在检测生成图像方面达到了最先进的性能。虽然UR2EA在这个具有挑战性的基准测试上取得了进展但我们的方法和现有的基线都将每个输入视为完全真实或完全虚假即使在只有部分区域被操纵的情况下如Deepfakes。扩展我们的框架来识别局部异常和准确定位篡改区域仍然是未来研究的一个重要方向。

重温DIRE:走向通用人工智能生成的图像检测

相关文章：

重温DIRE:走向通用人工智能生成的图像检测

收藏！小白程序员快速入门大模型：多模态LLMs学习指南

别再只点保存了！QGIS工程文件.QGZ和.QGS到底怎么选？附XML结构详解

35岁程序员的AI转型之路：年薪翻倍，收藏这份从零到架构师的详细指南

服务器运维与DevOps融合：迈向智能化运维的新纪元

用Qt快速搭建一个局域网文件传输工具：QTcpServer/QTcpSocket完整项目实战

告别头像上传模糊！用Cropper.js打造完美头像裁剪上传功能（附完整前后端代码）

DICOM文件里除了图像，还藏了哪些信息？一份给开发者的隐私与元数据解析指南

实战解析：用高斯过程回归搞定不确定性预测

41_《智能体微服务架构企业级实战教程》智能助手主应用服务之创建FastMCP客户端

艾尔登法环黑夜君临修改器2026.5.11最新中文汉化版免费下载转存后自动更新（看到请立即转存资源随时失效）

40_《智能体微服务架构企业级实战教程》智能助手主应用服务之工具类封装

WindowsCleaner终极指南：3步彻底解决Windows系统卡顿与C盘爆红问题

戴尔G15终极散热解决方案：TCC-G15完整使用指南

Docker Desktop 磁盘空间占用过大？手把手教你彻底瘦身

AC鸭的迷宫按钮

终极歌词获取方案：163MusicLyrics让你轻松获取网易云和QQ音乐LRC歌词

Tabletop Simulator备份神器：3分钟学会永久保存你的桌游资产

论文AI率太高怎么救？答辩前1周降AI率完整攻略+不延期方案！

别再让专利证书变废纸！手把手教你用6步法写出能维权的权利要求书

别再死记硬背CTL公式了！用UPPAAL模拟器手把手带你理解A[]和E＜＞的区别

保姆级教程：在Ubuntu 22.04上从源码编译DPDK TestPMD并跑通第一个包转发测试

告别手搓测试平台：用Synopsys SVT APB VIP快速搭建你的SoC验证环境（附完整配置流程）

告别卡顿！用UltraISO给旧笔记本装Win10和Ubuntu双系统，从制作启动盘到分区配置完整流程

别再傻傻分不清了！MIPI DPHY和CPHY到底怎么选？从带宽、成本和PCB布线给你讲透

彻底告别Ubuntu 20.04休眠唤醒黑屏：除了降级驱动，你还可以这样一劳永逸地禁用挂起

Oracle数据库深度解析：从入门到精通的全面指南

SAP ABAP开发必看：FOR ALL ENTRIES性能翻倍的隐藏参数rsdb/max_blocking_factor实战调优

怪物猎人世界终极叠加层工具：HunterPie 5分钟快速上手指南

告别LSMW！SAP S/4HANA数据迁移新宠：手把手激活Migration Cockpit (LTMC/LTMOM)服务