当前位置: 首页 > article >正文

重温DIRE:走向通用人工智能生成的图像检测

1.摘要生成模型的快速发展提高了图像质量并使图像合成广泛可用引起了对内容可信度的关注。为了解决这个问题我们提出了一种称为通用重建残差分析(UR2EA)的方法来检测合成图像。我们的研究表明当通过预训练的扩散模型重建GAN和扩散生成的图像时与真实图像相比它们在重建误差方面表现出显著差异:GAN生成的图像显示出比真实图像更低的重建质量而扩散生成的图像重建得更精确在进行图像重构时GAN的重构误差比真实图像更低扩散模型的重构误差比真实图像更高。在训练用于检测合成图像的模型之前我们利用这些残差图作为通用图。此外我们引入了多尺度通道和窗口注意(MCWA)模块从多个尺度的残差图中提取细粒度特征捕捉局部和全局细节。为了便于探索不同的检测方法我们构建了一个新的UniversalForensics数据集其中包括由30个不同模型生成的合成图像的各种表示。与性能最佳的基线相比我们的方法将平均准确度提高了3.3 %精度提高了1.6 %达到了最先进的结果。2.引言受益于生成性对抗网络(GANs)的进步(Goodfellow等人2014Karras等人2019)和扩散模型(Ho等人2020Rombach等人2022)高质量的图像合成或编辑技术近年来受到了广泛关注因为它可以合成人眼无法分辨的照片级真实感图像并具有从娱乐和营销到电影创作等更复杂场景的多种应用。然而在每一个收获中都有一个损失。如果图像合成或编辑技术被犯罪分子使用也会带来风险因为它也可能被用于传播虚假信息和伪造图像。因此检测由GAN基和扩散基模型产生的合成图像成为一个紧迫的问题。介绍背景GAN和扩散进步飞快生成检测器的开发迫在眉睫。为了识别生成的图像我们注意到研究人员已经开发了各种基于CNN的通用生成图像检测器他们的核心思想是提高模型的泛化能力以识别真伪图片但是用扩散训练的模型在GAN上效果不好在GAN上训练的模型在扩散上效果不好。因此构建用于同时识别基于GAN的生成图像和基于扩散的生成图像的可推广的生成图像检测器是紧迫的但也是重要的。套话说泛化性不足然后开发一种能够同时检测GAN和扩散的模型十分重要作者认为一个优秀的模型应该具有三种特征(I)强检测能力能够跨不同家族和训练范式检测来自不同生成模型的AI生成图像(ii)对看不见的合成模式的良好概括(iii)对输入扰动和畴变的强鲁棒性。第一个挑战是构建数据集该数据集可以确保生成的图像检测器可以同时推广到看不见的基于GAN的图像和基于扩散的图像。借鉴pioneer works 中常用的程序生成图像或扩散生成图像我们构造了一个新的集合UniversalForensics以探索如何构建一个生成图像检测器它可以同时推广到看不见的基于GAN和基于扩散的图像。UniversalForensics提供了一个训练集其中包含来自ForenSynths的80000个基于程序的生成图像、来自DiffusionForensics的40000个基于扩散的图像以及120000个真实图像。此外UniversalForensics还提供了由30个不同的生成模型产生的多个测试子集。就是拿别人的数据集做一个整合其实AIGCDetect数据集就以及可以实现了但是作者还是自己构建了一个数据集第二个挑战是设计一个具有合适先验的通用生成图像检测器。直觉思维是在基于程序生成的、扩散生成的和真实的图像上训练CNN二元分类器。然而先前的研究(王等人2023)表明这种简单的方法是次优的并且对于看不见的图像具有有限的推广性。为了应对这一挑战我们根据经验发现扩散重建误差(DIRE)仍然是检测基于GAN生成的图像和扩散生成的图像的合适先验但是DIRE背后的假设即与真实图像相比由扩散过程生成的图像可以通过预先训练的扩散模型更准确地重建对于基于GAN生成的图像并不成立。如表1所示其总结了跨多个重建模型的图像重建质量结果包括MAE、VQGAN、稳定扩散和DDIM我们可以看到两个相反的现象:1)与真实图像相比由扩散过程产生的图像可以由预训练的扩散模型更精确地重建。2)与GAN产生的图像相比通过预训练的扩散模型可以更准确地重建真实图像。当我们同时面对基于GANbased生成的图像和扩散生成的图像时这两个矛盾的现象使得背后的假设不成立。作者提出了自己的分类模型架构命名为UR2EA然后作者说DIRE这种方法只这对扩散他对GAN失效作者提出自己的假设GAN的重构误差更小扩散的重构误差更大 真实图像的重构误差在中间。作者发现真实图像和生成图像之间的差距很大 扩散和真实的图像TSNE图差距很大GAN和真实图像的TSNE图差距很大。我们改变了DIRE背后的假设即在特征空间中生成的图像和真实图像之间的强可区分性并且将扩散重建误差概括为用于检测基于GAN生成的图像和扩散生成的图像的先验。因此我们提出了通用重建残差分析(UR2EA ),用于检测由各种生成模型(包括基于GAN的模型和基于扩散的模型)生成的合成图像。我们提出了通用重建残差分析(UR2EA ),用于检测由各种生成模型(包括基于GAN的模型和基于扩散的模型)生成的合成图像。UR2EA将重建误差作为输入并在改进的ResNet的帮助下为生成的图像和真实图像学习更全面和更有区别的特征表示。具体而言为了更有效地捕捉残差图中的细微特征我们提出了一种新的多尺度通道和窗口注意(MCWA ),通过将MCWA合并到ResNet中的残差块中从空间和通道角度来细化提取的图像特征。MCWA将多尺度窗口注意与通道注意相结合能够在不同的空间尺度上同时处理局部和全局特征同时跨频率通道动态调整注意。此外MCWA通过循环移位操作扩展了模型的感受域增强了其捕捉超越传统卷积边界的大规模结构关系的能力。这种设计可以通过更好地处理残差图中的细微特征来提升ResNet以检测合成图像。提出了一种通用的生成图像检测方法UR2EA以扩散重建误差为输入同时检测GAN基生成图像和扩散生成图像。我们提出了一种新的MCWA来增强残差图像中的特征提取。MCWA将通道注意与多尺度窗口注意相结合使用不同的窗口大小来捕捉从局部到全局尺度的相关性并使用通道注意来加强特征表示从而提高辨别能力。我们构建了UniversalForensics数据集用于构建通用检测器以同时检测看不见的基于GAN的图像和基于扩散的图像。提出的UR2EA在30个不同生成模型的广泛评估中表现出卓越的泛化能力。与现有方法相比平均准确率提高了8.2 %精确度提高了3.6 %。这些结果强调UR2EA在现实场景中的有效性和优越性。3.相关工作由于我们提出的UR2EA方法利用预训练的扩散模型进行图像重建因此本节简要概述了扩散模型和常用通用图像检测器的发展。2.1.生成模型的演进在扩散模型成熟之前图像生成主要依赖 GAN 系列方法如 StarGAN 能够在单一模型中实现多域风格迁移StyleGAN 则显著提升了人脸合成质量。随后扩散模型逐渐成为图像生成领域的重要方向。Sohl-Dickstein et al. 最早将扩散过程引入数据生成任务为后续扩散模型奠定理论基础Ho et al. 提出的 DDPM 通过反向去噪过程显著提升了生成质量引发了广泛关注。此后DDIM、ADM、PNDM 等方法分别从采样效率、噪声控制和实时生成等角度对扩散模型进行改进。进一步地VQ-VAE 和 LDM 将图像压缩到低维潜空间中进行建模有效降低了计算成本并通过交叉注意力引入条件信息。当前广泛使用的 Stable Diffusion v1 和 v2 即建立在 LDM 框架之上标志着扩散模型在高质量图像生成中的主流化应用。2.2.生成图像检测研究生成图像检测早期主要面向 GAN 生成图像研究者通常从颜色分布、饱和度、光照、像素共现关系以及 GAN 伪影等角度提取特征用于区分真实图像与生成图像。随着生成模型不断演进检测方法逐渐从依赖特定伪影转向提升跨模型泛化能力例如利用 ProGAN 数据训练分类器、结合全局与局部特征、借助 CLIP-ViT 或预训练 CNN 表征以及通过 DIRE 等重构式方法比较输入图像与扩散重构图像之间的差异。与此同时频域特征也成为重要研究方向。相关工作发现GAN 与扩散模型在上采样、噪声去除和图像重建过程中会引入明显的频谱异常和高频伪影因此 F3Net、FreGAN、BiHPF、ADD、FreqNet 和 FatFormer 等方法分别从频率统计、高通滤波、频率扰动、注意力蒸馏以及离散小波变换等角度增强检测能力。整体来看现有检测研究已从早期的空间域伪影分析逐步发展为融合空间、语义、重构误差与频域特征的综合检测框架。4.方法5.UniversalForensics数据集用于评估的UniversalForensics数据集的统计数据。“IN”代表ImageNet“数量”表示每个子集中包含的样本数量“分辨率”指定图像尺寸范围“多样性”表示源域包括面部、场景和对象。包含了三十种类别ProGAN、StyleGAN、StyleGAN2、BigGAN、CycleGAN、StarGAN、GauGAN、Deepfake、ATTGAN、BEGAN、CramerGAN、InfoMaxGAN、MMDGAN、RelGAN、S3GAN、SNGAN、STGAN、DDPM、IDDPM、ADM、LDM、PNDM、VQDiffusion、Glide、稳定扩散v1、稳定扩散v2、DALLE、DALLE2、悟空和Midjourney把五个数据集的值取平均实验参数对比不同扰动方法的对比不同尺度的大小对比6.结论在本文中我们提出了一种用于合成图像的通用检测方法——通用重建残差分析(UR2EA ),该方法将扩散重建误差重新解释为用于检测由不同模型生成的图像的通用先验。为了更有效地捕捉残差图像中的细微特征我们引入了一种新的多尺度通道和窗口注意(MCWA)机制该机制将多尺度窗口注意与通道注意相结合以捕捉残差中的细粒度特征。此外我们开发了UniversalForensics数据集以促进通用检测方法的探索。在30个生成模型上的大量实验表明提出的UR2EA在检测生成图像方面达到了最先进的性能。虽然UR2EA在这个具有挑战性的基准测试上取得了进展但我们的方法和现有的基线都将每个输入视为完全真实或完全虚假即使在只有部分区域被操纵的情况下如Deepfakes。扩展我们的框架来识别局部异常和准确定位篡改区域仍然是未来研究的一个重要方向。

相关文章:

重温DIRE:走向通用人工智能生成的图像检测

1.摘要生成模型的快速发展提高了图像质量,并使图像合成广泛可用,引起了对内容可信度的关注。为了解决这个问题,我们提出了一种称为通用重建残差分析(UR2EA)的方法来检测合成图像。我们的研究表明,当通过预训练的扩散模型重建GAN和…...

收藏!小白程序员快速入门大模型:多模态LLMs学习指南

多模态大模型(MLLMs)通过整合图像、文本、语音等,实现跨模态理解和生成。文章介绍了MLLMs的基本概念、架构,包括多模态编码器、连接器与LLM,并区分了双编码器架构和基于LLM的架构。同时,文章探讨了VLM前沿动…...

别再只点保存了!QGIS工程文件.QGZ和.QGS到底怎么选?附XML结构详解

QGIS工程文件格式深度解析:.QGZ与.QGS的选择策略与XML实战指南 当你在QGIS中完成一幅精心设计的地图,点击保存按钮时,系统弹出的格式选择对话框可能让你陷入短暂的犹豫——该选择.QGZ还是.QGS?这个看似简单的选择背后,…...

35岁程序员的AI转型之路:年薪翻倍,收藏这份从零到架构师的详细指南

本文分享了作者作为35岁Java程序员的AI转型经历,从初期的焦虑与迷茫,到通过学习ChatGPT、Prompt Engineering和大模型技术,最终成功转型为AI架构师的故事。文章详细描述了学习路径、关键决策、遇到的坑以及成功因素,并给其他程序员…...

服务器运维与DevOps融合:迈向智能化运维的新纪元

在数字化浪潮席卷全球的今天,企业对IT基础设施的依赖程度日益加深,服务器运维作为支撑业务连续性和系统稳定性的核心环节,正面临前所未有的挑战与机遇。传统运维模式依赖人工干预、响应滞后、效率低下,已难以满足现代业务快速迭代…...

用Qt快速搭建一个局域网文件传输工具:QTcpServer/QTcpSocket完整项目实战

用Qt快速搭建一个局域网文件传输工具:QTcpServer/QTcpSocket完整项目实战 在数字化办公场景中,局域网文件传输是高频刚需。想象这样的场景:会议室里需要快速共享设计稿,实验室多台设备要同步采集数据,或者家庭网络中手…...

告别头像上传模糊!用Cropper.js打造完美头像裁剪上传功能(附完整前后端代码)

从零构建高精度头像裁剪系统:Cropper.js全栈实战指南 每次上传头像时,你是否遇到过这样的尴尬——精心选择的图片上传后变得模糊不清,或者被强制拉伸变形?这种糟糕的用户体验在社交平台、企业系统中尤为常见。本文将带你从零构建…...

DICOM文件里除了图像,还藏了哪些信息?一份给开发者的隐私与元数据解析指南

DICOM文件里除了图像,还藏了哪些信息?一份给开发者的隐私与元数据解析指南 医疗影像数据是AI模型训练和医疗信息系统开发的重要基础,但许多开发者往往只关注图像像素本身,忽略了DICOM文件中蕴含的丰富元数据。这些元数据不仅包含关…...

实战解析:用高斯过程回归搞定不确定性预测

1. 高斯过程回归能解决什么问题 我第一次接触高斯过程回归是在一个金融风控项目里。当时我们需要预测未来三个月的用户违约概率,但传统机器学习模型只能给出一个冰冷的数字预测,完全无法体现预测的可信程度。这就像天气预报只告诉你"明天会下雨&quo…...

41_《智能体微服务架构企业级实战教程》智能助手主应用服务之创建FastMCP客户端

前言 配套视频教程: 在 Bilibili课堂、CSDN课程、51CTO学堂 同步发售,提供:源码+部署脚本+文档。 bilibili课堂视频教程:智能体微服务架构企业级实战教程_哔哩哔哩_bilibili CSDN课程视频教程:智能体微服务架构企业级实战教程_在线视频教程-CSDN程序员研修院 51CTO学堂…...

艾尔登法环黑夜君临修改器2026.5.11最新中文汉化版免费下载 转存后自动更新 (看到请立即转存 资源随时失效)

在《艾尔登法环》的庞大世界观下,一款名为《艾尔登法环:黑夜君临》(ELDEN RING NIGHTREIGN)的衍生作品于 2025 年正式登场。它并非单纯的续作或大型 DLC,而是一款基于原作设定、专注于多人协作生存与浓缩化 RPG 体验的…...

40_《智能体微服务架构企业级实战教程》智能助手主应用服务之工具类封装

前言 配套视频教程: 在 Bilibili课堂、CSDN课程、51CTO学堂 同步发售,提供:源码+部署脚本+文档。 bilibili课堂视频教程:智能体微服务架构企业级实战教程_哔哩哔哩_bilibili CSDN课程视频教程:智能体微服务架构企业级实战教程_在线视频教程-CSDN程序员研修院 51CTO学堂…...

WindowsCleaner终极指南:3步彻底解决Windows系统卡顿与C盘爆红问题

WindowsCleaner终极指南:3步彻底解决Windows系统卡顿与C盘爆红问题 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你是否曾经面对Windows系统日益缓慢…...

戴尔G15终极散热解决方案:TCC-G15完整使用指南

戴尔G15终极散热解决方案:TCC-G15完整使用指南 【免费下载链接】tcc-g15 Thermal Control Center for Dell G15 - open source alternative to AWCC 项目地址: https://gitcode.com/gh_mirrors/tc/tcc-g15 还在为戴尔G15笔记本的高温问题而烦恼吗&#xff1f…...

Docker Desktop 磁盘空间占用过大?手把手教你彻底瘦身

前言 很多使用 Docker Desktop for Windows 的同学都会遇到一个头疼的问题:明明没有拉取多少镜像,Docker 却占用了几十甚至上百 GB 的磁盘空间。更让人困惑的是,执行了 docker system prune 清理命令后,磁盘空间完全没有变化&…...

AC鸭的迷宫按钮

题目描述AC鸭来到一个迷宫里,迷宫有 n 行 m 列。迷宫中有五种字符:A 表示 AC鸭一开始的位置。B 表示出口的位置。. 表示可以经过的空地。# 表示一开始不能经过的墙。K 表示按钮。AC鸭每一步可以向上、下、左、右四个方向移动一格,不能走出迷宫…...

终极歌词获取方案:163MusicLyrics让你轻松获取网易云和QQ音乐LRC歌词

终极歌词获取方案:163MusicLyrics让你轻松获取网易云和QQ音乐LRC歌词 【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 还在为寻找准确歌词而烦恼吗&#xff1f…...

Tabletop Simulator备份神器:3分钟学会永久保存你的桌游资产

Tabletop Simulator备份神器:3分钟学会永久保存你的桌游资产 【免费下载链接】tts-backup Backup Tabletop Simulator saves and assets into comprehensive Zip files. 项目地址: https://gitcode.com/gh_mirrors/tt/tts-backup 还在担心辛苦创建的Tabletop…...

论文AI率太高怎么救?答辩前1周降AI率完整攻略+不延期方案!

论文AI率太高怎么救?答辩前1周降AI率完整攻略不延期方案! 导师周一通知答辩、周五查出来知网 AIGC 检测 67%——这种倒计时场景每年 3-5 月毕业季都会上演几千次。 这种场景下选工具,最关键的不是「单价便宜」是「降不下来怎么办」。1 周时间…...

别再让专利证书变废纸!手把手教你用6步法写出能维权的权利要求书

从技术到法律:6步打造高价值专利权利要求的实战指南 刚拿到专利证书的工程师小王,在展会上发现竞争对手的产品几乎照搬了自己的发明。他信心满满地提起诉讼,却因权利要求书中"数据传输模块"的表述过于宽泛而败诉——法院认为该描述…...

别再死记硬背CTL公式了!用UPPAAL模拟器手把手带你理解A[]和E<>的区别

别再死记硬背CTL公式了&#xff01;用UPPAAL模拟器手把手带你理解A[]和E<>的区别 刚接触形式化验证工具UPPAAL时&#xff0c;最令人头疼的莫过于那些晦涩难懂的CTL&#xff08;计算树逻辑&#xff09;公式。A[]、E<>这些符号组合看起来像天书&#xff0c;教科书上的…...

保姆级教程:在Ubuntu 22.04上从源码编译DPDK TestPMD并跑通第一个包转发测试

从零构建DPDK TestPMD&#xff1a;Ubuntu 22.04实战指南与性能调优 当你第一次听说DPDK能实现百万级数据包转发时&#xff0c;是否好奇这背后的技术魔法&#xff1f;本文将带你用一台普通Ubuntu服务器&#xff0c;亲手搭建这套高性能网络处理框架。不同于官方文档的抽象描述&am…...

告别手搓测试平台:用Synopsys SVT APB VIP快速搭建你的SoC验证环境(附完整配置流程)

告别手搓测试平台&#xff1a;用Synopsys SVT APB VIP快速搭建你的SoC验证环境&#xff08;附完整配置流程&#xff09; 在SoC验证领域&#xff0c;APB总线作为AMBA协议家族中最基础的外设连接标准&#xff0c;几乎出现在每一个现代芯片设计中。然而&#xff0c;许多验证工程师…...

告别卡顿!用UltraISO给旧笔记本装Win10和Ubuntu双系统,从制作启动盘到分区配置完整流程

旧笔记本焕新指南&#xff1a;用UltraISO打造Win10与Ubuntu双系统全流程 每次打开那台陪伴多年的旧笔记本&#xff0c;风扇的轰鸣声和系统卡顿的转圈图标都在提醒你——是时候给它一次重生了。不同于直接更换硬件的高成本方案&#xff0c;通过双系统安装让老旧设备重获新生&…...

别再傻傻分不清了!MIPI DPHY和CPHY到底怎么选?从带宽、成本和PCB布线给你讲透

MIPI DPHY与CPHY工程选型实战指南&#xff1a;从理论到PCB布局的完整决策框架 在移动设备硬件设计中&#xff0c;MIPI接口的选择往往成为影响项目成败的关键决策点。当面对新一代图像传感器规格书上的DPHY/CPHY双模支持标识时&#xff0c;资深工程师的眉头总会不自觉地皱起——…...

彻底告别Ubuntu 20.04休眠唤醒黑屏:除了降级驱动,你还可以这样一劳永逸地禁用挂起

彻底告别Ubuntu 20.04休眠唤醒黑屏&#xff1a;系统级电源管理优化指南 如果你正在使用Ubuntu 20.04并频繁遭遇休眠唤醒后的黑屏问题&#xff0c;这篇文章将为你提供一套完整的解决方案。不同于常见的驱动降级方案&#xff0c;我们将从系统配置层面入手&#xff0c;通过调整电源…...

Oracle数据库深度解析:从入门到精通的全面指南

在当今数据驱动的时代&#xff0c;数据库管理系统&#xff08;DBMS&#xff09;已成为企业信息化建设的核心。作为全球领先的商业数据库产品&#xff0c;Oracle数据库凭借其卓越的性能、高可用性和强大的扩展能力&#xff0c;长期占据市场主导地位。本文将为您带来一份从入门到…...

SAP ABAP开发必看:FOR ALL ENTRIES性能翻倍的隐藏参数rsdb/max_blocking_factor实战调优

SAP ABAP性能调优实战&#xff1a;FOR ALL ENTRIES参数优化全解析 当你在ABAP开发中处理百万级数据时&#xff0c;是否遇到过这样的场景&#xff1a;明明使用了FOR ALL ENTRIES语句&#xff0c;程序却像蜗牛一样缓慢&#xff1f;这背后隐藏着一个关键参数——rsdb/max_blocking…...

怪物猎人世界终极叠加层工具:HunterPie 5分钟快速上手指南

怪物猎人世界终极叠加层工具&#xff1a;HunterPie 5分钟快速上手指南 【免费下载链接】HunterPie-legacy A complete, modern and clean overlay with Discord Rich Presence integration for Monster Hunter: World. 项目地址: https://gitcode.com/gh_mirrors/hu/HunterPi…...

告别LSMW!SAP S/4HANA数据迁移新宠:手把手激活Migration Cockpit (LTMC/LTMOM)服务

SAP S/4HANA数据迁移革命&#xff1a;Migration Cockpit全流程实战指南 在SAP生态系统中&#xff0c;数据迁移一直是项目实施过程中最关键的环节之一。传统LSMW工具虽然功能强大&#xff0c;但随着S/4HANA的推出&#xff0c;其局限性日益凸显。本文将带您深入探索SAP官方推荐的…...