计算机视觉——JPEG AI 标准发布了图像压缩新突破与数字图像取证的挑战及应对策略
概述
今年2月,经过多年旨在利用机器学习技术开发一种更小、更易于传输和存储且不损失感知质量的图像编解码器的研究后,JPEG AI国际标准正式发布。

来自JPEG AI官方发布流,峰值信噪比(PSNR)与JPEG AI的机器学习增强方法的对比。
这一技术问世鲜有媒体报道的一个可能原因是,此次发布的核心PDF文件无法通过像Arxiv这样的免费访问平台获取。尽管如此,Arxiv此前已经发表了多项研究,探讨了JPEG AI在多个方面的重要意义,包括该方法不常见的压缩伪影及其对图像鉴伪的重要性。

一项研究比较了包括JPEG AI早期草案版本在内的压缩伪影,发现新方法有使文本模糊的倾向 —— 在编解码器可能成为证据链一部分的情况下,这可不是小事。
由于JPEG AI改变图像的方式与合成图像生成器产生的伪影相似,现有的鉴伪工具难以区分真实图像和伪造图像:

根据最近一篇论文(2025年3月),经过JPEG AI压缩后,最先进的算法在定位图中已无法可靠地区分真实内容和被篡改区域。左侧的原始示例是被篡改/伪造的图像,在标准鉴伪技术下,篡改区域在中间图像中清晰可辨。然而,JPEG AI压缩使伪造图像更具可信度(最右侧图像)。
原因之一是,JPEG AI使用的模型架构与鉴伪工具试图检测的生成式系统所使用的架构相似:

新论文展示了人工智能驱动的图像压缩方法与实际人工智能生成图像方法之间的相似性。
因此,从鉴伪的角度来看,这两种模型可能会产生一些相似的底层视觉特征。
一、 量化
这种交叉现象的出现是由于两种架构都采用了量化技术。在机器学习中,量化既被用作一种将连续数据转换为离散数据点的方法,也被用作一种优化技术,可以显著减小训练模型的文件大小(普通的图像合成爱好者应该熟悉在庞大的官方模型发布后,等待社区推出可在本地硬件上运行的量化版本的过程)。
在这种情况下,量化指的是将图像潜在表示中的连续值转换为固定离散步长的过程。JPEG AI利用这一过程,通过简化内部数值表示来减少存储或传输图像所需的数据量。
虽然量化使编码更高效,但它也引入了一些结构规律,这些规律可能类似于生成式模型留下的伪影 —— 这些伪影细微到难以察觉,但会干扰鉴伪工具。
作为回应,一篇题为《JPEG AI图像的三个鉴伪线索》的新论文的作者提出了可解释的非神经网络技术,用于检测JPEG AI压缩、确定图像是否被重新压缩,以及区分经JPEG AI压缩的真实图像和完全由人工智能生成的图像。
二、 方法
2.1 颜色相关性
该论文针对JPEG AI图像提出了三个“鉴伪线索”:JPEG AI预处理步骤中引入的颜色通道相关性;多次压缩过程中可测量的图像质量失真,这些失真揭示了重新压缩事件;以及有助于区分JPEG AI压缩图像和人工智能模型生成图像的潜在空间量化模式。
关于基于颜色相关性的方法,JPEG AI的预处理流程在图像的颜色通道之间引入了统计相关性,形成了一个可作为鉴伪线索的特征。
JPEG AI将RGB图像转换为YUV颜色空间,并执行4:2:0色度子采样,即在压缩前对色度通道进行下采样。这一过程导致红色、绿色和蓝色通道的高频残差之间产生了微妙的相关性 —— 这种相关性在未压缩的图像中不存在,并且其强度与传统JPEG压缩或合成图像生成器产生的相关性不同。

JPEG AI压缩如何改变图像颜色相关性的对比。
上图展示了论文中的一个对比,以红色通道为例,说明了JPEG AI压缩如何改变图像的颜色相关性。
A图将未压缩的图像与经JPEG AI压缩的图像进行对比,显示压缩显著增加了通道间的相关性;B图单独展示了JPEG AI预处理(仅颜色转换和子采样)的效果,表明仅这一步就显著提高了相关性;C图显示传统JPEG压缩也会略微增加相关性,但程度不如JPEG AI;D图分析了合成图像,Midjourney-V5和Adobe Firefly显示出适度的相关性增加,而其他合成图像的相关性更接近未压缩图像的水平。
2.2 率失真
率失真线索通过跟踪图像质量(以峰值信噪比(PSNR)衡量)在多次压缩过程中以可预测的模式下降的情况,来识别JPEG AI的重新压缩。
研究认为,使用JPEG AI反复压缩图像会导致图像质量逐渐下降,但这种下降仍然是可测量的,通过PSNR量化。这种逐渐的退化形成了一个鉴伪线索,用于检测图像是否被重新压缩。
与传统JPEG不同,传统JPEG早期的方法是跟踪特定图像块的变化,而JPEG AI由于其神经压缩架构,需要一种不同的方法。因此,作者建议监测比特率和PSNR在连续压缩过程中的变化。每一轮压缩对图像的改变都比上一轮小,这种变化的减小(与比特率对比绘制)可以揭示图像是否经过了多次压缩:

展示了不同编解码器多次压缩对图像质量的影响,包括JPEG AI和https://arxiv.org/pdf/1802.01436开发的一种神经编解码器的结果;即使在较低的比特率下,两者在每次额外压缩时PSNR都会持续下降。相比之下,传统JPEG压缩在多次压缩过程中质量相对稳定,除非比特率很高。
在上图中,我们看到了JPEG AI、另一种基于人工智能的编解码器和传统JPEG的率失真曲线。结果发现,JPEG AI和神经编解码器在所有比特率下PSNR都持续下降,而传统JPEG只有在比特率非常高时才会出现明显的质量下降。这种行为提供了一个可量化的信号,可用于标记经过重新压缩的JPEG AI图像。
通过提取比特率和图像质量在多次压缩过程中的变化,作者同样构建了一个特征,有助于标记图像是否被重新压缩,为JPEG AI的鉴伪提供了一个潜在的实用线索。
2.3 量化
正如我们之前所见,JPEG AI带来的一个更具挑战性的鉴伪问题是,它与扩散模型生成的合成图像在视觉上相似。这两种系统都使用编码器 - 解码器架构,在压缩的潜在空间中处理图像,并且通常会留下微妙的上采样伪影。
这些共同特征可能会使检测器混淆 —— 即使是在JPEG AI图像上重新训练的检测器也不例外。然而,仍然存在一个关键的结构差异:JPEG AI应用了量化,即将潜在值舍入到离散级别以实现高效压缩,而生成式模型通常不这样做。
新论文利用这一区别设计了一个鉴伪线索,间接测试量化的存在。该方法分析图像的潜在表示对舍入操作的响应,假设如果图像已经经过量化,其潜在结构将与舍入值呈现出可测量的对齐模式。
这些模式虽然肉眼不可见,但会产生统计差异,有助于区分经过压缩的真实图像和完全合成的图像。

平均傅里叶频谱示例显示,经JPEG AI压缩的图像和Midjourney - V5、Stable Diffusion XL等扩散模型生成的图像在频域中都呈现出规则的网格状模式 —— 这些伪影通常与上采样有关。相比之下,真实图像没有这些模式。这种频谱结构的重叠有助于解释为什么鉴伪工具经常将经过压缩的真实图像与合成图像混淆。
重要的是,作者表明,这个线索在不同的生成式模型中都有效,并且即使在压缩强度足以使潜在空间的整个部分归零的情况下仍然有效。相比之下,合成图像在这个舍入测试中的响应要弱得多,这为区分两者提供了一种实用的方法。
该结果旨在成为一种轻量级且可解释的工具,针对压缩和生成之间的核心差异,而不是依赖于脆弱的表面伪影。
三、 数据与测试
3.1 压缩
为了评估他们的颜色相关性线索是否能够可靠地检测JPEG AI压缩(即从未压缩源图像进行的首次压缩),作者在RAISE数据集的高质量未压缩图像上进行了测试,使用JPEG AI参考实现以各种比特率对这些图像进行压缩。
他们在颜色通道相关性的统计模式(特别是每个通道中的残差噪声如何与其他通道对齐)上训练了一个简单的随机森林,并将其与直接在图像像素上训练的ResNet50神经网络进行了比较。

使用颜色相关性特征检测JPEG AI压缩的准确率,在多个比特率下进行比较。该方法在较低比特率下最有效,此时压缩伪影更明显,并且比基线ResNet50模型在未见过的压缩级别上具有更好的泛化能力。
虽然ResNet50在测试数据与训练条件密切匹配时能达到更高的准确率,但它在不同压缩级别上的泛化能力较差。相比之下,基于相关性的方法虽然简单得多,但在各个比特率下表现更一致,特别是在较低压缩率下,JPEG AI的预处理效果更明显。
这些结果表明,即使不使用深度学习,也可以使用可解释且稳定的统计线索来检测JPEG AI压缩。
3.2 重新压缩
为了评估是否能够可靠地检测JPEG AI的重新压缩,研究人员在一组以不同比特率压缩的图像上测试了率失真线索 —— 其中一些图像只压缩了一次,而另一些图像使用JPEG AI进行了第二次压缩。
该方法涉及提取一个17维的特征向量,以跟踪图像的比特率和PSNR在三次压缩过程中的变化。这个特征集捕捉了每一步损失的质量,以及潜在率和超先验率的变化 —— 这些指标是传统基于像素的方法难以获取的。
研究人员在这些特征上训练了一个随机森林,并将其性能与在图像块上训练的ResNet50进行了比较:

使用率失真特征训练的随机森林检测JPEG AI图像是否被重新压缩的分类准确率结果。该方法在初始压缩强度较大(即较低比特率)时表现最佳,并且始终优于基于像素的ResNet50 —— 特别是在第二次压缩比第一次压缩更温和的情况下。
随机森林在初始压缩强度较大(即较低比特率)时表现显著有效,能够清晰地区分单次压缩和二次压缩的图像。与之前的线索一样,ResNet50在泛化方面存在困难,特别是在测试其训练过程中未见过的压缩级别时。
相比之下,率失真特征在各种场景下都保持稳定。值得注意的是,该线索甚至在应用于另一种基于人工智能的编解码器时也有效,这表明该方法的泛化能力超出了JPEG AI。
四、JPEG AI与合成图像
为了评估量化线索是否能有效区分经JPEG AI压缩的真实图像和完全由AI生成的合成图像,研究人员使用了一系列不同来源的图像。这些图像包括从RAISE数据集中选取的高质量未压缩图像,经JPEG AI压缩后得到的图像;以及由多种生成式模型(如Midjourney - V5和Stable Diffusion XL)生成的合成图像。
研究人员分析了图像潜在表示对舍入操作的响应情况。如果图像已经经过量化处理,其潜在结构会与舍入后的值呈现出可测量的对齐模式。他们在这个分析的基础上训练了一个随机森林分类器,并将其性能与直接在图像像素上训练的ResNet50神经网络进行了比较。

使用量化特征检测JPEG AI压缩图像与合成图像的准确率对比。该方法在不同生成式模型和压缩强度下都表现出良好的性能,相比基于像素的ResNet50模型,能更好地区分这两类图像。
结果表明,基于量化线索的随机森林分类器在不同的生成式模型和压缩强度下都能保持较好的性能。即使在压缩强度高到使潜在空间的某些部分归零的情况下,该方法依然有效。而ResNet50模型在面对未在训练中出现过的生成式模型或压缩设置时,其泛化能力较差。
这些结果进一步证明了通过分析量化模式来区分JPEG AI压缩图像和合成图像的可行性。这种方法不依赖于表面的、易变的图像特征,而是着眼于压缩和生成过程的核心差异,为数字图像取证提供了一种更可靠、更具解释性的工具。
五、结论
JPEG AI标准的发布标志着图像压缩技术的一个重要里程碑。它利用机器学习技术,在不损失感知质量的前提下,显著减小了图像文件的大小,提高了图像的传输和存储效率。然而,这种新技术也给数字图像取证领域带来了前所未有的挑战。由于JPEG AI对图像的处理方式与合成图像生成器产生的伪像相似,现有的取证工具难以区分真实图像和经过处理的假图像。
为了应对这一挑战,《JPEG AI图像的三种取证线索》一文的作者提出了三种专门针对JPEG AI图像的取证线索:颜色通道相关性、率失真分析和量化模式检测。通过对这些线索的研究和实验验证,作者展示了如何在不依赖复杂深度学习模型的情况下,利用可解释的统计特征来检测JPEG AI压缩、识别图像是否经过重新压缩,以及区分经JPEG AI压缩的真实图像和完全由AI生成的合成图像。
实验结果表明,基于这些取证线索的方法在不同的压缩率、重新压缩场景和生成式模型下都具有较好的性能和泛化能力。这些方法不仅为数字图像取证提供了实用的工具,也为进一步研究JPEG AI及其他基于机器学习的图像压缩技术的安全性和可靠性奠定了基础。
随着JPEG AI等新技术的不断发展和广泛应用,数字图像的真实性和完整性验证将变得越来越重要。未来的研究可以进一步探索如何结合多种取证线索,提高检测的准确性和鲁棒性;也可以研究如何将这些方法应用到更复杂的图像场景和实际应用中,如社交媒体、新闻媒体和法律取证等领域。
相关文章:
计算机视觉——JPEG AI 标准发布了图像压缩新突破与数字图像取证的挑战及应对策略
概述 今年2月,经过多年旨在利用机器学习技术开发一种更小、更易于传输和存储且不损失感知质量的图像编解码器的研究后,JPEG AI国际标准正式发布。 来自JPEG AI官方发布流,峰值信噪比(PSNR)与JPEG AI的机器学习增强方法…...
Oracle 19c部署之数据库软件安装(二)
在完成了Oracle Linux 9的初始化配置之后,我们准备安装Oracle 19c数据库软件。 Oracle数据库支持两种主要的安装方式:图形化安装和静默安装。这两种方法各有优缺点,选择哪种取决于你的具体需求、环境配置以及个人偏好。 图形化安装 图形化安…...
音视频相关协议和技术内容
视频编解码: H264(AVC,MPEG-4 Part 10) 高压缩率,支持多种分辨率和帧率,用于在线流媒体、会议、数字电视 编码过程: 分块处理,将视频帧划分为宏块(16x16)使用帧预测和…...
在Vmware15(虚拟机免费) 中安装纯净win10详细过程
一、软件备选 1. VMware15.5.1 网盘下载地址 链接: https://pan.baidu.com/s/1y6GLJ2MG-1tomWblt3otsg?pwdim8e 提取码: im8e 2. windows镜像下载 去官网下载ios包 链接:https://www.microsoft.com/zh-cn/software-download/windows10 二、在VMware15.5.1下安装w…...
[Spark]深入解密Spark SQL源码:Catalyst框架如何优雅地解析你的SQL
本文内容组织形式 总结具体例子执行语句解析层优化层物理计划层执行层 猜你喜欢PS 总结 先写个总结,接下来会分别产出各个部分的源码解析,Spark SQL主要分为以下五个执行部分。 具体例子 接下来举个具体的例子来说明 执行语句 SELECT name, age FR…...
基于Flask的漏洞挖掘知识库系统设计与实现
基于Flask的漏洞挖掘知识库系统设计与实现 一、系统架构设计 1.1 整体架构 本系统采用经典的三层Web架构,通过Mermaid图展示的组件交互流程清晰呈现了以下核心模块: 前端展示层:基于Bootstrap5构建响应式界面业务逻辑层:Flask…...
ECharts散点图-散点图8,附视频讲解与代码下载
引言: ECharts散点图是一种常见的数据可视化图表类型,它通过在二维坐标系或其它坐标系中绘制散乱的点来展示数据之间的关系。本文将详细介绍如何使用ECharts库实现一个散点图,包括图表效果预览、视频讲解及代码下载,让你轻松掌握…...
四大wordpress模板站
WP汉主题 WP汉主题是一个专注于提供高质量WordPress中文主题的平台。它为中文用户提供了丰富的WordPress主题选择,包括但不限于企业网站模板、外贸建站模板等。WP汉主题致力于帮助用户轻松搭建专业的中文网站,无论是企业官网还是个人博客,都…...
DeepSeek在数据仓库的10大应用场景
一、智能数据集成与清洗 多源数据整合:DeepSeek能够从多种数据源中提取、转换和加载数据,实现跨系统数据的高效整合。 数据清洗与标准化:通过智能算法自动识别并纠正数据中的错误、不一致性和缺失值,提升数据质量。 二、数据仓…...
【Kubernetes基础--持久化存储原理】--查阅笔记5
目录 持久化存储机制PV 详解PV 关键配置参数PV 生命周期的各个阶段 PVC 详解PVC 关键配置参数PV 和 PVC 的生命周期 StorageClass 详解StorageClass 关键配置参数设置默认的 StorageClass 持久化存储机制 k8s 对于有状态的容器应用或对数据需要持久化的应用,不仅需…...
Langchain-构建向量数据库和检索器
向量数据库安装 pip install langchain-chroma 文档》向量存储》向量数据库。 和0416 提示词工程相同。 初始化 import osfrom langchain_chroma import Chroma from langchain_community.chat_message_histories import ChatMessageHistory from langchain_core.documents im…...
首席人工智能官(Chief Artificial Intelligence Officer,CAIO)的详细解析
以下是**首席人工智能官(Chief Artificial Intelligence Officer,CAIO)**的详细解析: 1. 职责与核心职能 制定AI战略 制定公司AI技术的长期战略,明确AI在业务中的应用场景和优先级,推动AI与核心业务的深度…...
2025华中杯数学建模B题完整分析论文(共42页)(含模型、数据、可运行代码)
2025华中杯大学生数学建模B题完整分析论文 目录 一、问题重述 二、问题分析 三、模型假设 四、 模型建立与求解 4.1问题1 4.1.1问题1解析 4.1.2问题1模型建立 4.1.3问题1样例代码(仅供参考) 4.1.4问题1求解结果(仅供参考&am…...
游戏引擎学习第231天
设定当天的主题 我们现在到了一个很少出现在直播中的阶段,但今天是那种需要解释计算机科学基础概念的日子。因此,今天我们将讨论这个内容,今天的重点是“大O表示法”(Order Notation),我将用黑板来解释这些…...
最快打包WPF 应用程序
在 Visual Studio 中右键项目选择“发布”,目标选“文件夹”,模式选“自包含”,生成含 .exe 的文件夹,压缩后可直接发给别人或解压运行,无需安装任何东西。 最简单直接的新手做法: 用 Visual Studio 的“…...
【模块化拆解与多视角信息6】自我评价:人设构建的黄金50字——从无效堆砌到精准狙击的认知升级
写在最前 作为一个中古程序猿,我有很多自己想做的事情,比如埋头苦干手搓一个低代码数据库设计平台(目前只针对写java的朋友),比如很喜欢帮身边的朋友看看简历,讲讲面试技巧,毕竟工作这么多年,也做到过高管,有很多面人经历,意见还算有用,大家基本都能拿到想要的offe…...
Linux网络编程实战:从字节序到UDP协议栈的深度解析与开发指南
网路通信的三大要素:协议,端口和IP 知识点1【字节序】 多字节在主机中的存放数据 把多字节看成一个整体存储的顺序。 为什么我们在文件中没有这个概念呢? 因为文件是字节流(流指针),流是以一个字节为操…...
【实战篇】导入dbc文件
目录 1 前言1.1 dbc文件简介1.2 dbc文件格式规范1.2.1 基础定义部分1.2.2 网络节点定义(BU_)1.2.3 报文定义(BO_)1.2.4 信号定义(SG_)1.2.5 扩展属性与注释1.2.6 数值表(VAL_)1.2.7 环境变量(EV_)1.2.8 DBC文件的典型结构示例2 步骤2.1 打开“输入文件”窗口2.2 点击…...
合成数据在自动驾驶中的实践:工作流、关键技术与评估体系全解析
目录 合成数据在自动驾驶中的实践:工作流、关键技术与评估体系全解析 一、为什么自动驾驶离不开合成数据? 二、自动驾驶合成数据的核心使用场景 三、典型合成数据工作流(架构图建议制作成PPT) 四、评估体系:合成数…...
赋能能源 | 智慧数据,构建更高效智能的储能管理系统
行业背景 随着新能源产业的快速发展,大规模储能系统在电力调峰、调频及可再生能源消纳等领域的重要性日益凸显。 储能电站作为核心基础设施,其能量管理系统(EMS)需要处理海量实时数据,包括电池状态、功率变化、环境监…...
【音视频】音视频FLV合成实战
FFmpeg合成流程 示例本程序会⽣成⼀个合成的⾳频和视频流,并将它们编码和封装输出到输出⽂件,输出格式是根据⽂件扩展名⾃动猜测的。 示例的流程图如下所示。 ffmpeg 的 Mux 主要分为 三步操作: avformat_write_header : 写⽂件…...
猪行为视频数据集
猪行为数据集包含 23 天(超过 6 周)的日间猪行为视频,这些视频由近乎架空的摄像机拍摄。视频已配准颜色和深度信息。数据以每秒 6 帧的速度捕获,并以 1800 帧(5 分钟)为一批次进行存储。大多数帧显示 8 头猪。 这里可以看到颜色和深度图像的示例: 喂食器位于图片底部中…...
【网络技术_域名解析DNS】一、DNS 基础剖析及其原理
一、DNS 在互联网架构中的基石地位 当我们在浏览器地址栏输入www.baidu.com按下回车键的瞬间,一场跨越全球的 “数字寻址游戏” 便悄然启动。DNS(Domain Name System)作为互联网的核心基础设施,承担着将人类易读的域名转换为机…...
Java学习小册:Java并发容器与原子类
在Java并发编程中,并发容器和原子类是管理共享数据的重要工具。它们提供了线程安全的数据结构和原子操作,确保在多线程环境下数据的一致性和操作的正确性。本文将深入探讨Java中的并发容器和原子类,包括它们的基本概念、使用方法、关键类及其…...
摄影跟拍预定|基于java+vue的摄影跟拍预定管理系统(源码+数据库+文档)
摄影跟拍预定管理系统 目录 基于SprinBootvue的摄影跟拍预定管理系统 一、前言 二、系统设计 三、系统功能设计 1系统功能模块 2管理员功能模块 3摄影师功能模块 4用户功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获…...
【HFP】深入解析蓝牙 HFP 协议中呼叫转移、呼叫建立及保持呼叫状态的机制
目录 一、核心指令概述 1.1 ATCMER:呼叫状态更新的 “总开关” 1.2 ATBIA:指示器的 “精准控制器” 1.3 指令对比 1.4 指令关系图示 二、CIEV 结果码:状态传递的 “信使” 2.1 工作机制 2.2 三类核心指示器 三、状态转移流程详解 3…...
从零开始学A2A三: A2A 能力发现与任务管理
A2A 能力发现与任务管理 学习目标 掌握智能体能力发现机制 理解 Agent Card 的结构和用途掌握能力注册和发现的流程学会管理智能体的生命周期 掌握 A2A 任务管理流程 学习任务创建和分发机制理解任务状态管理和监控掌握多智能体协作模式 理解与 MCP 的区别 对比两种架构的能…...
学习笔记十六——Rust Monad从头学
🧠 零基础也能懂的 Rust Monad:逐步拆解 三大定律通俗讲解 实战技巧 📣 第一部分:Monad 是什么? Monad 是一种“包值 链操作 保持结构”的代码模式,用来处理带上下文的值,并方便连续处理。 …...
Linux:显示 -bash-4.2$ 问题(CentOS 7)
文章目录 一、原因二、错误示例三、解决办法 一、原因 在 CentOS 7 系统中,如果你看到命令行提示符显示为 -bash-4.2$,一般是 Bash shell 正在运行,并且它没有找到用户的个人配置文件,或者这些文件有问题而未能成功加载。这个提示…...
linux共享内存通信
基础共享内存通信示例 以下示例展示生产者-消费者模型,使用共享内存传递数据: 生产者程序(producer.c) #include <sys/ipc.h> #include <sys/shm.h> #include <stdio.h> #include <string.h>#define S…...
