利用开源Stable Diffusion模型实现图像压缩比竞争方法用更低的比特率生成更逼真的图像
概述
论文地址:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf
迪士尼的研究部门正在提供一种新的图像压缩方法,利用开源Stable Diffusion V1.2 模型,以比竞争方法更低的比特率生成更逼真的图像。

Disney 压缩方法与之前方法的比较。作者声称改进了细节恢复,同时提供了一种不需要数十万美元训练的模型,并且比最接近的等效竞争方法运行速度更快。
新方法(定义为“编解码器”)与传统编解码器相比,其复杂性有所增加,例如 JPEG格式(LDM)。在定量测试中,它在准确性和细节方面优于以前的方法,并且所需的训练和计算成本明显减少。
新研究的关键见解是量化错误 (a 中心过程 在所有图像压缩中)类似于 噪声 (a 中心过程 在扩散模型中)
因此,可以将“传统”量化图像视为原始图像的噪声版本,并在 LDM 的去噪过程中使用它来代替随机噪声,以便以目标比特率重建图像。

进一步比较迪士尼的新方法(以绿色突出显示)与其他方法的对比。
作者认为:
“[我们] 将量化误差的消除作为一项去噪任务,使用扩散来恢复传输图像潜影中丢失的信息。我们的方法使我们能够执行不到 10% 的完整扩散生成过程,并且不需要对扩散模型进行架构更改,从而可以使用基础模型作为强大的先验,而无需对主干进行额外的微调。
“我们提出的编解码器在定量真实感指标方面优于以前的方法,并且我们验证了即使其他方法使用两倍的比特率,我们的重建在质量上也更受最终用户的青睐。”
然而,与其他试图利用扩散模型压缩能力的项目一样,输出可能 幻觉的 细节。相比之下,JPEG 等有损压缩方法将产生明显扭曲或过度平滑的细节区域,普通观众可能会认为这是压缩限制。
相反,由于视频的粗糙性质,迪士尼的编解码器可能会改变源图像中不存在的背景细节。 可变自动编码器 (VAE)用于在超大规模数据上训练的典型模型。
“与其他生成方法类似,我们的方法可以在接收端合成类似信息时丢弃某些图像特征。然而,在特定情况下,这可能会导致重建不准确,例如弯曲直线或扭曲小物体的边界。
“这些都是我们所构建的基础模型的众所周知的问题,可以归因于其 VAE 的特征维度相对较低。”
虽然这对于艺术描绘和休闲照片的逼真度有一定影响,但在具有此功能的编解码器普及的情况下,它可能会在小细节构成重要信息的情况下产生更关键的影响,例如法庭案件的证据、面部识别的数据、光学字符识别(OCR)的扫描以及各种其他可能的用例。
在人工智能增强图像压缩技术发展的初期,所有这些可能的情况都还很遥远。然而,图像存储是一项超大规模的全球性挑战,涉及数据存储、流媒体和电力消耗等问题,以及其他问题。因此,基于人工智能的压缩可以在准确性和物流之间提供诱人的权衡。历史表明,最好的编解码器 并不总是赢 最广泛的用户群,当许可和专有格式的市场占领等问题成为采用的因素时。
迪士尼长期以来一直在尝试使用机器学习作为压缩方法。2020 年,新论文的一位研究人员参与了 基于 VAE 的项目 以改善视频压缩。
迪士尼的新报纸于 10 月初进行了更新。今天该公司发布了一份 附带 YouTube 视频。 该 项目 标题为 使用基础扩散模型进行有损图像压缩,来自苏黎世联邦理工学院(隶属于迪士尼的 AI 项目)和迪士尼研究中心的四位研究人员。研究人员还提供了 补充文件.
实现方式
新方法使用 VAE 将图像编码为其压缩 潜在表征。在此阶段,输入图像由派生的 功能 – 基于低级向量的表示。然后将潜在嵌入量化回比特流,并量化回像素空间。
然后将该量化图像用作噪声的模板,该噪声通常为基于扩散的图像提供种子,并具有不同数量的去噪步骤(其中通常在增加去噪步骤和提高准确性与降低延迟和提高效率之间进行权衡)。

新 Disney 压缩方法的架构。
在新系统中,可以通过训练神经网络来控制量化参数和去噪步骤总数,该神经网络可以预测与编码相关的相关变量。这个过程称为 _自适应量化_迪士尼系统使用 恩特罗弗默 框架作为驱动该过程的熵模型。
作者指出:
“直观地讲,我们的方法学会丢弃在扩散过程中可以合成的信息(通过量化变换)。因为量化过程中引入的误差类似于添加[噪声],而扩散模型在功能上是去噪模型,所以它们可以用来消除编码过程中引入的量化噪声。”
Stable Diffusion V2.1 是系统的传播主干,之所以选择它,是因为整个代码和基础 权重 是公开的。然而,作者强调他们的模式适用于更广泛的模型。
这一过程的经济性的关键在于 时间步长预测,它评估了最佳去噪步骤数——效率和性能之间的平衡行为。

时间步长预测,最佳去噪步长数以红色边框表示。请参阅源 PDF 以获得准确的分辨率。
在预测最佳去噪步骤数时,需要考虑潜在嵌入中的噪声量。
数据与测试
该模型是在 Vimeo-90k 数据集。图像被随机裁剪为 256x256px,每个 时代 (即模型训练架构每次完全摄取精炼的数据集)。
该模型针对 300,000 步进行了优化, 学习率 1e-4。这是计算机视觉项目中最常见的,也是最低且最细粒度的一般可行值,作为数据集概念和特征的广泛概括与精细细节再现能力之间的折衷。
作者对经济而有效的系统的一些后勤考虑进行了评论*:
“在训练过程中,通过扩散模型的多次传递来反向传播梯度的成本非常高,因为它在 直通车 采样。因此,我们只执行一次 DDIM 采样迭代,并直接使用 [此] 作为完全去噪的 [数据]。’
用于测试系统的数据集是 柯达; CLIC2022;和 可可 30k. 数据集根据 2023 年 Google 提供 使用条件生成器进行多现实主义图像压缩.
使用的指标是 峰值信噪比 峰值信噪比(PSNR); 学习感知相似性度量 (低密度聚乙烯保护系统); 多尺度结构相似性指数 (MS-SSIM);和 弗雷谢起始距离 (最终鉴定)。
测试的竞争对手先前的框架分为使用生成对抗网络 (GAN) 的旧系统和基于扩散模型的较新系统。测试的 GAN 系统包括 高保真生成图像压缩 (HiFiC);和 医学硕士 (对 HiFiC 做出了一些改进)。
基于扩散的系统 使用条件扩散模型进行有损图像压缩 (疾病预防控制中心)和 使用基于分数的生成模型进行高保真图像压缩 (高频频谱分析仪)。

与各种数据集上的先前框架相比的定量结果。
对于定量结果(如上图所示),研究人员指出:
“我们的方法在重建图像的真实性方面树立了新的领先水平,在 FID 比特率曲线中超越了所有基线。在某些失真指标(即 LPIPS 和 MS-SSIM)中,我们的表现优于所有基于扩散的编解码器,同时仍与性能最高的生成编解码器保持竞争力。
“正如预期的那样,我们的方法和其他生成方法在以 PSNR 衡量时会受到影响,因为我们更喜欢感知上令人愉悦的重建,而不是精确复制细节。”
对于用户研究,我们采用了两种强制选择 (2AFC) 方法,在锦标赛环境中,受欢迎的图像将进入后续轮次。该研究使用了 ELO 最初为国际象棋锦标赛开发的评级系统。
因此,参与者将查看并从各种生成方法中呈现的两个 512x512px 图像中选择最佳图像。进行了一项额外的实验,其中 所有 通过对同一用户的图像比较进行评估, 蒙特卡洛模拟 超过 10,0000 次迭代,结果中显示中位数分数。

针对用户研究估算的 Elo 评分,包含每次比较的 Elo 锦标赛(左)以及每个参与者的 Elo 锦标赛,值越高越好。
以下是作者的评论:
“从 Elo 得分可以看出,我们的方法明显优于其他所有方法,甚至与 CDC 相比也是如此,CDC 平均使用了我们方法的两倍。无论使用哪种 Elo 锦标赛策略,情况都是如此。”
在原始论文中,以及 补充 PDF中,作者提供了进一步的视觉比较,其中一个在本文前面展示过。然而,由于样本之间的差异很小,我们请读者参考源 PDF,以便公平地判断这些结果。
论文最后指出,其提出的方法比竞争对手 CDC 的运行速度快两倍(分别为 3.49 秒和 6.87 秒)。论文还指出,ILLM 可以在 0.27 秒内处理图像,但该系统需要繁重的训练。
总结
ETH/Disney 的研究人员在论文的结论中明确指出,他们的系统可能会产生虚假细节。然而,材料中提供的所有样本都没有涉及这个问题。
平心而论,这个问题并不局限于迪士尼的新方法,而是使用扩散模型(一种创造性和解释性的架构)来压缩图像的不可避免的附带影响。
有趣的是,仅在五天前,苏黎世联邦理工学院的另外两名研究人员制作了一个 纸 标题 __用于图像压缩的条件幻觉__该研究探讨了基于人工智能的压缩系统中实现“最佳幻觉水平”的可能性。
作者在那里论证了幻觉的可取性,其中领域是足够通用的(并且可以说是“无害的”):
“对于类似纹理的内容,例如草地、雀斑和石墙,生成与给定纹理真实匹配的像素比重建精确的像素值更重要;从纹理分布生成任何样本通常就足够了。”
因此,第二篇论文主张压缩应具有最佳的“创造性”和代表性,而不是尽可能准确地重现原始未压缩图像的核心特征和轮廓。
人们不禁想知道摄影和创意界会如何看待这种相当激进的“压缩”重新定义。
相关文章:
利用开源Stable Diffusion模型实现图像压缩比竞争方法用更低的比特率生成更逼真的图像
概述 论文地址:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf 迪士尼的研究部门正在提供一种新的图像压缩方法,利用开源Stable Diffusion V1.2 模型,以比竞…...
QT信号与槽机制详解
当信号发出后,被连接的槽函数会自动被回调,类似观察者模式,当发生了感兴趣的事件,某一个操作就会被自动触发。信号是由于用户对窗口或控件进行了某些操作,导致窗口或控件产生了某个特定事件,这时Qt对应的窗…...
openGauss开源数据库实战二十二
文章目录 任务二十二 使用JDBC访问openGauss数据库任务目标实施步骤一、查看和设置隔离级别1.查看系统默认的隔离级别2.设置系统默认的隔离级别3.查看当前会话的隔离级别4.设置当前会话的隔离级别5.设置当前事务的隔离级别 二、读提交隔离级别测试三、可重复读隔离级别测试 任务…...
BurpSuite解决暴力破解时需要验证码问题
学习视频来自B站UP主泷羽sec,如涉及侵权马上删除文章。 笔记只是方便学习,以下内容只涉及学习内容,切莫逾越法律红线。 安全见闻,包含了各种网络安全,网络技术,旨在明白自己的渺小,知识的广博&a…...
WPF Combox使用 Text无法选择正确获取CHange后的Text
使用固定ComboxItem 无法通过 selectitem as object 来进行回去到 Content内的对香数据。那我只能这个样干: private void CBPaiweiLeixingSelect_Change(object sender, SelectionChangedEventArgs e){ ComboBox ThisBox sender as ComboBox;List<EDaxiaosuixi…...
【速览】设计模式(更新中)
目录 模式的历史设计模式是什么设计原则 SOLID1. 单一职责原则(Single Responsibility Principle, SRP)2. 开闭原则(Open/Closed Principle, OCP)3. 里氏替换原则(Liskov Substitution Principle, LSP)4. 接…...
【stable diffusion部署】Stable Diffusion开源本地化的文生图图生图AI
前言 主要功能 文生图、图生图、图像修复、处理、合成 所有的AI设计工具,安装包、模型和插件,都已经整理好了,👇获取~ 系统要求 windows 10、11系统,建议6G显存,NVIDIA显卡推荐12G显存,内存建…...
县城楼市踩踏式降价,或现2字头,率先回归月薪一平方的合理价格
在一二线城市都在欢呼10月份、11月份成交量回升,楼价回稳的时候,广东一些县城却先顶不住了,大举降价,显示出县城楼市房价率先回归月薪一平方的合理水平,这将对全国楼市产生巨大影响。 据了解这个县城的楼价此前较为稳定…...
计算机组成原理(七):二进制编码
二进制编码 二进制系统 二进制由两个数字 0 和 1 组成,适合数字电路中的高电平(1)和低电平(0)表示。在计算机内部,所有数据(如数字、文本、图像、声音等)最终都以二进制形式存储和…...
【GitHub分享】you-get项目
【GitHub分享】you-get 一、介绍二、安装教程三、使用教程四、配置ffmpeg五,卸载 如果大家想要更具体地操作可去开源网站查看手册,这里只是一些简单介绍,但是也够用一般,有什么问题,也可以留言。 一、介绍 you-get是一…...
论文概览 |《Sustainable Cities and Society》2024.12 Vol.116
本次给大家整理的是《Sustainable Cities and Society》杂志2024年12月第116期的论文的题目和摘要,一共包括52篇SCI论文! 论文1 Enhancing road traffic flow in sustainable cities through transformer models: Advancements and challenges 通过变压…...
解决node.js的req.body为空的问题
从昨晚一直在试,明明之前用的封装的axios发送请求给其他的后端(springboot)是可以的,但昨天用了新项目的后端(node.js)就不行。 之前用了代理,所以浏览器发送的post请求不会被拦截,…...
Mysql学习笔记之安装
“工欲善其事,必先利其器”,这篇文章我们主要介绍Msql的安装方法。 1. 通过Docker方式安装Mysql 通过dock可以很方便的安装mysql,可以通过图形化界面配置各种参数,简介明了推荐使用dock方式安装,当然也可以使用命令方…...
将PDF流使用 canvas 绘制然后转为图片展示在页面上(二)
将PDF流转为图片展示在页面上 使用 pdfjs-dist 库来渲染 PDF 页面到 canvas 上,然后将 canvas 转为图片 安装 pdfjs-dist 依赖 npm install pdfjs-dist 或者 yarn add pdfjs-dist创建一个组件来处理 PDF 流的加载和渲染 该组件中是一个包含 PDF 文件的 ArrayBuffer…...
【深度学习】 零基础介绍卷积神经网络(CNN)
零基础介绍 卷积神经网络(CNN,Convolutional Neural Network)是深度学习中的一种神经网络,特别擅长处理图像和视频等有空间结构的数据。 假设我们在做一个“照片分类”的任务,比如判断一张照片中是猫还是狗。下面用一…...
Coze概述
### Coze概述 Coze(中文名为扣子)是由字节跳动开发的一个新一代AI应用开发平台,旨在让用户轻松创建各种AI驱动的应用和聊天机器人,无论用户的编程经验如何。以下是Coze的一些关键特性和功能: #### 关键特性 - **无代…...
康佳Android面试题及参考答案(多张原理图)
JVM 内存分布和分代回收机制是什么? JVM 内存主要分为以下几个区域。 堆(Heap)是 JVM 管理的最大的一块内存区域,主要用于存放对象实例。所有线程共享堆内存,在堆中又分为年轻代(Young Generation)和老年代(Old Generation)。年轻代又分为 Eden 区和两个 Survivor 区(…...
2022 年 3 月青少年软编等考 C 语言四级真题解析
目录 T1. 拦截导弹思路分析T2. 神奇的数列思路分析T3. 硬币思路分析T4. 公共子序列思路分析T1. 拦截导弹 某国为了防御敌国的导弹袭击,发展出一种导弹拦截系统。但是这种导弹拦截系统有一个缺陷:虽然它的第一发炮弹能够到达任意的高度,但是以后每一发炮弹都不能高于前一发的…...
关于24年408真题的疑问
45.某计算机按字节编址,采用页式虚拟存储管理方式,虚拟地址和物理地址的长度均为32位,页表项的大小为4字节,页大小为4MB。虚拟地址结构如下: 这一道题如果不细想的话,其实是可以做对的,毕竟数字…...
【容器】k8s学习笔记基础部分(三万字超详细)
概念 应用部署方式演变 在部署应用程序的方式上,主要经历了三个时代: 传统部署:互联网早期,会直接将应用程序部署在物理机上 优点:简单,不需要其它技术的参与 缺点:不能为应用程序定义资源使…...
铭豹扩展坞 USB转网口 突然无法识别解决方法
当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…...
云原生核心技术 (7/12): K8s 核心概念白话解读(上):Pod 和 Deployment 究竟是什么?
大家好,欢迎来到《云原生核心技术》系列的第七篇! 在上一篇,我们成功地使用 Minikube 或 kind 在自己的电脑上搭建起了一个迷你但功能完备的 Kubernetes 集群。现在,我们就像一个拥有了一块崭新数字土地的农场主,是时…...
椭圆曲线密码学(ECC)
一、ECC算法概述 椭圆曲线密码学(Elliptic Curve Cryptography)是基于椭圆曲线数学理论的公钥密码系统,由Neal Koblitz和Victor Miller在1985年独立提出。相比RSA,ECC在相同安全强度下密钥更短(256位ECC ≈ 3072位RSA…...
多场景 OkHttpClient 管理器 - Android 网络通信解决方案
下面是一个完整的 Android 实现,展示如何创建和管理多个 OkHttpClient 实例,分别用于长连接、普通 HTTP 请求和文件下载场景。 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas…...
【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表
1、行为树节点分类 在 Nav2(Navigation2)的行为树框架中,行为树节点插件按照功能分为 Action(动作节点)、Condition(条件节点)、Control(控制节点) 和 Decorator(装饰节点) 四类。 1.1 动作节点 Action 执行具体的机器人操作或任务,直接与硬件、传感器或外部系统…...
相机Camera日志分析之三十一:高通Camx HAL十种流程基础分析关键字汇总(后续持续更新中)
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:有对最普通的场景进行各个日志注释讲解,但相机场景太多,日志差异也巨大。后面将展示各种场景下的日志。 通过notepad++打开场景下的日志,通过下列分类关键字搜索,即可清晰的分析不同场景的相机运行流程差异…...
Hive 存储格式深度解析:从 TextFile 到 ORC,如何选对数据存储方案?
在大数据处理领域,Hive 作为 Hadoop 生态中重要的数据仓库工具,其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式,很多开发者常常陷入选择困境。本文将从底…...
Redis的发布订阅模式与专业的 MQ(如 Kafka, RabbitMQ)相比,优缺点是什么?适用于哪些场景?
Redis 的发布订阅(Pub/Sub)模式与专业的 MQ(Message Queue)如 Kafka、RabbitMQ 进行比较,核心的权衡点在于:简单与速度 vs. 可靠与功能。 下面我们详细展开对比。 Redis Pub/Sub 的核心特点 它是一个发后…...
音视频——I2S 协议详解
I2S 协议详解 I2S (Inter-IC Sound) 协议是一种串行总线协议,专门用于在数字音频设备之间传输数字音频数据。它由飞利浦(Philips)公司开发,以其简单、高效和广泛的兼容性而闻名。 1. 信号线 I2S 协议通常使用三根或四根信号线&a…...
解读《网络安全法》最新修订,把握网络安全新趋势
《网络安全法》自2017年施行以来,在维护网络空间安全方面发挥了重要作用。但随着网络环境的日益复杂,网络攻击、数据泄露等事件频发,现行法律已难以完全适应新的风险挑战。 2025年3月28日,国家网信办会同相关部门起草了《网络安全…...
