利用开源Stable Diffusion模型实现图像压缩比竞争方法用更低的比特率生成更逼真的图像
概述
论文地址:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf
迪士尼的研究部门正在提供一种新的图像压缩方法,利用开源Stable Diffusion V1.2 模型,以比竞争方法更低的比特率生成更逼真的图像。

Disney 压缩方法与之前方法的比较。作者声称改进了细节恢复,同时提供了一种不需要数十万美元训练的模型,并且比最接近的等效竞争方法运行速度更快。
新方法(定义为“编解码器”)与传统编解码器相比,其复杂性有所增加,例如 JPEG格式(LDM)。在定量测试中,它在准确性和细节方面优于以前的方法,并且所需的训练和计算成本明显减少。
新研究的关键见解是量化错误 (a 中心过程 在所有图像压缩中)类似于 噪声 (a 中心过程 在扩散模型中)
因此,可以将“传统”量化图像视为原始图像的噪声版本,并在 LDM 的去噪过程中使用它来代替随机噪声,以便以目标比特率重建图像。

进一步比较迪士尼的新方法(以绿色突出显示)与其他方法的对比。
作者认为:
“[我们] 将量化误差的消除作为一项去噪任务,使用扩散来恢复传输图像潜影中丢失的信息。我们的方法使我们能够执行不到 10% 的完整扩散生成过程,并且不需要对扩散模型进行架构更改,从而可以使用基础模型作为强大的先验,而无需对主干进行额外的微调。
“我们提出的编解码器在定量真实感指标方面优于以前的方法,并且我们验证了即使其他方法使用两倍的比特率,我们的重建在质量上也更受最终用户的青睐。”
然而,与其他试图利用扩散模型压缩能力的项目一样,输出可能 幻觉的 细节。相比之下,JPEG 等有损压缩方法将产生明显扭曲或过度平滑的细节区域,普通观众可能会认为这是压缩限制。
相反,由于视频的粗糙性质,迪士尼的编解码器可能会改变源图像中不存在的背景细节。 可变自动编码器 (VAE)用于在超大规模数据上训练的典型模型。
“与其他生成方法类似,我们的方法可以在接收端合成类似信息时丢弃某些图像特征。然而,在特定情况下,这可能会导致重建不准确,例如弯曲直线或扭曲小物体的边界。
“这些都是我们所构建的基础模型的众所周知的问题,可以归因于其 VAE 的特征维度相对较低。”
虽然这对于艺术描绘和休闲照片的逼真度有一定影响,但在具有此功能的编解码器普及的情况下,它可能会在小细节构成重要信息的情况下产生更关键的影响,例如法庭案件的证据、面部识别的数据、光学字符识别(OCR)的扫描以及各种其他可能的用例。
在人工智能增强图像压缩技术发展的初期,所有这些可能的情况都还很遥远。然而,图像存储是一项超大规模的全球性挑战,涉及数据存储、流媒体和电力消耗等问题,以及其他问题。因此,基于人工智能的压缩可以在准确性和物流之间提供诱人的权衡。历史表明,最好的编解码器 并不总是赢 最广泛的用户群,当许可和专有格式的市场占领等问题成为采用的因素时。
迪士尼长期以来一直在尝试使用机器学习作为压缩方法。2020 年,新论文的一位研究人员参与了 基于 VAE 的项目 以改善视频压缩。
迪士尼的新报纸于 10 月初进行了更新。今天该公司发布了一份 附带 YouTube 视频。 该 项目 标题为 使用基础扩散模型进行有损图像压缩,来自苏黎世联邦理工学院(隶属于迪士尼的 AI 项目)和迪士尼研究中心的四位研究人员。研究人员还提供了 补充文件.
实现方式
新方法使用 VAE 将图像编码为其压缩 潜在表征。在此阶段,输入图像由派生的 功能 – 基于低级向量的表示。然后将潜在嵌入量化回比特流,并量化回像素空间。
然后将该量化图像用作噪声的模板,该噪声通常为基于扩散的图像提供种子,并具有不同数量的去噪步骤(其中通常在增加去噪步骤和提高准确性与降低延迟和提高效率之间进行权衡)。

新 Disney 压缩方法的架构。
在新系统中,可以通过训练神经网络来控制量化参数和去噪步骤总数,该神经网络可以预测与编码相关的相关变量。这个过程称为 _自适应量化_迪士尼系统使用 恩特罗弗默 框架作为驱动该过程的熵模型。
作者指出:
“直观地讲,我们的方法学会丢弃在扩散过程中可以合成的信息(通过量化变换)。因为量化过程中引入的误差类似于添加[噪声],而扩散模型在功能上是去噪模型,所以它们可以用来消除编码过程中引入的量化噪声。”
Stable Diffusion V2.1 是系统的传播主干,之所以选择它,是因为整个代码和基础 权重 是公开的。然而,作者强调他们的模式适用于更广泛的模型。
这一过程的经济性的关键在于 时间步长预测,它评估了最佳去噪步骤数——效率和性能之间的平衡行为。

时间步长预测,最佳去噪步长数以红色边框表示。请参阅源 PDF 以获得准确的分辨率。
在预测最佳去噪步骤数时,需要考虑潜在嵌入中的噪声量。
数据与测试
该模型是在 Vimeo-90k 数据集。图像被随机裁剪为 256x256px,每个 时代 (即模型训练架构每次完全摄取精炼的数据集)。
该模型针对 300,000 步进行了优化, 学习率 1e-4。这是计算机视觉项目中最常见的,也是最低且最细粒度的一般可行值,作为数据集概念和特征的广泛概括与精细细节再现能力之间的折衷。
作者对经济而有效的系统的一些后勤考虑进行了评论*:
“在训练过程中,通过扩散模型的多次传递来反向传播梯度的成本非常高,因为它在 直通车 采样。因此,我们只执行一次 DDIM 采样迭代,并直接使用 [此] 作为完全去噪的 [数据]。’
用于测试系统的数据集是 柯达; CLIC2022;和 可可 30k. 数据集根据 2023 年 Google 提供 使用条件生成器进行多现实主义图像压缩.
使用的指标是 峰值信噪比 峰值信噪比(PSNR); 学习感知相似性度量 (低密度聚乙烯保护系统); 多尺度结构相似性指数 (MS-SSIM);和 弗雷谢起始距离 (最终鉴定)。
测试的竞争对手先前的框架分为使用生成对抗网络 (GAN) 的旧系统和基于扩散模型的较新系统。测试的 GAN 系统包括 高保真生成图像压缩 (HiFiC);和 医学硕士 (对 HiFiC 做出了一些改进)。
基于扩散的系统 使用条件扩散模型进行有损图像压缩 (疾病预防控制中心)和 使用基于分数的生成模型进行高保真图像压缩 (高频频谱分析仪)。

与各种数据集上的先前框架相比的定量结果。
对于定量结果(如上图所示),研究人员指出:
“我们的方法在重建图像的真实性方面树立了新的领先水平,在 FID 比特率曲线中超越了所有基线。在某些失真指标(即 LPIPS 和 MS-SSIM)中,我们的表现优于所有基于扩散的编解码器,同时仍与性能最高的生成编解码器保持竞争力。
“正如预期的那样,我们的方法和其他生成方法在以 PSNR 衡量时会受到影响,因为我们更喜欢感知上令人愉悦的重建,而不是精确复制细节。”
对于用户研究,我们采用了两种强制选择 (2AFC) 方法,在锦标赛环境中,受欢迎的图像将进入后续轮次。该研究使用了 ELO 最初为国际象棋锦标赛开发的评级系统。
因此,参与者将查看并从各种生成方法中呈现的两个 512x512px 图像中选择最佳图像。进行了一项额外的实验,其中 所有 通过对同一用户的图像比较进行评估, 蒙特卡洛模拟 超过 10,0000 次迭代,结果中显示中位数分数。

针对用户研究估算的 Elo 评分,包含每次比较的 Elo 锦标赛(左)以及每个参与者的 Elo 锦标赛,值越高越好。
以下是作者的评论:
“从 Elo 得分可以看出,我们的方法明显优于其他所有方法,甚至与 CDC 相比也是如此,CDC 平均使用了我们方法的两倍。无论使用哪种 Elo 锦标赛策略,情况都是如此。”
在原始论文中,以及 补充 PDF中,作者提供了进一步的视觉比较,其中一个在本文前面展示过。然而,由于样本之间的差异很小,我们请读者参考源 PDF,以便公平地判断这些结果。
论文最后指出,其提出的方法比竞争对手 CDC 的运行速度快两倍(分别为 3.49 秒和 6.87 秒)。论文还指出,ILLM 可以在 0.27 秒内处理图像,但该系统需要繁重的训练。
总结
ETH/Disney 的研究人员在论文的结论中明确指出,他们的系统可能会产生虚假细节。然而,材料中提供的所有样本都没有涉及这个问题。
平心而论,这个问题并不局限于迪士尼的新方法,而是使用扩散模型(一种创造性和解释性的架构)来压缩图像的不可避免的附带影响。
有趣的是,仅在五天前,苏黎世联邦理工学院的另外两名研究人员制作了一个 纸 标题 __用于图像压缩的条件幻觉__该研究探讨了基于人工智能的压缩系统中实现“最佳幻觉水平”的可能性。
作者在那里论证了幻觉的可取性,其中领域是足够通用的(并且可以说是“无害的”):
“对于类似纹理的内容,例如草地、雀斑和石墙,生成与给定纹理真实匹配的像素比重建精确的像素值更重要;从纹理分布生成任何样本通常就足够了。”
因此,第二篇论文主张压缩应具有最佳的“创造性”和代表性,而不是尽可能准确地重现原始未压缩图像的核心特征和轮廓。
人们不禁想知道摄影和创意界会如何看待这种相当激进的“压缩”重新定义。
相关文章:
利用开源Stable Diffusion模型实现图像压缩比竞争方法用更低的比特率生成更逼真的图像
概述 论文地址:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf 迪士尼的研究部门正在提供一种新的图像压缩方法,利用开源Stable Diffusion V1.2 模型,以比竞…...
QT信号与槽机制详解
当信号发出后,被连接的槽函数会自动被回调,类似观察者模式,当发生了感兴趣的事件,某一个操作就会被自动触发。信号是由于用户对窗口或控件进行了某些操作,导致窗口或控件产生了某个特定事件,这时Qt对应的窗…...
openGauss开源数据库实战二十二
文章目录 任务二十二 使用JDBC访问openGauss数据库任务目标实施步骤一、查看和设置隔离级别1.查看系统默认的隔离级别2.设置系统默认的隔离级别3.查看当前会话的隔离级别4.设置当前会话的隔离级别5.设置当前事务的隔离级别 二、读提交隔离级别测试三、可重复读隔离级别测试 任务…...
BurpSuite解决暴力破解时需要验证码问题
学习视频来自B站UP主泷羽sec,如涉及侵权马上删除文章。 笔记只是方便学习,以下内容只涉及学习内容,切莫逾越法律红线。 安全见闻,包含了各种网络安全,网络技术,旨在明白自己的渺小,知识的广博&a…...
WPF Combox使用 Text无法选择正确获取CHange后的Text
使用固定ComboxItem 无法通过 selectitem as object 来进行回去到 Content内的对香数据。那我只能这个样干: private void CBPaiweiLeixingSelect_Change(object sender, SelectionChangedEventArgs e){ ComboBox ThisBox sender as ComboBox;List<EDaxiaosuixi…...
【速览】设计模式(更新中)
目录 模式的历史设计模式是什么设计原则 SOLID1. 单一职责原则(Single Responsibility Principle, SRP)2. 开闭原则(Open/Closed Principle, OCP)3. 里氏替换原则(Liskov Substitution Principle, LSP)4. 接…...
【stable diffusion部署】Stable Diffusion开源本地化的文生图图生图AI
前言 主要功能 文生图、图生图、图像修复、处理、合成 所有的AI设计工具,安装包、模型和插件,都已经整理好了,👇获取~ 系统要求 windows 10、11系统,建议6G显存,NVIDIA显卡推荐12G显存,内存建…...
县城楼市踩踏式降价,或现2字头,率先回归月薪一平方的合理价格
在一二线城市都在欢呼10月份、11月份成交量回升,楼价回稳的时候,广东一些县城却先顶不住了,大举降价,显示出县城楼市房价率先回归月薪一平方的合理水平,这将对全国楼市产生巨大影响。 据了解这个县城的楼价此前较为稳定…...
计算机组成原理(七):二进制编码
二进制编码 二进制系统 二进制由两个数字 0 和 1 组成,适合数字电路中的高电平(1)和低电平(0)表示。在计算机内部,所有数据(如数字、文本、图像、声音等)最终都以二进制形式存储和…...
【GitHub分享】you-get项目
【GitHub分享】you-get 一、介绍二、安装教程三、使用教程四、配置ffmpeg五,卸载 如果大家想要更具体地操作可去开源网站查看手册,这里只是一些简单介绍,但是也够用一般,有什么问题,也可以留言。 一、介绍 you-get是一…...
论文概览 |《Sustainable Cities and Society》2024.12 Vol.116
本次给大家整理的是《Sustainable Cities and Society》杂志2024年12月第116期的论文的题目和摘要,一共包括52篇SCI论文! 论文1 Enhancing road traffic flow in sustainable cities through transformer models: Advancements and challenges 通过变压…...
解决node.js的req.body为空的问题
从昨晚一直在试,明明之前用的封装的axios发送请求给其他的后端(springboot)是可以的,但昨天用了新项目的后端(node.js)就不行。 之前用了代理,所以浏览器发送的post请求不会被拦截,…...
Mysql学习笔记之安装
“工欲善其事,必先利其器”,这篇文章我们主要介绍Msql的安装方法。 1. 通过Docker方式安装Mysql 通过dock可以很方便的安装mysql,可以通过图形化界面配置各种参数,简介明了推荐使用dock方式安装,当然也可以使用命令方…...
将PDF流使用 canvas 绘制然后转为图片展示在页面上(二)
将PDF流转为图片展示在页面上 使用 pdfjs-dist 库来渲染 PDF 页面到 canvas 上,然后将 canvas 转为图片 安装 pdfjs-dist 依赖 npm install pdfjs-dist 或者 yarn add pdfjs-dist创建一个组件来处理 PDF 流的加载和渲染 该组件中是一个包含 PDF 文件的 ArrayBuffer…...
【深度学习】 零基础介绍卷积神经网络(CNN)
零基础介绍 卷积神经网络(CNN,Convolutional Neural Network)是深度学习中的一种神经网络,特别擅长处理图像和视频等有空间结构的数据。 假设我们在做一个“照片分类”的任务,比如判断一张照片中是猫还是狗。下面用一…...
Coze概述
### Coze概述 Coze(中文名为扣子)是由字节跳动开发的一个新一代AI应用开发平台,旨在让用户轻松创建各种AI驱动的应用和聊天机器人,无论用户的编程经验如何。以下是Coze的一些关键特性和功能: #### 关键特性 - **无代…...
康佳Android面试题及参考答案(多张原理图)
JVM 内存分布和分代回收机制是什么? JVM 内存主要分为以下几个区域。 堆(Heap)是 JVM 管理的最大的一块内存区域,主要用于存放对象实例。所有线程共享堆内存,在堆中又分为年轻代(Young Generation)和老年代(Old Generation)。年轻代又分为 Eden 区和两个 Survivor 区(…...
2022 年 3 月青少年软编等考 C 语言四级真题解析
目录 T1. 拦截导弹思路分析T2. 神奇的数列思路分析T3. 硬币思路分析T4. 公共子序列思路分析T1. 拦截导弹 某国为了防御敌国的导弹袭击,发展出一种导弹拦截系统。但是这种导弹拦截系统有一个缺陷:虽然它的第一发炮弹能够到达任意的高度,但是以后每一发炮弹都不能高于前一发的…...
关于24年408真题的疑问
45.某计算机按字节编址,采用页式虚拟存储管理方式,虚拟地址和物理地址的长度均为32位,页表项的大小为4字节,页大小为4MB。虚拟地址结构如下: 这一道题如果不细想的话,其实是可以做对的,毕竟数字…...
【容器】k8s学习笔记基础部分(三万字超详细)
概念 应用部署方式演变 在部署应用程序的方式上,主要经历了三个时代: 传统部署:互联网早期,会直接将应用程序部署在物理机上 优点:简单,不需要其它技术的参与 缺点:不能为应用程序定义资源使…...
ES6从入门到精通:前言
ES6简介 ES6(ECMAScript 2015)是JavaScript语言的重大更新,引入了许多新特性,包括语法糖、新数据类型、模块化支持等,显著提升了开发效率和代码可维护性。 核心知识点概览 变量声明 let 和 const 取代 var…...
脑机新手指南(八):OpenBCI_GUI:从环境搭建到数据可视化(下)
一、数据处理与分析实战 (一)实时滤波与参数调整 基础滤波操作 60Hz 工频滤波:勾选界面右侧 “60Hz” 复选框,可有效抑制电网干扰(适用于北美地区,欧洲用户可调整为 50Hz)。 平滑处理&…...
《Playwright:微软的自动化测试工具详解》
Playwright 简介:声明内容来自网络,将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具,支持 Chrome、Firefox、Safari 等主流浏览器,提供多语言 API(Python、JavaScript、Java、.NET)。它的特点包括&a…...
视频字幕质量评估的大规模细粒度基准
大家读完觉得有帮助记得关注和点赞!!! 摘要 视频字幕在文本到视频生成任务中起着至关重要的作用,因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型(VLMs)在字幕生成方面…...
令牌桶 滑动窗口->限流 分布式信号量->限并发的原理 lua脚本分析介绍
文章目录 前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结: 滑动窗口代码实现结果分析lua脚本原理解析 限并发分布式信号量代码实现结果分析lua脚本实现原理 双注解去实现限流 并发结果分析: 实际业务去理解体会统一注…...
JDK 17 新特性
#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持,不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的ÿ…...
代理篇12|深入理解 Vite中的Proxy接口代理配置
在前端开发中,常常会遇到 跨域请求接口 的情况。为了解决这个问题,Vite 和 Webpack 都提供了 proxy 代理功能,用于将本地开发请求转发到后端服务器。 什么是代理(proxy)? 代理是在开发过程中,前端项目通过开发服务器,将指定的请求“转发”到真实的后端服务器,从而绕…...
Web 架构之 CDN 加速原理与落地实践
文章目录 一、思维导图二、正文内容(一)CDN 基础概念1. 定义2. 组成部分 (二)CDN 加速原理1. 请求路由2. 内容缓存3. 内容更新 (三)CDN 落地实践1. 选择 CDN 服务商2. 配置 CDN3. 集成到 Web 架构 …...
4. TypeScript 类型推断与类型组合
一、类型推断 (一) 什么是类型推断 TypeScript 的类型推断会根据变量、函数返回值、对象和数组的赋值和使用方式,自动确定它们的类型。 这一特性减少了显式类型注解的需要,在保持类型安全的同时简化了代码。通过分析上下文和初始值,TypeSc…...
PostgreSQL——环境搭建
一、Linux # 安装 PostgreSQL 15 仓库 sudo dnf install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-$(rpm -E %{rhel})-x86_64/pgdg-redhat-repo-latest.noarch.rpm# 安装之前先确认是否已经存在PostgreSQL rpm -qa | grep postgres# 如果存在࿰…...
