当前位置：首页 > news >正文

【深度学习】【风格迁移】Zero-shot Image-to-Image Translation

news 2026/2/9 16:32:04

论文：https://arxiv.org/abs/2302.03027
代码：https://github.com/pix2pixzero/pix2pix-zero/tree/main

文章目录

Abstract
1. Introduction
相关工作
3. Method

Abstract

大规模文本到图像生成模型展示了它们合成多样且高质量图像的显著能力。然而，直接将这些模型应用于编辑真实图像仍然存在两个挑战。首先，用户很难提供完美的文本提示，准确描述输入图像中的每个视觉细节。其次，尽管现有模型可以在某些区域引入期望的改变，但它们通常会在不需要编辑的区域引入意想不到的变化，从而大幅改变输入内容。在这项工作中，我们提出了pix2pix-zero，一种图像到图像的转换方法，可以在没有手动提示的情况下保留原始图像的内容。我们首先自动发现反映文本嵌入空间中所需编辑的编辑方向。为了在编辑后保留一般内容结构，我们进一步提出了交叉注意力引导，旨在在扩散过程中保留输入图像的交叉注意力图。此外，我们的方法不需要对这些编辑进行额外的训练，可以直接使用现有的预训练文本到图像扩散模型。我们进行了大量实验证明，我们的方法在真实和合成图像编辑方面优于现有和同时进行的工作。

图1：我们提出了pix2pix-zero，这是一种基于扩散的图像到图像转换方法，允许用户即时指定编辑方向（例如，猫 → 狗）。我们在真实图像（上方2行）和合成图像（底部行）上执行各种翻译任务，同时保留输入图像的结构。我们的方法既不需要为每个输入图像手动进行文本提示，也不需要为每个任务进行昂贵的微调。

在这里插入图片描述

1. Introduction

最近的文本到图像扩散模型，如DALL·E 2 [43]、Imagen [51]和Stable Diffusion [47]，生成具有复杂对象和场景的多样化、逼真的合成图像，展示了强大的组合能力。

然而，将这些模型重新用于编辑真实图像仍然具有挑战性。

首先，图像并不自然地附带文本描述。指定一个文本描述是繁琐且耗时的，因为一张图片价值千言万语，包含许多纹理细节、光照条件和形状微妙之处，在词汇表中可能没有对应的词语。其次，即使有初始和目标文本提示（例如，将猫改为狗），现有的文本到图像模型往往会合成完全新的内容，不符合输入图像的布局、形状和物体姿态。毕竟，编辑文本提示只告诉我们想要改变什么，但并未传达我们想要保留的内容。最后，用户可能希望对多样的真实图像执行各种编辑。因此，我们不希望为每个图像和编辑类型进行大规模的微调，因为这将带来极高的成本。

为了克服上述问题，我们引入了pix2pix-zero，一种基于扩散的图像到图像转换方法，无需训练和文本提示。

用户只需即时指定编辑方向，形式为源域 → 目标域（例如，猫 → 狗），无需为输入图像手动创建文本提示。我们的模型可以直接使用预训练的文本到图像扩散模型，无需为每个编辑类型和图像进行额外的训练。

在这项工作中，我们做出了两个关键贡献：(1) 高效的自动编辑方向发现机制，无需输入文本提示。我们自动发现适用于广泛输入图像的通用编辑方向。给定一个原始词（例如，猫）和一个编辑后的词（例如，狗），我们分别生成包含原始和编辑后词的两组句子。然后，我们计算两组句子之间的CLIP嵌入方向。由于该编辑方向基于多个句子，比仅仅在原始和编辑后词之间找到方向更加稳健。这一步仅需约5秒即可预先计算。(2) 通过交叉注意力引导进行内容保留。我们观察到交叉注意力图对应于生成物体的结构。为了保留原始结构，我们鼓励文本-图像交叉注意力图在转换前后保持一致。因此，我们在整个扩散过程中应用交叉注意力引导来强制实现这种一致性。在图1中，我们展示了使用我们的方法进行各种编辑的结果，同时保留输入图像的结构。

我们进一步通过一系列技术来改进结果并提高推断速度：(1) 自相关正则化：在应用DDIM [55]反转时，我们观察到DDIM反转容易使中间预测的噪声不太符合高斯分布，这降低了反转图像的可编辑性。因此，我们引入了自相关正则化，以确保在反转过程中噪声接近高斯分布。(2) 条件GAN蒸馏：由于多步推断的昂贵扩散过程，扩散模型较慢。为了实现交互式编辑，我们将扩散模型蒸馏为快速的条件GAN模型，给定来自扩散模型的原始和编辑后图像的配对数据，从而实现实时推断。

我们在各种图像到图像转换任务上演示了我们的方法，例如改变前景对象（猫 → 狗）、修改物体（在猫图像上添加眼镜）以及改变输入的风格（草图 → 油 pastel），用于真实图像和合成图像。

大量实验证明，pix2pix-zero在逼真性和内容保留方面优于现有和同时进行的作品[35, 22]。最后，我们对各个算法组件进行了广泛的剔除研究，并讨论了我们方法的限制。更多结果和相关代码请访问我们的网站https://pix2pixzero.github.io/。

3. Method

略

在这里插入图片描述

图3：pix2pix-zero方法的概述，通过一个猫→狗编辑示例进行说明。首先，我们使用正则化的DDIM反转获得一个反转的噪声图。这由文本嵌入c引导，文本嵌入c是使用图像字幕网络BLIP [33]和CLIP文本嵌入模型自动计算得到的。接着，我们通过原始文本嵌入对图像进行去噪，得到交叉注意力图，作为输入图像结构的参考（顶部行）。然后，我们通过编辑后的文本嵌入c + ∆cedit 进行去噪，使用损失函数鼓励交叉注意力图与参考交叉注意力图匹配（第2行）。这确保编辑后图像的结构与原始图像相比没有发生显著变化。第3行展示了没有交叉注意力引导的去噪结果，导致结构上的大幅偏离。

在这里插入图片描述

【深度学习】【风格迁移】Zero-shot Image-to-Image Translation

文章目录

Abstract

1. Introduction

相关工作

3. Method

相关文章：

【深度学习】【风格迁移】Zero-shot Image-to-Image Translation

Day 30 C++ STL 常用算法(上)

MES系统在机器人行业生产管理种的运用

Spark（39）：Streaming DataFrame 和 Streaming DataSet 输出

【云原生】Docker 详解（一）：从虚拟机到容器

代码随想录第48天 | 198. 打家劫舍、213. 打家劫舍II、337. 打家劫舍III

【LeetCode】按摩师

国际腾讯云账号云核算概述!!

.NET 6.0 重启 IIS 进程池

一位心理学教师对ChatGPT的看法，提到了正确地使用它的几个要点

认识Node.js及三个模块

49 | 公司销售数据分析

Android 项目导入高德SDK初次上手

生成树协议用来解决网络风暴的问题?（第三十二课）

git分支操作

【基础学习笔记 enum】TypeScript 中的 enum 枚举类型介绍

SpringBoot中间件使用之EventBus、Metric、CommandLineRunner

ffmpeg命令行是如何打开vf_scale滤镜的

【Vue3】自动引入插件-`unplugin-auto-import`

每日温度（力扣）单调栈 JAVA

LeetCode - 394. 字符串解码

《通信之道——从微积分到 5G》读书总结

【学习笔记】深入理解Java虚拟机学习笔记——第4章虚拟机性能监控，故障处理工具

html css js网页制作成品——HTML+CSS榴莲商城网页设计（4页）附源码

C++使用 new 来创建动态数组

云原生安全实战：API网关Kong的鉴权与限流详解

力扣热题100 k个一组反转链表题解

NPOI Excel用OLE对象的形式插入文件附件以及插入图片

Caliper 负载(Workload)详细解析

Caliper 配置文件解析：fisco-bcos.json