当前位置：首页 > article >正文

【T2I】Divide Bind Your Attention for Improved Generative Semantic Nursing

article 2026/2/24 18:22:47

CODE:

GitHub - boschresearch/Divide-and-Bind: Official implementation of "Divide & Bind Your Attention for Improved Generative Semantic Nursing" (BMVC 2023 Oral)

ABSTRACT

新兴的大规模文本到图像生成模型，如稳定扩散(SD)，已经显示出高保真度的压倒性结果。尽管取得了巨大的进步，但目前最先进的模型仍然难以完全按照输入提示生成图像。之前的研究，Attend & Excite，引入了生成语义护理(GSN)的概念，旨在优化推理时间的交叉注意，以更好地整合语义。它在生成简单提示(例如，“一只猫和一只狗”)方面展示了令人鼓舞的结果。然而，在处理更复杂的提示时，它的有效性下降，并且它没有明确地解决不正确的属性绑定问题。为了解决涉及多个实体的复杂提示或场景所带来的挑战，并实现改进的属性绑定，我们提出了Divide & Bind。我们引入了两个新的GSN损失目标:一个新的出勤损失和绑定损失。我们的方法的突出之处在于，它能够从复杂的提示中忠实地合成具有改进属性对齐的所需对象，并在多个评估基准中表现出卓越的性能。更多的视频和更新可以在项目页面上找到，源代码是可用的。

INTRODUCTION

在文本到图像的合成中存在两个众所周知的语义问题，即“缺失对象”和“属性绑定”。“缺物”是指输入文本中提到的物体并没有全部忠实地出现在图像中。“属性绑定”代表了关键的组合性问题，即属性信息，例如颜色或纹理，没有正确地与相应的对象对齐或错误地附加到另一个对象。为了缓解这些问题，最近的工作Attend & Excite (A&E) Chefer等人(2023)引入了生成语义护理(GSN)的概念。其核心思想在于动态更新潜在代码，从而使给定文本中的语义信息能够更好地融入预训练的综合模型中。

在强大的开源T2I模型Stable Diffusion (SD) Rombach等人(2022)的基础上，利用交叉注意图进行优化。

为了加强对象的出现，A&E定义了一个丢失目标，该目标试图最大化每个对象令牌的最大关注值。虽然在简单的构图上显示出令人满意的结果，例如“一只猫和一只青蛙”，但当提示变得更复杂时，发现结果并不令人满意，如图图所示。

在这项工作中，提出了一个新的GSN目标函数。我们将注意力图的总变化最大化，以提示多个空间上不同的注意力excitations。通过在空间上分配每个令牌的注意力，我们可以生成提示中提到的所有对象，即使在高令牌竞争下也是如此。直观地说，这相当于将注意力地图划分为多个区域。此外，为了缓解属性绑定问题，提出了基于Jensen-Shannon散度(JSD)的绑定损失来显式对齐每个对象的激励与其属性之间的分布。因此，方法命名为Divide & Bind。

贡献:

(i)提出了一种新的total-variation based attendance loss，使生成的图像中存在多个物体。

(ii)提出了一个基于jsd的属性绑定损失，以实现忠实的属性绑定。

(iii)方法在生成完全符合提示的图像方面表现出出色的能力，在涉及复杂描述的几个基准上优于A&E。

RELATED WORK

Text-to-Image Synthesis.

Total Variation. 总变异(TV)衡量邻居之间的差异。因此，最小化鼓励在不同任务中使用的平滑性，例如去噪Caselles等人(2015)，图像恢复Chan等人(2006)和分割Sun & Ho(2011)，仅举几例。在这里，把TV用于不同的目的。试图将注意力图划分为多个兴奋区域。因此，选择TV最大化来扩大图像上注意力地图的局部变化量，从而鼓励不同的对象区域出现。因此，提高了生成每个期望对象的机会，同时与其他对象竞争。

PRELIMINARIES

Stable Diffusion (SD). 基于SD

Cross-Attention in Stable Diffusion.

在SD中，采用冻结CLIP文本编码器将文本提示P作为条件c嵌入到顺序嵌入中，然后通过交叉注意(cross-attention, CA)将其注入UNet，合成文本编译图像。CA层采用编码文本嵌入并将其投影到查询Q和值v中。键K是从UNet的中间特征映射的。注意图然后由At = Softmax(QKT√d)计算，其中t表示时间步长，Softmax沿着通道维度应用。注意图At可以重构为Rh×w×L，其中h,w为特征图的分辨率，L为文本嵌入的序列长度。

此外，第s个文本标记对应的交叉注意映射为As t∈Rh×w，SD的一个已知问题是，并非所有物体都必须出现在最终图像中，而Balaji et al. (2022);Hertz等人(2022)发现，相应注意图的高激活区域与最终图像中属于特定物体的出现像素密切相关。因此，注意图的激活是语义引导合成的重要信号和影响因素。

METHOD

GENERATIVE SEMANTIC NURSING (GSN)

为了改善SD在推理过程中的语义引导，一种实用的方法是在采样的每个时间步进行潜在代码优化，即GSN。

其中αt为更新率，L为图像和文本描述之间的可信度，例如对象出勤和属性绑定。GSN的优点是避免对SD进行微调。

由于文本信息是通过交叉注意层注入到SD的UNet中，所以很自然地将交叉注意图作为输入设置lossL。给定文本提示P和对象标记S列表，我们将得到S∈S的一组注意图{Ast}。理想情况下，如果最终图像包含对象标记S提供的概念，则相应的交叉注意图Ast应显示出强烈的激活。为了实现这一点，A&E Chefer等人(2023)增强了注意图的单个最大值，即LA&E =−mins∈S(maxi,j(Ast [i, j]))。然而，它不能方便地处理多个激励，这在面对复杂的提示和需要生成多个实例时变得越来越重要。如图图所示，单个激励很容易被其他竞争令牌所取代，从而导致最终图像中的对象缺失。此外，它没有显式地解决属性绑定问题。

DIVIDE & BIND

提出的分割与绑定方法包含了一个新的GSN目标：

它有两个部分，attendance丢失Lattend和绑定丢失Lbind，分别执行对象attendance和属性绑定。λ是权重因子。两个损失条款的详细表述如下:

Divide for Attendance.

attendance损失Lattend是为了激励对象的存在，因此应用于与对象S相关的文本令牌，

S 是与对象相关的文本标记集合。
Ats[i,j]表示第s个文本标记在时间步t和空间位置 [i,j]处的注意力值。
TV(Ats)是注意力图 AtsAts 的总变差（Total Variation），用于衡量注意力值在空间维度上的变化。

这里通过计算相邻位置注意力值的差异，来衡量注意力图的空间变化。

最大化总变差：损失函数 LattendLattend 取总变差的负值，因此优化过程会最大化总变差。

最坏情况优化：公式中取所有对象标记的总变差的最小值（即最坏情况），确保每个对象都能得到足够的关注。

Attribute Binding Regularization.

我们将对象标记及其属性标记的注意映射分别表示为Ast和Art。对于属性绑定，希望Art和Ast在空间上对齐良好，即两个令牌的高激活区域在很大程度上重叠。为此，引入Lbind。在沿着空间维度进行适当的归一化之后，我们可以将归一化的注意映射Art和Ast视为两个概率质量函数，其样本空间大小为h × w。为了明确鼓励这种对齐，我们可以最小化这两个分布之间的对称相似度量Jensen-Shannon散度(JSD):

SD 是 Jensen-Shannon Divergence（Jensen-Shannon 散度），用于衡量两个概率分布之间的相似性。
A~tr 和 A~ts 分别是属性标记和对象标记的归一化注意力图。

属性与对象绑定：通过最小化 LbindLbind，模型能够将属性标记（如“紫色”）正确地绑定到对象标记（如“狗”或“皇冠”）所在的区域。
提高生成准确性：绑定损失确保生成的图像中，属性（如颜色、形状等）与对象（如物体）之间的关系更加准确和一致。

Implementation Details.

令牌识别过程可以手动完成，也可以借助GPT-3自动完成。利用GPT-3的上下文学习能力(in-context learning, Hu et al. (2022b))，通过提供一些上下文示例，GPT-3可以自动提取出新的输入提示所需的名词和形容词。

优化是在16 × 16分辨率的注意图上进行的，因为它们是最有语义意义的。基于图像语义由初始去噪步骤决定的观察，仅从t = T到t = Tend进行更新，其中在所有实验中t = 50和tend = 25。如果提供了属性信息，则绑定损失的权重λ = 1。否则，λ = 0，即仅使用attendance损失。

EXPERIMENTS

EXPERIMENTAL SETUP

Benchmarks.

我们对表1中总结的七个提示集进行了详尽的评估。Chefer等人(2023)提出了Animal-Animal和color - object，它们简单地组成两个主体，并交替地为主体分配一种颜色。在此基础上，我们添加一个描述场景或场景的后缀，以挑战具有更高提示复杂性的方法，称为动物场景和颜色- obj -场景。进一步，我们引入了Multi-Object，目的是在图像中产生多个实体。注意，不同的实体可能属于同一类别。例如，“一只猫和两只狗”总共包含三个实体，其中两个是狗。除了设计的模板，我们还过滤了TIFA基准Hu et al.(2023)中使用的COCO标题，并将其分类为COCO- subject和COCO- attribute。最多有四个对象没有在COCO-Subject中分配任何属性，两个对象分别具有COCO-Attribute属性。注意COCO-Attribute中的属性不仅包含颜色，还包含纹理信息，例如“a wooden bench”。

Evaluation metrics.

为了定量评估我们的方法的性能，我们使用了Chefer等人(2023)的文本相似度和最近引入的TIFA评分Hu等人(2023)，该评分比CLIPScore Radford等人(2021)更准确，并且更符合人类对文本到图像合成的判断。为了计算文本-文本相似度，我们使用现成的图像字幕模型BLIP Li等人(2022c)在合成图像上生成字幕。然后我们测量原始提示和所有标题之间的CLIP相似性。TIFA指标的评估基于视觉问答(VQA)系统的性能，例如mPLUG Li等人(2022a)。根据定义，TIFA分数本质上是VQA准确性。Chefer et al.(2023)对TIFA评价方案以及对全提示文本-图像相似性和最小对象相似性的评价的更详细描述可在补充材料中找到。

MAIN RESULTS

Limitations.

尽管改进了语义引导，但仍然难以产生极其罕见或不可信的情况，例如不寻常的颜色绑定“a gray apple”。我们的方法可以与常用的方法一起生成这样的对象，例如在同一张图像中生成一个青苹果和一个灰苹果，如图图所示。由于我们使用未经微调的预训练模型，因此不可避免地会继承一些数据偏差。另一个问题是计数错误:生成的实例可能比应该生成的多。我们将错误计数归因于CLIP文本编码器Radford等人(2021)限制的不精确语言理解;Paiss et al.(2023)。在其他大规模T2I模型中也观察到这种效应，例如Parti Yu等人(2022)，这使其成为未来研究的有趣案例。

ABLATION STUDY

IMPLEMENTATION & EVALUATION DETAILS

1. 输入和输出

输入：
- 文本提示 P。
- 预训练的 Stable Diffusion (SD) 模型。
输出：
- 下一个去噪步骤的噪声潜在表示 zt−1。

2. 算法步骤

步骤 1：确定对象和属性标记

使用 GPT 模型通过上下文学习（in-context learning）从文本提示 P 中提取对象标记 S 和属性标记 R。

步骤 2：提取注意力图

提取对象标记 S 的注意力图 Ats 和属性标记 R 的注意力图 Atr。

步骤 3-7：计算损失函数

如果存在属性标记 R（即 Atr 不为空），则计算综合损失：LD&B=Lattend+λLbind,
- Lattend 是 Attendance Loss（出席损失），用于激励对象标记的注意力分布。
- Lbind 是 Binding Loss（绑定损失），用于确保属性标记与对象标记正确绑定。
- λ 是超参数，用于平衡两种损失的权重。
如果不存在属性标记 R，则仅使用出席损失：LD&B=Lattend.

步骤 8：更新潜在表示

使用梯度下降法更新噪声潜在表示 zt：zt′←zt−αt⋅∇ztLD&B
- αtα 是学习率。
- ∇ztLD&B 是损失函数对 zt 的梯度。

步骤 9：去噪生成

使用 Stable Diffusion 模型对更新后的潜在表示 zt′ 进行去噪，生成下一个时间步的潜在表示zt−1：zt−1←SD(zt′,P,t).

步骤 10：返回结果

返回去噪后的潜在表示 zt−1，用于下一步生成。