当前位置：首页 > article >正文

【Stable Diffusion 1.5 】在 Unet 中每个 Cross Attention 块中的张量变化过程

article 2026/2/8 22:42:19

系列文章目录

文章目录

系列文章目录
前言
- - 特征图和注意力图的尺寸差异原因
  - 在Break-a-Scene中的具体实现
  - 总结

前言

特征图 (Latent) 尺寸和注意力图(attention map)尺寸在扩散模型中有差异，是由于模型架构和注意力机制的特性决定的。
在这里插入图片描述

特征图和注意力图的尺寸差异原因

不同的功能目的
- 特征图(Feature Maps)：承载图像的语义和视觉特征，维持空间结构
- 注意力图(Attention Maps)：表示不同位置之间的关联强度，是一种关系矩阵
UNet架构中的特征图尺寸
在U-Net中，特征图的尺寸在不同层级有变化：
- 输入图像通常是 512×512 或 256×256
- 下采样路径(Encoder)：尺寸逐渐缩小 (512→256→128→64→32→16…)
- 上采样路径(Decoder)：尺寸逐渐增大 (16→32→64→128→256→512…)
在Break-a-Scene代码中，我们看到特征图尺寸被下采样到64×64：
```
downsampled_mask = F.interpolate(input=max_masks, size=(64, 64))
```
注意力机制中的尺寸计算
注意力机制处理的是"token"之间的关系，其中：
- 自注意力(Self-Attention)：特征图中的每个位置视为一个token
- 交叉注意力(Cross-Attention)：文本序列中的token与特征图中的位置建立关联
如果特征图尺寸是h×w，则自注意力矩阵的尺寸是(hw)×(hw)，这是一个平方关系

在代码中，注意力图通常被下采样到16×16：
```
GT_masks = F.interpolate(input=batch["instance_masks"][batch_idx], size=(16, 16))
```
计算效率考虑
- 注意力计算的复杂度是O(n²)，其中n是token数量
- 对于64×64的特征图，如果直接计算自注意力，需要处理4096×4096的矩阵
- 为了降低计算量，通常在较低分辨率(如16×16)的特征图上计算注意力，这样只需处理256×256的矩阵

在Break-a-Scene中的具体实现

在Break-a-Scene中，这些尺寸差异体现在：

两种不同的损失计算：

a. 掩码损失(Masked Loss)：应用在64×64的 Latent 上

max_masks = torch.max(batch["instance_masks"], axis=1).values
downsampled_mask = F.interpolate(input=max_masks, size=(64, 64))
model_pred = model_pred * downsampled_mask
target = target * downsampled_mask

b. 注意力损失(Attention Loss)：应用在16×16的注意力图上

GT_masks = F.interpolate(input=batch["instance_masks"][batch_idx], size=(16, 16))
agg_attn = self.aggregate_attention(res=16, from_where=("up", "down"), is_cross=True, select=batch_idx)

注意力存储的筛选：

在存储注意力图时，只保留小尺寸的注意力图：

def forward(self, attn, is_cross: bool, place_in_unet: str):key = f"{place_in_unet}_{'cross' if is_cross else 'self'}"if attn.shape[1] <= 32**2:  # 只保存小于或等于32×32的注意力图self.step_store[key].append(attn)return attn

注意力聚合：

在聚合不同层的注意力时，确保只使用匹配目标分辨率的注意力图：

def aggregate_attention(self, res: int, from_where: List[str], is_cross: bool, select: int):# ...num_pixels = res**2for location in from_where:for item in attention_maps[f"{location}_{'cross' if is_cross else 'self'}"]:if item.shape[1] == num_pixels:  # 只选择匹配分辨率的注意力图cross_maps = item.reshape(self.args.train_batch_size, -1, res, res, item.shape[-1])[select]out.append(cross_maps)# ...

总结

特征图和注意力图尺寸的差异主要是因为：

它们在模型中的功能不同
注意力计算的计算复杂度要求在较低分辨率上进行
UNet架构中的不同层级有不同的特征图尺寸
为了平衡精度和计算效率，Break-a-Scene使用不同分辨率的特征图和注意力图来计算不同类型的损失

这种设计使得Break-a-Scene能够有效地学习token与图像区域之间的对应关系，同时保持计算效率。

【Stable Diffusion 1.5 】在 Unet 中每个 Cross Attention 块中的张量变化过程

系列文章目录文章目录系列文章目录前言特征图和注意力图的尺寸差异原因在Break-a-Scene中的具体实现总结前言特征图 (Latent) 尺寸和注意力图(attention map)尺寸在扩散模型中有差异，是由于模型架构和注意力机制的特性决定的。特征图和注意力图的尺寸差异原…...

编程日记 2026/2/5 2:14:35

MySQL - Windows 中 MySQL 禁用开机自启，并在需要时手动启动

Windows 中 MySQL 禁用开机自启，并在需要时手动启动打开服务管理器：在底部搜索栏输入【services.msc】 -> 点击【服务】打开 MySQL 服务的属性管理：找到并右击 MySQL 服务 -> 点击【属性】此时的 MySQL 服务：正在运行&a…...

编程日记 2026/2/4 18:31:17

前端下载文件，文件打不开的问题记录

需求： 下载是很常见的接口，但是经常存在下载的文件异常的问题。此处记录一个常见的错误。分析： 1、接口请求需要配置{responseType: ‘blob’}，此时要求返回的格式为blob，进而进行下载。 const res await axios.…...

编程日记 2025/12/6 7:40:26

小白的进阶之路系列之十一----人工智能从初步到精通pytorch综合运用的讲解第四部分

本文将介绍如何用PyTorch构建模型 torch.nn.Module和torch.nn.Parameter 除了Parameter之外，本视频中讨论的所有类都是torch.nn.Module的子类。这是PyTorch基类，用于封装PyTorch模型及其组件的特定行为。 torch.nn.Module的一个重要行为是注册参数。如果特定的Module子类具…...

编程日记 2025/10/16 11:16:09

OpenCV CUDA模块霍夫变换------在 GPU 上执行概率霍夫变换检测图像中的线段端点类cv::cuda::HoughSegmentDetector

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述 cv::cuda::HoughSegmentDetector 是 OpenCV 的 CUDA 模块中一个非常重要的类，它用于在 GPU 上执行概率霍夫变换（Probabi…...

编程日记 2026/2/3 14:56:13

详解一下RabbitMQ中的channel.Publish

函数定义（来自 github.com/streadway/amqp） func (ch *Channel) Publish(exchange string,key string,mandatory bool,immediate bool,msg Publishing, ) error这个方法的作用是：向指定的交换机 exchange 发送一条消息 msg，带上路…...

编程日记 2025/10/28 5:47:15

硬件学习笔记--62 MCU的ECC功能简介

1. 基本概念 ECC（Error Correction Code，错误校正码）是MCU（微控制器）中用于检测和纠正存储器数据错误的硬件功能，主要应用于Flash、RAM、Cache等存储单元，确保数据在传输或存储过程中的可靠性。…...

编程日记 2025/7/16 1:04:05

Uiverse.io：免费UI组件库

Uiverse.io 完整使用指南：免费UI组件库的终极教程 🌟 什么是 Uiverse.io？ Uiverse.io 是一个开源的UI组件库平台，为开发者和设计师提供了大量精美的、可直接使用的HTML/CSS组件。这个平台的特色在于所有组件都是由社区贡献的，完全免费，并且可以直接复制代码使用。 �…...

编程日记 2026/2/8 4:47:48

普中STM32F103ZET6开发攻略（四）

接续上文：普中STM32F103ZET6开发攻略（三）-CSDN博客点关注不迷路哟。你的点赞、收藏，一键三连，是我持续更新的动力哟！！！ 目录接续上文：普中STM32F103ZET6开发攻略&am…...

编程日记 2025/10/25 1:06:03

ck-editor5的研究 (5)：优化-页面离开时提醒保存，顺便了解一下 Editor的生命周期和 6大编辑器类型

前言经过前面的 4 篇内容，我们已经慢慢对 CKEditor5 熟悉起来了。这篇文章，我们就来做一个优化，顺便再补几个知识点： 当用户离开时页面时，提醒他保存数据了解一下 CKEditor5 的六大编辑器类型了解一下 editor 实例对…...

编程日记 2026/2/3 3:49:30

[3D GISMesh]三角网格模型中的孔洞修补算法

📐 三维网格模型空洞修复技术详解三维网格模型在扫描、重建或传输过程中常因遮挡、噪声或数据丢失产生空洞（即边界非闭合区域），影响模型的完整性与可用性。空洞修复（Hole Filling）是计算机图形学和几何处…...

编程日记 2026/2/3 16:14:50

11.2 java语言执行浅析3美团面试追魂七连问

美团面试追魂七连问：关于Object o New Object() ,1请解释一下对象的创建过程(半初始化) 2,加问DCL要不要volatile 问题(指令重排) 3.对象在内存中的存储布局(对象与数组的存储不同),4.对象头具体包括什么.5.对象怎么定位.6.对象怎么分配(栈-线程本地-Eden-Old)7.在…...

编程日记 2026/2/5 10:57:54

MySQL 全量、增量备份与恢复

一.MySQL 数据库备份概述备份的主要目的是灾难恢复，备份还可以测试应用、回滚数据修改、查询历史数据、审计等。之前已经学习过如何安装 MySQL，本小节将从生产运维的角度了解备份恢复的分类与方法。 1 数据备份的重要性在企业中数据的价值至关…...

编程日记 2026/2/3 0:50:57

【25.06】FISCOBCOS使用caliper自定义测试通过webase 单机四节点 helloworld等进行测试

前置条件安装一个Ubuntu20+的镜像基础环境安装 Git cURL vim jq sudo apt install -y git curl vim jq Docker和Docker-compose 这个命令会自动安装docker sudo apt install docker-compose sudo chmod +x /usr/bin/docker-compose docker versiondocker-compose vers…...

编程日记 2025/10/19 17:34:54

MonoPCC：用于内窥镜图像单目深度估计的光度不变循环约束|文献速递-深度学习医疗AI最新文献

Title 题目 MonoPCC: Photometric-invariant cycle constraint for monocular depth estimation of endoscopic images MonoPCC：用于内窥镜图像单目深度估计的光度不变循环约束 01 文献速递介绍单目内窥镜是胃肠诊断和手术的关键医学成像工具，但其…...

编程日记 2026/2/3 10:16:10

如何计算H5页面加载时的白屏时间

计算 H5 页面加载时的白屏时间（First Paint Time）是前端性能优化的重要指标，通常指从用户发起页面请求到浏览器首次渲染像素（如背景色、文字等）的时间。以下是几种常用的计算方法： 1. 使用 Performance AP…...

编程日记 2025/10/4 15:31:28

SpringAI系列 - MCP篇（三） - MCP Client Boot Starter

目录一、Spring AI Mcp集成二、Spring AI MCP Client Stater三、spring-ai-starter-mcp-client-webflux集成示例3.1 maven依赖3.2 配置说明3.3 集成Tools四、通过SSE连接MCP Server五、通过STDIO连接MCP Server六、通过JSON文件配置STDIO连接一、Spring AI Mcp集成 Spring AI…...

编程日记 2026/2/3 2:27:56

【深度学习新浪潮】以Dify为例的大模型平台的对比分析

我们从核心功能、适用群体、易用性、可扩展性和安全性五个维度展开对比分析：一、核心功能对比平台核心功能多模型支持插件与工具链Dify低代码开发、RAG增强、Agent自律执行、企业级安全支持GPT-4/5、Claude、Llama3、Gemini及开源模型（如Qwen-VL-72B），支持混合模型组合可…...

编程日记 2026/2/5 20:00:51

Asp.net core 使用EntityFrame Work

安装以下Nuget 包 Microsoft.EntityFrameworkCore.Tools Microsoft.EntityFrameworkCore.Design Microsoft.AspNetCore.Diagnostics.EntityFrameworkCore Microsoft.EntityFrameworkCore.SqlServer或者Npgsql.EntityFrameworkCore.PostgreSQL 安装完上述Nuget包之后,在appset…...

编程日记 2026/2/6 20:22:16

isp中的 ISO代表什么意思

isp中的 ISO代表什么意思在摄影和图像信号处理（ISP，Image Signal Processor）领域，ISO是一个用于衡量相机图像传感器对光线敏感度的标准参数。它最初源于胶片摄影时代的 “国际标准化组织（International Organization …...

编程日记 2025/10/12 8:57:57

AI Coding 资讯 2025-06-03

Prompt工程 RAG-MCP：突破大模型工具调用瓶颈，告别Prompt膨胀大语言模型(LLM)在工具调用时面临Prompt膨胀和决策过载两大核心挑战。RAG-MCP创新性地引入检索增强生成技术，通过外部工具向量索引和动态检索机制，仅将最相关的工具信…...

编程日记 2026/2/3 15:39:33

2024年12月 C/C++（三级）真题解析#中国电子学会#全国青少年软件编程等级考试

C/C++编程（1~8级）全部真题・点这里第1题：最近的斐波那契数斐波那契数列 Fn 的定义为：对 n ≥ 0 有 Fn+2 = Fn+1 + Fn，初始值为 F0 = 0 和 F1 = 1。所谓与给定的整数 N 最近的斐波那契数是指与 N 的差之绝对值最小的斐波那契数。本题就请你为任意给定的整数 N 找出与之最…...

编程日记 2026/2/4 5:10:01

3d GIS数据来源与编辑工具

1、卫星遥感 2、航空摄影测量 3、地面实测技术全站仪 3维扫描 3D GIS数据制作全流程详解一、数据采集：多源数据获取 3D GIS数据的制作需从多维度采集地理空间信息，以下是主要采集方式及适用场景： （一）遥感与航测…...

编程日记 2025/10/29 22:48:56

NeRF PyTorch 源码解读 - 体渲染

文章目录 1. 体渲染公式推导1.1. T ( t ) T(t) T(t) 的推导1.2. C ( r ) C(r) C(r) 的推导 2. 体渲染公式离散化3. 代码解读 1. 体渲染公式推导如下图所示，渲染图像上点 P P P 的颜色值 c c c 是累加射线 O P → \overrightarrow{OP} OP 在近平面和远平面范围…...

编程日记 2026/2/4 11:04:09

SpringBoot 数据库批量导入导出 Xlsx文件的导入与导出全量导出数据库导出表格数据处理外部数据

介绍 poi-ooxml 是 Apache POI 项目中的一个库，专门用于处理 Microsoft Office 2007 及以后版本的文件，特别是 Excel 文件（.xlsx 格式）和 Word 文件（.docx 格式）。在管理系统中需要对数据库的数据进行导…...

编程日记 2026/2/4 11:50:57

解决：install via Git URL失败的问题

为解决install via Git URL失败的问题，修改安全等级security_level的config.ini文件，路径如下： 还要重启： 1.reset 2.F5刷新页面 3.关机服务器，再开机（你也可以省略，试试） 4.Wind…...

编程日记 2026/2/5 8:09:22

OpenCV CUDA模块特征检测------创建Harris角点检测器的GPU实现接口cv::cuda::createHarrisCorner

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述该函数创建一个基于 Harris 算法的角点响应计算对象，专门用于在 GPU 上进行高效计算。它返回的是一个 cv::Ptrcv::cuda::Cornernes…...

编程日记 2026/2/5 19:45:40

【氮化镓】钝化层对p-GaN HEMT阈值电压的影响

2021年5月13日，中国台湾阳明交通大学的Shun-Wei Tang等人在《Microelectronics Reliability》期刊发表了题为《Investigation of the passivation-induced VTH shift in p-GaN HEMTs with Au-free gate-first process》的文章。该研究基于二次离子质谱（SIMS）、光致发光（PL）…...

编程日记 2026/2/5 7:22:29

C++:优先级队列

目录 1. 概念 2. 特征 3. 优先级队列的使用 1. 概念优先级队列虽然名字有队列二字，但根据队列特性来说优先级队列不满足先进先出这个特征，优先级队列的底层是用堆来实现的。优先级队列是一种容器适配器，就是将特定容器类封装作为其底层…...

编程日记 2026/2/5 16:40:51

睡眠分期 html

截图代码 <!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>睡眠图表</title><script src…...

编程日记 2026/2/5 15:25:03

系列文章目录

文章目录

前言

特征图和注意力图的尺寸差异原因

在Break-a-Scene中的具体实现

总结

相关文章：