当前位置: 首页 > article >正文

动手学深度学习——转置卷积

1. 前言在前面的内容中我们已经进入了语义分割这一部分。语义分割任务要求模型为图像中的每一个像素分配类别标签。但这里会遇到一个非常自然的问题卷积神经网络在不断提取特征时通常会通过步幅卷积、池化等操作让特征图越来越小。那最后怎么把这些较小的特征图恢复到接近原图大小得到像素级预测结果呢这就引出了本节要学习的重要内容转置卷积Transposed Convolution转置卷积不是简单地“反着做卷积”这么粗糙而是一种能够实现上采样的重要操作。它在语义分割、生成模型、图像恢复等任务中都非常常见。这一节的核心就是搞清楚什么是转置卷积它和普通卷积有什么关系它为什么能让输出变大它在分割任务里有什么作用2. 为什么需要转置卷积标准卷积在很多情况下会让特征图尺寸减小。例如卷积核大小为3 × 3没有填充步幅为 1那么输出尺寸通常会变小。如果再加上池化层步幅大于 1 的卷积特征图尺寸还会进一步缩小。这在分类任务里通常不是问题因为分类最终只需要输出一个类别。但在语义分割中我们需要输出一张和原图空间结构对应的预测图。所以就需要一种操作能够把较小的特征图重新变大。而转置卷积正是解决这个问题的重要方法之一。3. 什么是转置卷积转置卷积英文叫Transposed Convolution也常被叫作反卷积deconvolution分数步长卷积fractionally strided convolution不过严格来说“反卷积”这个说法并不总是准确在深度学习中更规范的叫法还是转置卷积。它的核心作用可以先简单理解成通过一种特殊的卷积形式把输入特征图映射成更大的输出特征图。也就是说它常被用来做上采样分辨率恢复特征图放大4. 普通卷积和转置卷积的直观区别为了理解转置卷积先回顾一下普通卷积在干什么。4.1 普通卷积普通卷积通常是输入一张较大的图卷积核在上面滑动得到一张较小或相同大小的输出图它更像是从输入中提取局部特征4.2 转置卷积转置卷积则更像是输入一张较小的特征图通过某种“展开式”的方式得到一张更大的输出图它更像是把输入中的每个位置扩散到更大的输出区域中所以从空间尺寸上看普通卷积常常让图变小转置卷积常常让图变大5. 转置卷积最直观的理解方式李沐这里讲转置卷积最关键的是不要一上来就背公式而是先看它的计算过程。普通卷积的计算可以理解为卷积核在输入上滑动并在每个位置做加权求和生成输出元素。而转置卷积可以反过来理解为输入中的每一个元素都会通过卷积核“投射”到输出中的一块区域上所有输入元素的投射结果再叠加起来形成最终输出。这就是它为什么能让输出尺寸变大的根本原因。6. 一个最简单的转置卷积例子假设输入是一个2 × 2的矩阵X [[0, 1], [2, 3]]再设卷积核是一个2 × 2的矩阵K [[0, 1], [2, 3]]在转置卷积中输入的每个元素都会和整个卷积核相乘然后放到输出对应的位置上。例如输入左上角元素0乘卷积核后加到输出左上区域输入右上角元素1乘卷积核后加到输出偏右上区域输入左下角元素2乘卷积核后加到输出偏左下区域输入右下角元素3乘卷积核后加到输出右下区域最后把这些区域重叠部分相加就得到输出。7. 为什么转置卷积会让输出变大从刚才这个过程就能看出输入中的一个元素不再只对应输出中的一个元素而是会“铺开”成输出中的一个小块区域。如果输入有多个元素这些小块区域再不断平移、叠加最终输出自然就会比输入更大。所以本质上转置卷积的“放大”并不是凭空插值而是通过卷积核把输入信息分布到更大的空间范围里。8. 转置卷积和普通卷积的填充方式不同这是这一节里一个很容易混淆但又很重要的点。8.1 普通卷积中的填充普通卷积里padding是加在输入周围的目的是控制输出尺寸。8.2 转置卷积中的填充转置卷积里padding的含义和普通卷积的直觉不完全一样。它通常可以理解为从输出边缘裁掉一些元素所以虽然名字也叫padding但在转置卷积里它对输出尺寸的影响方式和普通卷积不同。这一点一定要注意不能机械照搬普通卷积的理解。9. 转置卷积中的步幅也会影响输出大小和普通卷积类似转置卷积也有stride。但普通卷积中步幅变大通常会让输出更小而在转置卷积中步幅变大往往会让输出更大。你可以这样理解普通卷积卷积核在输入上“跳着走”所以输出点更少转置卷积输入元素投影到输出时“间隔更大”所以输出范围更大所以步幅在两种操作中的空间效果正好呈现出相反趋势。10. 李沐这里的代码示例怎么理解这一节常见的代码形式是直接用 PyTorch 的ConvTranspose2d。例如import torch from torch import nn X torch.tensor([[[[0.0, 1.0], [2.0, 3.0]]]]) K torch.tensor([[[[0.0, 1.0], [2.0, 3.0]]]]) tconv nn.ConvTranspose2d(1, 1, kernel_size2, biasFalse) tconv.weight.data K tconv(X)这段代码的含义很清楚输入通道数1输出通道数1卷积核大小2不加偏置手动把卷积核设成K这样就可以直接观察转置卷积的结果。11. 这段代码为什么有教学价值因为它没有掺杂复杂网络结构而是让我们只关注一件事一个小输入矩阵经过转置卷积后如何变成更大的输出矩阵。这能帮助我们从最底层理解转置卷积不是魔法它依然是线性运算它本质上仍然和卷积核有关只是输入输出的组织方式变了12. 转置卷积如何控制输出尺寸这一节另一个重点就是要知道转置卷积的输出大小不是随意的而是由参数共同决定的。主要相关参数包括kernel_sizestridepadding在二维情况下转置卷积的输出尺寸一般满足输出大小 (输入大小 - 1) * stride - 2 * padding kernel_size这个公式和普通卷积很不一样但它非常重要因为后面做分割模型时需要精确控制输出尺寸。13. 用公式理解一个简单例子假设输入大小是2 × 2卷积核大小是2 × 2步幅stride 1填充padding 0。那么输出大小就是(2 - 1) * 1 - 0 2 3所以输出大小为3 × 3这正好说明输入2 × 2经转置卷积后可以得到更大的输出。14. 转置卷积和上采样的区别很多人会把转置卷积和普通插值上采样混在一起但它们并不完全一样。14.1 普通上采样普通上采样如最近邻插值、双线性插值通常是按固定规则把图像放大它本身没有需要学习的参数。14.2 转置卷积转置卷积则不同它包含可学习卷积核参数因此它不是简单“放大图像”而是一边放大空间分辨率一边学习如何生成更合适的输出特征。这就是为什么它在深度学习模型中尤其常见。15. 转置卷积在语义分割中的作用到这里就可以回到最初的问题为什么分割模型里需要转置卷积原因很简单编码部分不断下采样得到小而强的语义特征但最终输出需要恢复到接近输入图像的空间分辨率因此需要一种可学习的上采样方式转置卷积正好可以承担这个任务。也就是说在分割模型里转置卷积常常负责把低分辨率特征图逐步恢复到高分辨率预测图这也是后面 FCN 中非常关键的一步。16. 转置卷积不是“真正的逆卷积”这一点也很重要。虽然它名字里有“转置”也常有人叫它“反卷积”但它并不表示普通卷积做完以后转置卷积一定能完美恢复原输入实际上它不是普通卷积的严格逆运算。之所以叫“转置卷积”是因为从线性代数角度看它和卷积操作对应矩阵的转置有关。所以它和普通卷积是密切相关的线性操作但不是简单的可逆还原。17. 这一节在李沐课程中的位置意义“转置卷积”这一节放在“语义分割数据集”后面非常合理。因为前面已经明确了分割任务要输出像素级预测图输出需要保留空间结构那么接下来最自然的问题就是如何把深层小特征图恢复成更大的输出图这时候转置卷积就顺理成章地出现了。所以这一节的作用其实是在为后面的转置卷积的代码实现FCN做技术铺垫。18. 本节总结这一节我们学习了转置卷积核心内容可以总结为以下几点。18.1 转置卷积常用于上采样它能够把较小的输入特征图变成较大的输出特征图。18.2 它的计算方式与普通卷积不同输入中的每个元素都会通过卷积核投射到输出中的一块区域。18.3 它的输出大小由多个参数共同决定包括卷积核大小步幅填充18.4 它和普通插值上采样不同转置卷积具有可学习参数因此更适合深度学习模型。18.5 它是语义分割模型的重要工具特别是在需要恢复空间分辨率时非常有用。19. 学习感悟转置卷积这一节表面上是在讲一个新算子但实际上它在视觉任务里非常重要因为它代表了一种思路不只是提取特征还要把特征重新“展开”回空间结构中。分类任务更关注“压缩信息、做判断”而分割任务则要求“既理解语义又恢复位置”。从这个角度看转置卷积就是连接“深层语义特征”和“像素级输出结果”的关键桥梁之一。

相关文章:

动手学深度学习——转置卷积

1. 前言在前面的内容中,我们已经进入了语义分割这一部分。语义分割任务要求模型为图像中的每一个像素分配类别标签。 但这里会遇到一个非常自然的问题:卷积神经网络在不断提取特征时,通常会通过步幅卷积、池化等操作让特征图越来越小。 那最后…...

BME680气体校准优化:如何将IAQ校准时间从1小时缩短到10分钟?

BME680气体校准优化实战:从1小时到10分钟的高效策略 第一次接触BME680传感器的开发者,往往会被它长达1小时的气体校准时间震惊。在医疗消毒设备实时监测、智能新风系统快速响应等场景中,这种等待简直是奢侈。但通过深入分析BSEC库的state机制…...

FastAPI项目里那个烦人的favicon.ico 404报错,3分钟教你彻底搞定它

FastAPI开发中favicon.ico报错的深度解决方案与技术内幕 当你启动FastAPI开发服务器时,控制台突然跳出GET /favicon.ico HTTP/1.1" 404 Not Found的红色警告,这场景是不是很熟悉?作为一个长期使用FastAPI的开发者,我完全理解…...

三菱 FX5U/Q 系列 PLC 以太网通讯中间件功能说明书

C#与三菱PLC以太网通讯程序上位机源码 通过3E帧SLMP /MC协议与三菱FX5U/Q系列PLC通讯 1.该程序可以与FX5U/Q系列PLC以太网通讯,根据3E帧报文写了一个类库,可以读写各种类型和区域变量。 2.支持单个变量读写和数组类型批量读写。 3.可以实时检测网络通断…...

Yolov5-seg 实战:从零构建自定义实例分割数据集

1. 环境配置与工具准备 第一次接触YOLOv5-seg时,我被官方文档里密密麻麻的依赖项吓到了。后来发现其实只要掌握几个关键工具,整个过程就会变得非常简单。这里我分享下自己搭建环境的完整过程,包括那些官方文档没写的细节。 核心工具链只需要…...

DLSS文件管理革命:5分钟让每款游戏都获得最佳画质优化

DLSS文件管理革命:5分钟让每款游戏都获得最佳画质优化 【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper DLSS Swapper是一款专为游戏玩家设计的智能DLSS文件管理工具,能够自动扫描游戏库、识别DLS…...

终极Windows任务栏透明化神器:TranslucentTB完整体验指南

终极Windows任务栏透明化神器:TranslucentTB完整体验指南 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 想要让Windows桌面焕…...

直线型一阶倒立摆的VREP仿真实战:手把手教你实现起摆与稳摆控制

直线型一阶倒立摆的VREP仿真实战:手把手教你实现起摆与稳摆控制 在控制理论的学习和研究中,倒立摆系统一直被视为检验各种控制算法的"试金石"。这个看似简单的物理系统,却蕴含着丰富的控制理论内涵——非线性、不稳定、强耦合等特…...

别让AI代码,变成明天的技术债残

如果有多个供应商,你也可以使用 [[CC-Switch]] 来可视化管理这些API key,以及claude code 的skills。 # 多平台安装指令 curl -fsSL https://claude.ai/install.sh | bash ## Claude Code 配置 GLM Coding Plan curl -O "https://cdn.bigmodel.cn/i…...

终极指南:如何在macOS上快速安装QLVideo视频预览神器

终极指南:如何在macOS上快速安装QLVideo视频预览神器 【免费下载链接】QuickLookVideo This package allows macOS Finder to display thumbnails, static QuickLook previews, cover art and metadata for most types of video files. 项目地址: https://gitcode…...

架构演进:Logcat Reader如何重构Android日志调试领域

架构演进:Logcat Reader如何重构Android日志调试领域 【免费下载链接】LogcatReader A simple app for viewing logcat logs on an android device. 项目地址: https://gitcode.com/gh_mirrors/lo/LogcatReader Logcat Reader是一款专为Android开发者设计的开…...

揭秘DXVK:Vulkan驱动的Direct3D翻译层革命

揭秘DXVK:Vulkan驱动的Direct3D翻译层革命 【免费下载链接】dxvk Vulkan-based implementation of D3D8, 9, 10 and 11 for Linux / Wine 项目地址: https://gitcode.com/gh_mirrors/dx/dxvk DXVK(Direct3D to Vulkan)是一款革命性的开…...

【OpenClaw】通过 Nanobot 源码学习架构---()总体吃

核心摘要:这篇文章能帮你 ?? 1. 彻底搞懂条件分支与循环的适用场景,告别选择困难。 ?? 2. 掌握遍历DOM集合修改属性的标准姿势与性能窍门。 ?? 3. 识别流程控制中的常见“坑”,并学会如何优雅地绕过去。 ?? 主要内容脉络 ?? 一、痛…...

从MobileViT到BERT:结构化剪枝如何帮你打造“小钢炮”模型?实战案例与调参避坑指南

从MobileViT到BERT:结构化剪枝实战与调参避坑指南 在移动端和边缘计算场景中,模型小型化已成为AI落地的关键瓶颈。当我们将参数量超过1亿的ViT或BERT部署到手机、嵌入式设备甚至普通GPU服务器时,内存占用大、推理延迟高、能耗超标等问题会集中…...

玩一玩微软的 bit 模型:BitNet. 一个 CPU 就能跑起来的大模型谀

一、 什么是 AI Skills:从工具级到框架级的演化 AI Skills(AI 技能) 的概念最早在 Claude Code 等前沿 Agent 实践中被强化。最初,Skills 被视为“工具级”的增强,如简单的文件读写或终端操作,方便用户快速…...

当大模型把“张一鸣”识别成地名、“Transformer”标为人物——奇点大会NER鲁棒性红蓝对抗测试全记录(含137个对抗样本集)

第一章:2026奇点智能技术大会:大模型命名实体识别 2026奇点智能技术大会(https://ml-summit.org) 大模型NER的范式演进 传统基于BiLSTM-CRF的命名实体识别方法在2026年已全面让位于大语言模型驱动的上下文感知NER架构。本届大会展示的核心突破在于&…...

MiniMax M. 发布!Redis 故障排查 + 跨语言重构场景实测,表现如何?焉

一、前言:什么是 OFA VQA 模型? OFA(One For All)是字节跳动提出的多模态预训练模型,支持视觉问答、图像描述、图像编辑等多种任务,其中视觉问答(VQA)是最常用的功能之一——输入一…...

仅限头部AI平台内部流出的配额审计清单:覆盖Token级计量、跨模型共享配额、突发流量信用额度等8项稀缺机制

第一章:大模型工程化限流与配额管理 2026奇点智能技术大会(https://ml-summit.org) 在大规模语言模型服务化落地过程中,限流与配额管理是保障系统稳定性、公平性与商业可持续性的核心工程能力。当数百个业务方共享同一套推理集群时,突发流量…...

Python——排序

排序一、sorted() 函数(推荐)对字典列表排序(工作超常用)二、list.sort()三、手写快速排序四、高级用法:按指定条件排序1. 按字符串长度2. 按数字绝对值3. 按对象/字典某个字段(接口/测试数据常用&#xff…...

Excel导出避坑指南:Vue项目中xlsx库的6个常见问题及解决方案

Vue项目中Excel导出实战:破解xlsx库的6大高频难题 在Vue项目开发中,数据导出为Excel文件是常见的业务需求,而xlsx库作为前端处理Excel的利器,其使用过程中却暗藏诸多"坑点"。本文将聚焦开发者在真实项目中遇到的6个典型…...

实测对比:CST仿真3.5GHz波导魔T的5种边界条件设置方案

实测对比:CST仿真3.5GHz波导魔T的5种边界条件设置方案 在射频工程领域,波导魔T作为关键的无源器件,其性能直接影响整个系统的信号质量。特别是在5G基站滤波器等应用中,3.4-4GHz频段的特性控制尤为关键。本文将深入探讨五种不同边界…...

Jasmine漫画浏览器终极指南:打造跨设备无缝阅读体验的完整教程

Jasmine漫画浏览器终极指南:打造跨设备无缝阅读体验的完整教程 【免费下载链接】jasmine A comic browser,support Android / iOS / MacOS / Windows / Linux. 项目地址: https://gitcode.com/gh_mirrors/jas/jasmine Jasmine漫画浏览器是一款革…...

HY-Motion 1.0一键部署:云服务器(阿里云/AWS)3分钟上线Web服务

HY-Motion 1.0一键部署:云服务器(阿里云/AWS)3分钟上线Web服务 1. 概述:从文字到动画的魔法转换 想象一下,你只需要输入"一个人在跳舞",电脑就能自动生成一个逼真的3D舞蹈动画。这不是科幻电影…...

CompressO终极指南:免费开源视频压缩神器,一键释放95%存储空间

CompressO终极指南:免费开源视频压缩神器,一键释放95%存储空间 【免费下载链接】compressO Convert any video/image into a tiny size. 100% free & open-source. Available for Mac, Windows & Linux. 项目地址: https://gitcode.com/gh_mir…...

Pharma NLP:药品命名实体识别的代码工程实践

“把这几十万份 ADR(不良反应)报告里的药品名、不良事件、剂量信息都提取出来?现在全靠人工,一个人一天顶多 80 份,三年的报告积压在那儿了。” 药品 NER 跟你在 CoNLL-2003 上跑的那个 NER,不是一个物种。 通用 NER 里,"苹果"要么是水果要么是公司,上下文清…...

扫地机器人,大厂扫地机器人 源代码,freertos实时操作系统,企业级应用源码

扫地机器人,大厂扫地机器人 源代码,freertos实时操作系统,企业级应用源码,适合需要学习嵌入式以及实时操作系统的工程师,32端代码能实现延边避障防跌 落充电等功能。 硬件驱动包含 陀螺仪姿态传感器bmi160、电源管理bq…...

Pi0机器人控制中心边缘计算效果展示:低延迟实时控制演示

Pi0机器人控制中心边缘计算效果展示:低延迟实时控制演示 1. 引言 想象一下,一个机器人能够像人类一样快速响应指令,几乎感觉不到任何延迟——你让它抬手,它瞬间抬手;你让它转向,它立即转向。这种流畅的实…...

gte-base-zh语义去重方案:千万级UGC内容基于gte-base-zh的高效重复检测

gte-base-zh语义去重方案:千万级UGC内容基于gte-base-zh的高效重复检测 1. 引言:当内容泛滥遇上重复难题 你有没有遇到过这样的场景?每天打开内容平台,推送的文章、视频、帖子看起来都差不多,好像总在重复。作为平台…...

EtherLab IGH1.6.5新版本发布:7年等待后的全面升级

1. 七年磨一剑:EtherLab IGH1.6.5的诞生背景 2017年10月发布的EtherLab IGH1.5.2版本,曾经是工业自动化领域的一个重要里程碑。这个开源EtherCAT主站解决方案,凭借其稳定性和灵活性,在机器人控制、数控机床、自动化生产线等场景中…...

影子货币:商家跑路,储值卡变成废纸

中国影子货币全图谱 目录 中国影子货币全图谱 一、第一类:银行表外影子货币(规模最大,约50万亿元) 1. 银行现金管理类理财产品(规模约18万亿元) 2. 银行非保本理财产品(规模约22万亿元) 3. 银行同业存单与同业理财(规模约10万亿元) 二、第二类:非银金融机构影子货币…...