当前位置: 首页 > article >正文

别再死记ResNet结构了!用PyTorch手把手带你复现ResNet-50(附完整代码与可视化)

从零构建ResNet-50PyTorch实战与架构解密当你第一次看到ResNet的残差连接时是否曾被那个跳跃的结构所困惑为什么简单的跨层连接就能解决深度网络的退化问题本文将以工程师视角带你用PyTorch从第一行代码开始完整实现ResNet-50的核心架构。不同于单纯调用现成模型我们将深入每个Bottleneck模块的设计细节甚至教你用Hook机制可视化特征图的变化过程。1. 残差网络的核心思想2015年微软研究院提出的ResNet在ImageNet竞赛中以3.57%的错误率夺冠其核心创新在于残差学习Residual Learning。传统神经网络尝试直接拟合目标函数H(x)而ResNet转而学习残差F(x) H(x) - x。这种转变看似简单却解决了深度网络训练中的梯度消失难题。残差块的关键组件恒等映射当输入输出维度一致时直接相加x F(x)投影映射维度不匹配时通过1x1卷积调整通道数Bottleneck设计先用1x1降维3x3卷积处理再用1x1升维class BasicBlock(nn.Module): def __init__(self, in_channels, out_channels, stride1): super().__init__() self.conv1 nn.Conv2d(in_channels, out_channels, kernel_size3, stridestride, padding1, biasFalse) self.bn1 nn.BatchNorm2d(out_channels) self.conv2 nn.Conv2d(out_channels, out_channels, kernel_size3, stride1, padding1, biasFalse) self.bn2 nn.BatchNorm2d(out_channels) # 捷径连接 self.shortcut nn.Sequential() if stride ! 1 or in_channels ! out_channels: self.shortcut nn.Sequential( nn.Conv2d(in_channels, out_channels, kernel_size1, stridestride, biasFalse), nn.BatchNorm2d(out_channels) ) def forward(self, x): out F.relu(self.bn1(self.conv1(x))) out self.bn2(self.conv2(out)) out self.shortcut(x) # 残差连接 return F.relu(out)注意所有卷积层后都紧跟BatchNorm这是ResNet稳定训练的关键。原始论文中ReLU放置在残差相加之后但现代实现常将ReLU放在相加前。2. ResNet-50的Bottleneck架构ResNet-50与34层版本的最大区别在于使用了Bottleneck结构。这种设计通过1x1卷积先压缩再扩展通道数大幅减少了参数量。让我们拆解一个典型的Bottleneck模块操作类型卷积核尺寸输入通道输出通道步长参数量计算1x1卷积1x1256641256×64×1×116,3843x3卷积3x36464164×64×3×336,8641x1卷积1x164256164×256×1×116,384捷径1x1卷积*1x12562561256×256×1×165,536*仅当输入输出维度不匹配时需要class Bottleneck(nn.Module): expansion 4 # 最终输出通道是中间层的4倍 def __init__(self, in_channels, out_channels, stride1): super().__init__() mid_channels out_channels // self.expansion self.conv1 nn.Conv2d(in_channels, mid_channels, kernel_size1, biasFalse) self.bn1 nn.BatchNorm2d(mid_channels) self.conv2 nn.Conv2d(mid_channels, mid_channels, kernel_size3, stridestride, padding1, biasFalse) self.bn2 nn.BatchNorm2d(mid_channels) self.conv3 nn.Conv2d(mid_channels, out_channels, kernel_size1, biasFalse) self.bn3 nn.BatchNorm2d(out_channels) self.shortcut nn.Sequential() if stride ! 1 or in_channels ! out_channels: self.shortcut nn.Sequential( nn.Conv2d(in_channels, out_channels, kernel_size1, stridestride, biasFalse), nn.BatchNorm2d(out_channels) ) def forward(self, x): out F.relu(self.bn1(self.conv1(x))) out F.relu(self.bn2(self.conv2(out))) out self.bn3(self.conv3(out)) out self.shortcut(x) return F.relu(out)参数计算技巧每个卷积层的参数量 输入通道 × 输出通道 × 核宽 × 核高BatchNorm参数量 2 × 输出通道均值方差全连接层参数量 输入特征 × 输出特征 偏置3. 完整网络组装与配置ResNet-50由多个阶段stage组成每个阶段包含若干Bottleneck块且特征图尺寸逐步减半。以下是各阶段的配置表阶段块类型输出尺寸块数量总层数conv17x7卷积112x11211pool3x3最大池化56x5611stage1Bottleneck56x5639stage2Bottleneck28x28412stage3Bottleneck14x14618stage4Bottleneck7x739avgpool全局平均池化1x111fc全连接层1000类11def make_layer(block, in_channels, out_channels, num_blocks, stride): layers [] # 第一个块可能需要下采样 layers.append(block(in_channels, out_channels, stride)) # 后续块保持尺寸不变 for _ in range(1, num_blocks): layers.append(block(out_channels, out_channels, stride1)) return nn.Sequential(*layers) class ResNet(nn.Module): def __init__(self, block, num_blocks, num_classes1000): super().__init__() self.in_channels 64 self.conv1 nn.Conv2d(3, 64, kernel_size7, stride2, padding3, biasFalse) self.bn1 nn.BatchNorm2d(64) self.maxpool nn.MaxPool2d(kernel_size3, stride2, padding1) self.layer1 make_layer(block, 64, 256, num_blocks[0], stride1) self.layer2 make_layer(block, 256, 512, num_blocks[1], stride2) self.layer3 make_layer(block, 512, 1024, num_blocks[2], stride2) self.layer4 make_layer(block, 1024, 2048, num_blocks[3], stride2) self.avgpool nn.AdaptiveAvgPool2d((1, 1)) self.fc nn.Linear(2048, num_classes) def forward(self, x): x F.relu(self.bn1(self.conv1(x))) x self.maxpool(x) x self.layer1(x) x self.layer2(x) x self.layer3(x) x self.layer4(x) x self.avgpool(x) x torch.flatten(x, 1) x self.fc(x) return x4. 模型验证与特征可视化构建完网络后我们需要验证其输出尺寸是否符合预期。以下代码可以快速检查各阶段的张量形状def check_shapes(): model ResNet(Bottleneck, [3, 4, 6, 3]) x torch.randn(1, 3, 224, 224) # 模拟输入图像 print(输入尺寸:, x.shape) layers [ model.conv1, model.bn1, model.maxpool, model.layer1, model.layer2, model.layer3, model.layer4, model.avgpool, model.fc ] for layer in layers: x layer(x) print(f{layer.__class__.__name__}: {x.shape})特征可视化技巧使用TensorBoard的add_graph功能可视化计算图注册forward hook捕获中间层输出def register_hooks(model): features {} def get_hook(name): def hook(module, input, output): features[name] output.detach() return hook for name, layer in model.named_modules(): layer.register_forward_hook(get_hook(name)) return features使用torchviz生成动态计算图from torchviz import make_dot make_dot(model(x), paramsdict(model.named_parameters()))5. 预训练模型加载与微调PyTorch官方提供了预训练的ResNet-50模型我们可以直接加载并用于迁移学习from torchvision.models import resnet50 # 加载预训练模型 model resnet50(pretrainedTrue) # 冻结所有卷积层 for param in model.parameters(): param.requires_grad False # 替换最后的全连接层 num_features model.fc.in_features model.fc nn.Linear(num_features, 10) # 假设新任务有10类 # 仅训练最后的分类层 optimizer torch.optim.Adam(model.fc.parameters(), lr0.001)微调策略对比方法训练参数比例适用场景注意事项全冻结0%小数据集只能学习新分类头部分层解冻10-30%中等规模数据通常解冻最后几个Bottleneck块全模型微调100%大数据集或领域差异大需要更小的学习率在实际项目中我发现当目标数据集与ImageNet差异较大时如医学图像解冻所有层并采用分层学习率效果更好# 分层设置学习率 optimizer torch.optim.Adam([ {params: model.conv1.parameters(), lr: 1e-5}, {params: model.layer1.parameters(), lr: 1e-4}, {params: model.layer2.parameters(), lr: 1e-4}, {params: model.layer3.parameters(), lr: 1e-3}, {params: model.layer4.parameters(), lr: 1e-3}, {params: model.fc.parameters(), lr: 1e-2} ])

相关文章:

别再死记ResNet结构了!用PyTorch手把手带你复现ResNet-50(附完整代码与可视化)

从零构建ResNet-50:PyTorch实战与架构解密 当你第一次看到ResNet的残差连接时,是否曾被那个"跳跃"的结构所困惑?为什么简单的跨层连接就能解决深度网络的退化问题?本文将以工程师视角,带你用PyTorch从第一行…...

告别iTunes!在Ubuntu 22.04上使用libimobiledevice管理你的iPhone文件

告别iTunes!在Ubuntu 22.04上使用libimobiledevice管理你的iPhone文件 当Linux用户第一次将iPhone连接到Ubuntu系统时,往往会遇到一个尴尬的现实——系统无法识别这个世界上最流行的移动设备。不同于Windows和macOS,Linux默认缺乏对iOS设备的…...

2026年在株洲护脊透气床垫是啥样?

睡眠质量直接影响着我们的生活和健康,而床垫作为睡眠的关键载体,其护脊透气性能尤为重要。很多人都期待在2026年能找到一款一步到位的护脊透气床垫,那这一年的床垫究竟什么样,真能满足需求吗?下面就来深入分析。2026年…...

华为昇腾PTO指令集优化SSA架构Gather操作

华为昇腾的PTO(Pipeline Tensor Operations)指令集通过其异构流水线、内存层次优化和软硬件协同设计,为优化亚二次注意力(SSA)架构中的不规则Gather(聚集)操作提供了系统性的解决方案。这些优化…...

Allegro 17.4 Via Array 实战:3分钟搞定PCB板边与铺铜区的屏蔽过孔阵列

Allegro 17.4 Via Array高效应用:从板边屏蔽到铺铜优化的实战解析 在高速PCB设计中,过孔阵列的应用早已超越了简单的电气连接功能。资深Layout工程师们发现,合理布置的过孔阵列能够显著提升板边屏蔽效果、优化电源平面阻抗分布,甚…...

Go 入门 08:goroutine 与 channel

Go 入门 08:goroutine 与 channel 并发是 Go 的招牌特性。Rob Pike 提出 “Don’t communicate by sharing memory; share memory by communicating”——不要通过共享内存来通信,而要通过通信来共享内存。这正是 goroutine channel 的核心哲学。 一、g…...

从‘看见’到‘看懂’:手把手拆解RGB-D摄像头(如Intel Realsense)的3D视觉原理与应用

从‘看见’到‘看懂’:手把手拆解RGB-D摄像头的3D视觉原理与应用 当你第一次看到RGB-D摄像头生成的彩色点云在屏幕上旋转时,那种将现实世界数字化的震撼感令人难忘。但真正让这种设备发挥价值的,是理解它如何将光信号转化为三维坐标的完整技术…...

STM32CubeMX配置FreeRTOS时,那个不起眼的定时器TIM16到底在干嘛?新手避坑指南

STM32CubeMX配置FreeRTOS时,那个不起眼的定时器TIM16到底在干嘛?新手避坑指南 第一次在STM32CubeMX里勾选FreeRTOS组件时,很多开发者会对配置页面底部那个"Hardware Timer"选项感到困惑——为什么默认选中了TIM16?这个看…...

try-catch到底有没有性能开销

有一种说法是”try-catch 有性能开销,关键路径上不要用”。另一种说法是”try-catch 不抛异常的话没有开销”。这两种说法都不全对,开销在哪里要看具体用法。try-catch 本身不贵,异常对象才贵JVM 里,try-catch 的实现方式是在字节…...

从模型验证到单元测试:PyTorch张量比较函数(allclose/isclose/eq/equal)的5个高效应用场景

从模型验证到单元测试:PyTorch张量比较函数的高效应用场景 在PyTorch项目中,张量比较是贯穿整个机器学习工作流的基础操作。无论是验证模型收敛性、调试自定义层,还是确保数据预处理一致性,选择恰当的比较函数能显著提升开发效率和…...

用51单片机和28BYJ-48做个智能小装置:角度控制云台/旋转展示架的完整项目

用51单片机和28BYJ-48打造智能旋转云台的实战指南 项目构思与核心价值 在创客圈里,28BYJ-48步进电机因其低廉的价格和稳定的性能,成为了许多DIY项目的首选动力元件。但很多初学者拿到这个电机后,往往止步于简单的正反转控制,没能充…...

如何用浏览器脚本彻底告别网盘限速?LinkSwift八大网盘直链解析指南

如何用浏览器脚本彻底告别网盘限速?LinkSwift八大网盘直链解析指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动…...

PIC32MZ EF嵌入式开发实战:硬件FPU与多协议连接方案解析

1. 项目概述:为什么是PIC32MZ EF?在嵌入式开发领域,尤其是涉及复杂控制、实时信号处理或物联网边缘计算时,我们常常面临一个经典矛盾:对计算性能的渴求与对功耗、成本和开发复杂度的现实考量。几年前,当我接…...

阿里企业邮箱代理:阿里企业邮箱与钉钉协同办公技术实践

前言在国内企业数字化办公趋势下,单一邮件通讯早已无法满足企业日常管理需求,邮箱与内部办公软件深度融合成为主流趋势。阿里企业邮箱与钉钉生态无缝打通,实现账号互通、消息联动、日程同步、办公审批联动等多项实用功能,极大提升…...

Python迭代器实战:构建高性能懒加载积分榜系统

1. 项目概述:从“可迭代”到“可控制”的数据流在Python的世界里,处理数据集合是家常便饭。无论是从数据库拉取用户列表,还是逐行读取一个巨大的日志文件,我们总在和各种序列打交道。但你是否想过,当你写下一个简单的f…...

大模型求职避坑指南:收藏这份三层准备路径,轻松拿下高薪Offer!

本文针对大模型求职者,揭示了常见误区并提供了清晰的三层准备路径:基础能力、核心竞争力、差异化优势。文章强调刷题和背概念只是入门,真正重要的是项目经历,要能深入回答五个关键问题:项目背景、技术选型、难点解决、…...

Captain AI助力Ozon大卖店群高效管理,实现规模化运营

随着Ozon商家运营规模的扩大,多店铺运营(店群)成为很多资深大卖的选择,通过多店铺布局,可扩大市场覆盖、分散运营风险、提升整体销量。但店群运营过程中,商家常常面临“管理繁琐、数据混乱、效率低下”的问…...

Win11家庭版隐藏功能解锁:除了gpedit.msc,这些高级设置你也能用了

Win11家庭版隐藏功能深度解锁:从组策略到系统优化的高阶玩法 当你第一次在Win11家庭版中成功唤出组策略编辑器(gpedit.msc)时,面对密密麻麻的策略项是否感到无从下手?这就像拿到了一把万能钥匙,却不知道哪些…...

3步快速上手Univer:从零构建企业级办公套件的完整指南

3步快速上手Univer:从零构建企业级办公套件的完整指南 【免费下载链接】univer Build AI-native spreadsheets. Univer is a full-stack framework for creating and editing spreadsheets on both web and server. With Univer Platform, Univer Spreadsheets is d…...

降本增效突围,Captain AI助力Ozon商家提升盈利空间

在Ozon市场竞争日益激烈的当下,“销量高、利润薄”成为很多商家的共同痛点——物流成本高、人力成本高、库存积压、佣金核算复杂等问题,不断压缩商家的盈利空间。对于中小商家而言,降本增效是生存和发展的核心诉求;对于资深大卖而…...

CTF逆向新手必看:用Python脚本搞定AES、Z3、Base64这些常见加密(附避坑指南)

CTF逆向实战手册:Python脚本自动化破解高频加密算法 1. 逆向工程中的加密算法挑战 在CTF逆向题目中,加密算法就像迷宫中的隐形墙壁,看似无形却处处设障。最近三年赛事数据显示,AES、Base系列和Z3约束求解三类题型出现频率合计占比…...

GPT-4V食物识别实测:准确率真能到87.5%?我们复现了那篇论文的实验

GPT-4V食物识别技术深度测评:从实验室数据到真实场景的挑战 当一张摆盘精致的牛排照片被上传到GPT-4V界面,三秒后系统不仅识别出"肋眼牛排",还精确标注出"约350克"和"780千卡"时,这种看似科幻的场景…...

教育工作者速看!Perplexity学术搜索正在悄然替代Google Scholar(2024教育AI搜索白皮书首发)

更多请点击: https://codechina.net 第一章:教育工作者为何需要重新定义学术搜索范式 在数字学术资源呈指数级增长的今天,传统基于关键词匹配与单一数据库检索的学术搜索方式,已难以支撑教育工作者开展跨学科教学设计、证据本位课…...

CVPR 2023风向解读:多模态与扩散模型如何重塑计算机视觉

1. 从顶会风向标,看计算机视觉的“现在进行时”又到了年中盘点的时候,对于计算机视觉(CV)圈子的从业者、学生和研究者来说,每年CVPR的论文录用情况,就是一张最权威的“技术晴雨表”。它不只是一份论文列表&…...

别再复制粘贴了!深度解析STM32F429的OLED驱动代码,让你的显示更稳定

从能用走向卓越:STM32F429 OLED驱动深度优化实战 在嵌入式开发中,OLED显示屏因其高对比度、低功耗和快速响应等优势,成为许多项目的首选显示方案。然而,很多开发者在使用STM32F429驱动OLED时,往往止步于"能用&quo…...

微信好友关系检测工具完整指南:如何快速发现谁删除了你

微信好友关系检测工具完整指南:如何快速发现谁删除了你 【免费下载链接】WechatRealFriends 微信好友关系一键检测,基于微信ipad协议,看看有没有朋友偷偷删掉或者拉黑你 项目地址: https://gitcode.com/gh_mirrors/we/WechatRealFriends …...

5个实用技巧:用CaptfEncoder快速搞定网络安全编码任务

5个实用技巧:用CaptfEncoder快速搞定网络安全编码任务 【免费下载链接】CaptfEncoder Captfencoder is opensource a rapid cross platform network security tool suite, providing network security related code conversion, classical cryptography, cryptograp…...

卡尔曼滤波:从噪声数据中提取最优估计的核心算法

1. 项目概述:从“猜”到“算”的智慧如果你曾经尝试过用手机导航,或者玩过需要控制无人机、机器人的游戏,甚至只是好奇自动驾驶汽车是如何“看清”这个世界的,那么你很可能已经间接接触过卡尔曼滤波。这个名字听起来有点高深&…...

对比官方直连体验Taotoken在模型调用稳定性上的差异感受

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比官方直连体验Taotoken在模型调用稳定性上的差异感受 作为一名长期与各类大模型API打交道的开发者,我习惯于直接调用…...

ARM Cortex-M微控制器与瑞萨RA系列开发实战指南

1. 项目概述:从“ARM”到“瑞萨RA”的认知之旅在嵌入式开发的江湖里,如果你还在纠结于8位、16位单片机的选型,或者对“ARM Cortex-M”这个名词感到既熟悉又陌生,那么这篇文章就是为你准备的。我接触过不少从传统8051、AVR转型过来…...