当前位置：首页 > article >正文

Visual Mamba实战：从零开始搭建图像分类模型（附PyTorch代码）

article 2026/4/20 12:49:24

Visual Mamba实战从零开始搭建图像分类模型附PyTorch代码视觉TransformerViT的出现彻底改变了计算机视觉领域但其二次计算复杂度限制了在大规模图像上的应用。Mamba作为一种选择性结构化状态空间模型SSM凭借线性计算复杂度和长序列建模能力正在成为视觉任务的新选择。本文将手把手带你用PyTorch实现一个完整的Visual Mamba图像分类模型。1. 环境配置与依赖安装在开始之前我们需要准备Python 3.8环境和必要的依赖库。推荐使用conda创建虚拟环境以避免依赖冲突conda create -n vmamba python3.8 conda activate vmamba安装核心依赖包pip install torch2.0.0 torchvision0.15.1 pip install mamba-ssm1.0.0 pip install timm0.9.2 # 用于数据增强和模型工具注意确保你的CUDA版本与PyTorch版本兼容。对于CUDA 11.7可以使用torch2.0.0cu117验证安装是否成功import torch print(torch.__version__) # 应输出2.0.0 print(torch.cuda.is_available()) # 应输出True硬件要求建议GPU: NVIDIA RTX 3090及以上24GB显存内存: 32GB以上存储: 至少50GB空闲空间用于数据集和模型缓存2. 数据准备与预处理我们使用CIFAR-10数据集作为示例但同样的流程可以迁移到ImageNet等更大规模的数据集。首先实现一个高效的数据加载管道from torchvision import datasets, transforms from torch.utils.data import DataLoader def get_cifar10_loaders(batch_size128): train_transform transforms.Compose([ transforms.RandomHorizontalFlip(), transforms.RandomCrop(32, padding4), transforms.ToTensor(), transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2470, 0.2435, 0.2616)) ]) test_transform transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2470, 0.2435, 0.2616)) ]) train_set datasets.CIFAR10(root./data, trainTrue, downloadTrue, transformtrain_transform) test_set datasets.CIFAR10(root./data, trainFalse, downloadTrue, transformtest_transform) train_loader DataLoader(train_set, batch_sizebatch_size, shuffleTrue, num_workers4, pin_memoryTrue) test_loader DataLoader(test_set, batch_sizebatch_size*2, shuffleFalse, num_workers4, pin_memoryTrue) return train_loader, test_loader对于自定义数据集建议遵循以下目录结构custom_dataset/ ├── train/ │ ├── class1/ │ │ ├── img1.jpg │ │ └── ... │ └── class2/ │ └── ... └── val/ ├── class1/ └── class2/数据增强策略对比增强方法适用场景参数建议RandomResizedCrop通用scale(0.08, 1.0), ratio(0.75, 1.33)ColorJitter色彩敏感任务brightness0.4, contrast0.4, saturation0.4Cutout防止过拟合n_holes1, length16MixUp小样本学习alpha0.23. Visual Mamba模型实现我们基于VMamba架构实现一个精简版视觉Mamba模型。首先实现核心的SS2D选择性状态空间2D模块import torch import torch.nn as nn from mamba_ssm import Mamba class SS2D(nn.Module): def __init__(self, dim, d_state16, d_conv4, expand2): super().__init__() self.dim dim self.d_state d_state self.d_conv d_conv self.expand expand self.in_proj nn.Linear(dim, dim * expand) # 四个方向的Mamba模块 self.conv_h Mamba(dim, d_stated_state, d_convd_conv) self.conv_v Mamba(dim, d_stated_state, d_convd_conv) self.conv_d1 Mamba(dim, d_stated_state, d_convd_conv) self.conv_d2 Mamba(dim, d_stated_state, d_convd_conv) self.out_proj nn.Linear(dim * expand, dim) def forward(self, x): B, C, H, W x.shape x x.permute(0, 2, 3, 1) # B,H,W,C # 水平扫描 x_h x.reshape(B*H, W, C) x_h self.conv_h(x_h).reshape(B, H, W, C) # 垂直扫描 x_v x.transpose(1,2).reshape(B*W, H, C) x_v self.conv_v(x_v).reshape(B, W, H, C).transpose(1,2) # 对角线扫描 x_d1 self._diagonal_scan(x, direction1) x_d1 self.conv_d1(x_d1) x_d1 self._diagonal_unscan(x_d1, direction1) x_d2 self._diagonal_scan(x, direction-1) x_d2 self.conv_d2(x_d2) x_d2 self._diagonal_unscan(x_d2, direction-1) # 合并所有方向 x_out torch.cat([x_h, x_v, x_d1, x_d2], dim-1) x_out self.out_proj(x_out) return x_out.permute(0, 3, 1, 2) def _diagonal_scan(self, x, direction1): B, H, W, C x.shape indices self._get_diagonal_indices(H, W, direction) return x[:, indices[0], indices[1], :].reshape(B, -1, C) def _diagonal_unscan(self, x, direction1): B, L, C x.shape H W int((2*L)**0.5) indices self._get_diagonal_indices(H, W, direction) out torch.zeros(B, H, W, C, devicex.device) out[:, indices[0], indices[1], :] x.reshape(B, -1, C) return out def _get_diagonal_indices(self, H, W, direction): # 生成对角线扫描的索引 indices [] if direction 0: for s in range(H W -1): i torch.arange(max(0, s-W1), min(s1, H)) j s - i indices.append((i, j)) else: for s in range(H W -1): i torch.arange(max(0, s-W1), min(s1, H)) j (W-1) - (s - i) indices.append((i, j)) return (torch.cat([i for i,_ in indices]), torch.cat([j for _,j in indices]))接下来构建完整的VMamba模型class PatchEmbed(nn.Module): def __init__(self, img_size224, patch_size16, in_chans3, embed_dim768): super().__init__() self.proj nn.Conv2d(in_chans, embed_dim, kernel_sizepatch_size, stridepatch_size) self.norm nn.LayerNorm(embed_dim) def forward(self, x): x self.proj(x) # B,C,H,W x x.permute(0, 2, 3, 1) # B,H,W,C x self.norm(x) return x.permute(0, 3, 1, 2) # B,C,H,W class VMambaBlock(nn.Module): def __init__(self, dim, drop_path0.): super().__init__() self.norm1 nn.LayerNorm(dim) self.ss2d SS2D(dim) self.drop_path DropPath(drop_path) if drop_path 0. else nn.Identity() self.norm2 nn.LayerNorm(dim) self.mlp nn.Sequential( nn.Linear(dim, dim * 4), nn.GELU(), nn.Linear(dim * 4, dim) ) def forward(self, x): B, C, H, W x.shape shortcut x.permute(0, 2, 3, 1) # B,H,W,C # SS2D分支 x x.permute(0, 2, 3, 1) # B,H,W,C x self.norm1(x) x x.permute(0, 3, 1, 2) # B,C,H,W x self.ss2d(x) x x.permute(0, 2, 3, 1) # B,H,W,C x self.drop_path(x) shortcut # MLP分支 shortcut x x self.norm2(x) x self.mlp(x) x self.drop_path(x) shortcut return x.permute(0, 3, 1, 2) # B,C,H,W class VMamba(nn.Module): def __init__(self, img_size224, patch_size16, in_chans3, num_classes1000, embed_dims[64, 128, 256, 512], depths[2, 2, 9, 2], drop_path_rate0.1): super().__init__() self.num_stages len(depths) self.embed_dims embed_dims # 分阶段的下采样和特征提取 self.patch_embed PatchEmbed(img_size, patch_size, in_chans, embed_dims[0]) dpr [x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))] self.stages nn.ModuleList() for i in range(self.num_stages): stage nn.Sequential( *[VMambaBlock(embed_dims[i], dpr[sum(depths[:i])j]) for j in range(depths[i])] ) self.stages.append(stage) if i self.num_stages - 1: self.stages.append(PatchEmbed( img_size // (2**(i1)), 2, embed_dims[i], embed_dims[i1] )) self.norm nn.LayerNorm(embed_dims[-1]) self.head nn.Linear(embed_dims[-1], num_classes) def forward(self, x): # 图像分块嵌入 x self.patch_embed(x) # B,C,H,W # 分阶段处理 for stage in self.stages: x stage(x) # 全局平均池化和分类头 x x.mean(dim[2, 3]) # B,C x self.norm(x) x self.head(x) return x模型配置示例def vmamba_tiny(num_classes1000): return VMamba( embed_dims[96, 192, 384, 768], depths[2, 2, 9, 2], drop_path_rate0.1, num_classesnum_classes ) def vmamba_small(num_classes1000): return VMamba( embed_dims[96, 192, 384, 768], depths[2, 2, 18, 2], drop_path_rate0.3, num_classesnum_classes )4. 模型训练与调优实现完整的训练流程包含学习率调度和混合精度训练import torch.optim as optim from torch.cuda.amp import GradScaler, autocast def train_model(model, train_loader, test_loader, epochs100, lr1e-3): device torch.device(cuda if torch.cuda.is_available() else cpu) model model.to(device) # 优化器和学习率调度 optimizer optim.AdamW(model.parameters(), lrlr, weight_decay0.05) scheduler optim.lr_scheduler.CosineAnnealingLR(optimizer, T_maxepochs) # 损失函数 criterion nn.CrossEntropyLoss() # 混合精度训练 scaler GradScaler() best_acc 0.0 for epoch in range(epochs): model.train() train_loss 0.0 correct 0 total 0 for inputs, labels in train_loader: inputs, labels inputs.to(device), labels.to(device) optimizer.zero_grad() with autocast(): outputs model(inputs) loss criterion(outputs, labels) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update() train_loss loss.item() _, predicted outputs.max(1) total labels.size(0) correct predicted.eq(labels).sum().item() train_acc 100. * correct / total test_acc evaluate(model, test_loader, device) print(fEpoch: {epoch1}/{epochs} | fTrain Loss: {train_loss/len(train_loader):.4f} | fTrain Acc: {train_acc:.2f}% | fTest Acc: {test_acc:.2f}%) scheduler.step() if test_acc best_acc: best_acc test_acc torch.save(model.state_dict(), best_model.pth) print(fBest Test Accuracy: {best_acc:.2f}%) def evaluate(model, test_loader, device): model.eval() correct 0 total 0 with torch.no_grad(): for inputs, labels in test_loader: inputs, labels inputs.to(device), labels.to(device) outputs model(inputs) _, predicted outputs.max(1) total labels.size(0) correct predicted.eq(labels).sum().item() return 100. * correct / total关键训练技巧学习率预热前5个epoch线性增加学习率def warmup_scheduler(optimizer, warmup_epochs, base_lr): def lr_lambda(epoch): if epoch warmup_epochs: return (epoch 1) / warmup_epochs return 1.0 return optim.lr_scheduler.LambdaLR(optimizer, lr_lambda)梯度裁剪防止梯度爆炸torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm1.0)模型EMA提升模型鲁棒性class ModelEMA: def __init__(self, model, decay0.9999): self.model model self.decay decay self.shadow {k: v.clone() for k, v in model.named_parameters()} def update(self): with torch.no_grad(): for name, param in self.model.named_parameters(): self.shadow[name] self.shadow[name] * self.decay param.data * (1 - self.decay)5. 模型部署与性能优化训练完成后我们需要优化模型以便部署。首先实现模型量化def quantize_model(model, calib_loader): model.eval() model.qconfig torch.quantization.get_default_qat_qconfig(fbgemm) # 融合模型中的ConvBNReLU等操作 torch.quantization.fuse_modules(model, [[conv1, bn1, relu]], inplaceTrue) # 准备量化 quant_model torch.quantization.prepare_qat(model) # 校准 with torch.no_grad(): for inputs, _ in calib_loader: quant_model(inputs) # 转换量化模型 quant_model torch.quantization.convert(quant_model) return quant_model性能优化技巧TensorRT加速import tensorrt as trt def build_engine(onnx_path, engine_path): logger trt.Logger(trt.Logger.INFO) builder trt.Builder(logger) network builder.create_network(1 int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)) parser trt.OnnxParser(network, logger) with open(onnx_path, rb) as model: parser.parse(model.read()) config builder.create_builder_config() config.set_memory_pool_limit(trt.MemoryPoolType.WORKSPACE, 1 30) serialized_engine builder.build_serialized_network(network, config) with open(engine_path, wb) as f: f.write(serialized_engine)ONNX导出torch.onnx.export( model, torch.randn(1, 3, 224, 224), model.onnx, input_names[input], output_names[output], dynamic_axes{ input: {0: batch}, output: {0: batch} } )内存优化使用梯度检查点减少内存占用启用torch.backends.cudnn.benchmark True加速卷积运算使用torch.utils.checkpoint进行内存-计算权衡6. 常见问题解决方案在实际应用中可能会遇到以下问题问题1训练初期损失不下降检查数据预处理是否正确尝试更小的学习率如1e-4验证模型是否能过拟合小批量数据问题2验证集准确率波动大增加批量大小使用更激进的数据增强尝试Label Smoothing技术问题3显存不足减小批量大小使用梯度累积accumulation_steps 4 for i, (inputs, labels) in enumerate(train_loader): with autocast(): outputs model(inputs) loss criterion(outputs, labels) / accumulation_steps scaler.scale(loss).backward() if (i1) % accumulation_steps 0: scaler.step(optimizer) scaler.update() optimizer.zero_grad()问题4模型推理速度慢启用半精度推理torch.no_grad() def infer(model, input_tensor): model.half() input_tensor input_tensor.half() return model(input_tensor)使用torch.jit.trace进行脚本优化考虑使用更小的模型变体7. 进阶技巧与扩展应用7.1 自监督预训练实现一个简单的MAEMasked Autoencoder预训练任务class MaskedAutoencoder(nn.Module): def __init__(self, encoder, decoder_dim512): super().__init__() self.encoder encoder self.mask_ratio 0.75 # 简单的解码器 self.decoder nn.Sequential( nn.Linear(encoder.embed_dims[-1], decoder_dim), nn.GELU(), nn.Linear(decoder_dim, 3 * 16 * 16) # 预测16x16补丁的RGB值 ) def random_masking(self, x): B, C, H, W x.shape len_keep int((1 - self.mask_ratio) * (H // 16) * (W // 16)) noise torch.rand(B, (H // 16) * (W // 16), devicex.device) ids_shuffle torch.argsort(noise, dim1) ids_keep ids_shuffle[:, :len_keep] return ids_keep def forward(self, x): # 生成随机掩码 ids_keep self.random_masking(x) # 编码可见补丁 x_enc self.encoder(x, ids_keep) # 解码所有补丁 pred self.decoder(x_enc) # 计算重建损失 target x.unfold(2, 16, 16).unfold(3, 16, 16) target target.permute(0, 2, 3, 1, 4, 5).reshape(x.size(0), -1, 3*16*16) loss F.mse_loss(pred, target, reductionnone).mean(dim-1) # 只计算掩码部分的损失 mask torch.ones_like(loss) mask.scatter_(1, ids_keep, 0) loss (loss * mask).sum() / mask.sum() return loss7.2 多模态应用将Visual Mamba扩展到多模态任务图像-文本class MultiModalMamba(nn.Module): def __init__(self, image_encoder, text_encoder, embed_dim512): super().__init__() self.image_encoder image_encoder self.text_encoder text_encoder # 投影头 self.image_proj nn.Linear(image_encoder.embed_dims[-1], embed_dim) self.text_proj nn.Linear(text_encoder.d_model, embed_dim) # 温度参数 self.logit_scale nn.Parameter(torch.ones([]) * np.log(1 / 0.07)) def forward(self, image, text): # 图像特征 image_features self.image_encoder(image) image_features self.image_proj(image_features.mean(dim[2, 3])) image_features image_features / image_features.norm(dim1, keepdimTrue) # 文本特征 text_features self.text_encoder(text) text_features self.text_proj(text_features[:, 0, :]) text_features text_features / text_features.norm(dim1, keepdimTrue) # 对比损失 logit_scale self.logit_scale.exp() logits_per_image logit_scale * image_features text_features.t() logits_per_text logits_per_image.t() return logits_per_image, logits_per_text7.3 目标检测扩展将VMamba作为Faster R-CNN的主干网络from torchvision.models.detection import FasterRCNN from torchvision.models.detection.rpn import AnchorGenerator def build_detection_model(num_classes): # 骨干网络 backbone VMamba(embed_dims[96, 192, 384, 768], depths[2, 2, 9, 2]) # 返回的特征图 return_layers { stages.1: 0, # stride 8 stages.3: 1, # stride 16 stages.5: 2, # stride 32 } # 创建特征提取器 backbone torchvision.models._utils.IntermediateLayerGetter(backbone, return_layers) # 锚点生成器 anchor_sizes ((32,), (64,), (128,), (256,), (512,)) aspect_ratios ((0.5, 1.0, 2.0),) * len(anchor_sizes) anchor_generator AnchorGenerator(anchor_sizes, aspect_ratios) # ROI Pooling roi_pooler torchvision.ops.MultiScaleRoIAlign( featmap_names[0, 1, 2], output_size7, sampling_ratio2 ) # 构建Faster R-CNN模型 model FasterRCNN( backbone, num_classesnum_classes, rpn_anchor_generatoranchor_generator, box_roi_poolroi_pooler ) return model在实际项目中Visual Mamba展现出了与Transformer相当的性能同时计算效率更高。特别是在处理高分辨率图像时其线性复杂度优势更为明显。

Visual Mamba实战：从零开始搭建图像分类模型（附PyTorch代码）

相关文章：

Visual Mamba实战：从零开始搭建图像分类模型（附PyTorch代码）

Hilbert变换分析瞬时频率翻车？可能是你的信号不是‘单分量’！附MATLAB代码诊断与解决方案

CVAT、LabelImg、Labelme怎么选？一文讲清不同标注工具的核心差异与适用场景

3步实现CATIA自动化装配：PyCATIA二次开发提升工程效率指南

绝地求生罗技鼠标宏终极配置指南：5分钟快速实现无后坐力压枪

从内存窥探到网络封包：实战讲解C/C++中二进制、十六进制输出的5个高频应用场景

保姆级教程：用Python+Simulink快速搭建一个简易的车辆侧翻预警仿真模型

AI 生码 - D2C：主流设计转代码工具对比

NVMe存储管理实战指南：5步掌握nvme-cli核心技巧

别再只用SIFT了！Colmap实战：用自定义特征（如SuperPoint）替换SIFT-GPU的完整流程

Kotaemon保姆级教程：从零开始搭建私有化RAG系统

富士胶片ApeosPort 3410SD静态IP设置保姆级教程：解决驱动装完找不到打印机的坑

从实验室到报告：如何用Matplotlib把你的Python数据分析结果‘包装’成专业图表（含多子图布局与样式美化）

不只是足球：用RoboCup3D和RoboViz开启你的多智能体强化学习实验环境

Stanford Doggo故障排除指南：7个核心调试技巧解决四足机器人常见问题

如何将LTspice仿真数据高效导入MATLAB？实用技巧与自动化处理指南

PyTorch DataLoader内存优化实战：num_workers和batch_size到底怎么调才不会崩？

3分钟快速上手：d2s-editor暗黑2存档编辑器的完整使用指南

别买Apple TV了！用树莓派4B+开源软件RPiPlay，打造你的AirPlay投屏接收器（保姆级教程）

高通平台Android稳定性调试笔记：手把手教你用T32、Crash Utility分析Kernel Panic与RAM Dump

DeepSeek-R1-Distill-Qwen-1.5B量化方案对比：Q4_K_M vs Q3_K_S哪个更适合你？

tao-8k快速上手：Xinference镜像5分钟部署教程，轻松处理长文档向量化

EPSON LS3-401S与上位机通信的5个常见问题及解决方案

【限时解禁】Dify 2026私有化部署文档解析加速方案：仅开放给前200家企业的3项未公开API调优参数

C++20标准中的范围（Ranges）库：功能与应用概览

EF Core 10向量扩展上线倒计时：3个被官方文档隐藏的NuGet依赖陷阱，90%项目部署失败源于此

5G NR测量配置全解析：从SSB波束管理到CSI-RS，一篇讲透与LTE的十大区别

3步实现跨平台图表编辑自由：drawio-desktop终极解决方案

Linux打印机驱动终极救星：foo2zjs如何让100+型号打印机在Linux上完美工作

从外卖派单到共享单车：深入拆解Geohash如何成为LBS应用的“网格引擎”