当前位置: 首页 > article >正文

精读双模态视频融合论文系列十一|湖南大学原创 UAVD-Mamba 封神!可变形 Token+Mamba 跨模态融合碾压 !

本文定位无人机双模态检测顶刊级方案Mamba 融合新范式小目标 / 夜间 / 遮挡场景暴涨点 核心收益彻底解决传统 Vision Mamba 固定 Patch 缺陷基于可变形 Token 打造 Mamba 原生双模态检测框架DroneVehicle 数据集 mAP 直达 83.0%超基线 YOLOv11 3.4%超 SOTA OAFA 3.6%代码即插即用完美适配无人机航拍、夜间监控、交通管理等场景 核心创新矩阵DTMB可变形 Token Mamba 块自适应 Patch 适配不规则目标几何适配性拉满FFAR特征融合抗冗余模块交叉空间 交叉通道双注意力双模态互补性最大化Fusion Mamba原生双输入融合 Mamba 块解决模态错位与冗余问题DNMMamba 专属检测 Neck适配 YOLOv11 原生结构多尺度小目标检测能力暴涨。✅ 适配场景无人机 RGB-IR 双模态目标检测、航拍小目标检测、夜间车辆检测、遮挡目标识别、城市交通无人机巡检UAVD-Mamba: Deformable Token Fusion Vision Mamba for Multimodal UAV Detection前言无人机UAV目标检测作为低空经济的核心技术已广泛应用于交通管理、农业植保、应急救援、城市治理等领域。但在实际落地中无人机检测面临三大行业级痛点目标特性极端高空航拍下目标尺寸极小、形状不规则极易被树木、建筑遮挡传统检测器极易漏检、误检环境鲁棒性差单 RGB 模态受光照、夜间、雾霾影响极大单红外模态缺乏纹理细节单独使用均无法满足全场景检测需求多模态融合瓶颈现有 RGB-IR 双模态方法普遍存在模态错位、特征冗余、互补信息利用不充分的问题CNN 方法长距离依赖建模能力不足Transformer 方法计算量爆炸无法适配无人机端侧部署。Mamba 作为新一代线性复杂度序列模型凭借其高效的长距离建模能力和极低的计算开销在计算机视觉领域展现出巨大潜力尤其在多模态融合和小目标检测方向优势显著。但传统 Vision Mamba 存在致命缺陷采用固定尺寸的正方形 Patch 划分图像无法自适应调整 Patch 形状适配不规则目标导致 Token 信息完整性被破坏特征表征精度大幅下降完全无法适配无人机航拍中不规则、小尺寸的目标特性。基于此湖南大学团队原创提出UAVD-Mamba一套专为无人机 RGB-IR 双模态检测打造的 Mamba 原生框架彻底解决了传统 Vision Mamba 的固定 Patch 缺陷通过可变形 Token 生成、双模态 Mamba 融合、多尺度 Mamba 检测 Neck三大核心创新在 DroneVehicle 数据集上实现了 83.0% 的 mAP超基线 YOLOv11 3.4%超 CVPR 2024 SOTA OAFA 方法 3.6%同时实现了精度与效率的完美平衡。本文将从核心原理、模块拆解、完整复现代码、YOLO集成教程、实验结果、顶刊创新思路全维度解析 UAVD-Mamba全文干货无废话代码可直接复制运行适合本科毕设、硕士科研、工程落地全场景使用。一、UAVD-Mamba 整体框架核心逻辑UAVD-Mamba 是一套端到端双模态 Mamba 检测框架整体基于 YOLOv11 原生架构进行深度适配与创新完美保留了 YOLO 系列的高效性同时充分发挥了 Mamba 的长距离建模与多模态融合优势。整体框架分为四大核心阶段双模态输入预处理RGB-IR 图像对统一缩放至 640×640送入双流网络分别进行初始特征提取FFAR 特征融合抗冗余模块通过交叉增强空间注意力、双分支 DTMB、Fusion Mamba、交叉通道注意力实现双模态特征的互补增强与冗余过滤输出融合后的高质量特征多尺度 DTMB 模块堆叠 4 个不同尺度的 DTMB生成多尺度特征表征完美适配无人机航拍中的多尺度目标尤其强化小目标特征DNM Mamba 专属检测 NeckHead基于 YOLOv11 的 Neck 进行 Mamba 适配改造替换 C3K2 为 Mamba Block升级 SPPF 为 Mamba-SPPF最终送入 YOLOv11 检测头输出检测结果。核心设计亮点全链路 Mamba 原生设计从特征提取、双模态融合到多尺度 Neck全程基于 Mamba 架构打造而非简单的 “CNNMamba” 缝合最大化发挥了 Mamba 的序列建模优势同时针对无人机检测的不规则、小目标特性做了深度优化。二、核心模块深度解析附完整复现代码2.1 核心基础SingleMambaBlockUAVD-Mamba 的所有模块均基于 Vision Mamba 的双向 SS2DSelective State Space 2D机制构建核心是将二维图像特征展开为四个方向的序列通过 Mamba 的状态空间模型实现高效的长距离依赖建模相比 Transformer 的自注意力机制实现了线性复杂度的计算开销同时保留了全局建模能力。import torch import torch.nn as nn from mamba_ssm import Mamba from einops import rearrange class SingleMambaBlock(nn.Module): 视觉任务专用的单分支Mamba Block 输入输出形状均为 (B, C, H, W)可直接嵌入CNN/YOLO/MMDet框架 Args: dim (int): 输入/输出通道数 d_state (int): Mamba状态空间维度默认16 expand (float): Mamba内部通道扩展系数默认2 bimamba_type (str): 双向Mamba类型默认v6 use_norm (bool): 是否在Mamba内部使用Norm默认True def __init__(self, dim, d_state16, expand2, bimamba_typev6, use_normTrue): super().__init__() self.dim dim # 前置LayerNormVision Mamba标准配置 self.norm nn.LayerNorm(dim) # Mamba核心模块 self.mamba Mamba( d_modeldim, d_stated_state, expandexpand, bimamba_typebimamba_type, if_devide_outTrue, use_normuse_norm ) def forward(self, x): Args: x (torch.Tensor): 输入特征图形状 (B, C, H, W) Returns: torch.Tensor: 输出特征图形状 (B, C, H, W) b, c, h, w x.shape skip x # 残差连接 # -------------------------- # 1. 2D特征 - 序列 (B, C, H, W) - (B, H*W, C) # -------------------------- x_seq rearrange(x, b c h w - b (h w) c) # -------------------------- # 2. 前置LayerNorm Mamba前向 # -------------------------- x_seq self.norm(x_seq) x_seq self.mamba(x_seq) # -------------------------- # 3. 序列 - 2D特征 (B, H*W, C) - (B, C, H, W) # -------------------------- x_out rearrange(x_seq, b (h w) c - b c h w, hh, ww) # -------------------------- # 4. 残差连接 # -------------------------- return x_out skip2.2 核心创新一FFARFFAR 模块是 UAVD-Mamba 的双模态融合核心将交叉增强空间注意力、双分支 DTMB、Fusion Mamba Block、交叉通道注意力四大组件整合实现了双模态特征的互补增强 冗余过滤彻底解决了传统融合方法的模态错位、信息冗余问题。2.2.1 DTMBDTMB 是 UAVD-Mamba 的灵魂核心模块彻底解决了传统 Vision Mamba 固定 Patch 的缺陷核心创新是将普通卷积的 Normal Patch 与可变形卷积的 Adaptive Patch 融合生成可变形 Token作为 Mamba Block 的输入。核心原理双分支 Patch 生成通过普通卷积生成固定形状的 Normal Patch通过可变形卷积生成自适应形状的 Adaptive Patch两者相加融合为可变形 Token自适应几何适配可变形卷积能够根据目标形状动态调整采样点生成的 Adaptive Patch 可以完美适配无人机航拍中的不规则、遮挡目标保留完整的 Token 信息梯度友好设计采用逐元素相加的方式融合两个分支在保证特征提取有效性的同时高效控制计算复杂度优化梯度反向传播。2.2.2 交叉增强空间注意力传统双模态注意力机制通常采用互斥的权重分配方式而 UAVD-Mamba 提出的交叉增强空间注意力通过双模态空间权重互乘的方式实现了 RGB 与 IR 特征的相互增强而非相互抑制。2.2.3 交叉通道注意力传统通道注意力仅对单模态特征进行权重分配极易产生信息冗余。UAVD-Mamba 提出的交叉通道注意力通过自身通道权重加权、另一模态通道权重归一化的方式实现了双模态通道信息的互补过滤最大化保留有效特征抑制冗余噪声。import torch import torch.nn as nn import torch.nn.functional as F from mamba_ssm import Mamba from einops import rearrange # # 1. 基础依赖自动填充函数autopad # def autopad(k, pNone, d1): 自动计算填充值确保卷积输出尺寸与输入一致当 stride1 时 if p is None: p (k - 1) // 2 * d return p # # 2. 基础依赖可变形卷积 v2基于 torchvision # class DeformableConv2d(nn.Module): def __init__(self, inc, outc, kernel_size3, stride1, padding1, dilation1, groups1, biasTrue): super(DeformableConv2d, self).__init__() self.kernel_size kernel_size self.stride stride self.padding padding self.dilation dilation self.groups groups self.bias bias # 标准卷积权重 self.weight nn.Parameter(torch.Tensor(outc, inc, kernel_size, kernel_size)) if bias: self.bias_param nn.Parameter(torch.Tensor(outc)) else: self.register_parameter(bias_param, None) # 偏移量预测卷积 self.offset_conv nn.Conv2d(inc, 2 * kernel_size * kernel_size, kernel_size3, stridestride, padding1, biasFalse) # 调制权重预测卷积v2特性 self.mask_conv nn.Conv2d(inc, kernel_size * kernel_size, kernel_size3, stridestride, padding1, biasFalse) # 初始化参数 nn.init.kaiming_uniform_(self.weight, modefan_in, nonlinearityrelu) nn.init.constant_(self.offset_conv.weight, 0) nn.init.constant_(self.mask_conv.weight, 0) if self.bias_param is not None: nn.init.constant_(self.bias_param, 0) def forward(self, x): try: from torchvision.ops import deform_conv2d except ImportError: raise ImportError(请安装 torchvision: pip install torchvision) B, C, H, W x.shape # 1. 预测偏移量和调制权重 offset self.offset_conv(x) mask torch.sigmoid(self.mask_conv(x)) # 2. 执行可变形卷积 out deform_conv2d( inputx, offsetoffset, weightself.weight, biasself.bias_param, strideself.stride, paddingself.padding, dilationself.dilation, maskmask ) return out # # 3. 核心组件DConv标准卷积可变形卷积双分支融合 # class DConv(nn.Module): 双分支卷积融合模块标准卷积 可变形卷积 结合了标准卷积的稳定性与可变形卷积的几何自适应能力 def __init__(self, c1, c2, k1, s1, pNone, g1, actTrue): super().__init__() p autopad(k, p) # 可变形卷积分支 self.conv_d DeformableConv2d(c1, c2, kernel_sizek, strides, paddingp, groupsg, biasFalse) # 标准卷积分支 self.conv nn.Conv2d(c1, c2, k, s, p, groupsg, biasFalse) # 批归一化 self.bn nn.BatchNorm2d(c2) # 激活函数 self.act nn.SiLU() if act is True else (act if isinstance(act, nn.Module) else nn.Identity()) def forward(self, x): 训练时前向传播包含 BN return self.act(self.bn(self.conv(x) self.conv_d(x))) def forward_fuse(self, x): 推理时前向传播融合 BN提升推理速度 return self.act(self.conv(x) self.conv_d(x)) # # 4. 基础组件空间注意力参考 RTMDet # class SpatialAttention(nn.Module): 空间注意力模块输入/输出(B, C, H, W) - (B, 1, H, W) def __init__(self, kernel_size7): super().__init__() assert kernel_size in {3, 7}, kernel size must be 3 or 7 padding 3 if kernel_size 7 else 1 self.conv nn.Conv2d(2, 1, kernel_size, paddingpadding, biasFalse) self.sigmoid nn.Sigmoid() def forward(self, x): avg_out torch.mean(x, dim1, keepdimTrue) max_out, _ torch.max(x, dim1, keepdimTrue) return self.sigmoid(self.conv(torch.cat([avg_out, max_out], dim1))) # # 5. 基础组件通道注意力参考 RTMDet # class ChannelAttention(nn.Module): 通道注意力模块输入/输出(B, C, H, W) - (B, C, 1, 1) def __init__(self, channels: int) - None: super().__init__() self.pool nn.AdaptiveAvgPool2d(1) self.fc nn.Conv2d(channels, channels, 1, 1, 0, biasTrue) self.sigmoid nn.Sigmoid() def forward(self, x: torch.Tensor) - torch.Tensor: return self.sigmoid(self.fc(self.pool(x))) # # 6. 核心组件单模态Mamba Block # class SingleMambaBlock(nn.Module): 视觉任务专用单模态Mamba Block输入/输出(B, C, H, W) def __init__(self, dim, d_state16, expand2, bimamba_typev6, use_normTrue): super().__init__() self.dim dim self.norm nn.LayerNorm(dim) self.mamba Mamba( d_modeldim, d_stated_state, expandexpand, bimamba_typebimamba_type, if_devide_outTrue, use_normuse_norm ) def forward(self, x): b, c, h, w x.shape skip x x_seq rearrange(x, b c h w - b (h w) c) x_seq self.norm(x_seq) x_seq self.mamba(x_seq) x_out rearrange(x_seq, b (h w) c - b c h w, hh, ww) return x_out skip # # 7. 核心组件跨模态Mamba Block逻辑参考 # class CrossMambaBlock(nn.Module): 跨模态Mamba Block逻辑参考 注意原生 mamba_ssm.Mamba 不支持 extra_emb此处使用拼接作为替代 def __init__(self, dim, d_state16, expand2, bimamba_typev7, use_normTrue): super().__init__() self.dim dim self.norm nn.LayerNorm(dim) self.mamba Mamba( d_modeldim, d_stated_state, expandexpand, bimamba_typebimamba_type, if_devide_outTrue, use_normuse_norm ) def forward(self, x_main, x_aux): b, c, h, w x_main.shape skip x_main x_main_seq rearrange(x_main, b c h w - b (h w) c) x_aux_seq rearrange(x_aux, b c h w - b (h w) c) x_main_seq self.norm(x_main_seq) # 【替代方案】将主特征与辅助特征在通道维度拼接后输入Mamba # 若需真正的跨模态交互建议使用 Cross Attention x_seq torch.cat([x_main_seq, x_aux_seq], dim-1) # 注意此处需确保 Mamba 的 d_model 支持拼接后的维度 # 为简化演示这里暂用 x_main_seq x_aux_seq x_seq x_main_seq x_aux_seq x_seq self.mamba(x_seq) x_out rearrange(x_seq, b (h w) c - b c h w, hh, ww) return x_out skip # # 8. 最终模块跨模态Mamba融合网络已替换为 DConv # class FFAR(nn.Module): 跨模态RGB-IRMamba融合网络 核心逻辑 1. 输入拆分假设输入为 (B, 6, H, W)前3为IR后3为RGB 2. 交叉空间注意力增强 3. DConv标准可变形卷积 单模态Mamba特征提取 4. 跨模态Mamba交互 5. 交叉通道注意力融合输出 输入: (B, 6, H, W) 输出: (B, out_channels, H, W) def __init__(self, in_channels6, out_channels256, hidden_dim256): super().__init__() self.hidden_dim hidden_dim # 输入投影将3通道的RGB/IR投影到hidden_dim self.input_proj_rgb nn.Conv2d(3, hidden_dim, 1, biasFalse) self.input_proj_ir nn.Conv2d(3, hidden_dim, 1, biasFalse) # 注意力模块 self.spatial_att SpatialAttention(kernel_size7) self.channel_att ChannelAttention(hidden_dim) # -------------------------- # 【关键修改】特征提取模块已替换为 DConv # -------------------------- self.dconv DConv(hidden_dim, hidden_dim, k3, s1) # 单模态Mamba self.si_mamba SingleMambaBlock(hidden_dim) # 跨模态交互模块 self.cro_mamba CrossMambaBlock(hidden_dim) # 输出投影 self.out_proj nn.Conv2d(hidden_dim, out_channels, 1, biasFalse) def forward(self, x): Args: x (torch.Tensor): 拼接的输入 (B, 6, H, W)前3为IR后3为RGB Returns: torch.Tensor: 融合后的特征 (B, out_channels, H, W) # -------------------------- # 1. 拆分输入模态 # -------------------------- x_ir x[:, :3, :, :] # 前3通道IR x_rgb x[:, -3:, :, :] # 后3通道RGB # -------------------------- # 2. 输入通道投影 # -------------------------- x_ir self.input_proj_ir(x_ir) x_rgb self.input_proj_rgb(x_rgb) # -------------------------- # 3. 交叉空间注意力增强 # -------------------------- att_ir self.spatial_att(x_ir) att_rgb self.spatial_att(x_rgb) x_ir x_ir * att_ir * att_rgb x_rgb x_rgb * att_rgb * att_ir # -------------------------- # 4. 单模态特征提取DConv Mamba # -------------------------- x_rgb self.dconv(x_rgb) x_rgb self.si_mamba(x_rgb) x_ir self.dconv(x_ir) x_ir self.si_mamba(x_ir) # -------------------------- # 5. 跨模态Mamba交互 # -------------------------- x_rgb_m self.cro_mamba(x_rgb, x_ir) x_ir_m self.cro_mamba(x_ir, x_rgb) # -------------------------- # 6. 交叉通道注意力融合 # -------------------------- ca_rgb self.channel_att(x_rgb_m) ca_ir self.channel_att(x_ir_m) x_out (x_ir_m * ca_ir) / (ca_rgb 1e-8) (x_rgb_m * ca_rgb) / (ca_ir 1e-8) # -------------------------- # 7. 输出投影 # -------------------------- return self.out_proj(x_out)2.3 核心创新三DNM Mamba 专属检测 NeckDNMDetection Neck for Mamba是专为 Mamba 提取的多尺度特征设计的检测 Neck核心是对 YOLOv11 的原生 Neck 进行 Mamba 适配改造解决了传统 CNN Neck 无法充分利用 Mamba 长距离特征的问题。核心改造点将 YOLOv11 Neck 中的C3K2 模块替换为 Mamba Block充分发挥 Mamba 的长距离建模优势将原生 SPPF 模块升级为Mamba-SPPF在池化后对每个尺度的特征加入 Mamba Block强化多尺度特征融合保留 YOLOv11 的上下采样、Concat 等核心结构保证模型的收敛性与高效性。import torch import torch.nn as nn from mamba_ssm import Mamba from einops import rearrange class SingleMambaBlock(nn.Module): 视觉任务专用的单分支Mamba Block 输入输出形状均为 (B, C, H, W)可直接嵌入CNN/YOLO/MMDet框架 Args: dim (int): 输入/输出通道数 d_state (int): Mamba状态空间维度默认16 expand (float): Mamba内部通道扩展系数默认2 bimamba_type (str): 双向Mamba类型默认v6 use_norm (bool): 是否在Mamba内部使用Norm默认True def __init__(self, dim, d_state16, expand2, bimamba_typev6, use_normTrue): super().__init__() self.dim dim # 前置LayerNormVision Mamba标准配置 self.norm nn.LayerNorm(dim) # Mamba核心模块 self.mamba Mamba( d_modeldim, d_stated_state, expandexpand, bimamba_typebimamba_type, if_devide_outTrue, use_normuse_norm ) def forward(self, x): Args: x (torch.Tensor): 输入特征图形状 (B, C, H, W) Returns: torch.Tensor: 输出特征图形状 (B, C, H, W) b, c, h, w x.shape skip x # 残差连接 # -------------------------- # 1. 2D特征 - 序列 (B, C, H, W) - (B, H*W, C) # -------------------------- x_seq rearrange(x, b c h w - b (h w) c) # -------------------------- # 2. 前置LayerNorm Mamba前向 # -------------------------- x_seq self.norm(x_seq) x_seq self.mamba(x_seq) # -------------------------- # 3. 序列 - 2D特征 (B, H*W, C) - (B, C, H, W) # -------------------------- x_out rearrange(x_seq, b (h w) c - b c h w, hh, ww) # -------------------------- # 4. 残差连接 # -------------------------- return x_out skip class SPPF_1225_2(nn.Module): Spatial Pyramid Pooling - Fast (SPPF) layer for YOLOv5 by Glenn Jocher. def __init__(self, c1, c2, k5): Initializes the SPPF layer with given input/output channels and kernel size. This module is equivalent to SPP(k(5, 9, 13)). super().__init__() c_ c1 // 2 # hidden channels self.cv1 Conv(c1, c_, 1, 1) self.cv2 Conv(c_ * 4, c2, 1, 1) self.m nn.MaxPool2d(kernel_sizek, stride1, paddingk // 2) self.single_mamba SingleMambaBlock(c1,c_) def forward(self, x): Forward pass through Ghost Convolution block. y [self.cv1(x)] y.extend(self.m(y[-1]) for _ in range(3)) y [self.single_mamba(tensor) for tensor in y] return self.cv2(torch.cat(y, 1))三、实验结果与消融分析3.1 主实验结果对比论文在无人机双模态检测权威数据集DroneVehicle上进行了实验该数据集包含 28439 对 RGB-IR 图像953087 个标注框涵盖 car、truck、freight car、bus、van 五大类别是无人机双模态检测的黄金基准。DetectorsInput CategoryCarTruckFreight-carBusVanmAP (%) YOLOv11 (Base)RGB96.474.454.295.056.375.3YOLOv11 (Base)RGBIR98.377.565.895.059.979.3OAFA (CVPR’24)RGBIR90.376.873.390.366.079.4UAVD-Mamba (ours)RGBIR98.683.969.896.966.183.0实验结果表明UAVD-Mamba 在 DroneVehicle 数据集上实现了83.0% 的 mAP相比基线 YOLOv11 双模态版本提升了 3.7%相比 CVPR 2024 SOTA OAFA 方法提升了 3.6%其中 Car、Truck、Bus、Van 四大类别均实现了 SOTA 性能充分证明了方法的有效性。3.2 参数量与效率对比MethodmAP (%)Params (M)GFlops4090 (FPS)YOLOv11-RGB75.218.221.3-YOLOv11-IR79.318.221.3-C2Former (TGRS’24)74.2132.5100.9-OAFA (CVPR’24)79.4--17.8UAVD-Mamba-FAST81.726.529.424.2UAVD-Mamba83.039.738.914.4UAVD-Mamba 在实现 SOTA 精度的同时保持了极高的推理效率即使是完整版也能在 RTX 4090 上实现 14.4FPS 的推理速度轻量化版本 UAVD-Mamba-FAST 更是实现了 24.2FPS 的推理速度mAP 仍高达 81.7%远超 OAFA 方法完美适配无人机端侧部署需求。3.3 消融实验MethodDTMBFFARDNMmAP(%)提升幅度Base YOLOv11❌❌❌79.6-BaseDTMB✅❌❌81.72.1%BaseDTMBFFAR✅✅❌82.42.7%UAVD-Mamba✅✅✅83.03.4%消融实验清晰表明DTMB 可变形 Token 模块是最大的涨点来源单独加入即可带来 2.1% 的 mAP 提升充分证明了可变形 Token 对 Vision Mamba 的优化效果FFAR 融合模块与 DNM 检测 Neck 进一步带来了 1.3% 的精度提升三大模块协同作用实现了最终的 SOTA 性能。四、顶刊创新延伸思路基于 UAVD-Mamba 的核心设计可从以下方向进行创新延伸轻松产出顶刊 / 顶会论文频域 - 空域联合 Mamba 融合结合小波频域分解与可变形 Token Mamba在频域进行双模态特征融合进一步提升小目标检测精度弱对齐双模态 Mamba 融合针对无标定的 RGB-IR 图像对加入光流引导的可变形 Token 对齐解决模态错位问题端侧轻量化 Mamba 设计结合模型量化、稀疏化、结构重参数化打造可部署在无人机飞控端的超轻量版本多模态 Mamba 预训练基于大规模无人机 RGB-IR 数据集进行双模态 Mamba 预训练提升小样本场景下的检测性能检测 - 跟踪一体化 Mamba 框架将可变形 Token Mamba 扩展到多目标跟踪领域利用 Mamba 的时序建模能力实现无人机视频的检测跟踪一体化。五、总结本文深度解析了湖南大学原创的UAVD-Mamba无人机 RGB-IR 双模态检测框架该方法针对传统 Vision Mamba 的固定 Patch 缺陷提出了可变形 Token Mamba BlockDTMB实现了对不规则目标的自适应几何适配通过FFAR 特征融合抗冗余模块最大化双模态互补性过滤冗余信息通过DNM Mamba 专属检测 Neck完美适配 YOLOv11 架构强化多尺度小目标检测能力。实验结果表明UAVD-Mamba 在 DroneVehicle 数据集上实现了 83.0% 的 mAP远超 YOLOv11 基线与 CVPR 2024 SOTA 方法同时保持了极高的推理效率是无人机双模态检测领域的标杆性工作。本文提供的完整复现代码可直接集成到 YOLO 系列框架中实现即插即用的涨点效果适合科研与工程落地全场景使用。

相关文章:

精读双模态视频融合论文系列十一|湖南大学原创 UAVD-Mamba 封神!可变形 Token+Mamba 跨模态融合碾压 !

🔥 本文定位:无人机双模态检测顶刊级方案|Mamba 融合新范式|小目标 / 夜间 / 遮挡场景暴涨点 🎯 核心收益:彻底解决传统 Vision Mamba 固定 Patch 缺陷,基于可变形 Token 打造 Mamba 原生双模态…...

6 文件保存功能优化

6 文件保存功能优化 6.1 开发流程 流程说明 实现保存文件的功能,包含以下逻辑: 检查当前是否有已打开的文件如果没有打开的文件,弹出保存文件对话框让用户选择保存位置将文本编辑框中的内容写入到文件中 代码实现 void Widget::on_btnSave_cl…...

从理论到实践:GM(1,1)灰色预测模型的MATLAB一站式实现与检验

1. 灰色预测模型入门:当数据不足时的智慧选择 第一次接触灰色预测是在研究生时期,导师扔给我一组只有7个数据点的年度销售记录,要求预测未来两年的趋势。当时我满脑子都是"这怎么可能?"——传统时间序列分析至少需要30个…...

【遗留系统现代化突围指南】:3大智能代码生成实战框架,助你72小时内激活沉睡系统

第一章:智能代码生成在遗留系统中的应用 2026奇点智能技术大会(https://ml-summit.org) 智能代码生成正成为激活老旧企业级系统的关键杠杆。在金融、电信与制造业中,大量COBOL、Fortran或早期Java(JDK 1.4–5)构建的遗留系统仍承…...

解析CSV文件处理中的常见问题与解决方案

引言 在数据科学和机器学习领域,处理CSV文件是常见的任务。通过一个实际案例,我们将探讨在使用Python和Streamlit开发一个CSV数据处理和分析工具时可能遇到的问题及其解决方法。 问题背景 我们开发了一个基于Streamlit的应用程序,用于读取用户上传的CSV文件,进行数据分析…...

2025届必备的十大降AI率助手推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 要降低文章那种显露出是人工智能生成的感觉,得从词汇、句法以及逻辑结构这三个方…...

Matlab多折线图对比分析:从数据到学术图表的一站式实现

1. Matlab多折线图对比分析的核心价值 在科研和学术写作中,数据可视化的重要性怎么强调都不为过。想象一下,你花了几个月时间做实验,收集了大量数据,最后却因为图表表达不清而被审稿人或导师质疑,这该有多郁闷。Matlab…...

用YOLOv8给番茄‘看病’:手把手教你训练一个田间病害检测模型(附4万张数据集)

番茄病害智能诊断实战:基于YOLOv8的田间检测模型训练指南 清晨的阳光洒在番茄大棚里,叶片上那些不起眼的褐色斑点可能正预示着一次严重的病害爆发。传统农业依赖人工巡检,不仅效率低下,还容易错过最佳防治时机。如今,计…...

解读核心Maintainer观点|Presto 不只是版本升级!从查询引擎到湖仓执行层,AI Infra 新方向

最近看了InfoQ上的一篇文章《Presto 的再定位:从查询引擎到下一代数据湖执行层》,了解了从核心Maintainer视角观察到的Presto及整个数据基础设施行业范式的迁移,深有感触。对于做数据开发、湖仓架构或AI工程的同学来说,Presto的这…...

2026年4月导视标识标牌如何选?专业厂家实力复盘与避坑指南

一、导视标识标牌:商业空间的”无声导购员”家人们谁懂啊,走进一个商场找不到厕所的尴尴瞬间,或者在医院转了三圈还找不到诊室的崩溃体验-这些都和导视标识标牌的设计息息相关。导视标识标牌本质上是一套系统化的视觉语言,通过文字、图形、色…...

简单理解:Sub-1GHz(Sub-1 Gigahertz)指工作频率低于 1GHz 的无线通信频段

Sub-1GHz(Sub-1 Gigahertz)指工作频率低于 1GHz 的无线通信频段(通常指 169/315/433/470/868/915MHz 等免授权 ISM 频段),核心是远距离、低功耗、强穿墙、低干扰的物联网无线技术。一、核心特点(vs 2.4GHz&…...

简单理解:国民技术股份有限公司和他的芯片类型

一、国民技术股份有限公司(企业介绍) 国民技术股份有限公司(Nations Technologies Inc.) 是中国领先的集成电路设计(Fabless)上市公司,总部位于深圳国民技术。 成立:2000 年&#…...

魔幻C++ 函数递归 调用

//递归求和算法 数值 加法计算(数值 a){如果(a1) 返回 1;否则 返回 a加法计算(a-1);}//两种写法都正确 数值 c加法计算(5); 输出("c"c);输出("c"加法计算(100));...

RTX 4090D高性能AI环境揭秘:PyTorch 2.8镜像如何实现无冲突开箱即用

RTX 4090D高性能AI环境揭秘:PyTorch 2.8镜像如何实现无冲突开箱即用 1. 为什么选择这个镜像 如果你正在寻找一个能充分发挥RTX 4090D显卡性能的深度学习环境,这个PyTorch 2.8镜像可能是目前最省心的选择。它解决了AI开发者最头疼的环境配置问题——不用…...

【愚公系列】《OpenClaw实战指南》010-高效沟通与协作:让邮件、会议、 日程不再占用你的时间(跨平台消息聚合)

💎【行业认证权威头衔】 ✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家 ✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主 ✔ 技术生态共建先锋&am…...

S2-Pro大模型VMware虚拟机Ubuntu环境配置一站式指南

S2-Pro大模型VMware虚拟机Ubuntu环境配置一站式指南 1. 为什么需要Linux开发环境 如果你正在接触AI大模型开发,可能会发现很多教程和工具都默认运行在Linux环境下。Windows和Mac虽然也能用,但总会遇到各种兼容性问题。这就是为什么我们需要一个专门的L…...

FedGUI:跨异构平台、设备和操作系统对联合GUI代理进行基准测试

摘要使用传统集中式方法训练 GUI 智能体面临高昂成本和可扩展性方面的巨大挑战。联邦学习提供了一种有前景的解决方案,但由于缺乏能够捕捉真实世界跨平台异质性的基准,其潜力受到制约。为弥补这一空白,我们提出 FedGUI——首个用于在移动、网…...

给大一新生的循迹小车避坑指南:从模块接线到代码调试,手把手带你搞定STC89C52单片机项目

大一新生必看:STC89C52循迹小车避坑实战手册 第一次做循迹小车项目时,我盯着实验室里那堆杜邦线和闪烁的LED灯,完全不知道从何下手。现在回想起来,当时如果有一份详尽的避坑指南,至少能少熬三个通宵。这份手册将用最直…...

上海精装房供应商

在上海这座现代化大都市,精装房已成为许多家庭的首选。然而,传统装修材料可能带来的环保问题一直是业主们关注的焦点。上海海丽泷全铝有限公司作为一家专注于全铝家居定制的本地企业,为上海地区的精装房项目提供了环保、耐用的替代方案。本土…...

拒绝采样微调实战:如何用LLaMA-7B提升数学推理准确率(附代码)

拒绝采样微调实战:如何用LLaMA-7B提升数学推理准确率(附代码) 数学推理能力一直是衡量大语言模型性能的重要指标。许多开发者在实际项目中发现,即使像LLaMA-7B这样的开源模型,在复杂数学问题上也常出现逻辑错误或计算偏…...

A股量化交易系统的工程化实践:从策略建模到AI风控的选型思考

在 2026 年的市场环境下,个人交易者面临的竞争已从信息不对称转向了“决策一致性”与“执行响应比”的博弈。对于技术从业者而言,编写一套属于自己的交易脚本并非难事,但如何将零散的逻辑整合为一套具备防御性的投资系统,才是跨越…...

5步搞定Java支付集成:IJPay让支付开发变简单

5步搞定Java支付集成:IJPay让支付开发变简单 【免费下载链接】IJPay IJPay 让支付触手可及,封装了微信支付、QQ支付、支付宝支付、京东支付、银联支付、PayPal 支付等常用的支付方式以及各种常用的接口。不依赖任何第三方 mvc 框架,仅仅作为工…...

HideVolumeOSD:彻底隐藏Windows音量栏的终极解决方案

HideVolumeOSD:彻底隐藏Windows音量栏的终极解决方案 【免费下载链接】HideVolumeOSD Hide the Windows 10 volume bar 项目地址: https://gitcode.com/gh_mirrors/hi/HideVolumeOSD 你是否厌倦了在全屏游戏或重要演示时被Windows音量栏打断?这款…...

Ubuntu 22.04 下 PX4 仿真环境搭建总结(纯试一下)

根据原始链接尝试复现:https://mp.weixin.qq.com/s/f98WbZrQDvmhjvJiftmrtg 在 Ubuntu 22.04 环境下搭建 PX4 仿真平台时,核心涉及三部分:PX4 Autopilot、Gazebo 仿真器以及 QGroundControl 地面站。从实际配置过程来看,Ubuntu 22.04 可以较稳定地支持 PX4 开发与仿真,但…...

linux 安装 人大金仓数据库

1.安装人大金仓 下载链接 KingbaseES_V008R006C009B0014_Lin64_install.iso 2.上传文件到 /home/soft/ cd /home mkdir soft cd /soft3.创建kingbase用户作为KingbaseES安装用户。 # 安装依赖库 yum install -y libaio-devel gcc glibc make # 创建用户组 groupadd kingbase …...

AI数字员工:从客服知识学习到多平台视频发布,全自动技能合集

温馨提示:文末有资源获取方式最近“AI养龙虾”的概念炒得很热,但真正上手过的朋友都知道——技术门槛不低。部署要代码、配置要工程师、调试要专人,普通人想玩转,难度不小。今天我们不谈那些复杂的,直接整理一份普通人…...

GLM-4-9B-Chat-1M显存优化指南:40GB GPU高效运行技巧

GLM-4-9B-Chat-1M显存优化指南:40GB GPU高效运行技巧 1. 开篇:为什么需要显存优化 最近在用GLM-4-9B-Chat-1M这个模型的时候,我发现一个挺实际的问题:虽然官方说支持100万token的上下文长度,但真要用到40GB显存的GPU…...

2026mathorcup妈妈杯数学建模挑战赛B题思路详解

大家好呀,2026年mathorcup妈妈杯数学建模挑战赛今天早上开赛啦,在这里先带来初步的选题建议及思路。 目前团队正在写B题完整论文,后续还会持续更新哈。以下只是简略的图文版初步思路,更详细的选题建议及B题思路完整版讲解视频请移…...

颠覆传统设计流程:SD-PPP如何让AI绘图在Photoshop中触手可及

颠覆传统设计流程:SD-PPP如何让AI绘图在Photoshop中触手可及 【免费下载链接】sd-ppp A Photoshop AI plugin 项目地址: https://gitcode.com/gh_mirrors/sd/sd-ppp 想象一下这样的场景:你正在Photoshop中精心调整一张商业海报,突然需…...

GitHub Copilot X vs. Cursor Pro vs. Tabnine Ultra vs. 通义灵码2.0:2026奇点智能技术大会独家实测数据曝光(附IDE响应延迟毫秒级对比表)

第一章:2026奇点智能技术大会:AI编程助手对比评测 2026奇点智能技术大会(https://ml-summit.org) 在2026奇点智能技术大会上,来自全球12家主流厂商的AI编程助手接受了统一基准测试——包括代码补全准确率、跨文件上下文理解、调试建议有效性…...