当前位置: 首页 > article >正文

精读双模态视频融合论文系列十|CVPR 2026 最新!VideoFusion 屠榜时空协同融合!跨模态差分增强 + 双向时序共注意力,缝合即涨点!

本文定位双模态视频融合里程碑时空联合建模新范式红外 - 可见光视频检测 / 增强必看 核心收益彻底解决视频融合闪烁问题时序一致性碾压所有 SOTA提供即插即用跨模态融合模块嵌入视频检测、跟踪、增强直接涨点 论文信息CVPR 2026 最新武汉大学 Ma Jiayi 团队双模态视频融合新标杆 超大数据集 M3SVD✅ 适配方向跨模态融合、视频融合、时序增强、双模态检测跟踪、跨模态时序建模、低质视频修复论文链接VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusionhttps://arxiv.org/pdf/2503.233590 前言双模态视频融合的三大行业死穴目前所有红外 - 可见光融合方法几乎全是图像级单帧直接用到视频上会直接崩时序闪烁灾难帧间独立融合目标抖动、闪烁、光影跳变模态冗余冲突只做互补信息融合没去掉冗余噪声被放大时空割裂只建模空间特征完全丢失帧间时序依赖这篇CVPR 2026 最新 VideoFusion直接封神首次提出时空协同双模态视频融合框架三大原创核爆级创新✅CmDRM 跨模态差分增强模块提取互补、剔除冗余✅CMGF 全模态引导融合公共查询 双模态注意力✅BiCAM 双向时序共注意力前向 后向上下文动态聚合效果时序一致性 SOTA、融合质量 SOTA、无闪烁、超清晰1 论文核心速览含金量拉满项目硬核信息会议CVPR 2026顶会CCF-A团队武汉大学Ma Jiayi组图像 / 视频融合国内 TOP1核心任务红外 - 可见光视频融合最大贡献构建M3SVD 超大数据集220 段视频15 万帧核心创新差分增强 模态引导融合 双向时序共注意力核心指标SSIM、MI、VIF 全 SOTAflowD 时序一致性最低落地价值无闪烁、鲁棒强、可直接赋能检测 / 跟踪2 核心 1CmDRM 跨模态差分增强模块论文灵魂2.1 核心思想计算双模态差分 红外特征 − 可见光特征用差分信息做交叉注意力只增强互补信息自动剔除模态冗余2.2 原理精准对应论文公式设可见光为主模态红外为辅助模态差分特征Fd Fir − Fvi差分特征做 K、V主模态做 Q交叉注意力强化互补信息自适应权重融合原始特征与增强特征2.3 复现代码import torch import torch.nn as nn import torch.nn.functional as F # # 保持原样的通道注意力 # class ChannelAttention(nn.Module): def __init__(self, c): super().__init__() self.avgpool nn.AdaptiveAvgPool2d(1) self.conv nn.Sequential( nn.Conv2d(c, c//4, 1), nn.ReLU(), nn.Conv2d(c//4, c, 1), nn.Sigmoid() ) def forward(self, x): return x * self.conv(self.avgpool(x)) # # 保持原样的空间注意力 # class SpatialAttention(nn.Module): def __init__(self, k7): super().__init__() self.conv nn.Conv2d(2, 1, k, paddingk//2, biasFalse) self.sigmoid nn.Sigmoid() def forward(self, x): avg torch.mean(x, dim1, keepdimTrue) max_val, _ torch.max(x, dim1, keepdimTrue) return x * self.sigmoid(self.conv(torch.cat([avg, max_val], dim1))) # # 你的原版 CmDRM (修复了维度 Bug YOLO 封装) # class CmDRM(nn.Module): def __init__(self, c1, c2None): super().__init__() # 兼容 YOLO 解析器传入的 list: [c1, c1] dim c1[0] if isinstance(c1, list) else c1 # 保留你的所有网络结构 self.q nn.Conv2d(dim, dim, 1) self.kv nn.Conv2d(dim, dim*2, 1) self.ffn nn.Sequential( nn.Conv2d(dim, dim*4, 1), nn.GELU(), nn.Conv2d(dim*4, dim, 1) ) self.weight_net nn.Sequential( nn.Conv2d(dim*2, 2, 1), nn.Softmax(dim1) ) self.ca ChannelAttention(dim) self.sa SpatialAttention() # YOLO 要求的输出通道对齐 c2 c2 if c2 is not None else dim self.cv_out nn.Conv2d(dim, c2, 1, biasFalse) if dim ! c2 else nn.Identity() def forward(self, x): # 兼容 YOLO 的 list 输入解包 f_vis, f_ir x[0], x[1] # 差分特征核心 f_diff f_ir - f_vis B, C, H, W f_vis.shape # 交叉注意力 q self.q(f_vis).flatten(2).permute(0, 2, 1) # [B, HW, C] k, v self.kv(f_diff).flatten(2).chunk(2, dim1) # k, v: [B, C, HW] k k.permute(0, 2, 1) # [B, HW, C] # 修复 Bug: 必须加上 .transpose(-2, -1)否则 [B, HW, C] 无法和 [B, HW, C] 矩阵相乘 attn (q k.transpose(-2, -1)) / (C**0.5) # - [B, HW, HW] attn attn.softmax(dim-1) # 保持你的 v.permute 逻辑 enhanced (attn v.permute(0, 2, 1)).permute(0, 2, 1).reshape(B, C, H, W) enhanced self.ffn(enhanced) # 自适应权重 weight self.weight_net(torch.cat([f_vis, enhanced], dim1)) w1, w2 weight.chunk(2, dim1) out w1 * f_vis w2 * enhanced # 空间通道精炼 out self.ca(out) out self.sa(out) # YOLO 维度对齐输出 return self.cv_out(out)3 核心 2CMGF 全模态引导融合模块顶会创新3.1 核心思想一句话双模态特征相加 → 生成公共查询 Q分别对红外、可见光做交叉注意力再融合实现最均衡模态互补。3.2 原理综合特征Fc Fir Fvi综合特征做公共查询 Q红外做 K1、V1可见光做 K2、V2双注意力并行计算残差叠加输出最终融合特征3.3 复现代码import torch import torch.nn as nn import torch.nn.functional as F # -------------------------- 极速版 LayerNorm (去除 einops 与 3D 转换开销) -------------------------- class LayerNorm2d(nn.Module): 原生支持 4D [B, C, H, W] 图像的 LayerNorm0 额外显存拷贝。 利用 PyTorch 底层 C 优化的 F.layer_norm 实现。 def __init__(self, dim, biasTrue): super().__init__() self.weight nn.Parameter(torch.ones(dim)) self.bias nn.Parameter(torch.zeros(dim)) if bias else None self.dim dim def forward(self, x): # [B, C, H, W] - [B, H, W, C] - LayerNorm - [B, C, H, W] x x.permute(0, 2, 3, 1) x F.layer_norm(x, (self.dim,), self.weight, self.bias, 1e-5) return x.permute(0, 3, 1, 2) # -------------------------- 核心跨模态交叉注意力模块 -------------------------- class Cross_Attention(nn.Module): def __init__(self, dim, num_heads4, biasFalse): super().__init__() assert dim % num_heads 0, fdim {dim} 必须能被 num_heads {num_heads} 整除 self.num_heads num_heads self.head_dim dim // num_heads self.temperature nn.Parameter(torch.ones(num_heads, 1, 1)) self.q nn.Conv2d(dim, dim, kernel_size1, biasbias) self.kv nn.Conv2d(dim, dim * 2, kernel_size1, biasbias) self.q_dwconv nn.Conv2d(dim, dim, kernel_size3, padding1, groupsdim, biasbias) self.kv_dwconv nn.Conv2d(dim * 2, dim * 2, kernel_size3, padding1, groupsdim * 2, biasbias) self.project_out nn.Conv2d(dim, dim, kernel_size1, biasbias) def forward(self, x_A, x_B): b, c, h, w x_A.shape q self.q_dwconv(self.q(x_A)) kv self.kv_dwconv(self.kv(x_B)) k, v kv.chunk(2, dim1) # 架构师优化用原生 .view 替代 einops完美支持 ONNX极限省显存 q q.view(b, self.num_heads, self.head_dim, h * w) k k.view(b, self.num_heads, self.head_dim, h * w) v v.view(b, self.num_heads, self.head_dim, h * w) q F.normalize(q, dim-1) k F.normalize(k, dim-1) # O(C^2) 极速通道注意力矩阵 attn (q k.transpose(-2, -1)) * self.temperature attn attn.softmax(dim-1) # 权重反哺 out (attn v) out out.view(b, c, h, w) return self.project_out(out) # -------------------------- 门控前馈网络 GDFN -------------------------- class FeedForward(nn.Module): def __init__(self, dim, expansion_factor2.66, biasFalse): super().__init__() hidden_features int(dim * expansion_factor) self.project_in nn.Conv2d(dim, hidden_features * 2, kernel_size1, biasbias) self.dwconv nn.Conv2d(hidden_features * 2, hidden_features * 2, kernel_size3, padding1, groupshidden_features * 2, biasbias) self.project_out nn.Conv2d(hidden_features, dim, kernel_size1, biasbias) def forward(self, x): x self.project_in(x) x1, x2 self.dwconv(x).chunk(2, dim1) return self.project_out(F.gelu(x1) * x2) # -------------------------- 跨模态 Transformer 块 -------------------------- class Cross_TransformerBlock(nn.Module): def __init__(self, dim, num_heads4, expansion_factor2.66, biasFalse): super().__init__() self.norm1_q LayerNorm2d(dim, bias) self.norm1_kv LayerNorm2d(dim, bias) self.attn Cross_Attention(dim, num_heads, bias) self.norm2 LayerNorm2d(dim, bias) self.ffn FeedForward(dim, expansion_factor, bias) def forward(self, x, supple): # 注意力残差 x x self.attn(self.norm1_q(x), self.norm1_kv(supple)) # FFN 残差 x x self.ffn(self.norm2(x)) return x # -------------------------- 最终 YOLO 兼容版CMGF_Concat -------------------------- class CMGF(nn.Module): 用于无缝替换 YOLO 中 Concat 的跨模态 Transformer 融合模块。 def __init__(self, c1, c2, num_heads4): super().__init__() # 提取双分支输入的通道数 (默认两者一致) channels c1[0] if isinstance(c1, list) else c1 # 核心跨模态交互 Transformer self.cross_transformer Cross_TransformerBlock(dimchannels, num_headsnum_heads) # YOLO 对齐网关 # Concat 原本会把 [C, C] 变成 2C。如果 YAML 规定输出 c2我们用 1x1 Conv 平滑对齐 self.cv_out nn.Conv2d(channels, c2, 1, 1, biasFalse) if channels ! c2 else nn.Identity() def forward(self, x): # 1. 解析 YOLO 传入的 List 双特征 ir, vi x[0], x[1] # 2. 构建共享 Query Q ir vi # 3. 双向引导交叉注意力 (共享 Transformer 权重达到完美的多模态正则化) fusion_ir self.cross_transformer(Q, ir) fusion_vi self.cross_transformer(Q, vi) # 4. 融合并对齐输出通道 fusion fusion_ir fusion_vi return self.cv_out(fusion)4 融入你的框架里面YOLO框架示例4.1 步骤 1放入模块将代码复制到ultralytics/nn/modules/block.py并且CmDRM 、CMGF添加至__all__里面。4.2 步骤 2注册模块1在同目录下的_init_.py中from .block import添加CmDRM 、CMGF4.3 步骤 3注册模块2在ultralytics/nn/tasks.py完成注册首先在from ultralytics.nn.modules import添加你的模块名CmDRM 、CMGF。然后再在parse_model中下图的下面添加下面的代码。elif m is CmDRM: # f 是输入层的索引列表例如 [-1, 6] # ch 是一个记录了所有层输出通道数的列表 c1 [ch[x] for x in f] # YAML 中传入的参数 args。例如传入 [512]则 args[0] 为 512 # 如果没传 args则默认输出通道数与第一个输入的通道数一致 c2 args[0] if len(args) 0 else c1[0] # 将解析好的 c1, c2 重新打包回 args以便传给 Fast_CmDRM 的 __init__ 函数 args [c1, c2] elif m in {CMGF,}: # 输入是多个来源获取第一个来源的通道数作为基准 c1 [ch[x] for x in f] # c2 由 yaml 给出args[0]或者默认为 sum(c1) c2 args[0] if len(args) 0 else sum(c1) # args 截断去掉已经在 c2 提取过的部分 args args[1:] if len(args) 1 else []5 论文创新总结可直接写进你的论文 / 毕设CmDRM 差分增强用模态差提取互补信息解决冗余与噪声放大问题。CMGF 模态引导融合公共查询 双模态并行注意力均衡、鲁棒、无偏。6 对你的价值最关键你做的RGB-IR 双模态检测可以直接✅ 把CmDRM替换原有通道融合✅ 把CMGF替换原有 concat/add/ 交叉注意力→mAP 显著涨点 低光照 / 夜间鲁棒暴增

相关文章:

精读双模态视频融合论文系列十|CVPR 2026 最新!VideoFusion 屠榜时空协同融合!跨模态差分增强 + 双向时序共注意力,缝合即涨点!

🔥 本文定位:双模态视频融合里程碑|时空联合建模新范式|红外 - 可见光视频检测 / 增强必看 🎯 核心收益:彻底解决视频融合闪烁问题,时序一致性碾压所有 SOTA;提供即插即用跨模态融合…...

2026年中国SRM市场深度解析:从147亿到205亿,采购数字化爆发

在数字化转型的浪潮下,采购管理作为企业降本增效、防控供应链风险的核心环节,正从传统的“事务性职能”向“战略性职能”加速转型。供应商关系管理(SRM)作为采购数字化的核心载体,凭借对供应商全生命周期的精细化管控、…...

Spine动画在Unity中的高效导入与播放实践

1. Spine动画与Unity的完美结合 作为一个在游戏开发领域摸爬滚打多年的老手,我不得不说Spine动画和Unity的结合简直是2D游戏开发的绝配。Spine作为专业的2D骨骼动画编辑器,能够创建流畅自然的角色动作,而Unity强大的游戏引擎则能完美呈现这些…...

深入解析Q_GLOBAL_STATIC:Qt线程安全单例模式的实现与优化

1. 为什么需要线程安全的单例模式? 在软件开发中,单例模式是最常用的设计模式之一。它确保一个类只有一个实例,并提供一个全局访问点。但在多线程环境下,传统的单例实现会遇到严重问题。想象一下,多个线程同时尝试获取…...

nli-distilroberta-base快速上手:使用VS Code进行模型调试与开发

nli-distilroberta-base快速上手:使用VS Code进行模型调试与开发 1. 引言 如果你正在寻找一个轻量级但性能优秀的自然语言推理模型,nli-distilroberta-base是个不错的选择。这个基于RoBERTa的蒸馏版本在保持较高准确率的同时,模型体积大幅减…...

OpenClaw如何搭建?2026年阿里云7分钟零基础喂奶级云端方法及百炼Coding Plan步骤

OpenClaw如何搭建?2026年阿里云7分钟零基础喂奶级云端方法及百炼Coding Plan步骤。本文面向零基础用户,完整说明在轻量服务器与本地Windows11、macOS、Linux系统中部署OpenClaw(Clawdbot)的流程,包含环境配置、服务启动…...

5分钟掌握FanControl:Windows平台终极风扇控制解决方案

5分钟掌握FanControl:Windows平台终极风扇控制解决方案 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/f…...

考虑多维度负荷特征的用户侧可调潜力评估与建模研究

考虑多维度负荷特征的用户侧可调潜力评估与建模研究 摘要 在新型电力系统建设背景下,用户侧可调节负荷作为重要的灵活性资源,对提升电网运行效率和促进新能源消纳具有关键作用。本文针对用户侧可调潜力评估问题,提出一种融合多维负荷特征的综合评估方法。首先,从负荷时序…...

RWKV7-1.5B-g1a效果展示:用户提问→精准答案→自然追问链模拟

RWKV7-1.5B-g1a效果展示:用户提问→精准答案→自然追问链模拟 1. 模型能力概览 rwkv7-1.5B-g1a是基于新一代RWKV-7架构的轻量级多语言文本生成模型。这个1.5B参数的版本在保持高效运行的同时,展现出令人惊喜的对话连贯性和上下文理解能力。特别适合需要…...

3个步骤掌握Windows任务栏美化神器TranslucentTB

3个步骤掌握Windows任务栏美化神器TranslucentTB 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 想要让Windows任务栏焕然一新&#xff0…...

STM32H745双核基础测试

STM32H745双核测试通过RCC选择外部晶振,M7和M4都可用先烧写M7内核代码,在烧写M4内核代码...

使用Powershell脚本快速生成ISO映像文件的实战指南

1. 为什么需要Powershell生成ISO文件? 在日常IT运维工作中,我们经常遇到需要将大量文件打包成ISO映像的情况。传统做法是使用第三方软件如UltraISO、ImgBurn等工具,但这些方案存在几个明显痛点:首先需要额外安装软件,在…...

从一次模型汇报翻车说起:如何向非技术同事讲明白R²、RMSE和MAE?

模型效果汇报避坑指南:用业务语言讲清R、RMSE和MAE 上周的产品评审会上,我精心准备的模型优化汇报遭遇了滑铁卢。当我在幻灯片第三页展示出"R0.83"时,产品总监突然打断:"这个0.83是什么意思?比上季度提…...

从基础循迹到速度优化:一个51单片机小车的完整项目解析

1. 红外循迹的基础原理与局限性 第一次接触循迹小车时,你可能和我一样以为这是个"智能"设备。但拆开看本质,它只是用两个红外传感器玩"左右平衡游戏"。当左侧传感器检测到黑线(输出低电平),就让右…...

Halcon直线拟合实战:从两点坐标到完整代码的避坑指南

Halcon直线拟合实战:从两点坐标到完整代码的避坑指南 在工业视觉检测领域,直线拟合是最基础却又最常遇到的技术需求之一。无论是检测产品边缘的直线度,还是定位传送带上的物料位置,精准的直线拟合算法都是自动化产线的"眼睛…...

别再混淆了!PCB设计中过孔、焊盘、线、铜皮的‘身份’与正确用法(附Altium Designer实操设置)

PCB设计核心元素解析:过孔、焊盘、导线与覆铜的正确应用指南 在PCB设计领域,初学者常陷入一个认知误区——认为只要线路连通,设计就算成功。然而现实中的电路板远比"连通"复杂得多。我曾亲眼见证一个看似完美的四层板设计&#xff…...

ai降重哪个软件好用?实用工具实测整理

不少毕业生和科研工作者都有过这样的经历:用AI辅助写完论文,却要对着飘红的重复率和AI生成标记发愁,深夜盯着屏幕反复修改,既改不通顺又降不下来重复,折腾几个小时还看不到效果。选对合适的AI降重工具,能帮…...

Windows风扇终极控制指南:5分钟掌握FanControl精准调校技巧

Windows风扇终极控制指南:5分钟掌握FanControl精准调校技巧 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trendi…...

从零开始:如何用Obsidian模板打造你的个人知识管理系统

从零开始:如何用Obsidian模板打造你的个人知识管理系统 【免费下载链接】Obsidian-Templates A repository containing templates and scripts for #Obsidian to support the #Zettelkasten method for note-taking. 项目地址: https://gitcode.com/gh_mirrors/ob…...

ChatGPT企业级服务器部署全攻略:2026稳定合规、高效落地实战

在AI深度赋能企业数字化转型的2026年,ChatGPT已从个人效率工具升级为企业核心生产力基础设施。相较于个人零散使用,企业级服务器部署能实现统一管理、数据安全、多员工协同、系统无缝集成,彻底解决数据外泄、账号混乱、服务不稳定、合规风险高等痛点。本文基于2026年最新企业…...

LinuxCNC终极指南:如何用开源数控系统掌控你的加工中心

LinuxCNC终极指南:如何用开源数控系统掌控你的加工中心 【免费下载链接】linuxcnc LinuxCNC controls CNC machines. It can drive milling machines, lathes, 3d printers, laser cutters, plasma cutters, robot arms, hexapods, and more. 项目地址: https://g…...

OpenRocket免费开源火箭设计软件:从零开始掌握火箭建模与仿真

OpenRocket免费开源火箭设计软件:从零开始掌握火箭建模与仿真 【免费下载链接】openrocket Model-rocketry aerodynamics and trajectory simulation software 项目地址: https://gitcode.com/GitHub_Trending/op/openrocket 你是否曾经梦想过设计自己的火箭…...

鸣潮自动化工具实战指南:从零部署到高级配置

鸣潮自动化工具实战指南:从零部署到高级配置 【免费下载链接】ok-wuthering-waves 鸣潮 后台自动战斗 自动刷声骸 一键日常 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 鸣潮自动化工具&#xff0…...

如何用慕课助手3倍提升在线学习效率:完整配置指南

如何用慕课助手3倍提升在线学习效率:完整配置指南 【免费下载链接】mooc-assistant 慕课助手 浏览器插件(Chrome/Firefox/Opera) 项目地址: https://gitcode.com/gh_mirrors/mo/mooc-assistant 你是否曾在深夜对着堆积如山的慕课作业感到焦虑?面对…...

英伟达发布全球首个开源量子计算AI模型Ising,纠错速度较pyMatching提升2.5倍

维度网讯,英伟达于当地时间2026年4月14日宣布推出Ising,这是全球首个面向量子计算校准与纠错的开源人工智能模型系列。该模型系列专为帮助研究人员和企业构建可运行实用应用的量子处理器而设计,其纠错解码速度较当前开源行业标准pyMatching提…...

CompressO:免费开源的视频压缩神器,一键释放95%存储空间

CompressO:免费开源的视频压缩神器,一键释放95%存储空间 【免费下载链接】compressO Convert any video/image into a tiny size. 100% free & open-source. Available for Mac, Windows & Linux. 项目地址: https://gitcode.com/gh_mirrors/c…...

6G网络背后的“隐形”挑战:为什么说天地互联的软件架构比硬件更难搞?

6G网络背后的“隐形”挑战:为什么说天地互联的软件架构比硬件更难搞? 当人们谈论6G时,太赫兹频段、超高速率、全球覆盖这些硬件指标往往成为焦点。然而,真正决定6G能否实现"天地互联、陆海空一体"愿景的,却…...

VS2015 MFC操作Excel踩坑实录:从‘无法启动服务器’到成功读写,我总结了这5个关键步骤

VS2015 MFC操作Excel避坑指南:从环境配置到数据读写的实战全解 第一次在VS2015中用MFC操作Excel时,我本以为照着教程半小时就能搞定,结果却花了整整两天时间解决各种报错。从"无法启动Excel服务器"到类型库冲突,再到32…...

云原生未来展望

云原生未来展望:技术变革与行业重塑 近年来,云原生技术凭借其敏捷性、弹性和可扩展性,成为企业数字化转型的核心驱动力。随着云计算、容器化、微服务等技术的成熟,云原生的应用场景不断扩展,未来将深刻改变IT架构和业…...

告别繁琐部署,PolarClaw SaaS 让 AI 应用管理触手可及

在企业落地 AI 应用的过程中,团队往往面临一个尴尬的现实:AI 模型和能力已经就绪,但从"能用"到"团队都能用"之间,还横亘着一道部署与管理的鸿沟。每个成员想跑一个 AI 应用,都得理解底层资源配置、…...