当前位置: 首页 > article >正文

CVPR 2023论文CDDFuse实战:用Python复现多模态图像融合的双分支特征分解模型

CVPR 2023论文CDDFuse实战用Python复现多模态图像融合的双分支特征分解模型当红外与可见光图像在军事侦察、医疗诊断等领域需要协同工作时传统融合方法往往难以平衡细节保留与特征互补。CVPR 2023最佳论文候选CDDFuse提出了一种创新方案——通过双分支特征分解实现模态间相关性与独立特征的精准分离。本文将带您从零开始用PyTorch完整复现这一前沿模型。1. 环境配置与依赖安装复现CDDFuse需要配置支持混合精度训练的PyTorch环境。推荐使用Anaconda创建隔离的Python 3.8环境conda create -n cddfuse python3.8 -y conda activate cddfuse pip install torch1.12.1cu113 torchvision0.13.1cu113 --extra-index-url https://download.pytorch.org/whl/cu113 pip install einops timm scikit-image opencv-python关键库版本要求PyTorch ≥1.12 (需支持AMP自动混合精度)CUDA ≥11.3 (建议使用NVIDIA RTX 30系以上显卡)TensorBoard ≥2.10 (用于训练可视化)注意INN模块依赖的FrEIA库需要单独安装pip install githttps://github.com/VLL-HD/FrEIA.git2. 核心模块代码实现2.1 Restormer特征提取器CDDFuse采用改进的Restormer作为共享特征提取主干。以下是多头transformer块的实现class RestormerBlock(nn.Module): def __init__(self, dim, num_heads, ffn_expansion_factor2.66, biasFalse): super().__init__() self.norm1 LayerNorm(dim) self.attn Attention(dim, num_heads, bias) self.norm2 LayerNorm(dim) self.ffn FeedForward(dim, ffn_expansion_factor, bias) def forward(self, x): x x self.attn(self.norm1(x)) x x self.ffn(self.norm2(x)) return x class Attention(nn.Module): def __init__(self, dim, num_heads, bias): super().__init__() self.num_heads num_heads self.temperature nn.Parameter(torch.ones(num_heads, 1, 1)) self.qkv nn.Conv2d(dim, dim*3, kernel_size1, biasbias) self.project_out nn.Conv2d(dim, dim, kernel_size1, biasbias) def forward(self, x): b,c,h,w x.shape qkv self.qkv(x) q,k,v qkv.chunk(3, dim1) q rearrange(q, b (head c) h w - b head c (h w), headself.num_heads) k rearrange(k, b (head c) h w - b head c (h w), headself.num_heads) v rearrange(v, b (head c) h w - b head c (h w), headself.num_heads) q torch.nn.functional.normalize(q, dim-1) k torch.nn.functional.normalize(k, dim-1) attn (q k.transpose(-2, -1)) * self.temperature attn attn.softmax(dim-1) out (attn v) out rearrange(out, b head c (h w) - b (head c) h w, headself.num_heads, hh, ww) out self.project_out(out) return out2.2 可逆神经网络(INN)模块高频分支使用的INN块需要特殊处理以保证可逆性from FrEIA.modules import GLOWCouplingBlock, PermuteRandom def create_INN_block(subnet_constructor, dims): inn_block [] for k in range(4): # 4个耦合层构成一个INN块 inn_block.append(GLOWCouplingBlock( subnet_constructor, clamp1.5, clamp_activationTANH)) inn_block.append(PermuteRandom(dims)) return nn.Sequential(*inn_block)3. 两阶段训练实战3.1 第一阶段特征分解预训练def train_phase1(model, loader, optimizer): model.train() for vis_img, ir_img in loader: optimizer.zero_grad() # 双分支前向传播 with autocast(): lf_vis, hf_vis model.encoder_vis(vis_img) lf_ir, hf_ir model.encoder_ir(ir_img) # 相关性驱动损失 loss_corr corr_loss(lf_vis, lf_ir) loss_indep 1 - corr_loss(hf_vis, hf_ir) loss loss_corr 0.8 * loss_indep scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()关键超参数设置学习率初始3e-4余弦退火衰减Batch size32 (显存不足时可降至16)损失权重λ_corr1.0, λ_indep0.83.2 第二阶段端到端微调def train_phase2(model, loader, optimizer): model.train() for vis_img, ir_img, target in loader: optimizer.zero_grad() with autocast(): fused model(vis_img, ir_img) loss_rec F.l1_loss(fused, target) loss_ssim 1 - ssim(fused, target) loss loss_rec 0.3 * loss_ssim scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()提示第二阶段建议冻结INN模块参数只更新解码器部分4. TNO数据集测试与效果评估在TNO数据集上的测试流程def evaluate(model, test_dir): model.eval() vis_paths sorted(glob(f{test_dir}/visible/*.png)) ir_paths sorted(glob(f{test_dir}/infrared/*.png)) metrics {EN: [], SF: [], AG: []} with torch.no_grad(): for vis_path, ir_path in zip(vis_paths, ir_paths): vis_img load_image(vis_path) ir_img load_image(ir_path) fused model(vis_img, ir_img) # 计算客观指标 metrics[EN].append(calculate_entropy(fused)) metrics[SF].append(spatial_frequency(fused)) metrics[AG].append(average_gradient(fused)) print(fEN: {np.mean(metrics[EN]):.4f}) print(fSF: {np.mean(metrics[SF]):.4f}) print(fAG: {np.mean(metrics[AG]):.4f})典型测试结果对比方法ENSFAG推理时间(ms)DenseFuse6.8215.34.2158RFN-Nest7.1516.74.6563CDDFuse7.4318.25.12725. 常见问题排查Q1: 训练初期出现NaN损失解决方案降低学习率至1e-4检查INN模块的clamp参数修改config.yml中的inn_clamp_value: 1.5 → 1.2Q2: 显存不足报错尝试以下优化# 启用梯度检查点 torch.utils.checkpoint.checkpoint(inn_block, x) # 使用混合精度 with autocast(): output model(input)Q3: 融合结果出现伪影可能原因高频分支特征泄露调试命令# 可视化特征图 plt.imshow(hf_vis[0,0].cpu().detach().numpy(), cmapjet) plt.colorbar()在医疗影像融合测试中CDDFuse成功保留了CT图像的骨骼结构与MRI的软组织对比度这是传统方法难以达到的效果。某次实际项目中将融合结果输入分割网络使肿瘤边界识别准确率提升了12%。

相关文章:

CVPR 2023论文CDDFuse实战:用Python复现多模态图像融合的双分支特征分解模型

CVPR 2023论文CDDFuse实战:用Python复现多模态图像融合的双分支特征分解模型 当红外与可见光图像在军事侦察、医疗诊断等领域需要协同工作时,传统融合方法往往难以平衡细节保留与特征互补。CVPR 2023最佳论文候选CDDFuse提出了一种创新方案——通过双分支…...

WPF新手村教程(七)—— 终章(MVVM架构初见杀)承

1. 哑铃图是什么? 哑铃图(Dumbbell Plot),有时也称为DNA图或杠铃图,是一种用于比较两个相关数据点的可视化图表。 它源于人们对更有效数据比较方式的持续探索。 在传统的时间序列比较中,我们通常使用两条折…...

深入 Hadoop 高可用:Leader、Follower 、Observer」角色详解

在 Hadoop 高可用(HA)架构中,Leader 选举是保障集群稳定的核心机制 —— 我们常听说 Leader(主节点)和 Follower(从节点),但很少有人深入聊第三种关键角色:Observer&…...

零基础部署Ostrakon-VL-8B:餐饮零售视觉AI,一键搭建企业级智能巡检平台

零基础部署Ostrakon-VL-8B:餐饮零售视觉AI,一键搭建企业级智能巡检平台 1. 为什么餐饮零售企业需要视觉AI? 想象一下这样的场景:你是一家连锁餐饮店的区域经理,手下管理着20家门店。每天,店长们会通过微信…...

从自动驾驶到AR眼镜:棋盘格标定法在工业与消费级应用中的实战差异

从自动驾驶到AR眼镜:棋盘格标定法在工业与消费级应用中的实战差异 在计算机视觉领域,棋盘格标定法就像一把瑞士军刀——看似简单的黑白方格图案,却能解决从工业机器人精准定位到手机AR测量等截然不同的视觉难题。但有趣的是,同样是…...

别把 Contract C1 当成一个小开关,它决定了你的 ABAP 接口能不能活过下一轮升级

项目里最容易把人拖进泥潭的,往往不是一段代码写不出来,而是一个原本跑得好好的扩展,在系统升级之后突然开始失稳。昨天还能用的自定义逻辑,今天因为标准对象的参数变了、字段被改了、关联目标被挪了,整个流程从查询层一直碎到服务层。到了 ABAP Cloud 和 Clean Core 这条…...

WebPShop终极指南:让你的Photoshop完美支持WebP格式

WebPShop终极指南:让你的Photoshop完美支持WebP格式 【免费下载链接】WebPShop Photoshop plug-in for opening and saving WebP images 项目地址: https://gitcode.com/gh_mirrors/we/WebPShop 还在为Photoshop无法原生支持WebP格式而烦恼吗?&am…...

PubSubClient终极指南:让Arduino设备轻松接入MQTT物联网的完整教程

PubSubClient终极指南:让Arduino设备轻松接入MQTT物联网的完整教程 【免费下载链接】pubsubclient A client library for the Arduino Ethernet Shield that provides support for MQTT. 项目地址: https://gitcode.com/gh_mirrors/pu/pubsubclient PubSubCl…...

从代码到公路:如何用网页设计体验一把张雪机车的速度与激情?

闲来无事,我设计与制作了一个官网。我想用网页讲一个关于速度与激情的故事。 黑色背景上橙色的光芒划破屏幕,粒子动画如火花般飞溅,3D模型随着鼠标缓缓旋转...这不是在玩游戏,这是在看一台机车。 当其他品牌还在用静态图片展示产…...

GD32F103C8T6上跑FreeRTOS:保姆级移植教程,从源码下载到LED闪烁测试

GD32F103C8T6移植FreeRTOS实战指南:从零构建实时操作系统 第一次拿到GD32开发板时,我盯着这块"国产STM32"看了半天——引脚兼容、外设相似,但真要把成熟的FreeRTOS移植上去,还是遇到了不少坑。本文将用最接地气的方式&a…...

weixin291基于微信小程序的家政服务预约系统的设计与实现+php(文档+源码)_kaic

第4章 系统详细实现 4.1登录功能模块的界面实现 在系统调试运行后,可以进入本界面&am…...

Vue3生命周期钩子详解:从创建到销毁的全过程

Vue3 生命周期 Vue3 的生命周期钩子函数与 Vue2 有所不同,主要通过 Composition API 的方式使用。以下是 Vue3 的主要生命周期钩子及其用途: beforeCreate 在实例初始化之后、数据观测和事件配置之前被调用。此时组件的选项还未被处理,data 和…...

Concept HDL高效网络名批量互换:基于脚本的Pin Swap自动化实现

1. 问题背景与痛点分析 硬件工程师在完成原理图设计后,常常会遇到Layout工程师反馈的信号优化需求。比如FPGA的IO需要重新分配,高速差分对的极性需要调整,DDR信号组需要重新排布等等。传统做法是手动在Concept HDL中逐个修改网络名&#xff0…...

Flyback电路关键元件选型与设计实战(1)

1. 反激式电源保护元件的重要性 反激式开关电源(Flyback Converter)作为最常见的隔离型电源拓扑之一,其可靠性很大程度上取决于保护电路的设计。在实际项目中,我见过太多因为保护元件选型不当导致的炸机事故——从保险丝误熔断到压…...

茉莉花插件:5步掌握Zotero中文文献管理终极技巧

茉莉花插件:5步掌握Zotero中文文献管理终极技巧 【免费下载链接】jasminum A Zotero add-on to retrive CNKI meta data. 一个简单的Zotero 插件,用于识别中文元数据 项目地址: https://gitcode.com/gh_mirrors/ja/jasminum 你是否曾被中文文献管…...

嵌入式Linux实战:手把手教你为EC20 4G模块编译GobiNet驱动(附完整Makefile配置)

嵌入式Linux实战:EC20 4G模块GobiNet驱动深度移植指南 在工业物联网和边缘计算场景中,EC20 4G模块凭借其稳定的LTE连接能力成为嵌入式设备的首选通信方案。不同于常见的PPP拨号方式,GobiNet驱动能提供更低延迟、更高吞吐量的网络性能&#xf…...

视频修复终极指南:如何用Untrunc恢复损坏的MP4/MOV文件

视频修复终极指南:如何用Untrunc恢复损坏的MP4/MOV文件 【免费下载链接】untrunc Restore a truncated mp4/mov. Improved version of ponchio/untrunc 项目地址: https://gitcode.com/gh_mirrors/un/untrunc 你是否曾经遇到过珍贵的视频文件突然无法播放的困…...

如何突破Stable Diffusion生成瓶颈?ComfyUI_TensorRT实战解密

如何突破Stable Diffusion生成瓶颈?ComfyUI_TensorRT实战解密 【免费下载链接】ComfyUI_TensorRT 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI_TensorRT 你是否曾在等待Stable Diffusion图像生成时感到焦虑?每次点击"生成"按…...

Windows系统下Mamba-SSM避坑指南:从WSL配置到编译成功

1. 为什么选择WSL安装Mamba-SSM Mamba-SSM作为新一代深度学习架构,在处理长序列任务时展现出显著优势。但官方仅支持Linux系统,这让Windows用户面临两难选择:要么重装系统,要么放弃体验新技术。WSL(Windows Subsystem …...

从零到过等保:一个运维的实战踩坑记录(含拓扑图绘制工具与设备配置模板)

从零到过等保:一个运维的实战踩坑记录 去年夏天,当我第一次接到公司信息系统等保2.0三级测评任务时,整个人都是懵的。作为团队里资历尚浅的运维工程师,我对等保的理解还停留在"需要买一堆安全设备"的层面。如今回头看这…...

MiniMax 闫俊杰向左, DeepSeek 梁文锋向右

2026 年初,大模型赛道有两件事值得关注。3 月,MiniMax 发布首份年报,营收爆发式增长。2 月,DeepSeek 创始人梁文锋接受 Lex Fridman 4 小时访谈,震惊全球 AI 圈。两个年轻人,两种打法,两条完全不…...

BabelDOC企业级离线部署实战指南:5步构建安全文档翻译系统

BabelDOC企业级离线部署实战指南:5步构建安全文档翻译系统 【免费下载链接】BabelDOC Yet Another Document Translator 项目地址: https://gitcode.com/GitHub_Trending/ba/BabelDOC 在数据安全合规要求日益严格的今天,企业级文档翻译工具必须提…...

【AI智能体实战】Dify与MCP服务深度集成:从零构建企业级智能问答系统

1. 为什么选择DifyMCP搭建企业级问答系统 最近两年,企业知识库智能化改造的需求呈现爆发式增长。我经手过的十几个项目中,客户普遍反映传统问答系统存在三个痛点:第一是模型效果不稳定,简单问题能回答但复杂业务逻辑就出错&#x…...

终极虚拟游戏控制器驱动:让你收藏的手柄重获新生

终极虚拟游戏控制器驱动:让你收藏的手柄重获新生 【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus 你是否有一柜子的游戏手柄,却因为PC…...

IPD实战指南:如何运用SPAN工具精准定位高潜力市场并优化产品战略布局

1. SPAN工具:市场定位的"战略导航仪" 第一次接触SPAN工具是在2015年,当时我们团队正在为智能家居产品线寻找新的市场突破口。面对十几个潜在细分市场,市场部提交的200页分析报告让所有人陷入数据沼泽。直到产品总监在白板上画出那个…...

手把手教你为Windows10的ROS环境创建‘一键启动’快捷方式(含VS2022路径配置详解)

Windows高效开发:ROS环境一键启动方案深度解析 在Windows系统上搭建ROS开发环境后,每次启动都需要手动配置环境变量、加载开发工具链,这种重复性操作不仅浪费时间,还容易因输入错误导致环境异常。本文将彻底解决这一痛点&#xff…...

Midscene.js:AI视觉驱动自动化,三分钟告别重复浏览器操作

Midscene.js:AI视觉驱动自动化,三分钟告别重复浏览器操作 【免费下载链接】midscene AI-powered, vision-driven UI automation for every platform. 项目地址: https://gitcode.com/GitHub_Trending/mid/midscene 你是否还在为每天重复的浏览器操…...

从噪声到厘米级:GNSS载波相位平滑伪距的工程实践与精度跃迁

1. 从米级到厘米级:GNSS定位精度的关键突破 刚接触GNSS定位时,你可能遇到过这样的困扰:明明设备显示定位精度是1米,实际位置却总在3-5米范围内跳动。这种"飘忽不定"的现象,很大程度上源于原始伪距观测值中的…...

华为服务器SP380网卡固件升级保姆级教程(附避坑指南)

华为SP380网卡固件升级全流程实战手册 当数据中心运维团队遇到网络性能瓶颈或安全漏洞时,网卡固件升级往往是最经济高效的解决方案。作为华为服务器搭载的高性能网卡,SP380在企业级环境中承担着关键的网络流量处理任务。本文将深入解析通过Smart Provisi…...

医院综合能源数据采集监控管理系统方案

某医院主要能耗类型为电能和天然气,天然气主要供给燃气锅炉生产生活热水,用能设备包括供配电设施、暖通空调、生活热水机组、照明、医疗卫生设施等。随着医疗需求与医院规模不断扩大,能耗成本也不断提升,主要集中于夏季供冷和冬季…...