当前位置：首页 > article >正文

【CVPR26-马连博-东北大学】面向增量式统一多模态异常检测：基于信息瓶颈视角增强多模态去噪

article 2026/4/15 6:38:36

文章Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective代码https://github.com/longkaifang/IB-IUMAD单位东北大学一、问题背景在工业质检场景中多模态异常检测MAD是核心技术通过RGB图像深度图像识别产品表面缺陷。传统方案存在两大痛点单模型单品类一个产品训练一个模型算力消耗大、内存占用高、扩展性极差。单模型多品类虽能用一个模型检测多品类但新增产品时会出现灾难性遗忘——学会新类别就丢掉旧类别的检测能力。现有研究普遍忽略一个关键问题虚假特征与冗余特征会大幅加剧遗忘且多模态融合会让这一问题被放大模型更容易把无关信息当成有效特征导致越学越乱。基于此本文聚焦增量统一多模态异常检测IUMAD任务目标是打造一个“单模型、多品类、可持续增量学习、不遗忘”的工业质检框架。二、方法创新本文提出IB‑IUMAD框架核心是从信息瓶颈视角做多模态降噪用两大核心模块解决“虚假特征干扰冗余信息拖累”从根源缓解灾难性遗忘。1. 整体设计思路把“降噪”作为核心分别处理两类噪声物体间虚假特征耦合不同产品特征缠在一起产生干扰。多模态融合冗余信息RGB与深度图融合后混入大量无用信息。2. 核心创新模块1Mamba解码器去虚假特征作用解开不同物体间的特征耦合阻止虚假特征互相干扰。结构高效状态空间模块ESSM 深度可分离卷积DwConv 注意力机制。原理对RGB/深度图做细粒度特征提取保留关键细节。引入标签信息做分类监督强制模型区分不同物体。把解耦后的特征送入重建网络让重建过程不受干扰。效果从源头切断虚假特征生成避免学新类时打乱旧类特征。3. 核心创新模块2信息瓶颈融合模块IBFM滤冗余特征作用对多模态融合特征做“提纯”只保留判别性信息剔除冗余。原理先用级联交叉注意力完成RGB与深度特征融合。引入信息瓶颈正则化用互信息衡量特征有效性。优化目标最大化与标签相关的有效信息最小化条件冗余信息。用KL散度作为损失函数实现精准特征过滤。效果融合后特征更干净模型记忆负担更低遗忘大幅减少。4. 总损失函数设计框架采用多损失联合优化兼顾重建、分类、信息瓶颈约束分类损失约束Mamba解码器解耦物体特征。融合重建损失保证多模态特征重建质量。信息瓶颈损失过滤冗余保留判别信息。所有损失权重均衡设置训练稳定易收敛。三、实验结果实验在MVTec 3D‑AD真实工业、Eyecandies合成两大数据集上完成设置4种增量学习场景10‑0、9‑1、6‑4、6‑1对比IUF、CDAD等SOTA方法。1. 增量学习性能在6‑14步设置下IB‑IUMAD在MVTec 3D‑AD上 I‑AUROC/AUPRO提升**3.5%/2.9%遗忘率FM降低5.8%/1.5%**。多模态RGB3D效果显著优于单模态证明降噪与融合设计有效。2. 统一检测性能10‑0零增量设置下多模态I‑AUROC达**91.0%MVTec、80.6%**Eyecandies超越UniAD、DiAD、MambaAD等统一检测方法。3. 计算效率内存占用降低44倍推理速度提升41倍兼顾精度与轻量化适合工业部署。4. 消融实验同时使用MambaIBFM性能与抗遗忘能力最优交叉注意力融合方式优于加法、拼接、LinearGLU等方案。四、优势与局限优势首次提出首个面向多模态的增量统一异常检测框架。降噪思路从信息瓶颈做特征提纯直击遗忘根源。性能强劲精度、遗忘率、速度、内存全面优于SOTA。工业友好单模型适配多品类支持持续增量更新不用重训。局限依赖RGB深度双模态数据纯单模态场景优势减弱。超参数需少量调优极端复杂表面纹理仍有优化空间。未覆盖视频流时序异常检测未来可扩展。五、一句话总结IB‑IUMAD从信息瓶颈视角构建多模态降噪框架用Mamba解耦虚假特征、信息瓶颈过滤冗余信息实现工业质检场景下“单模型、多品类、增量学习、不遗忘”的高效异常检测精度与效率双优。

【CVPR26-马连博-东北大学】面向增量式统一多模态异常检测：基于信息瓶颈视角增强多模态去噪

相关文章：

【CVPR26-马连博-东北大学】面向增量式统一多模态异常检测：基于信息瓶颈视角增强多模态去噪

【零日对抗样本防御白皮书】：基于动态梯度掩蔽+可信执行环境（TEE）的AIAgent双模防护架构（附GitHub开源验证代码）

MiniCPM-o-4.5-nvidia-FlagOS企业应用：制造业BOM图纸识别+物料说明生成系统

基于ThinkPHP与Uniapp的跨平台设备巡检系统源码解析与实战部署

无刷电机参数智能转换工具：兼容PMSM与BLDC，支持磁链/反电势计算及FOC开发辅助

基于LSTM与M2LOrder的对比：深度解析时序情感分析技术演进

如何用Video2X实现AI视频无损放大：新手必学的5大技巧

3分钟搞定！APA第7版参考文献格式一键安装指南

Qwen3目标检测辅助字幕对齐：融合YOLOv8的场景文本识别

Qwen3-TTS-12Hz-1.7B-Base真实案例：为无障碍考试系统生成标准化语音试卷

振动式马铃薯收获机的设计（农业机械毕业设计含CAD图纸）

左摆动杠杆的加工工艺规程及铣宽度8mm槽夹具设计

CLIP-GmP-ViT-L-14辅助学术研究：LaTeX论文图表自动标注与索引

BetterNCM Installer技术深度解析：Rust驱动的跨平台自动化管理方案

AMD Ryzen处理器底层调试技术深度解析：SMU调试工具架构剖析与实战指南

通义千问2.5-7B-Instruct作品集：智能生成的会议摘要案例分享

【紧急预警】AIAgent“隐性失效”正在蔓延！SITS2026定义4类伪可靠陷阱及实时检测方案

揭秘AIAgent模仿学习的隐式策略蒸馏：如何用1/10标注数据复现专家级行为？

YOLO12多尺度检测效果展示：同一图像不同分辨率输入结果对比图集

智慧医疗中的诊断辅助与健康管理

Cogito-v1-preview-llama-3B效果对比：在ChineseGLUE榜单全面领先

CSS如何使用CSS Grid实现响应式网格_通过fr单位灵活布局

DeOldify图像上色服务部署详解：计算机组成原理视角下的GPU资源分配

保姆级教程：用Python 3.6和pymilvus 1.1.0搞定Milvus向量数据库的增删改查

CasRel开源可部署价值：替代商业NLP平台，年节省知识图谱构建成本超80%

Autoware实车部署避坑指南（一）-- 从零搭建矢量地图与Unity工具链实战

如何在CSS中正确加载本地JPG背景图片

别再为服务器账单发愁！元域资源调度与成本优化的三层架构实战

报价单外发失控：商业机密是怎么从邮件里流出去的

网页的定义