当前位置: 首页 > article >正文

AAAI 2026 | 华中科大联合清华等提出Anomagic:跨模态提示零样本异常生成+万级AnomVerse数据集(附代码)

导读———————————————————————————————————————————现有零样本异常图像生成方法大多仅依赖文本提示引导扩散模型语义控制力有限生成的异常掩码精度也不够高。华中科技大学联合湖南大学、清华大学、中科院自动化所团队提出 Anomagic核心思路是跨模态提示编码——同时融合视觉参考异常图像掩码和文本描述来引导 Stable Diffusion 的修复式生成并通过对比式掩码精炼策略提升异常掩码的像素级精度。为支撑训练团队构建了AnomVerse数据集从13个公开数据集中汇集了12,987个异常-掩码-描述三元组覆盖131种缺陷类型和5大领域论文称其为目前同类最大的异常生成训练集。在VisA数据集上Anomagic的生成质量IS 2.16 / IL 0.39超越所有零样本和少样本方法集成到SOTA检测器INP-Former后P-F1达到54.00%超越少样本方法AnoGen52.61%。论文详情———————————————————————————————————————————论文标题Anomagic: Crossmodal Prompt-driven Zero-shot Anomaly Generation作者Yuxin Jiang, Wei Luo, Hui Zhang, Qiyu Chen, Haiming Yao, Weiming Shen, Yunkang Cao机构华中科技大学 / 湖南大学 / 清华大学 / 中国科学院自动化研究所代码https://github.com/yuxin-jiang/Anomagic一、零样本异常生成为什么需要跨模态提示———————————————————————————————————————————异常图像生成的目标是合成高质量的缺陷样本用于增强下游异常检测模型的训练。零样本方法不需要真实异常图像具有更强的实际适用性但面临两个核心挑战1.1 单模态提示的语义控制力不足目前最具代表性的零样本方法 AnomalyAny 仅通过文本提示操纵 Stable Diffusion 的注意力矩阵来生成异常。但文本提示受限于 CLIP 的 77 token 上限难以精确描述复杂缺陷的细节特征。同时纯文本引导缺乏对异常区域位置和形态的直接视觉参照导致生成结果在空间定位上不够精确。1.2 异常掩码精度不够异常生成不仅要产出逼真的异常图像还需要提供精确的像素级异常掩码——这对下游检测模型的训练至关重要。现有方法通常从注意力图或启发式后处理中提取掩码边界粗糙与实际异常区域对齐不佳。Anomagic 的解决思路(1) 引入跨模态提示编码CPE同时利用视觉参考异常图像掩码和文本描述构建联合条件为扩散模型提供更丰富、更精确的语义引导(2) 设计对比式异常掩码精炼策略通过比较输入正常图像和生成异常图像的像素级差异来获取精确掩码。二、AnomVerse数据集12,987个异常-掩码-描述三元组———————————————————————————————————————————训练跨模态异常生成模型需要大量的异常图像, 掩码, 文本描述三元组但现有公开数据集通常只有图像和掩码缺乏对异常的文本描述。Anomagic 团队构建了AnomVerse来填补这一空白。2.1 数据来源与规模AnomVerse 从13个公开数据集包括 MVTec AD、VisA、MANTA 等中汇集异常样本覆盖5大领域领域占比工业56.5%纺织23.6%消费品8.7%医学5.9%电子5.3%总计12,987 个样本涵盖131 种缺陷类型。相比此前最大的同类数据集 MMAD8,366 个样本AnomVerse 大了约 55%。2.2 文本描述的自动生成为每个异常样本生成结构化描述的流程视觉提示用异常掩码裁剪出最小包围框放大异常区域细节文本模板设计结构化描述模板——The image depicts [物体描述], with a [缺陷类型] observed [位置描述]. The defect is characterized by [详细描述] and exhibits [特征描述].MLLM 生成将裁剪后的视觉提示和模板输入多模态大模型Doubao-Seed-1.6-thinking自动生成每个样本的详细文本描述。这种视觉提示结构化模板MLLM的组合确保了描述的质量和一致性。三、Anomagic方法跨模态提示编码修复式生成对比掩码精炼———————————————————————————————————————————3.1 跨模态提示编码CPECPE 是 Anomagic 的核心模块从三元组异常参考图像 I^ref、掩码 M^ref、文本描述 t^ref中提取联合条件1区域聚焦视觉引导用预训练 CLIP 图像编码器提取参考异常图像的特征图 F然后通过区域聚焦注意力机制利用异常掩码 M^ref 抑制背景区域的注意力权重乘以大常数 C 做衰减使视觉特征聚焦于异常区域。2细粒度文本语义异常描述文本通常较长超过 CLIP 的 77 token 上限。Anomagic 采用分层编码策略将长文本切分为语义连贯的片段分别用 CLIP 文本编码器编码再通过 mean-pooling 聚合为全局文本嵌入 P_t保留长距离依赖。3跨模态融合视觉特征 P_v 和文本嵌入 P_t 通过模态专属交叉注意力块进行双向融合得到统一的跨模态条件 P_c作为扩散模型的输入条件。仅注意力模块和融合模块可训练CLIP 编码器冻结。3.2 修复式生成训练Anomagic 基于Stable Diffusion v1.5OpenCLIP ViT-H/14通过LoRA微调其交叉注意力层训练时从 AnomVerse 采样三元组对参考异常图像的掩码区域做膨胀得到修复掩码将正常区域遮盖后送入扩散模型损失函数仅在修复掩码区域计算模仿模型在掩码内生成与跨模态条件一致的异常掩码外保持原图推理时输入正常图像 随机掩码 从 AnomVerse 检索最相关的跨模态条件生成异常图像。3.3 对比式异常掩码精炼修复式生成保证了异常仅出现在掩码区域内但生成的异常可能未完全填满初始粗掩码。Anomagic引入对比精炼策略计算输入正常图像和生成图像异常的像素级差异使用预训练的MetaUAS模型检测两张图像之间的差异区域以0.9为阈值生成精炼后的二值掩码M_r。精炼后的掩码与生成的异常区域严格对齐为下游检测模型提供更准确的训练标注。3.4 推理流程用户只需提供一个简单的问题如“腰果中常见的缺陷有哪些”Anomagic 通过 MLLM 生成语义回复如“裂纹、孔洞、凸起、划痕”再从 AnomVerse 中检索最相关的三元组作为跨模态条件实现零样本异常生成。也支持用户自定义表单提示、文本提示或跨模态提示。四、实验生成质量与下游检测双重验证———————————————————————————————————————————4.1 生成异常质量论文在 VisA 数据集上评估生成质量IS 最小图像质量IL 即 Intra-Cluster LPIPS 最小多样性方法类型是伊利诺伊州AnoGen样本少2.100.39梦境零样本1.850.37RealNet零样本1.860.37异常零样本1.940.33异常的零样本2.160.39Anomagic 的 IS2.16为最高IL0.39与少样本方法 AnoGen 并列最高IS 超越 AnoGen2.10IS 比零样本第二名 AnomalyAny1.94高出0.22IL 高出0.06。4.2 下游异常检测性能论文采用了与常规方法不同的评估范式不用简单的U-Net检测器而是将生成的异常图像集成到当前SOTA检测方法INP-Former中进行训练增强在VisA上评估方法I-ROCI-F1专业版P-F1补丁核心95.1094.1091.2044.70RD4AD96.0094.3070.9042.60恐龙异常98.9096.2095.3048.60AnoGen少样本99.0996.5595.6252.61梦境99.0396.5895.5951.94RealNet99.0396.7595.7052.87异常99.0196.4895.5750.76异常的99.0896.7795.9254.00关键发现Anomagic的P-F1达到54.00%比少样本方法AnoGen的52.61%高出1.39%比零样本方法AnomalyAny的50.76%高出3.24%PRO达到95.92%为所有方法中最高I-F1达到96.77%同样最高论文特别指出Anomagic 是零样本方法但却在 P-F1 和 PRO 上超越了使用真实异常图像训练的 AnoGen。4.3 消融实验CPE 和 LoRA 的贡献VisA 上 INP-Former 增强后CPE罗拉是伊利诺伊州I-ROCI-F1专业版P-F1——1.850.37599.0396.5895.5951.94✓—2.160.39499.0496.7195.8853.87✓✓2.160.39499.0796.7795.9254.00基线无CPE无LoRA即为DRAEM的水平加入CPE后IS从1.85提升至2.160.31P-F1从51.94%提升至53.87%1.93%说明跨模态提示编码是生成质量提升的核心驱动力加入LoRA后P-F1进一步提升至54.00%0.13%收益相对较小但正向贡献增加。4.4 生成效率方法单张生成时间硬件异常〜3分钟—异常的~1.2秒A100 GPUAnomagic的端到端生成精度包括异常生成和掩码精炼在512×512分辨率下约1.2秒比AnomalyAny快约150倍。五、总结与思考———————————————————————————————————————————论文贡献Anomagic 提出了跨模态驱动提示的零样本异常生成框架CPE模块边界融合和文本描述构建联合条件修复式扩散生成在掩码内合成异常对比掩码精炼策略提升掩码准确性。连接的AnomVerse数据集12,987个三元组131种缺陷13个来源数据集为跨模态异常生成训练提供了参考基础。在VisA上集成到INP-Former之后P-F1达到54.00%在P-F1、PRO、I-F1上超越所有零样本和少样本基线。几点思考1.跨模态与单模态提示的本质差异与近似文本工作AnoStyler纯驱动风格迁移相比Anomagic的核心差异引入了视觉作为附加条件。这使得生成的异常不仅在图像上与文本一致还在纹理、形态上与异常图像相似。代价是需要AnomVerse这样的三元组数据集作为库而AnoStyler拓扑标签和缺陷类型文本。两种方案各有参考适用场景有参考异常库时使用Anomagic效果更好完全从零开始时AnoStyler 更灵活。2. 评估范式的差异含义Anomagic选择将生成的异常集成到SOTA检测器INP-Former中评估而不是用简单的U-Net检测器AnoStyler等方法的评估方式。这意味着Anomagic和AnoStyler的下游检测数据不能直接横向对比——检测器的基础能力不同提升幅度的意义也不同。的评估范式更接近实际应用场景增强以往的强检测器但也使得方法间的纯生成质量贡献更难分割。3.AnomVerse的价值社区12,987个带构造文本描述训练的异常三元组覆盖131种缺陷类型是目前同类最大的数据集。这不仅服务于Anomagic的也为其他需要异常文本描述的研究如多模态异常检测、异常相关的VQA提供了基础资源。4.生成速度的工程意义1.2 秒/张 vs AnomalyAny 的 3 分钟/张150 倍的速度差异在工业场景中具有意义——批量生成数千张训练样本时Anomagic 完成瞬间而 AnomalyAny 需要数天。

相关文章:

AAAI 2026 | 华中科大联合清华等提出Anomagic:跨模态提示零样本异常生成+万级AnomVerse数据集(附代码)

导读: ——————————————————————————————————————————— 现有零样本异常图像生成方法大多仅依赖文本提示引导扩散模型,语义控制力有限,生成的异常掩码精度也不够高。 华中科技大学联合湖南大学、…...

基于MATLAB的双闭环可逆直流脉宽调速系统设计 本设计包括设计报告,仿真原理图

基于MATLAB的双闭环可逆直流脉宽调速系统设计 本设计包括设计报告,仿真原理图。 技术指标 (1)该调速系统能进行平滑的速度调节,负载电机可逆运行,具有较宽的调速范围(D≥20),系统在工…...

音频处理入门:从采样率到量化,手把手教你理解数字音频基础

音频处理入门:从采样率到量化,手把手教你理解数字音频基础 第一次打开音频编辑软件时,那些专业术语是否让你望而却步?采样率44.1kHz还是48kHz?16bit和24bit有什么区别?这些数字背后隐藏着怎样的音频奥秘&am…...

在永磁同步电机(PMSM)的仿真中,PI控制、Clark变换、Park变换和SVPWM模块的实现是非常关键的部分。我将详细描述这些模块的实现过程和分析

永磁同步电机 matlab simulink 仿真其中 PI、Clark 和 Park 变换以及 SVPWM 都是自己构建的,PI参数已经调好。PI控制实现 PI控制器在电机控制中具有良好的性能,能够有效地跟踪目标速度并抑制扰动。在Simulink中,PI控制器可以通过比例积分模块…...

Elasticsearch高亮查询实战:如何避免StringIndexOutOfBoundsException越界错误?

Elasticsearch高亮查询实战:如何规避StringIndexOutOfBoundsException陷阱? 当你正在构建一个搜索密集型应用时,高亮功能往往是提升用户体验的关键一环。想象一下,用户在搜索框中输入关键词后,不仅能看到相关结果&…...

OpenClaw+GLM-4.7-Flash智能家居控制:语音指令转API调用

OpenClawGLM-4.7-Flash智能家居控制:语音指令转API调用 1. 为什么选择这个组合? 去年折腾Home Assistant时,我就被智能家居的"最后一公里"问题困扰——明明设备已经联网,但自然语言交互始终不够流畅。直到发现OpenCla…...

Zephyr RTOS架构解析:物联网嵌入式系统的声明式开发与安全设计

1. Zephyr RTOS:面向物联网的现代实时操作系统架构解析Zephyr 是一个专为资源受限嵌入式设备设计的轻量级、模块化、安全增强型实时操作系统(RTOS),由 Linux 基金会托管,采用 Apache 2.0 开源许可证。其核心设计哲学并…...

【MATLAB】滞后校正装置设计实战:从理论到仿真

1. 滞后校正装置设计基础 第一次接触滞后校正时,我也被那些专业术语搞得晕头转向。后来在实际项目中反复调试才发现,这东西本质上就是个"系统减速带"——通过适当降低系统响应速度来换取更好的稳定性。想象一下开车下陡坡,滞后校正…...

极空间NAS上5分钟搞定Docker版cashbook:微信支付宝账单自动同步教程

极空间NAS上5分钟部署Docker版cashbook:全自动微信支付宝账单同步实战 在个人财务管理领域,自动化记账正成为技术爱好者的新宠。想象一下:每天早晨咖啡还没喝完,昨晚的消费记录已经自动分类归档,月度收支报表静静躺在邮…...

Docker Compose一键部署TDengine 3.3.6.0:物联网开发者的时序数据库快速入门指南

Docker Compose一键部署TDengine 3.3.6.0:物联网开发者的时序数据库快速入门指南 时序数据库在物联网领域的重要性不言而喻。想象一下,你正在开发一个智能工厂监控系统,每秒需要处理数万个传感器数据点——温度、湿度、振动频率、能耗指标...…...

Qwen3-ASR-0.6B多场景落地:从边缘IoT设备到云端集群的统一部署

Qwen3-ASR-0.6B多场景落地:从边缘IoT设备到云端集群的统一部署 1. 引言:语音识别的轻量化革命 语音识别技术正在从云端走向边缘,从大型服务器扩展到各种智能设备。传统的语音识别模型往往需要庞大的计算资源和网络带宽,这在边缘…...

OpenClaw邮件管家:Qwen3-32B自动分类与智能回复实现

OpenClaw邮件管家:Qwen3-32B自动分类与智能回复实现 1. 为什么需要邮件自动化助手 每天早晨打开邮箱时,面对上百封未读邮件的压迫感,相信很多职场人都深有体会。重要客户询价可能淹没在订阅邮件里,紧急会议通知也许被系统自动归…...

FUTURE POLICE语音模型LaTeX科技论文写作助手:语音输入数学公式

FUTURE POLICE语音模型LaTeX科技论文写作助手:语音输入数学公式 写论文,尤其是理工科的,最头疼的是什么?对我来说,除了想创新点,就是敲那些复杂的数学公式了。一个积分符号,一个上下标&#xf…...

Qwen3-VL-8B Web系统实战:chat.html主题色自定义与CSS样式覆盖技巧

Qwen3-VL-8B Web系统实战:chat.html主题色自定义与CSS样式覆盖技巧 1. 项目背景与需求 Qwen3-VL-8B AI聊天系统是一个功能完整的Web应用,包含前端界面、反向代理服务器和vLLM推理后端。系统采用模块化设计,支持本地部署和远程访问&#xff…...

压缩空气储能系统:压缩机等设备的数学模型与Simulink仿真模型建立及两个阶段模型研究

压缩空气储能和释能阶段模型,附相关文档文献。 建立了压缩空气储能系统中的压缩机、换热器、储气罐、透平、热水罐等设备的数学模型、 并在 Simulink仿真平台上、 按模块化建模方式完成了系统相关程序编写和仿真模型建立、 包含储能和释能两个阶段的模型。在能源存储…...

VSCode + WSL开发ESP32踩坑记:OpenOCD权限问题一键搞定

VSCode WSL开发ESP32权限问题终极指南:从临时修复到永久配置 在嵌入式开发领域,ESP32凭借其出色的性价比和丰富的功能接口,已经成为物联网项目的首选芯片之一。而微软推出的WSL(Windows Subsystem for Linux)则为Wind…...

THE LEATHER ARCHIVE实战:如何用AI生成高质量动漫风格皮衣设计

THE LEATHER ARCHIVE实战:如何用AI生成高质量动漫风格皮衣设计 1. 项目概览 THE LEATHER ARCHIVE是一款专为动漫风格皮衣设计打造的高端AI工具,它通过独特的界面设计和优化的生成算法,让时尚设计师和动漫创作者能够轻松生成专业级的皮衣设计…...

假设功率需求与电机尺寸成正比

外能源转管武器凭借高射频、高初速和火力强大等优点广泛装备于各种机动平台,电机作为外能源转管武器的动力源,其性能直接影响转管机枪的作战效能。 常规电机主要以长时间恒定负载的工作特性为依据进行设计,而转管机枪为短时间歇式工作&#x…...

DeepSeek-R1-Distill-Llama-8B体验报告:推理能力强,小白友好

DeepSeek-R1-Distill-Llama-8B体验报告:推理能力强,小白友好 1. 模型介绍与核心优势 DeepSeek-R1-Distill-Llama-8B是基于Llama架构的蒸馏模型,专注于数学推理和代码生成任务。作为DeepSeek-R1系列的一员,它通过知识蒸馏技术保留…...

AI模型训练效率提升:PyTorch-2.x-Universal-Dev-v1.0镜像混合精度实战

AI模型训练效率提升:PyTorch-2.x-Universal-Dev-v1.0镜像混合精度实战 1. 镜像环境与混合精度训练基础 1.1 PyTorch-2.x-Universal-Dev-v1.0镜像特性 PyTorch-2.x-Universal-Dev-v1.0镜像为深度学习开发者提供了开箱即用的高效环境。基于官方PyTorch稳定版本构建…...

手把手教你用STM32和逻辑分析仪调试SC7A20加速度传感器(附I2C波形分析)

从零开始:STM32驱动SC7A20加速度传感器的全流程实战指南 引言 第一次拿到SC7A20这款三轴加速度传感器时,我盯着那不到3mm3mm的封装和密密麻麻的寄存器表,感觉无从下手。作为嵌入式开发者,我们常常需要快速验证新传感器的功能&…...

避坑指南:CentOS 7部署Dify连接Ollama模型的5个常见错误

CentOS 7部署Dify连接Ollama模型的5个致命陷阱与解决方案 在CentOS 7上部署Dify并连接Ollama模型看似简单,实则暗藏玄机。许多开发者按照标准流程操作后,却陷入各种报错泥潭无法自拔。本文将揭示五个最容易被忽视的关键错误,通过真实报错日志…...

腾讯混元翻译模型快速体验:HY-MT1.5-1.8B一键部署与效果实测

腾讯混元翻译模型快速体验:HY-MT1.5-1.8B一键部署与效果实测 1. 引言:企业级翻译模型新选择 在全球化业务快速发展的今天,高效精准的机器翻译已成为企业刚需。腾讯混元团队最新推出的HY-MT1.5-1.8B翻译模型,凭借其18亿参数的轻量…...

高端示波器技术壁垒:从材料、芯片到工业生态的全链解析

1. 高端示波器技术壁垒的系统性解析:从器件、工艺到工业生态的全链条考察示波器作为电子测试测量领域的核心仪器,其发展轨迹并非孤立的技术演进,而是半导体材料、精密制造、电子设计、软件算法与工业体系协同演化的结果。国内长期未能突破高端…...

串口通信原理与STM32 UART实战配置指南

1. 串口通信:嵌入式系统中最基础且最实用的片上外设串口(UART/USART)是绝大多数微控制器芯片内置的标准通信外设,其设计目标并非追求极致带宽,而是以极低的硬件资源开销实现可靠、可预测、易调试的数据交换能力。在嵌入…...

Agent求职快速学习手册!

第1-2周: 机器学习基础算法(Coursera或吴恩达) 目的:了解一下一些基础算法以及数据处理的方式和流程(划重点) 理由:虽然agent开发现在有很多成熟的框架,大多数的工作都围绕着prom…...

LangChain4j实战代码教程——手把手搭建完整Agent应用

用LangChain4j(Java生态最主流的大模型开发框架),手把手搭建一个“企业智能数据分析助手”,将5个概念全部落地,代码可直接复制复用,新手也能快速上手。 核心目标:搭建一个能响应“查询销售额生…...

AutoSkill:无需训练的 LLM 技能自进化框架

📌 一句话总结: 本工作提出 AutoSkill,一种无需模型训练的终身学习框架,通过从用户交互中自动抽取、维护并复用“技能”,使 LLM 智能体能够持续积累能力并实现个性化进化。 🔍 背景问题: 当前…...

从 Pi 到 OpenClaw:一个极简 Coding Agent 如何撑起完整 AI 编程系统

当 OpenClaw 出现在开发者社区时,很多人关注的是: 它为什么这么流畅?为什么调用模型后几乎没有多余动作?为什么工具链看起来不复杂,却很稳定? 答案并不在 UI,而在它背后的核心 —— Pi。 Pi …...

Qwen2.5-0.5B Instruct在卷积神经网络优化中的应用

Qwen2.5-0.5B Instruct在卷积神经网络优化中的应用 1. 引言 在深度学习的世界里,卷积神经网络(CNN)一直是计算机视觉领域的核心架构。但设计和优化一个高效的CNN模型并非易事——需要反复调整网络结构、超参数,还要进行大量的实…...