基于ViT的无监督工业异常检测模型汇总
基于ViT的无监督工业异常检测模型汇总
- 论文1:VT-ADL: A Vision Transformer Network for Image Anomaly Detection and Localization(2021)
- 1.1 主要思想
- 1.2 系统框架
- 论文2:Inpainting Transformer for Anomaly Detection(2021)
- 2.1 主要思想
- 2.2 模型架构
- 论文3:UTRAD: Anomaly Detection and Localization with U-Transformer(2022)
- 3.1 主要思想
- 3.2 模型架构
- 3.3 缺陷
- 论文4:ADTR: Anomaly Detection Transformer with Feature Reconstruction(2022)
- 4.1 主要内容
- 4.2 模型结构
- 论文5:A Unified Model for Multi-class Anomaly Detection(2022)—— 多分类无监督异常检测统一模型
- 5.1 主要内容
- 5.2 模型架构
- 论文6:Exploring Plain ViT Features for Multi-class Unsupervised Visual Anomaly Detection(2024)- 多分类无监督异常检测统一模型
- 6.1 主要内容
- 6.2 模型架构
- 7. 总结
- 7.1 ViT的可用优势
- 7.2 ViT的劣势
论文1:VT-ADL: A Vision Transformer Network for Image Anomaly Detection and Localization(2021)
1.1 主要思想
所提出的模型结合了传统的基于重建的方法和基于补丁的方法的优势。输入图像被细分为块,并使用 Vision Transformer 进行编码。然后将生成的特征馈送到解码器中以重建原始图像,从而使网络学习代表正常图像方面的特征(网络训练的唯一数据)。同时,高斯混合密度网络对 transformer 编码特征的分布进行建模,以估计该潜在空间中正常数据的分布。使用此模型检测异常会自动允许其定位,因为 transformer 编码的特征与位置信息相关联。
1.2 系统框架
使用基于重建的方法在全局级别检测到异常,通过应用于编码图像块的高斯混合模型进行定位。
论文2:Inpainting Transformer for Anomaly Detection(2021)
2.1 主要思想
区别与CNN,该论文作者采取基于自注意力机制的纯Transformer结构,将异常检测问题转换为图像覆盖修补问题。其解决方案实质上是基于图像重构的,其创新点在于采取自注意力机制进行全局的图像重建,重建后的图像与原图进行对比,差异部分就是异常部分。关于如何重建,还是由仅通过正常样本的训练得到的重建网络做到的。
2.2 模型架构
- 每个Transformer块的输入输出都是一个序列(左侧)
- inmatic 网络架构由一些简单的 Transformer 块堆栈组成。每个Transformer 由 MFSA 和多层感知器 (MLP) 组成。(右侧)
- 对最后一个Transformer块的输出序列进行了平均,得到了一个向量,该向量用于通过映射得到扁平化的补丁像素空间。
对这些Transformer块进行训练,可以根据相邻的补丁对覆盖的图像块进行很好的修复。
推理和检测部分的实施过程是先生成完整的修复图像,然后使用重建后的图像和原始之间的差异来计算像素级异常图。
论文3:UTRAD: Anomaly Detection and Localization with U-Transformer(2022)
3.1 主要思想
该篇论文的解决方案实质上还是基于图像重构的方式,针对重建方式的不稳定和调整困难,以及采用大数据集预训练网络特征空间泛化能力差的问题,研究者采用了一些新颖的思想去改进:
- 为避免预训练模型特征表示的不稳定性,在训练时采用冻结骨干网进行训练;
- 为更好的估计深度特征,采用特征级别进行重建(重要结论:正常样本和异常样本在特征空间中更容易区分);
- 构建了一个基于Transformer的多级自动编码器作为重建网络,利用提取到的正常样本的特征进行了训练;
- 加入了Transformer注意力模块,全局信息可以得到很好聚合,模型更具泛化能力;
- 考虑网络性能,降低计算成本,在构建时采用U型的Transformer(网络内部具有跳跃连接);
- 采用金字塔层次结构,提取不同尺度的异常特征。
3.2 模型架构
输入图像先使用预训练的CNN主干为输入样本提取多尺度特征,然后使用U-Transformer(多尺度重建模型)进行图像的重建,之后重建之前和重建后会出现重建误差(图中的Reconstruction error),重建误差会作为异常分数输出以及像素级异常区域的检出。
3.3 缺陷
虽然已经采用了改进后的Transformer,但与基于嵌入式的方式相比依然存在模型尺寸大、推理时间长、难部署的问题。模型设计的太过复杂!
论文4:ADTR: Anomaly Detection Transformer with Feature Reconstruction(2022)
4.1 主要内容
三点动机:
- 根据较少的语义信息去重建原始像素值,正常区域与异常区域往往像素值相似但是具有不同的语义,因此像素重建的方法往往会引发歧义。正常样本和异常样本在特征空间内往往具有可区分的特征,所以不以重建原始像素值为目标而以重建原始特征为目标。提取特征采用CNN预训练网络去实现。
- 以往CNN的重建模型倾向于通过shortcuts去学习一定程度的“相同映射”,这会导致异常区域被很好的重建为异常区域,无法获取有效的重建误差。Transformer中的query embedding可以限制“相同映射”的趋势(有助于区分正常样本和异常样本),所以重建网络采用Transformer进行构建。
- 对可以提供少量异常样本的情况进行兼容,使得设计的模型既可以在没有异常图片的情况下训练,也可以在有异常图像的情况下训练。(考虑到了异常可用情况,设计了相应的损失函数)
4.2 模型结构
方法概述(a)Embedding:应用预先训练的 CNN 主干来提取多尺度特征。(b) Reconstruction:使用Transformer通过辅助可学习查询嵌入来重建特征标记。(c) Comparison:该方法与仅正常样本的情况和异常可用的情况兼容。异常评分图是通过提取和重建特征之间的差异获得的。
模型架构与前篇论文中的模型架构有相似之处,都是采用CNN进行特征的提取,采用Transformer进行重建网络的搭建,但很明显,该篇论文提出的Transformer架构更加简洁。
Transformer 重建网络:
- 特征图 𝒇∈ℝC×H×W 首先被拆分为 H×W 特征标记。为了减少计算消耗,1×1 应用卷积来减小这些标记的维度,然后再将其馈送到 transformer 中。此外,当 transformer 输出时,它们的维度由另一个 1×1卷积恢复。
- transformer 编码器将 输入的feature tokens 嵌入到潜在特征空间中。每个编码器层都遵循标准架构 ,具有多头注意、前馈网络 (FFN)、残差连接和归一化。
- transformer 解码器遵循标准架构,并带有辅助查询嵌入。辅助查询是一个可学习的嵌入与输入的feature tokens具有相同尺寸,Transformer解码器将这些可学习的查询嵌入进行转换使用多头自注意力机制来重建feature token。位置嵌入被加入到 Transformer 模型中,是因为其 自注意力机制本身对输入顺序不敏感(即 permutation-invariant)。Learned position embedding 能让模型从数据中学习位置信息,从而有效地捕获输入序列的顺序依赖关系。
异常得分计算:
从重建网络中可以了解到,解码器的目标是根据可学习的辅助查询重建出解码器的feature token,然后与解码器的feature token进行对比从而根据重建误差得到异常区域。
论文5:A Unified Model for Multi-class Anomaly Detection(2022)—— 多分类无监督异常检测统一模型
5.1 主要内容
当前所有的异常检测方法都只能用一个模型解决一个类别,这种“一个模型只处理一个类别”的separate setting是十分耗费储存空间的,并且无法处理正常样本具有一定多样性的场景 (比如,一种物体有多种正常的型号)。所以该篇论文致力于解决一个更困难的统一设定,那就是用一个模型解决所有类别的异常检测。
该篇论文还是基于重构的思想,深入研究了”恒等映射“的问题(虽然重构模型是在正常样本上训练的,其遇到异常样本同样会重构成功。这使得正常样本和异常样本的重构误差都很小,难以被区分开来)。研究者希望能够从网络结构设计上避免”恒等映射“问题。
通过实验,发现结构上Transformer结构的”恒等映射“问题与MLP和CNN相比是较轻的。研究者们认为具有query embedding的attention可以抑制“恒等映射” 。所以基于Transformer进行了整体模型框架的构建,并做了三点相关改进。
5.2 模型架构
改进1:Layer-wise Query Embedding
通过增加query embedding,来增加其抑制“恒等映射”的能力。以transformer为基础,提出了Layer-wise Query Embedding,即,在decoder的每一层都加入query embedding。
改进2:Neighbor Masked Attention
研究者认为,在传统的Attention中,一个token是可以利用自己的信息的,这可能会防止信息泄漏,即,直接将输入进行输出,形成“恒等映射”。因此,提出了Neighbor Masked Attention,即,一个token是不能利用自己和自己的邻居的信息的。这样,网络就必须通过更远处的token来理解这个点的信息应该是什么,进而在这个过程中理解了正常样本,拟合了正常样本的分布。
改进3:Feature Jittering
受到De-noising Auto-Encoder的启发,设计了一个Feature Jittering策略。即,在输入的feature tokens中加入噪声,而重构的目标依然是未加噪声的feature tokens。因此,Feature Jittering可以将重构任务转化为去噪任务。网络通过去除噪声来理解正常样本,并拟合正常样本的分布。同时,恒等映射在这种情况下不能使得loss等于0,也就不是最优解了。
论文6:Exploring Plain ViT Features for Multi-class Unsupervised Visual Anomaly Detection(2024)- 多分类无监督异常检测统一模型
6.1 主要内容
针对异常检测中,异常样本是多类的,以往的异常检测中每个类都需要单独的进行模型的训练,大大增加了模型训练和存储的成本。该篇论文提出了基于Plain ViT的多分类无监督的异常检测(MUAD)框架ViTAD。
6.2 模型架构
对于基于重建方式的异常检测模型,该篇论文抽象出一个基础的框架Meta-AD,包括一个编码器,特征融合器,解码器。与以往采用CNN搭建编码器和解码器的方式不同,该篇论文从Plain ViT 出发,搭建列状的ViT编码器和解码器,并从全局和局部的角度利用一些策略进行了改进。最终得到一个简单有效的基于ViT的模型框架。
改进前的模型架构:
改进后的模型架构:
论文出发点:
ViT的优势:与更复杂的CNN特征金字塔相比,Plain ViT得益于全局动态建模能力,列状的Plain ViT提供更多出色可用性和使用价值。ViT特征在各个阶段都比CNN的特征更加丰富和多样化,正常图像和异常图像之间的差异更加显著,这一现象表明VIT结构具有更强的建模能力和更大的感受野,可用于AD任务的潜在应用。
橙色数字表示从全局角度做的改进:
第一点:融合模块去除了多尺度跳跃链接,仅仅使用最后一级F作为输入(结构图中没有看到去除多尺度跳跃连接!)
原由:原因是列状的ViT深层特征F,足以包含丰富的纹理和语义属性。早期特征的注入会缩短信息流路经,导致潜在信息的泄露。使得模型能够学习到恒等映射并且影响模型在图像级别的判断能力。
第二点:在推理期间,使用F1, F2, F3来约束计算异常得分图A1,A2,A3,这样可以有效利用不同级别的特征图中的细粒度特征,得到更准确的异常分割图。
第三点:采用更强语义力度的DINO作为预训练数据集以便得到更好的特征提取效果。 (由于ImageNet-1k与AD数据集之间存在领域差异,这种直接的方式效果不佳)
蓝色数字表示从局部角度做的改进:
第一点:在归一化之前使用特征,输入到特征融合模块;
第二点:使用轻量级线性单层作为Fuser结构;(简化模型)
第三点:不维护类token(降低计算复杂度,提高计算性能);
第四点:增加基于ViT解码器位置的嵌入会带来轻微的性能提升。(提供位置信息)
7. 总结
7.1 ViT的可用优势
-
全局特征提取:Transformer通过自注意力机制对图像的每一部分进行建模,能够从全局的角度捕捉特征。这使得它在提取长距离依赖和图像的全局特征方面表现出色。
-
自适应性强:Transformer可以灵活调整不同位置之间的权重,因此在处理需要建模复杂关系的任务(如细粒度识别)上更具优势。
-
不依赖卷积操作:Vision Transformer(ViT)将图像分割为小块后处理,从而避免了局限于局部的卷积操作。每个图像块会与其他图像块进行关联,从而捕捉到更丰富的全局特征。
7.2 ViT的劣势
(1)模型结构与CNN相比较为复杂,且计算复杂度高
(2)训练快,推理慢
(3)空间位置信息不敏感,需要额外的位置向量嵌入
相关文章:

基于ViT的无监督工业异常检测模型汇总
基于ViT的无监督工业异常检测模型汇总 论文1:VT-ADL: A Vision Transformer Network for Image Anomaly Detection and Localization(2021)1.1 主要思想1.2 系统框架 论文2:Inpainting Transformer for Anomaly Detection…...

数据库管理-第258期 23ai:Oracle Data Redaction(20241104)
数据库管理258期 2024-11-04 数据库管理-第258期 23ai:Oracle Data Redaction(20241104)1 简介2 应用场景与有点3 多租户环境4 特性与能力4.1 全数据编校4.2 部分编校4.3 正则表达式编校4.4 随机编校4.5 空值编校4.6 无编校4.7 不同数据类型上…...

运放进阶篇-多种波形可调信号发生器-产生方波-三角波-正弦波
引言:前几节我们已经说到硬件相关基础的电路,以及对于运放也讲到了初步的理解,特别是比较器的部分,但是放大器的部分我们对此并没有阐述,在这里通过实例进行理论结合实践的学习。而运放真正的核心,其实就是…...
CSS中的变量应用——:root,Sass变量,JavaScript中使用Sass变量
:root—— 原生CSS 自定义属性(变量) 在 SCSS 文件中定义 CSS 自定义属性。然后通过 JavaScript 读取这些属性。 // variables.scss :root { --login-bg-color: #293146;--left-menu-max-width: 200px;--left-menu-min-width: 64px;--left-menu-bg-…...

WPF+MVVM案例实战与特效(二十八)- 自定义WPF ComboBox样式:打造个性化下拉菜单
文章目录 1. 引言案例效果3. ComboBox 基础4. 自定义 ComboBox 样式4.1 定义 ComboBox 样式4.2 定义 ComboBoxItem 样式4.3 定义 ToggleButton 样式4.4 定义 Popup 样式5. 示例代码6. 结论1. 引言 在WPF应用程序中,ComboBox控件是一个常用的输入控件,用于从多个选项中选择一…...
速盾:怎么使用cdn加速?
CDN(Content Delivery Network)即内容分发网络,是一种通过在网络各处部署节点来缓存和传输网络内容的技术。通过使用CDN加速,可以提高网站的访问速度、减轻服务器负载、提供更好的用户体验。 使用CDN加速的步骤如下: …...

C++ 优先算法 —— 三数之和(双指针)
目录 题目:三数之和 1. 题目解析 2. 算法原理 ①. 暴力枚举 ②. 双指针算法 不漏的处理: 去重处理: 固定一个数 a 的优化: 3. 代码实现 Ⅰ. 暴力枚举(会超时 O(N)) Ⅱ.…...
YOLOv7-0.1部分代码阅读笔记-yolo.py
yolo.py models\yolo.py 目录 yolo.py 1.所需的库和模块 2.class Detect(nn.Module): 3.class IDetect(nn.Module): 4.class IAuxDetect(nn.Module): 5.class IBin(nn.Module): 6.class Model(nn.Module): 7.def parse_model(d, ch): 8.if __name__ __main__…...
【缓存与加速技术实践】Web缓存代理与CDN内容分发网络
文章目录 Web缓存代理Nginx配置缓存代理详细说明 CDN内容分发网络CDN的作用CDN的工作原理CDN内容的获取方式解决缓存集中过期的问题 Web缓存代理 作用: 缓存之前访问过的静态网页资源,以便在再次访问时能够直接从缓存代理服务器获取,减少源…...
MySQL的约束和三大范式
一.约束 什么是约束,为什么要用到约束? 约束就是用于创建表时,给对应的字段添加对应的约束 约束的作用就是当我们用insert into时,如果传入的数据有问题,不符合创建表时我们定的规定,这时MySQL就会自动帮…...

Unity网络通信(part7.分包和黏包)
目录 前言 概念 解决方案 具体代码 总结 分包黏包概念 分包 黏包 解决方案概述 前言 在探讨Unity网络通信的深入内容时,分包和黏包问题无疑是其中的关键环节。以下是对Unity网络通信中分包和黏包问题前言部分的详细解读。 概念 在网络通信中,…...
练习题 - DRF 3.x Overviewses 框架概述
Django REST Framework (DRF) 是一个强大的工具,用于构建 Web APIs。作为 Django 框架的扩展,DRF 提供了丰富的功能和简洁的 API,使得开发 RESTful Web 服务变得更加轻松。对于想要在 Django 环境中实现快速且灵活的 API 开发的开发者来说,DRF 是一个非常有吸引力的选择。学…...
Linux 经典面试八股文
快速鉴别十个题 1,你如何描述Linux文件系统的结构? 答案应包括对/, /etc, /var, /home, /bin, /lib, /usr, 和 /tmp等常见目录的功能和用途的描述。 2,在Linux中如何查看和终止正在运行的进程? 期望的答案应涵盖ps, top, htop, …...

Filter和Listener
一、Filter过滤器 1 概念 可以实现拦截功能,对于指定资源的限定进行拦截,替换,同时还可以提高程序的性能。在Web开发时,不同的Web资源中的过滤操作可以放在同一个Filter中完成,这样可以不用多次编写重复代码…...
Go 项目中实现类似 Java Shiro 的权限控制中间件?
序言: 要在 Go 项目中实现类似 Java Shiro 的权限控制中间件,我们可以分为几个步骤来实现用户的菜单访问权限和操作权限控制。以下是一个基本的实现框架步骤: 目录 一、数据库设计 二、中间件实现 三、使用中间件 四、用户权限管理 五…...
【Javascript】-一些原生的网页设计案例
JavaScript 网页设计案例 1. 动态时钟 功能描述:在网页上显示一个动态更新的时钟,包括小时、分钟和秒。实现思路: 使用 setInterval 函数每秒更新时间。获取当前时间并更新页面上的文本。 代码示例:<div id"clock"…...
SpringBoot开发——Spring Boot 3种定时任务方式
文章目录 一、什么是定时任务二、代码示例1、 @Scheduled 定时任务2、多线程定时任务3、基于接口(SchedulingConfigurer)实现动态更改定时任务3.1 数据库中存储cron信息3.2 pom.xml文件中增加mysql依赖3.3 application.yaml文件中增加mysql数据库配置:3.4 创建定时器3.5 启动…...
Flutter鸿蒙next 实现长按录音按钮及动画特效
在 Flutter 中实现长按录音按钮并且添加动画特效,是一个有趣且实用的功能。本文将通过实现一个具有动画效果的长按录音按钮,带领你一步步了解如何使用 Flutter 完成这个任务,并解释每一部分的实现。 一、功能需求 我们需要一个按钮…...

【计网】实现reactor反应堆模型 --- 框架搭建
没有一颗星, 会因为追求梦想而受伤, 当你真心渴望某样东西时, 整个宇宙都会来帮忙。 --- 保罗・戈埃罗 《牧羊少年奇幻之旅》--- 实现Reactor反应堆模型 1 前言2 框架搭建3 准备工作4 Reactor类的设计5 Connection连接接口6 回调方法 1 …...

力扣中等难度热题——长度为K的子数组的能量值
目录 题目链接:3255. 长度为 K 的子数组的能量值 II - 力扣(LeetCode) 题目描述 示例 提示: 解法一:通过连续上升的长度判断 Java写法: C写法: 相比与Java写法的差别 运行时间 时间复杂…...
【杂谈】-递归进化:人工智能的自我改进与监管挑战
递归进化:人工智能的自我改进与监管挑战 文章目录 递归进化:人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管?3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...

(二)TensorRT-LLM | 模型导出(v0.20.0rc3)
0. 概述 上一节 对安装和使用有个基本介绍。根据这个 issue 的描述,后续 TensorRT-LLM 团队可能更专注于更新和维护 pytorch backend。但 tensorrt backend 作为先前一直开发的工作,其中包含了大量可以学习的地方。本文主要看看它导出模型的部分&#x…...

蓝牙 BLE 扫描面试题大全(2):进阶面试题与实战演练
前文覆盖了 BLE 扫描的基础概念与经典问题蓝牙 BLE 扫描面试题大全(1):从基础到实战的深度解析-CSDN博客,但实际面试中,企业更关注候选人对复杂场景的应对能力(如多设备并发扫描、低功耗与高发现率的平衡)和前沿技术的…...
【磁盘】每天掌握一个Linux命令 - iostat
目录 【磁盘】每天掌握一个Linux命令 - iostat工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景 注意事项 【磁盘】每天掌握一个Linux命令 - iostat 工具概述 iostat(I/O Statistics)是Linux系统下用于监视系统输入输出设备和CPU使…...

相机从app启动流程
一、流程框架图 二、具体流程分析 1、得到cameralist和对应的静态信息 目录如下: 重点代码分析: 启动相机前,先要通过getCameraIdList获取camera的个数以及id,然后可以通过getCameraCharacteristics获取对应id camera的capabilities(静态信息)进行一些openCamera前的…...
sqlserver 根据指定字符 解析拼接字符串
DECLARE LotNo NVARCHAR(50)A,B,C DECLARE xml XML ( SELECT <x> REPLACE(LotNo, ,, </x><x>) </x> ) DECLARE ErrorCode NVARCHAR(50) -- 提取 XML 中的值 SELECT value x.value(., VARCHAR(MAX))…...

uniapp微信小程序视频实时流+pc端预览方案
方案类型技术实现是否免费优点缺点适用场景延迟范围开发复杂度WebSocket图片帧定时拍照Base64传输✅ 完全免费无需服务器 纯前端实现高延迟高流量 帧率极低个人demo测试 超低频监控500ms-2s⭐⭐RTMP推流TRTC/即构SDK推流❌ 付费方案 (部分有免费额度&#x…...

《基于Apache Flink的流处理》笔记
思维导图 1-3 章 4-7章 8-11 章 参考资料 源码: https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...

dify打造数据可视化图表
一、概述 在日常工作和学习中,我们经常需要和数据打交道。无论是分析报告、项目展示,还是简单的数据洞察,一个清晰直观的图表,往往能胜过千言万语。 一款能让数据可视化变得超级简单的 MCP Server,由蚂蚁集团 AntV 团队…...
JavaScript基础-API 和 Web API
在学习JavaScript的过程中,理解API(应用程序接口)和Web API的概念及其应用是非常重要的。这些工具极大地扩展了JavaScript的功能,使得开发者能够创建出功能丰富、交互性强的Web应用程序。本文将深入探讨JavaScript中的API与Web AP…...