当前位置: 首页 > news >正文

【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 7 日论文合集)

文章目录

  • 一、检测相关(5篇)
    • 1.1 Contextual Affinity Distillation for Image Anomaly Detection
    • 1.2 Noise-to-Norm Reconstruction for Industrial Anomaly Detection and Localization
    • 1.3 MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential Deepfake Detection
    • 1.4 GIT: Detecting Uncertainty, Out-Of-Distribution and Adversarial Samples using Gradients and Invariance Transformations
    • 1.5 Anomaly detection in image or latent space of patch-based auto-encoders for industrial image analysis
  • 二、分割|语义相关(7篇)
    • 2.1 Probabilistic and Semantic Descriptions of Image Manifolds and Their Applications
    • 2.2 Towards accurate instance segmentation in large-scale LiDAR point clouds
    • 2.3 Semi-supervised Domain Adaptive Medical Image Segmentation through Consistency Regularized Disentangled Contrastive Learning
    • 2.4 Spherical Feature Pyramid Networks For Semantic Segmentation
    • 2.5 GNEP Based Dynamic Segmentation and Motion Estimation for Neuromorphic Imaging
    • 2.6 Topology-Aware Loss for Aorta and Great Vessel Segmentation in Computed Tomography Images
    • 2.7 Self-supervised learning via inter-modal reconstruction and feature projection networks for label-efficient 3D-to-2D segmentation

一、检测相关(5篇)

1.1 Contextual Affinity Distillation for Image Anomaly Detection

用于图像异常检测的上下文亲和度提取

https://arxiv.org/abs/2307.03101

在这里插入图片描述
以往的无监督工业异常检测工作主要集中在局部结构异常,如裂纹和颜色污染。虽然在这种异常上实现了显着的高检测性能,但它们面临着违反远程依赖性的逻辑异常,例如放置在错误位置的正常对象。在本文中,基于以前的知识蒸馏工程,我们建议使用两个学生(本地和全球),以更好地模仿教师的行为。在以往的研究中,局部学生主要关注结构异常检测,而全局学生则关注逻辑异常。为了进一步鼓励全球学生的学习,以捕捉远程依赖关系,我们设计的全球上下文压缩块(GCCB),并提出了一个上下文的亲和力损失的学生训练和异常评分。实验结果表明,该方法不需要繁琐的训练技术,并取得了新的国家的最先进的性能MVTec LOCO AD数据集。

1.2 Noise-to-Norm Reconstruction for Industrial Anomaly Detection and Localization

用于工业异常检测和定位的信噪比重建

https://arxiv.org/abs/2307.02836

在这里插入图片描述
异常检测有着广泛的应用,在工业质量检测中尤为重要。目前,许多表现最好的异常检测模型依赖于特征嵌入方法。然而,这些方法在对象位置变化较大的数据集上表现不佳。基于重建的方法使用重建误差来检测异常,而不考虑样本之间的位置差异。在这项研究中,提出了一种基于重建的方法,使用噪声到规范的范例,它避免了不变性的异常区域的重建。我们的重建网络是基于M-网,并采用多尺度融合和剩余注意力模块,使端到端的异常检测和定位。实验结果表明,该方法能有效地将异常区域重构为正常模式,实现准确的异常检测和定位。在MPDD和VisA数据集上,我们提出的方法比最新的方法取得了更有竞争力的结果,并在MPDD数据集上建立了一个新的最先进的标准。

1.3 MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential Deepfake Detection

MMNet:多协作、多监控的序列深伪检测网络

https://arxiv.org/abs/2307.02733

在这里插入图片描述
先进的操纵技术为犯罪分子提供了制造社会恐慌或通过产生欺骗性媒体(如伪造的人脸图像)获取非法利润的机会。作为回应,已经提出了各种深度伪造检测方法来评估图像的真实性。序列深度伪造检测是深度伪造检测的扩展,旨在识别具有正确序列的伪造面部区域以进行恢复。然而,由于空间和顺序操作的不同组合,伪造的人脸图像表现出严重影响检测性能的实质性差异。此外,伪造图像的恢复需要操纵模型的知识来实现逆变换,这是难以确定的,因为相关技术通常被攻击者隐藏。为了解决这些问题,我们提出了多协作和多监督网络(MMNet),处理各种空间尺度和顺序排列伪造的人脸图像,并实现恢复,而不需要相应的操作方法的知识。此外,现有的评估指标只考虑检测精度在一个单一的推断步骤,没有考虑的匹配程度与地面真理在连续多个步骤。为了克服这一限制,我们提出了一种新的评价指标,称为完整序列匹配(CSM),它认为在多个推断步骤的检测精度,反映了检测整体伪造序列的能力。在几个典型数据集上的实验表明,MMNet具有最佳的检测性能和独立恢复性能。

1.4 GIT: Detecting Uncertainty, Out-Of-Distribution and Adversarial Samples using Gradients and Invariance Transformations

GIT:使用梯度和不变性变换检测不确定性、非分布和对抗性样本

https://arxiv.org/abs/2307.02672

在这里插入图片描述
深度神经网络倾向于做出过度自信的预测,并且通常需要额外的错误分类检测器,特别是对于安全关键型应用。现有的检测方法通常只关注对抗性攻击或分布外的样本作为错误预测的原因。然而,泛化错误的发生是由于各种原因,往往与学习相关的不变性差。因此,我们提出了GIT,一个整体的方法,结合使用梯度信息和不变性变换的泛化错误的检测。不变性变换被设计成将错误分类的样本移回神经网络的泛化区域,而梯度信息测量初始预测与使用变换后的样本的神经网络的相应固有计算之间的矛盾。我们的实验表明,GIT的优越性能相比,国家的最先进的各种网络架构,问题设置和扰动类型。

1.5 Anomaly detection in image or latent space of patch-based auto-encoders for industrial image analysis

用于工业图像分析的基于块的自动编码器的图像或潜在空间的异常检测

https://arxiv.org/abs/2307.02495

在这里插入图片描述
我们研究了几种方法,用于检测彩色图像中的异常,构建基于补丁的自动编码器。我们比较了三种类型的方法的基础上,第一,原始图像和重建之间的错误,第二,在潜空间中的正常图像分布的支持估计,第三,在originalimage和重建图像的恢复版本之间的错误的性能。这些方法进行评估的工业图像数据库MVTecAD和两个竞争的国家的最先进的方法相比。

二、分割|语义相关(7篇)

2.1 Probabilistic and Semantic Descriptions of Image Manifolds and Their Applications

图像流形的概率和语义描述及其应用

https://arxiv.org/abs/2307.02881

在这里插入图片描述
本文首先描述的方法估计概率密度函数的图像,反映了观察,这些数据通常被限制在有限的区域的高维图像空间-不是每一个模式的像素是一个图像。通常说图像位于高维空间中的低维流形上。然而,尽管图像可能位于这种低维流形上,但并非流形上的所有点都具有相等的图像概率。图像是不均匀分布在流形上,我们的任务是设计方法来模拟这种分布的概率分布。在追求这一目标的过程中,我们考虑了在AI和计算机视觉社区中流行的生成模型。为了我们的目的,生成/概率模型应该具有以下属性:1)样本生成:应该可以根据建模的密度函数从该分布中采样,以及2)概率计算:给定来自感兴趣的数据集的先前未见过的样本,应当能够计算样本的概率,至少达到归一化常数。为此,我们研究使用的方法,如正常化的流量和扩散模型。然后,我们表明,这种概率描述可以用来构建防御对抗性攻击。除了在密度方面描述的流形,我们还考虑如何语义解释可以用来描述点的流形。为此,我们考虑一个新兴的语言框架,它利用变分编码器产生一个解开表示点,驻留在一个给定的流形。流形上的点之间的轨迹,然后可以描述在不断发展的语义描述。

2.2 Towards accurate instance segmentation in large-scale LiDAR point clouds

大比例尺激光雷达点云中的精确实例分割

https://arxiv.org/abs/2307.02877

在这里插入图片描述
全景分割是语义分割和实例分割的组合:将3D点云中的点分配给语义类别,并将它们划分为不同的对象实例。它在户外场景理解方面有许多明显的应用,从城市测绘到森林管理。现有的方法努力分割附近的实例相同的语义类别,如相邻的街道设施或相邻的树木,这限制了它们的可用性的库存或管理类型的应用程序,依赖于对象实例。本研究探讨了与将点聚类为对象实例有关的全景分割流水线的步骤,其目标是缓解该瓶颈。我们发现,一个精心设计的聚类策略,利用多种类型的学习点嵌入,显着提高实例分割。NPM3D城市移动地图数据集和FOR实例森林数据集上的实验证明了该策略的有效性和通用性。

2.3 Semi-supervised Domain Adaptive Medical Image Segmentation through Consistency Regularized Disentangled Contrastive Learning

基于一致性正则化解缠对比学习的半监督领域自适应医学图像分割

https://arxiv.org/abs/2307.02798

在这里插入图片描述
虽然无监督域自适应(UDA)是一个很有前途的方向,以减轻域转移,他们不符合他们的监督同行。在这项工作中,我们调查了相对较少探索的半监督域自适应(SSDA)的医学图像分割,其中访问一些标记的目标样本可以大大提高自适应性能。具体而言,我们提出了一个两阶段的培训过程。首先,编码器是预先训练的自学习范式,使用一种新的域内容解开对比学习(CL)以及像素级的特征一致性约束。建议的CL强制编码器学习歧视性的内容特定的,但域不变的语义在全球范围内从源和目标图像,而一致性正则化强制挖掘本地像素级信息,保持空间敏感性。该预训练的编码器连同解码器一起被进一步微调用于下游任务(即,像素级分割)。此外,我们的实验验证,我们提出的方法可以很容易地扩展为UDA设置,增加了所提出的策略的优越性。两个域自适应图像分割任务的评估后,我们提出的方法优于SoTA方法,无论是在SSDA和UDA设置。代码可在www.example.com上获得https://github.com/hritam-98/GFDA-disentangled

2.4 Spherical Feature Pyramid Networks For Semantic Segmentation

用于语义分割的球形特征金字塔网络

https://arxiv.org/abs/2307.02658

在这里插入图片描述
球形数据的语义分割是机器学习中的一个具有挑战性的问题,因为传统的平面方法需要将球形图像投影到欧几里得平面。在根本不同的拓扑上表示信号会引入影响网络性能的边缘和失真。最近,基于图形的方法已经绕过了这些挑战,通过在球形网格上表示信号来实现显着的改进。目前的球形分割方法仅使用UNet架构的变体,这意味着更成功的平面架构尚未开发。受特征金字塔网络(FPNs)在平面图像分割中的成功启发,我们利用基于图的球形CNN的金字塔层次结构来设计球形FPNs。我们的球形FPN模型表现出一致的改进球形UNets,同时使用更少的参数。在斯坦福大学的2D-3D-S数据集上,我们的模型实现了最先进的性能,mIOU为48.75,比之前最好的球形CNN提高了3.75个IoU点。

2.5 GNEP Based Dynamic Segmentation and Motion Estimation for Neuromorphic Imaging

基于GNEP的神经形态成像动态分割和运动估计

https://arxiv.org/abs/2307.02595

在这里插入图片描述
本文探讨了基于事件的相机在图像分割和运动估计领域的应用。这些相机提供了一个突破性的技术,通过捕捉视觉信息作为一个连续的异步事件流,从传统的基于帧的图像采集。我们引入了一个广义纳什均衡为基础的框架,利用来自事件流的时间和空间信息进行分割和速度估计。为了建立理论基础,我们推导出一个存在的标准,并提出了一个多层次的优化方法计算平衡。通过一系列的实验表明这种方法的有效性。

2.6 Topology-Aware Loss for Aorta and Great Vessel Segmentation in Computed Tomography Images

CT图像中大动脉和大血管的拓扑感知丢失与分割

https://arxiv.org/abs/2307.03137

在这里插入图片描述
当用标准损失函数训练分割网络时,没有明确地强加于学习图像的全局不变量,例如对象的形状和多个对象之间的几何形状。另一方面,将这样的不变量合并到网络训练中可以帮助提高各种分割任务的性能,当它们是要分割的对象的固有特性时。一个示例是计算机断层摄影(CT)图像中的主动脉和大血管的分割,其中血管由于人体解剖结构而在身体中以特定几何形状被发现,并且它们在2D CT图像上大多看起来像圆形对象。本文通过引入一个新的拓扑感知损失函数来解决这个问题,该函数通过持久同源性来惩罚地面实况和预测之间的拓扑差异。从以前建议的分割网络设计,其中应用阈值过滤的预测图的似然函数和地面实况的贝蒂数,本文提出应用Vietoris-Rips过滤获得地面实况和预测图的持久性图,并计算与相应的持久性图之间的Wasserstein距离的不相似性。该过滤的使用具有同时对形状和几何形状建模的优点,这在应用阈值过滤时可能不会发生。我们的实验4327 CT图像的24个科目显示,所提出的拓扑意识的损失函数导致更好的结果比它的同行,表明这种使用的有效性。

2.7 Self-supervised learning via inter-modal reconstruction and feature projection networks for label-efficient 3D-to-2D segmentation

基于模式间重建和特征投影网络的自监督学习用于标签高效的3D到2D分割

https://arxiv.org/abs/2307.03008

在这里插入图片描述
深度学习已经成为自动化某些医学图像分割任务的重要工具,大大减轻了医学专家的工作量。这些任务中的一些需要在输入维度的子集上执行分割,最常见的情况是3D到2D。然而,现有方法的性能受到可用的标记数据的量的强烈制约,因为目前没有数据有效的方法,例如,迁移学习,已经在这些任务中得到验证。在这项工作中,我们提出了一种新的卷积神经网络(CNN)和自监督学习(SSL)的标签高效的3D到2D分割方法。CNN由通过新颖的3D到2D块连接的3D编码器和2D解码器组成。SSL方法包括重建具有不同维度的模态的图像对。该方法已在两项具有临床相关性的任务中得到验证:光学相干断层扫描中地图样萎缩和网状假性玻璃疣的正面分割。不同数据集的结果表明,所提出的CNN显著提高了最新技术水平的情况下,标记数据有限的场景中的Dice得分高达8%。此外,建议的SSL方法允许进一步提高这种性能高达23%,我们表明,无论网络架构的SSL是有益的。

相关文章:

【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 7 日论文合集)

文章目录 一、检测相关(5篇)1.1 Contextual Affinity Distillation for Image Anomaly Detection1.2 Noise-to-Norm Reconstruction for Industrial Anomaly Detection and Localization1.3 MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential Deepfake…...

直流运算放大器-----仪表放大器(三)

详见 模拟电子技术基础 6.4.1 电路图 计算公式 仿真 电流流向...

【Zookeeper】终端操作常用命令

文章目录 服务端常用命令客户端常用命令 zookeeper版本3.7.1 Zookeeper是一个开源的分布式协调服务。 Zookeeper是Apache软件基金会的一个项目,它提供了分布式应用程序协调的通用服务,如分布式同步、命名服务、集群维护等,以简化分布式应用协…...

leetcode 1110. 删点成林

给出二叉树的根节点 root,树上每个节点都有一个不同的值。 如果节点值在 to_delete 中出现,我们就把该节点从树上删去,最后得到一个森林(一些不相交的树构成的集合)。 返回森林中的每棵树。你可以按任意顺序组织答案…...

华为Harmony应用开发初探

HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。在传统的单设备系统能力基础上,HarmonyOS提出了基于同一套系统能力、适配多种终端形态的分布式理念,能够支持手机、平板、智能穿戴、智慧屏、车机等多种终端设备,提供全场景(移动办公、运动健康、社交通信、媒体…...

电脑应用程序发生异常怎么办?

有时候我们打开电脑上面的某个软件时,会打不开,并且会弹出如下的错误提示“应用程序发生异常 未知的软件异常(xxx),位置为xx”。相信大多数的人在使用电脑的时…...

【JAVA】准备工作------Java开发环境搭建,IDEA的基础设置与操作

🍉内容专栏:【JAVA】 🍉本文脉络:JAVA的准备工作,IDEA的安装以及基础设置和快捷操作 🍉本文作者:Melon西西 🍉发布时间 :2023.7.11 目录 1. 概述JDK、JRE 2. 第一个程序——创建…...

操作系统真象还原——第5章 保护模式进阶,向内核迈进

第5章 保护模式进阶,向内核迈进 BIOS中断利用0x15子功能0xe802获取内存 汇编语言子功能的调用 填写调用前相关寄存器进行int中断调用获取返回结果输出到对应寄存器的值 80286 拥有24 位地址线,其寻址空间是16MB 。有一些ISA 只使用15MB,剩下…...

设计一款助听器可能需要用到以下音频算法

设计一款助听器可能需要用到以下音频算法: 1 响度补偿算法:助听器可能需要根据用户的听力损失情况调整不同频率范围内的增益,以提供个性化的听力补偿。这可以通过基于用户配置或自适应算法的频率响应调整来实现。 2 噪声抑制:用于…...

【端午节】用Vue3写粽子——从零开始

前言 在端午节即将到来之际,我们来一起写一个粽子组件来庆祝这个传统节日。 准备工作 首先,我们需要安装Vue3及其相关依赖,这里使用Vue CLI来创建项目。 # 安装Vue CLI npm install -g vue/cli # 创建Vue3项目 vue create zongzi接下来&a…...

大象机器人人工智能套装2023版深度学习协作机器人、先进机器视觉与应用场景

引言: 介绍当前的版本 今天我们要介绍的是aikit2023,aikit2023是aikit的全新升级版。 AIkit 2023 是一套集视觉,定位抓取、自动分拣模块为一体的入门级人工智能套装。 该套装基于python平台,可通过开发软件实现机械臂的控制&am…...

Cesium Token申请

一、什么是Cesium ion? Cesium ion是一个提供瓦片图和3D地理空间数据的平台,支持把数据添加到用户自己的应用程序中。 二、为什么需要access token? 使用Cesium ion需要申请access token,当用户将数据添加到自己的账户后,便可以…...

ubuntu系统自带的Text Editor编辑器不高亮解决办法

平时在写launch文件时,我喜欢用ubuntu系统自带的text编辑器,但发现使用text打开launch 文件时,没有高亮功能了,如下图所示: 解决办法非常简单,因为launch和xml文件语法规则类似,只需将text编辑…...

Docker NGINX 加载Geoip模板

前提环境: Docker 环境 涉及参考文档: ngx_http_geoip_module 模块Loki NGINX Service MeshGeoIP IP库 一、下载GeoIP IP库 二、配置Nginx主配置文件 vim /data/nginx/MangoMoh/dos/nginx.confuser nginx; worker_processes auto;error_log /var…...

springboot基于协同过滤算法商品推荐系统

开发语言:Java 框架:springboot JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/myeclipse/idea Maven包:Maven3.3.9 浏览器&…...

基于机器学习算法:朴素贝叶斯和SVM 分类-垃圾邮件识别分类系统(含Python工程全源码)

目录 前言总体设计系统整体结构图系统流程图 运行环境Python 环境安装pytesseract注册百度云账号 模块实现1. 数据模块2. 模型构建3. 附加功能 系统测试1. 文字邮件测试准确率2. 网页测试结果 工程源代码下载其它资料下载 前言 本项目采用朴素贝叶斯和支持向量机(S…...

在Linux下将PNG和JPG批量互转的四种方法

计算机术语中,批处理指的是用一个非交互式的程序来执行一序列的任务的方法。这篇教程里,我们会使用 Linux 命令行工具,并提供 4 种简单的处理方式来把一些 .PNG 格式的图像批量转换成 .JPG 格式的,以及转换回来。 计算机术语中&a…...

Scala中使用 break 和 continue

Scala中没有 break 和 continue 关键字,但是我们可以用 Breaks 类提供的相应方法来实现对应功能。 在Java中,break continue return的区别 1、break:break不仅可以结束其所在的循环,还可结束其外层循环,但一次只能结束…...

【全栈开发指南】打包sentinel-dashboard镜像推送到Docker Hub镜像仓库

在使用sentinel-dashboard的时候,发现官方并没有把jar包发布到Docker Hub镜像仓库,所以,我们需要自己手动将需要版本的sentinel-dashboard.jar发布到Docker Hub镜像仓库。首先需要在Docker Hub镜像仓库网站 https://hub.docker.com/ 上注册账…...

【数据可视化】SVG(一)

一、邂逅SVG和初体验 什么是SVG  SVG全称为(Scalable Vector Graphics),即可缩放矢量图形。(矢量定义:既有大小又有方向的量。在物理学中称作矢量,如一个带箭头线段:长度表示大小&#xff0…...

Python|GIF 解析与构建(5):手搓截屏和帧率控制

目录 Python|GIF 解析与构建(5):手搓截屏和帧率控制 一、引言 二、技术实现:手搓截屏模块 2.1 核心原理 2.2 代码解析:ScreenshotData类 2.2.1 截图函数:capture_screen 三、技术实现&…...

练习(含atoi的模拟实现,自定义类型等练习)

一、结构体大小的计算及位段 (结构体大小计算及位段 详解请看:自定义类型:结构体进阶-CSDN博客) 1.在32位系统环境,编译选项为4字节对齐,那么sizeof(A)和sizeof(B)是多少? #pragma pack(4)st…...

MVC 数据库

MVC 数据库 引言 在软件开发领域,Model-View-Controller(MVC)是一种流行的软件架构模式,它将应用程序分为三个核心组件:模型(Model)、视图(View)和控制器(Controller)。这种模式有助于提高代码的可维护性和可扩展性。本文将深入探讨MVC架构与数据库之间的关系,以…...

srs linux

下载编译运行 git clone https:///ossrs/srs.git ./configure --h265on make 编译完成后即可启动SRS # 启动 ./objs/srs -c conf/srs.conf # 查看日志 tail -n 30 -f ./objs/srs.log 开放端口 默认RTMP接收推流端口是1935,SRS管理页面端口是8080,可…...

NFT模式:数字资产确权与链游经济系统构建

NFT模式:数字资产确权与链游经济系统构建 ——从技术架构到可持续生态的范式革命 一、确权技术革新:构建可信数字资产基石 1. 区块链底层架构的进化 跨链互操作协议:基于LayerZero协议实现以太坊、Solana等公链资产互通,通过零知…...

成都鼎讯硬核科技!雷达目标与干扰模拟器,以卓越性能制胜电磁频谱战

在现代战争中,电磁频谱已成为继陆、海、空、天之后的 “第五维战场”,雷达作为电磁频谱领域的关键装备,其干扰与抗干扰能力的较量,直接影响着战争的胜负走向。由成都鼎讯科技匠心打造的雷达目标与干扰模拟器,凭借数字射…...

css3笔记 (1) 自用

outline: none 用于移除元素获得焦点时默认的轮廓线 broder:0 用于移除边框 font-size&#xff1a;0 用于设置字体不显示 list-style: none 消除<li> 标签默认样式 margin: xx auto 版心居中 width:100% 通栏 vertical-align 作用于行内元素 / 表格单元格&#xff…...

精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南

精益数据分析&#xff08;97/126&#xff09;&#xff1a;邮件营销与用户参与度的关键指标优化指南 在数字化营销时代&#xff0c;邮件列表效度、用户参与度和网站性能等指标往往决定着创业公司的增长成败。今天&#xff0c;我们将深入解析邮件打开率、网站可用性、页面参与时…...

保姆级教程:在无网络无显卡的Windows电脑的vscode本地部署deepseek

文章目录 1 前言2 部署流程2.1 准备工作2.2 Ollama2.2.1 使用有网络的电脑下载Ollama2.2.2 安装Ollama&#xff08;有网络的电脑&#xff09;2.2.3 安装Ollama&#xff08;无网络的电脑&#xff09;2.2.4 安装验证2.2.5 修改大模型安装位置2.2.6 下载Deepseek模型 2.3 将deepse…...

【Linux】Linux 系统默认的目录及作用说明

博主介绍&#xff1a;✌全网粉丝23W&#xff0c;CSDN博客专家、Java领域优质创作者&#xff0c;掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围&#xff1a;SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物…...