当前位置：首页 > news >正文

【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递（7 月 17 日论文合集）

news 2025/7/9 4:35:53

文章目录

一、检测相关(5篇)
- 1.1 TALL: Thumbnail Layout for Deepfake Video Detection
- 1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels
- 1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection
- 1.4 Brain Tumor Detection using Convolutional Neural Networks with Skip Connections
- 1.5 cOOpD: Reformulating COPD classification on chest CT scans as anomaly detection using contrastive representations
二、分割|语义相关(5篇)
- 2.1 SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes
- 2.2 FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation
- 2.3 Adaptive Region Selection for Active Learning in Whole Slide Image Semantic Segmentation
- 2.4 AnyStar: Domain randomized universal star-convex 3D instance segmentation
- 2.5 Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation

一、检测相关(5篇)

1.1 TALL: Thumbnail Layout for Deepfake Video Detection

Tall：用于深度假冒视频检测的缩略图布局

https://arxiv.org/abs/2307.07494

在这里插入图片描述
deepfake对社会和网络安全的威胁日益严重，引起了公众的极大关注，人们越来越多地致力于deepfake视频检测这一关键话题。现有的视频方法实现了良好的性能，但计算密集型。本文介绍了一种简单而有效的策略–缩略图布局（TALL），该策略将视频片段转换为预定义的布局，以实现空间和时间依赖性的保留。具体地，连续帧在每个帧中的固定位置被掩蔽以改善泛化，然后调整大小为子图像并重新布置为预定义的布局作为缩略图。TALL是模型无关的，而且非常简单，只需修改几行代码即可。受Vision Transformers成功的启发，我们将TALL整合到Swin Transformer中，形成了一种高效的方法TALL-Swin。在数据集内和跨数据集上的大量实验验证了TALL和SOTA TALL-Swin的有效性和优越性。TALL-Swin在具有挑战性的跨数据集任务FaceForensics++ $\to$ Celeb-DF上实现了90.79 $\%$ AUC。该代码可在https://github.com/rainy-xu/TALL4Deepfake获得。

1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels

基于量子核支持向量机的多光谱卫星云层检测

https://arxiv.org/abs/2307.07281

在这里插入图片描述
支持向量机（SVM）是一个成熟的分类器，有效地部署在一系列模式识别和分类任务。在这项工作中，我们考虑扩展经典的支持向量机与量子内核，并将其应用到卫星数据分析。提出了一种量子核支持向量机（混合支持向量机）的设计与实现。它包括量子核估计（QKE）程序与经典的SVM训练例程相结合。像素数据被映射到希尔伯特空间使用ZZ-特征映射作用于参数化的假设状态。优化参数以最大化内核目标对齐。我们探讨了卫星图像数据云检测问题，这是地面和星载卫星图像分析处理链中的关键步骤之一。在基准Landsat-8多光谱数据集进行的实验表明，模拟的混合SVM成功地分类卫星图像的准确性与经典的支持向量机。

1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection

基于骨架的视频异常检测多模运动条件扩散模型

https://arxiv.org/abs/2307.07205

在这里插入图片描述
异常是罕见的，因此异常检测通常被框定为一类分类（OCC），即只接受过正常生活训练领先的OCC技术将正常运动的潜在表示限制在有限的体积内，并将外部的任何异常检测为异常，这令人满意地解释了异常的开放性。但是常态具有相同的开集性质，因为人类可以用几种方式执行相同的动作，这是领先的技术所忽视的。我们提出了一种新的生成模型的视频异常检测（VAD），它假设正常和异常是多模态的。我们认为骨架表示和利用国家的最先进的扩散概率模型，以产生多模态未来的人类构成。我们贡献了一个新的空调上的人过去的运动，并利用改进的模式覆盖能力的扩散过程中产生不同的，但似乎合理的未来运动。在对未来模式进行统计聚合时，当所生成的运动集合与实际未来不相关时，检测到异常。我们在4个已建立的基准上验证我们的模型：UBnormal、HR-UBnormal、HR-STC和HR-Avenue，广泛的实验超越了最先进的结果。

1.4 Brain Tumor Detection using Convolutional Neural Networks with Skip Connections

基于带跳连接的卷积神经网络的脑肿瘤检测

https://arxiv.org/abs/2307.07503

在这里插入图片描述
在本文中，我们提出了不同的卷积神经网络（CNN）的架构，使用磁共振成像（MRI）技术分析和分类的良性和恶性类型的脑肿瘤。应用不同的CNN架构优化技术，例如网络的加宽和加深以及添加跳过连接，以提高网络的准确性。结果表明，这些技术的子集可以明智地用于优于用于相同目的的基线CNN模型。

1.5 cOOpD: Reformulating COPD classification on chest CT scans as anomaly detection using contrastive representations

COOpD：重新制定胸部CT扫描的COPD分类作为使用对比表示法的异常检测

https://arxiv.org/abs/2307.07254

在这里插入图片描述
异质性疾病的分类是具有挑战性的，由于其复杂性，多变的症状和影像学表现。慢性阻塞性肺疾病（COPD）就是一个很好的例子，尽管是第三大死亡原因，但仍被诊断不足。其稀疏，弥漫和异构的计算机断层扫描的外观挑战监督二进制分类。我们将COPD二元分类重新表述为异常检测任务，提出cOOpD：异质病理区域被检测为来自正常同质肺区域的分布外（OOD）。为此，我们采用自监督对比借口模型学习未标记肺区域的表示，可能捕获患病和健康未标记区域的特定特征。生成模型然后学习健康表示的分布，并将异常（源于COPD）识别为偏差。通过汇总区域OOD评分获得患者水平评分。我们表明，cOOpD在两个公共数据集上实现了最佳性能，与以前的监督最先进的技术相比，AUROC增加了8.2%和7.7%。此外，cOOpD产生可解释的空间异常图和患者水平的分数，我们证明这在识别进展早期的个体中具有额外的价值。在人工设计的真实世界患病率设置中的实验进一步支持异常检测是解决coro分类的有力方式。

二、分割|语义相关(5篇)

2.1 SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes

SynTable：一种用于杂乱桌面场景不可见对象非模态实例分割的合成数据生成流水线

https://arxiv.org/abs/2307.07333

在这里插入图片描述
在这项工作中，我们提出了SynTable，一个统一和灵活的Python数据集生成器，使用NVIDIA的Isaac Sim Replicator Composer构建，用于生成高质量的合成数据集，用于看不见的对象amodal实例分割杂乱桌面场景。我们的数据集生成工具可以渲染包含对象网格、材质、纹理、光照和背景的复杂3D场景。元数据，如模态和模态实例分割掩模，遮挡掩模，深度图，边界框和材料属性，可以生成，以自动注释根据用户的要求的场景。我们的工具消除了在数据集生成过程中手动标记的需要，同时确保数据集的质量和准确性。在这项工作中，我们讨论了我们的设计目标，框架体系结构，和我们的工具的性能。我们演示了使用光线跟踪使用SynTable生成的样本数据集来训练最先进的模型UOAIS-Net。结果表明，显着改善的性能，在模拟到真实的传输时，OSD-Amodal数据集进行评估。我们提供这个工具作为一个开源的，易于使用的，逼真的数据集生成器，用于推进深度学习和合成数据生成的研究。

2.2 FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation

基于自监督学习的曲线目标分割算法

https://arxiv.org/abs/2307.07245

在这里插入图片描述
曲线对象分割对于许多应用是关键的。然而，手动注释曲线对象是非常耗时和容易出错的，产生现有的监督方法和域自适应方法的可用注释数据集不足。本文提出了一种自监督曲线对象分割方法，该方法从分形和未标记图像（FreeCOS）中学习鲁棒性和独特性。主要贡献包括一个新的分形FDA合成（FFS）模块和几何信息对齐（GIA）的方法。FFS基于参数分形L系统生成曲线结构，并将生成的结构集成到未标记的图像中，以通过傅立叶域自适应获得合成训练图像。GIA通过比较给定像素的强度顺序与其附近邻居的值来减少合成图像和未标记图像之间的强度差异。这样的图像对准可以明确地去除对绝对强度值的依赖性，并且增强在合成图像和真实图像两者中共同的固有几何特性。此外，GIA通过预测空间自适应损失（PSAL）和曲线掩模对比损失（CMCL）对齐合成图像和真实图像的特征。在四个公共数据集上的广泛实验结果，即，XCAD，DRIVE，STARE和CrackTree表明，我们的方法优于最先进的无监督方法，自监督方法和传统方法的大幅度提高。该工作的源代码可在https://github.com/TY-Shi/FreeCOS上获得。

2.3 Adaptive Region Selection for Active Learning in Whole Slide Image Semantic Segmentation

自适应区域选择在整体幻灯片图像语义分割中的主动学习

https://arxiv.org/abs/2307.07168

在这里插入图片描述
为了训练监督分割模型而在像素级注释组织学千兆像素大小的全载玻片图像（WSIs）的过程是耗时的。基于区域的主动学习（AL）涉及在有限数量的注释图像区域上训练模型，而不是请求整个图像的注释。这些注释区域被迭代地选择，其目标是在最小化注释区域的同时优化模型性能。区域选择的标准方法评估指定大小的所有正方形区域的信息量，然后选择特定数量的信息量最大的区域。我们发现该方法的效率高度依赖于AL步长的选择（即，区域大小和每个WSI的所选区域的数量的组合），以及次优的AL步长可能导致冗余的注释请求或膨胀的计算成本。本文介绍了一种新的技术，用于自适应地选择注释区域，减轻对这个AL超参数的依赖。具体来说，我们动态地确定每个区域，首先确定一个信息区域，然后检测其最佳的边界框，而不是选择一个统一的预定义的形状和大小的区域，在标准方法。我们使用公共CAMELYON16数据集上的乳腺癌转移分割任务来评估我们的方法，并表明它在各种AL步长中始终实现比标准方法更高的采样效率。只有2.6%的组织区域注释，我们实现了完整的注释性能，从而大大降低了注释WSI数据集的成本。源代码可在https://github.com/DeepMicroscopy/AdaptiveRegionSelection获得。

2.4 AnyStar: Domain randomized universal star-convex 3D instance segmentation

AnyStar：域随机化通用星凸3D实例分割

https://arxiv.org/abs/2307.07044

在这里插入图片描述
星凸形状以细胞核、结节、转移瘤和其他单位的形式出现在生物显微镜和放射学中。用于这种结构的现有实例分割网络在每个数据集的密集标记的实例上训练，这需要大量且通常不切实际的手动注释工作。此外，当由于对比度、形状、取向、分辨率和密度的变化而呈现新的数据集和成像模态时，需要显著的重新设计或微调。我们提出了AnyStar，这是一个域随机生成模型，它模拟具有随机外观，环境和成像物理的斑点状对象的合成训练数据，以训练通用的星凸实例分割网络。因此，使用我们的生成模型训练的网络不需要来自看不见的数据集的注释图像。在我们的合成数据上训练的单个网络准确地3D分段C。elegans和P.荧光显微镜中的dumerilii核、微CT中的小鼠皮质核、EM中的斑马鱼脑核和人胎儿MRI中的胎盘子叶，所有这些都没有任何再训练、微调、迁移学习或域适应。代码可在https://github.com/neel-dey/AnyStar获得。

2.5 Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation

用于健壮体积医学分割的频域对抗性训练

https://arxiv.org/abs/2307.07269

在这里插入图片描述
确保深度学习模型在医疗保健等关键应用中的鲁棒性至关重要。虽然深度学习的最新进展提高了体积医学图像分割模型的性能，但由于这些模型容易受到对抗性攻击，因此无法立即部署到现实世界的应用中。我们提出了一个三维频域对抗攻击的体积医学图像分割模型，并证明其优势，传统的输入或体素域攻击。使用我们提出的攻击，我们引入了一种新的频域对抗训练方法，用于优化针对体素和频域攻击的鲁棒模型。此外，我们提出了频率一致性损失来调节我们的频域对抗训练，从而在模型对干净样本和对抗样本的性能之间实现更好的权衡。代码可在https://github.com/asif-hanif/vafa公开获得。