【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 17 日论文合集)
文章目录
- 一、检测相关(5篇)
- 1.1 TALL: Thumbnail Layout for Deepfake Video Detection
- 1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels
- 1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection
- 1.4 Brain Tumor Detection using Convolutional Neural Networks with Skip Connections
- 1.5 cOOpD: Reformulating COPD classification on chest CT scans as anomaly detection using contrastive representations
- 二、分割|语义相关(5篇)
- 2.1 SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes
- 2.2 FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation
- 2.3 Adaptive Region Selection for Active Learning in Whole Slide Image Semantic Segmentation
- 2.4 AnyStar: Domain randomized universal star-convex 3D instance segmentation
- 2.5 Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation
一、检测相关(5篇)
1.1 TALL: Thumbnail Layout for Deepfake Video Detection
Tall:用于深度假冒视频检测的缩略图布局
https://arxiv.org/abs/2307.07494

deepfake对社会和网络安全的威胁日益严重,引起了公众的极大关注,人们越来越多地致力于deepfake视频检测这一关键话题。现有的视频方法实现了良好的性能,但计算密集型。本文介绍了一种简单而有效的策略–缩略图布局(TALL),该策略将视频片段转换为预定义的布局,以实现空间和时间依赖性的保留。具体地,连续帧在每个帧中的固定位置被掩蔽以改善泛化,然后调整大小为子图像并重新布置为预定义的布局作为缩略图。TALL是模型无关的,而且非常简单,只需修改几行代码即可。受Vision Transformers成功的启发,我们将TALL整合到Swin Transformer中,形成了一种高效的方法TALL-Swin。在数据集内和跨数据集上的大量实验验证了TALL和SOTA TALL-Swin的有效性和优越性。TALL-Swin在具有挑战性的跨数据集任务FaceForensics++ → \to → Celeb-DF上实现了90.79 % \% % AUC。该代码可在https://github.com/rainy-xu/TALL4Deepfake获得。
1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels
基于量子核支持向量机的多光谱卫星云层检测
https://arxiv.org/abs/2307.07281

支持向量机(SVM)是一个成熟的分类器,有效地部署在一系列模式识别和分类任务。在这项工作中,我们考虑扩展经典的支持向量机与量子内核,并将其应用到卫星数据分析。提出了一种量子核支持向量机(混合支持向量机)的设计与实现。它包括量子核估计(QKE)程序与经典的SVM训练例程相结合。像素数据被映射到希尔伯特空间使用ZZ-特征映射作用于参数化的假设状态。优化参数以最大化内核目标对齐。我们探讨了卫星图像数据云检测问题,这是地面和星载卫星图像分析处理链中的关键步骤之一。在基准Landsat-8多光谱数据集进行的实验表明,模拟的混合SVM成功地分类卫星图像的准确性与经典的支持向量机。
1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection
基于骨架的视频异常检测多模运动条件扩散模型
https://arxiv.org/abs/2307.07205

异常是罕见的,因此异常检测通常被框定为一类分类(OCC),即只接受过正常生活训练领先的OCC技术将正常运动的潜在表示限制在有限的体积内,并将外部的任何异常检测为异常,这令人满意地解释了异常的开放性。但是常态具有相同的开集性质,因为人类可以用几种方式执行相同的动作,这是领先的技术所忽视的。我们提出了一种新的生成模型的视频异常检测(VAD),它假设正常和异常是多模态的。我们认为骨架表示和利用国家的最先进的扩散概率模型,以产生多模态未来的人类构成。我们贡献了一个新的空调上的人过去的运动,并利用改进的模式覆盖能力的扩散过程中产生不同的,但似乎合理的未来运动。在对未来模式进行统计聚合时,当所生成的运动集合与实际未来不相关时,检测到异常。我们在4个已建立的基准上验证我们的模型:UBnormal、HR-UBnormal、HR-STC和HR-Avenue,广泛的实验超越了最先进的结果。
1.4 Brain Tumor Detection using Convolutional Neural Networks with Skip Connections
基于带跳连接的卷积神经网络的脑肿瘤检测
https://arxiv.org/abs/2307.07503

在本文中,我们提出了不同的卷积神经网络(CNN)的架构,使用磁共振成像(MRI)技术分析和分类的良性和恶性类型的脑肿瘤。应用不同的CNN架构优化技术,例如网络的加宽和加深以及添加跳过连接,以提高网络的准确性。结果表明,这些技术的子集可以明智地用于优于用于相同目的的基线CNN模型。
1.5 cOOpD: Reformulating COPD classification on chest CT scans as anomaly detection using contrastive representations
COOpD:重新制定胸部CT扫描的COPD分类作为使用对比表示法的异常检测
https://arxiv.org/abs/2307.07254

异质性疾病的分类是具有挑战性的,由于其复杂性,多变的症状和影像学表现。慢性阻塞性肺疾病(COPD)就是一个很好的例子,尽管是第三大死亡原因,但仍被诊断不足。其稀疏,弥漫和异构的计算机断层扫描的外观挑战监督二进制分类。我们将COPD二元分类重新表述为异常检测任务,提出cOOpD:异质病理区域被检测为来自正常同质肺区域的分布外(OOD)。为此,我们采用自监督对比借口模型学习未标记肺区域的表示,可能捕获患病和健康未标记区域的特定特征。生成模型然后学习健康表示的分布,并将异常(源于COPD)识别为偏差。通过汇总区域OOD评分获得患者水平评分。我们表明,cOOpD在两个公共数据集上实现了最佳性能,与以前的监督最先进的技术相比,AUROC增加了8.2%和7.7%。此外,cOOpD产生可解释的空间异常图和患者水平的分数,我们证明这在识别进展早期的个体中具有额外的价值。在人工设计的真实世界患病率设置中的实验进一步支持异常检测是解决coro分类的有力方式。
二、分割|语义相关(5篇)
2.1 SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes
SynTable:一种用于杂乱桌面场景不可见对象非模态实例分割的合成数据生成流水线
https://arxiv.org/abs/2307.07333

在这项工作中,我们提出了SynTable,一个统一和灵活的Python数据集生成器,使用NVIDIA的Isaac Sim Replicator Composer构建,用于生成高质量的合成数据集,用于看不见的对象amodal实例分割杂乱桌面场景。我们的数据集生成工具可以渲染包含对象网格、材质、纹理、光照和背景的复杂3D场景。元数据,如模态和模态实例分割掩模,遮挡掩模,深度图,边界框和材料属性,可以生成,以自动注释根据用户的要求的场景。我们的工具消除了在数据集生成过程中手动标记的需要,同时确保数据集的质量和准确性。在这项工作中,我们讨论了我们的设计目标,框架体系结构,和我们的工具的性能。我们演示了使用光线跟踪使用SynTable生成的样本数据集来训练最先进的模型UOAIS-Net。结果表明,显着改善的性能,在模拟到真实的传输时,OSD-Amodal数据集进行评估。我们提供这个工具作为一个开源的,易于使用的,逼真的数据集生成器,用于推进深度学习和合成数据生成的研究。
2.2 FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation
基于自监督学习的曲线目标分割算法
https://arxiv.org/abs/2307.07245

曲线对象分割对于许多应用是关键的。然而,手动注释曲线对象是非常耗时和容易出错的,产生现有的监督方法和域自适应方法的可用注释数据集不足。本文提出了一种自监督曲线对象分割方法,该方法从分形和未标记图像(FreeCOS)中学习鲁棒性和独特性。主要贡献包括一个新的分形FDA合成(FFS)模块和几何信息对齐(GIA)的方法。FFS基于参数分形L系统生成曲线结构,并将生成的结构集成到未标记的图像中,以通过傅立叶域自适应获得合成训练图像。GIA通过比较给定像素的强度顺序与其附近邻居的值来减少合成图像和未标记图像之间的强度差异。这样的图像对准可以明确地去除对绝对强度值的依赖性,并且增强在合成图像和真实图像两者中共同的固有几何特性。此外,GIA通过预测空间自适应损失(PSAL)和曲线掩模对比损失(CMCL)对齐合成图像和真实图像的特征。在四个公共数据集上的广泛实验结果,即,XCAD,DRIVE,STARE和CrackTree表明,我们的方法优于最先进的无监督方法,自监督方法和传统方法的大幅度提高。该工作的源代码可在https://github.com/TY-Shi/FreeCOS上获得。
2.3 Adaptive Region Selection for Active Learning in Whole Slide Image Semantic Segmentation
自适应区域选择在整体幻灯片图像语义分割中的主动学习
https://arxiv.org/abs/2307.07168

为了训练监督分割模型而在像素级注释组织学千兆像素大小的全载玻片图像(WSIs)的过程是耗时的。基于区域的主动学习(AL)涉及在有限数量的注释图像区域上训练模型,而不是请求整个图像的注释。这些注释区域被迭代地选择,其目标是在最小化注释区域的同时优化模型性能。区域选择的标准方法评估指定大小的所有正方形区域的信息量,然后选择特定数量的信息量最大的区域。我们发现该方法的效率高度依赖于AL步长的选择(即,区域大小和每个WSI的所选区域的数量的组合),以及次优的AL步长可能导致冗余的注释请求或膨胀的计算成本。本文介绍了一种新的技术,用于自适应地选择注释区域,减轻对这个AL超参数的依赖。具体来说,我们动态地确定每个区域,首先确定一个信息区域,然后检测其最佳的边界框,而不是选择一个统一的预定义的形状和大小的区域,在标准方法。我们使用公共CAMELYON16数据集上的乳腺癌转移分割任务来评估我们的方法,并表明它在各种AL步长中始终实现比标准方法更高的采样效率。只有2.6%的组织区域注释,我们实现了完整的注释性能,从而大大降低了注释WSI数据集的成本。源代码可在https://github.com/DeepMicroscopy/AdaptiveRegionSelection获得。
2.4 AnyStar: Domain randomized universal star-convex 3D instance segmentation
AnyStar:域随机化通用星凸3D实例分割
https://arxiv.org/abs/2307.07044

星凸形状以细胞核、结节、转移瘤和其他单位的形式出现在生物显微镜和放射学中。用于这种结构的现有实例分割网络在每个数据集的密集标记的实例上训练,这需要大量且通常不切实际的手动注释工作。此外,当由于对比度、形状、取向、分辨率和密度的变化而呈现新的数据集和成像模态时,需要显著的重新设计或微调。我们提出了AnyStar,这是一个域随机生成模型,它模拟具有随机外观,环境和成像物理的斑点状对象的合成训练数据,以训练通用的星凸实例分割网络。因此,使用我们的生成模型训练的网络不需要来自看不见的数据集的注释图像。在我们的合成数据上训练的单个网络准确地3D分段C。elegans和P.荧光显微镜中的dumerilii核、微CT中的小鼠皮质核、EM中的斑马鱼脑核和人胎儿MRI中的胎盘子叶,所有这些都没有任何再训练、微调、迁移学习或域适应。代码可在https://github.com/neel-dey/AnyStar获得。
2.5 Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation
用于健壮体积医学分割的频域对抗性训练
https://arxiv.org/abs/2307.07269

确保深度学习模型在医疗保健等关键应用中的鲁棒性至关重要。虽然深度学习的最新进展提高了体积医学图像分割模型的性能,但由于这些模型容易受到对抗性攻击,因此无法立即部署到现实世界的应用中。我们提出了一个三维频域对抗攻击的体积医学图像分割模型,并证明其优势,传统的输入或体素域攻击。使用我们提出的攻击,我们引入了一种新的频域对抗训练方法,用于优化针对体素和频域攻击的鲁棒模型。此外,我们提出了频率一致性损失来调节我们的频域对抗训练,从而在模型对干净样本和对抗样本的性能之间实现更好的权衡。代码可在https://github.com/asif-hanif/vafa公开获得。
相关文章:
【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 17 日论文合集)
文章目录 一、检测相关(5篇)1.1 TALL: Thumbnail Layout for Deepfake Video Detection1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Vi…...
为什么需要GP(Global Platform)认证?
TEE之GP(Global Platform)认证汇总 一、为什么需要认证? 二、为什么是GP? 参考: GlobalPlatform Certification - GlobalPlatform...
eclipse 格式化代码 快捷键
在Eclipse中,可以使用以下快捷键来格式化代码: Windows/Linux快捷键:Ctrl Shift FMac快捷键:Command Shift F 按下相应的快捷键后,Eclipse将自动根据您的代码格式化偏好设置对代码进行格式化。请确保已经选择和配…...
深入探索Socks5代理与网络安全
简介 Socks5代理是一种网络协议,用于在客户端和服务器之间进行数据传输,它可以在网络层和传输层实现代理功能。与其他代理协议相比,Socks5代理更加灵活和安全,为爬虫任务和网络安全提供了重要支持。 Socks5代理的工作原理 Socks5…...
【NLP】如何使用Hugging-Face-Pipelines?
一、说明 随着最近开发的库,执行深度学习分析变得更加容易。其中一个库是拥抱脸。Hugging Face 是一个平台,可为 NLP 任务(如文本分类、情感分析等)提供预先训练的语言模型。 本博客将引导您了解如何使用拥抱面部管道执行 NLP 任务…...
网络安全(黑客)自学笔记
1.网络安全是什么 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 2.网络安全市场 一是市场需求量高; 二则是发展相对成熟入门…...
spring数据校验
数据校验 概述 在开发中,会存在参数校验的情况,如:注册时,校验用户名不能为空、用户名长度不超过20个字符,手机号格式合法等。如果使用普通方式,会将校验代码和处理逻辑耦合在一起,在需要新增一…...
因材施教,有道发布“子曰”教育大模型,落地虚拟人口语教练等六大应用
因材施教的教育宗旨下,大模型浪潮中,网易有道凭借其对教育场景的深入理解和对商业化的理性思考,为行业树立了垂直大模型的典范。 7月26日,教育科技公司网易有道举办了“powered by 子曰”教育大模型应用成果发布会。会上重磅推出了…...
golang waitgroup
案例 WaitGroup 可以解决一个 goroutine 等待多个 goroutine 同时结束的场景,这个比较常见的场景就是例如 后端 worker 启动了多个消费者干活,还有爬虫并发爬取数据,多线程下载等等。 我们这里模拟一个 worker 的例子 package mainimport (…...
单列模式多学两遍
单例模式 单例模式(Singleton Pattern,也称为单件模式),使用最广泛的设计模式之一。其意图是保证一个类仅有一个实例,并提供一个访问它的全局访问点,该实例被所有程序模块共享。 定义单例类 ● 私有化它的构造函数,…...
Spring Cloud【SkyWalking网络钩子Webhooks、SkyWalking钉钉告警、SkyWalking邮件告警】(十六)
目录 分布式请求链路追踪_SkyWalking网络钩子Webhooks 分布式请求链路追踪_SkyWalking钉钉告警 分布式请求链路追踪_SkyWalking邮件告警 分布式请求链路追踪_SkyWalking网络钩子Webhooks Wbhooks网络钩子 Webhok可以简单理解为是一种Web层面的回调机制。告警就是一个事件&a…...
【力扣每日一题】2023.7.25 将数组和减半的最少操作次数
目录 题目: 示例: 分析: 代码运行结果: 题目: 示例: 分析: 题目给我们一个数组,我们每次可以将任意一个元素减半,问我们操作几次之后才可以将整个数组的和减半&…...
Docker-Compose 轻松搭建 Grafana+InfluxDb 实用 Jmeter 监控面板
目录 前言: 1、背景 2、GranfanaInfluxDB 配置 2.1 服务搭建 2.2 配置 Grafana 数据源 2.3 配置 Grafana 面板 3、Jmeter 配置 3.1 配置 InfluxDB 监听器 3.2 实际效果 前言: Grafana 和 InfluxDB 是两个非常流行的监控工具,它们可…...
异构线程池的c++实现方案
概要 通常线程池是同质的,每个线程都可以执行任意的task(每个线程中的task顺序执行),如下图所示: 但本文所介绍的线程和task之间有绑定关系,如A task只能跑在A thread上(因此称为异构线程池&am…...
Python实现抽象工厂模式
抽象工厂模式是一种创建型设计模式,用于创建一系列相关或依赖对象的家族,而无需指定具体类。在Python中,可以通过类和接口的组合来实现抽象工厂模式。 下面是一个简单的Python实现抽象工厂模式的示例: # 抽象产品接口 class Abs…...
@vue/cli安装
vue/cli安装 1、全局安装vue/cli包2、查看是否成功 1、全局安装vue/cli包 yarn global add vue/cli2、查看是否成功 vue -V...
用友全版本任意文件上传漏洞复现
声明 本文仅用于技术交流,请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任。 文章作者拥有对此文章的修改和解释权。如欲转载或传播此文章,…...
程序员面试系列,MySQL常见面试题?
原文链接 一、索引相关的面试题 (1)索引失效的情况有哪些 在MySQL查询时,以下情况可能会导致索引失效,无法使用索引进行高效的查询: 数据类型不匹配:如果查询条件中的数据类型与索引列的数据类型不匹配&…...
前端Web实战:从零打造一个类Visio的流程图拓扑图绘图工具
前言 大家好,本系列从Web前端实战的角度,给大家分享介绍如何从零打造一个自己专属的绘图工具,实现流程图、拓扑图、脑图等类Visio的绘图工具。 你将收获 免费好用、专属自己的绘图工具前端项目实战学习如何从0搭建一个前端项目等基础框架项…...
2023牛客暑期多校第二场部分题解
索引 ABCDEFGHIK A 队友开的题,说是其实就是问能不能用若干个数异或出来某个数。 应该就是线性基板子,然后他写了一下就过了。 B 一开始看没什么人过不是很敢开,结果到后面一看题——这不是最大权闭合子图板子吗??…...
CTF show Web 红包题第六弹
提示 1.不是SQL注入 2.需要找关键源码 思路 进入页面发现是一个登录框,很难让人不联想到SQL注入,但提示都说了不是SQL注入,所以就不往这方面想了 先查看一下网页源码,发现一段JavaScript代码,有一个关键类ctfs…...
python打卡day49
知识点回顾: 通道注意力模块复习空间注意力模块CBAM的定义 作业:尝试对今天的模型检查参数数目,并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...
51c自动驾驶~合集58
我自己的原文哦~ https://blog.51cto.com/whaosoft/13967107 #CCA-Attention 全局池化局部保留,CCA-Attention为LLM长文本建模带来突破性进展 琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),…...
大型活动交通拥堵治理的视觉算法应用
大型活动下智慧交通的视觉分析应用 一、背景与挑战 大型活动(如演唱会、马拉松赛事、高考中考等)期间,城市交通面临瞬时人流车流激增、传统摄像头模糊、交通拥堵识别滞后等问题。以演唱会为例,暖城商圈曾因观众集中离场导致周边…...
今日科技热点速览
🔥 今日科技热点速览 🎮 任天堂Switch 2 正式发售 任天堂新一代游戏主机 Switch 2 今日正式上线发售,主打更强图形性能与沉浸式体验,支持多模态交互,受到全球玩家热捧 。 🤖 人工智能持续突破 DeepSeek-R1&…...
【HTTP三个基础问题】
面试官您好!HTTP是超文本传输协议,是互联网上客户端和服务器之间传输超文本数据(比如文字、图片、音频、视频等)的核心协议,当前互联网应用最广泛的版本是HTTP1.1,它基于经典的C/S模型,也就是客…...
Maven 概述、安装、配置、仓库、私服详解
目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...
【MATLAB代码】基于最大相关熵准则(MCC)的三维鲁棒卡尔曼滤波算法(MCC-KF),附源代码|订阅专栏后可直接查看
文章所述的代码实现了基于最大相关熵准则(MCC)的三维鲁棒卡尔曼滤波算法(MCC-KF),针对传感器观测数据中存在的脉冲型异常噪声问题,通过非线性加权机制提升滤波器的抗干扰能力。代码通过对比传统KF与MCC-KF在含异常值场景下的表现,验证了后者在状态估计鲁棒性方面的显著优…...
实战三:开发网页端界面完成黑白视频转为彩色视频
一、需求描述 设计一个简单的视频上色应用,用户可以通过网页界面上传黑白视频,系统会自动将其转换为彩色视频。整个过程对用户来说非常简单直观,不需要了解技术细节。 效果图 二、实现思路 总体思路: 用户通过Gradio界面上…...
Elastic 获得 AWS 教育 ISV 合作伙伴资质,进一步增强教育解决方案产品组合
作者:来自 Elastic Udayasimha Theepireddy (Uday), Brian Bergholm, Marianna Jonsdottir 通过搜索 AI 和云创新推动教育领域的数字化转型。 我们非常高兴地宣布,Elastic 已获得 AWS 教育 ISV 合作伙伴资质。这一重要认证表明,Elastic 作为 …...
