【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(5月29日论文合集)
文章目录
- 一、检测相关(12篇)
- 1.1 Linear Object Detection in Document Images using Multiple Object Tracking
- 1.2 Hybrid Energy Based Model in the Feature Space for Out-of-Distribution Detection
- 1.3 BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy
- 1.4 A novel application for real-time arrhythmia detection using YOLOv8
- 1.5 ReConPatch : Contrastive Patch Representation Learning for Industrial Anomaly Detection
- 1.6 Detect Any Shadow: Segment Anything for Video Shadow Detection
- 1.7 FSD: Fully-Specialized Detector via Neural Architecture Search
- 1.8 TFDet: Target-aware Fusion for RGB-T Pedestrian Detection
- 1.9 Optimized Custom Dataset for Efficient Detection of Underwater Trash
- 1.10 Vision-based UAV Detection in Complex Backgrounds and Rainy Conditions
- 1.11 KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration
- 1.12 A Semi-Automated Corner Case Detection and Evaluation Pipeline
一、检测相关(12篇)
1.1 Linear Object Detection in Document Images using Multiple Object Tracking
基于多目标跟踪的文档图像线性目标检测
论文地址:
https://arxiv.org/abs/2305.16968
线性对象传达关于文档结构的大量信息,但是由于降级(弯曲的、擦除的)或装饰(加倍的、虚线的)而难以准确地检测。许多方法可以恢复一些矢量表示,但只有一个在1994年推出的闭源技术,基于卡尔曼滤波器(多对象跟踪算法的一个特殊情况),可以执行线性对象的像素精确的实例分割,并能够选择性地将它们从原始图像中删除。我们的目标是重新推广这一方法,并建议:1.使用多对象跟踪(MOT)对文档图像中的线性对象进行精确实例分割的框架; 2.文档图像数据集和度量,其使得能够对线性对象检测进行基于矢量和基于像素的评估; 3. MOT方法对现代分段探测器的性能测量4.各种跟踪策略的性能测量,展示原始卡尔曼滤波器方法的替代方案;和5.一种检测器的开源实现,其可以区分弯曲、擦除、虚线、相交和/或重叠的线性对象的实例。
1.2 Hybrid Energy Based Model in the Feature Space for Out-of-Distribution Detection
基于特征空间的混合能量失配检测模型
论文地址:
https://arxiv.org/abs/2305.16966
分布外(OOD)检测是部署深度神经网络的关键要求。本文介绍了HEAT模型,一种新的后组织OOD检测方法估计的密度的分布(ID)的样本使用混合能量为基础的模型(EBM)的预训练骨干的特征空间。HEAT补充了ID密度的先验密度估计,例如例如高斯混合模型(GMM)等参数模型,以提供准确而稳健的密度估计。第二个贡献是利用EBM框架来提供统一的密度估计,并组成几个能量项。大量的实验证明了这两个贡献的重要性。HEAT在CIFAR-10 / CIFAR-100基准以及大规模Imagenet基准上设置了新的最先进的OOD检测结果。
代码可在以下网址获得:https://github.com/MarcLafon/heat_ood。
1.3 BEV-IO: Enhancing Bird’s-Eye-View 3D Detection with Instance Occupancy
BEV-IO:利用实例占用率增强鸟瞰3D检测
论文地址:
https://arxiv.org/abs/2305.16829
在3D检测中构建鸟瞰图(BEV)表示的流行方法是基于显式预测的深度分布将2D图像特征提升到视锥空间上。然而,深度分布只能表征可见物体表面的3D几何形状,但无法捕获其内部空间和整体几何结构,导致稀疏和不令人满意的3D表示。为了缓解这个问题,我们提出了BEV-IO,一种新的3D检测范式,以增强BEV表示与实例占用信息。在我们的方法的核心是新设计的实例占用预测(IOP)模块,其目的是推断点级占用状态的每个实例在截头体空间。为了确保培训效率,同时保持代表的灵活性,它是使用显式和隐式监督相结合的培训。与预测的占用率,我们进一步设计了一个几何感知的特征传播机制(GFP),它执行自注意力的基础上占用分布沿每个射线在截头体,并能够执行实例级的特征一致性。通过将IOP模块与GFP机制集成,我们的BEV-IO检测器能够以更全面的BEV表示呈现高度信息化的3D场景结构。实验结果表明,BEV-IO可以优于最先进的方法,同时仅增加了可忽略不计的参数(0.2%)和计算开销(GFLOPs中为0.24%)。
1.4 A novel application for real-time arrhythmia detection using YOLOv8
YOLOv8在心律失常实时检测中的新应用
论文地址:
https://arxiv.org/abs/2305.16727
近年来,在心血管健康的远程监测中,越来越需要降低医疗保健成本。检测和分类心律失常对于诊断患有心脏异常的患者至关重要。本文表明,复杂的系统,如心电图(ECG)可以适用于在家里监测。本文提出了一种新的心律失常检测应用程序,使用最先进的You-Only-Look-Once(YOLO)v8算法对单导联ECG信号进行分类。在MIT-BIH数据集上微调自定义YOLOv 8模型,以实时检测心律失常,从而允许连续监测。结果表明,我们的模型可以检测心跳,mAP@50为0.961,检测时间为0.002s。我们的研究证明了实时心律失常检测的潜力,其中模型输出可以为家庭用户进行可视化解释。此外,这项研究可以扩展到实时XAI模型,部署在医疗保健行业,并显着推进医疗保健需求。
1.5 ReConPatch : Contrastive Patch Representation Learning for Industrial Anomaly Detection
ReConPatch:工业异常检测中的对比面表示学习
论文地址:
https://arxiv.org/abs/2305.16713
异常检测对于产品缺陷的高级识别至关重要,例如不正确的部件、未对准的部件和工业制造中的损坏。由于罕见的观察和未知类型的缺陷,异常检测被认为是机器学习中的挑战。为了克服这个困难,最近的方法利用来自自然图像数据集的常见视觉表示并提取相关特征。然而,现有的方法仍然存在预训练特征和目标数据之间的差异,或者需要输入增强,这应该特别是针对工业数据集精心设计。在本文中,我们介绍了ReConPatch,它通过训练一个预先训练的模型的线性调制来构造异常检测的判别特征。ReConPatch采用对比表示学习来收集和分布特征,以产生面向目标的和易于分离的表示。为了解决没有标记对的对比学习,我们利用两个相似性措施,成对和上下文相似性,数据表示之间的伪标签。与以前的工作不同,ReConPatch实现了强大的异常检测性能,没有广泛的输入增强。我们的方法实现了最先进的异常检测性能(99.72%)广泛使用和具有挑战性的MVTec AD数据集。
1.6 Detect Any Shadow: Segment Anything for Video Shadow Detection
检测任何阴影:分割任何内容以进行视频阴影检测
论文地址:
https://arxiv.org/abs/2305.16698
任意分割模型(SAM)在自然图像分割领域取得了巨大的成功。然而,SAM倾向于将阴影分类为背景,导致阴影检测任务的分割性能差。在本文中,我们提出了一个简单但有效的方法微调SAM检测阴影。此外,我们还将它与长短期注意机制相结合,将其功能扩展到视频阴影检测。具体地,我们首先通过利用与稀疏提示相结合的阴影数据来微调SAM,并应用微调模型来检测特定帧(例如,第一帧)在视频中使用少量用户帮助。随后,使用检测到的帧作为一个参考,我们采用一个长短期网络来学习距离帧之间的空间相关性和连续帧之间的时间一致性,从而实现跨帧的阴影信息传播。大量的实验结果表明,我们的方法优于国家的最先进的技术,改进了17.2%和3.3%的MAE和IoU,分别验证了我们的方法的有效性。
1.7 FSD: Fully-Specialized Detector via Neural Architecture Search
FSD:基于神经结构搜索的全专业化探测器
论文地址:
https://arxiv.org/abs/2305.16649
在本文中,我们首先提出并研究了一个全自动的管道设计一个全专业化的检测器(FSD),主要采用了神经架构搜索模型,通过探索理想的网络结构的骨干和特定任务的头。
1.8 TFDet: Target-aware Fusion for RGB-T Pedestrian Detection
TFDet:用于RGB-T行人检测的目标感知融合
论文地址:
https://arxiv.org/abs/2305.16580
行人检测是计算机视觉中的一项关键任务,因为它在确保交通安全方面发挥着重要作用。然而,现有的方法,仅依赖于RGB图像遭受低光条件下的性能下降,由于缺乏有用的信息。为了解决这个问题,最近的多光谱检测方法结合热图像以提供补充信息。然而,这些方法有局限性,如嘈杂的融合特征图和信息特征的损失。在本文中,我们提出了一种新的目标感知融合策略的多光谱行人检测,TFDet。与现有的方法不同,TFDet通过监督融合过程的相关性最大损失函数增强了功能。我们的融合策略突出了行人相关的功能,同时抑制不相关的。TFDet在KAIST和LLVIP基准测试中都达到了最先进的性能,速度可与之前的最先进的同类产品相媲美。重要的是,TFDet在低光条件下表现出色,这是道路安全的重大进步。
1.9 Optimized Custom Dataset for Efficient Detection of Underwater Trash
用于高效检测水下垃圾的优化自定义数据集
论文地址:
https://arxiv.org/abs/2305.16460
准确地量化和清除淹没在水下的垃圾在保护海洋生物和保护环境方面起着至关重要的作用。虽然检测漂浮物和表面碎片相对简单,但由于光折射、吸收、悬浮颗粒和颜色失真等因素,量化水下废物存在重大挑战。本文解决了这些挑战,提出了一个定制的数据集和一个有效的检测方法淹没海洋垃圾的发展。该数据集包括不同的水下环境,并纳入注释的碎片实例的精确标签。最终,这个自定义数据集的主要目标是通过利用最先进的深度学习架构来增强垃圾实例的多样性,并提高它们在深潜环境中的检测准确性。
1.10 Vision-based UAV Detection in Complex Backgrounds and Rainy Conditions
复杂背景和多雨条件下基于视觉的无人机检测
论文地址:
https://arxiv.org/abs/2305.16450
为了实时检测无人机,计算机视觉和深度学习方法是发展中的研究领域。已经提出了关于在许多应用中使用无人驾驶飞行器(UAV)的可能危险和滥用的担忧。这些包括潜在的隐私侵犯、安全相关问题和安全威胁。基于视觉的检测系统通常包括诸如相机的硬件组件和软件组件的组合。在这项工作中,最近和流行的基于视觉的目标检测技术的性能进行了调查,在具有挑战性的条件下,如复杂的背景,不同的无人机尺寸,复杂的背景场景,低到大雨的条件下的无人机检测的任务。为了研究所选方法在这些条件下的性能,策划了两个数据集:一个具有天空背景,一个具有复杂背景。本文对单级探测器和两级探测器进行了研究和评价。本文的研究结果将有助于为无人机在挑战性条件下的探测任务的性能提供见解,并为开发更鲁棒的无人机探测方法铺平道路
1.11 KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration
KeyPosS:通过GPS启发的True-Range多边形即插即用面部地标检测
论文地址:
https://arxiv.org/abs/2305.16437
在面部分析领域,准确的地标检测对于从面部识别、表情分析到动画的各种应用都至关重要。然而,传统的基于热图或坐标回归的技术经常面临计算负担和量化误差方面的挑战。为了解决这些问题,我们提出了KeyPoint定位系统(KeyPosS),这是一个突破性的面部地标检测框架,从现有的方法中脱颖而出。KeyPosS首次采用了真范围多边形算法,这是一种最初用于GPS系统的技术,可以在不依赖计算密集型回归方法的情况下实现快速精确的面部地标检测。该框架利用完全卷积网络来预测距离图,该距离图计算兴趣点(POI)和多个锚点之间的距离。这些锚点被巧妙地利用来通过真范围多边测量算法对POI的位置进行三角测量。值得注意的是,KeyPosS的即插即用特性使其能够无缝集成到任何解码阶段,从而确保了多功能和适应性强的解决方案。我们对KeyPosS的性能进行了彻底的评估,通过对四个不同数据集上的最先进模型进行基准测试。结果表明,KeyPosS大大优于领先的方法在低分辨率设置,同时需要一个最小的时间开销。该代码可在www.example.com上获得https://github.com/zhiqic/KeyPosS。
1.12 A Semi-Automated Corner Case Detection and Evaluation Pipeline
一种半自动的拐角案件检测与评估流水线
论文地址:
https://arxiv.org/abs/2305.16369
为了向公众部署自动驾驶车辆,必须证明车辆可以在许多不同的场景中安全、稳健地处理交通。自动化车辆的一个重要组成部分是感知系统,该系统捕捉和处理车辆周围的环境。感知系统需要大型数据集来训练其深度神经网络。在网络的训练或测试期间,知道这些数据集中的数据的哪些部分描述了角落情况是一个优势。这些极端情况描述的是罕见的、对网络具有潜在挑战性的情况。我们提出了一个管道,将集体专家知识描述扩展KI Absicherung本体。本体用于描述可以映射到感知数据集的场景和场景。然后,可以从数据集中提取拐角情况。此外,流水线使得能够针对所提取的角点情况来评估检测网络以测量其性能。
相关文章:

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(5月29日论文合集)
文章目录 一、检测相关(12篇)1.1 Linear Object Detection in Document Images using Multiple Object Tracking1.2 Hybrid Energy Based Model in the Feature Space for Out-of-Distribution Detection1.3 BEV-IO: Enhancing Birds-Eye-View 3D Detection with Instance Occu…...

Altium Designer 相同电路多组复制布线
在进行设计开发的时候,总会遇到相同的电路,或者模块,这些电路可以使用相同的布局和走线。我们可以画好其中一部分,然后直接复制,就可以提高效率。下面记录我自己的实际操作过程,有一些地方遇到了问题&#…...

C++线程池介绍和C++代码实现
1、介绍 1.1 线程池应用场景 在进行创建线程任务时,如果需要频繁的创建线程、销毁线程,这样会极大地降低效率,因为创建线程也是需要时间的,一个完整的线程处理运行时间包括:线程的创建时间、线程运作时间、线程的销毁…...

【day 06】vue的组件
组件 组件就是把一个网页分割成独立的小的模块,然后通过把模块进行组合,构建成一个大型的应用 单文件组件 只有一个组件 html css js 都在这个文件内 非单文件组件 可有多个组件 全局注册 !! 得先注册子组件 再生成 vm实例对象 创建子组件 const …...

第3章 Class and Object
构造函数 Guaranteed initialization with the constructor使用构造函数保证初始化 • If a class has a constructor, the compiler automatically calls that constructor at the point an object is created, before client programmers can get their hands on the o…...

卫星定位北斗芯片AT6558一款高性能BDS/GNSS多模卫星导航接收机SOC单芯片
1 芯片简介 AT6558R是一款高性能BDS/GNSS多模卫星导航接收机SOC单芯片,片上集成射频前端, 数字基带处理器,32位的RISCCPU,电源管理功能。 芯片支持多种卫星导航系统,包括中国的北斗卫星导航系统BDS,美国的GPS,俄罗斯 的…...

提升您的 MQTT 云服务:深入探索 BYOC
引言 您是否希望将物联网基础设施提升到更高的水平?为了应对业务的不断扩展,您需要一个强大且安全的消息平台来支持它。 MQTT 协议凭借其轻量级、发布/订阅模型和可靠性,已经成为构建物联网平台的首选方案。但是,随着业务的增长…...
Zookeeper面试题总结
1、说说 Zookeeper 是什么? 有些软件你想做成集群或者分布式,你可以用 ZooKeeper 帮你来辅助实现。特点:ZooKeeper 的特点:维护、协调、管理、监控 最终一致性:客户端看到的数据最终是一致的。可靠性:服务…...
如何使用HTML、CSS和JavaScript来制作这两种类型的时钟
随着计算机技术的不断发展和普及,人们对于时间的精准度要求也越来越高。时钟作为我们日常生活必不可少的工具之一,也得到了越来越多的关注和研究。而在Web开发中,我们同样可以使用HTML、CSS和JavaScript的组合,制作出各式各样的时…...
Java中操作Xml使用备忘
List item 文章目录 Java中操作Xml使用备忘1. Hutool中XmlUtil的使用简介2. Hutool中XmlUtil快速读取Xml字符串某个节点值 [简单取值时,推荐使用]2-1 Hutool工具包Maven依赖和测试Xml字符串如下2-2 读取Xml中的节点<message>的值 3. Hutool中XmlUtil详细操作示…...

【Java|基础篇】内部类
文章目录 1.什么是内部类?2.实例内部类3.静态内部类4.局部内部类5.匿名内部类6.结语 1.什么是内部类? 内部类就是在一个类中再定义一个类,内部类也是封装的体现.它可以被声明为 public、protected、private 或默认访问控制符。内部类可以访问外部类的所有成员变量和方法&…...

七牛云图床设置
文章目录 七牛云图床设置下面是用picgo配置图床SSL证书申请https网站显示http图片解决方案 原文链接图床设置,免费SSL证书申请,https网站显示http链接的图片 七牛云图床设置 登录七牛云官网并进行个人注册,然后找到对象存储 点击空间管理&a…...
Android 12.0下拉状态栏录屏去掉弹窗直接录屏
1.概述 在12.0的系统rom开发中,在systemui的下拉状态栏中有个录屏的快捷按钮,可以通过点击录屏实现录屏功能,但是在录屏的时候发现需要先弹出 dialog,然后点击开始实现录屏,这有的麻烦,所以需要去掉弹窗直接开始录屏,就需要弹窗的相关代码来实现功能 2.下拉状态栏录屏…...

MySql基础学习(1)
MySql基础学习 一、数据库1.1 什么是数据库1.2 MySql的启动与停止1.3 MySql数据模型 二、SQL2.1 SQL通用语法2.2 SQL分类2.2.1 数据类型2.2.2 DDL使用方法2.2.3 、表操作-修改&删除DDL总结 2.3 DML2.3.1 DML添加数据2.3.2 DML---修改数据2.3.3 DML---删除数据DML总结 2.4 D…...

18- 弹幕系统设计
1、弹幕系统设计 场景分析:客户端针对某一视频创建了弹幕,发送后端进行处理,后端需要对所有正在观看该视频的用户推送该弹幕。 1.1、实现方式 使用短连接进行通信或使用长连接进行通信。 1.1.1、短连接实现方案 所有观看视频的客户端不断…...

字节软测划水四年,内容过于真实......
先简单交代一下吧,潇潇是某不知名211的本硕,18年毕业加入一个小厂,之后跳槽到了字节跳动,一直从事测试开发相关的工作。之前没有实习经历,算是四年半的工作经验吧。 这四年半之间他完成了一次晋升,换了一家…...
Mybatis介绍
1. Mybatis中#和$的区别? #相当于对数据 加上 双引号,$相当于直接显示数据 1. #将传入的数据都当成一个字符串,会对自动传入的数据加一个双引号。如:order by #user_id#,如果传入的值是111,那么解析成sql时的值为orde…...

Docker理论基础
初识Docker 1.什么是Docker 微服务虽然具备各种各样的优势,但服务的拆分通用给部署带来了很大的麻烦。 分布式系统中,依赖的组件非常多,不同组件之间部署时往往会产生一些冲突。 在数百上千台服务中重复部署,环境不一定一致&…...

MySQL数据库之存储引擎
一、存储引擎的概念 1.1 什么是存储引擎 MySQL中的数据用各种不下同的技术存储在文件中,每一种技术都使用不同的存储机制、索引技巧、锁定水平并最终提供不同的功能和能力,这些不同的技术以及配套的功能在MySQL中称为存储引擎。存储引擎是MySQL将数据存…...

中介效应分析全流程汇总
一、中介效应说明 中介效应主要研究自变量对因变量影响的过程中,自变量是否通过中介变量再对因变量产生影响,那什么情况表明中介效应存在呢?如果自变量对因变量影响过程中,中介变量在模型中有着桥梁般的作用,那说明中…...
测试markdown--肇兴
day1: 1、去程:7:04 --11:32高铁 高铁右转上售票大厅2楼,穿过候车厅下一楼,上大巴车 ¥10/人 **2、到达:**12点多到达寨子,买门票,美团/抖音:¥78人 3、中饭&a…...
在Ubuntu中设置开机自动运行(sudo)指令的指南
在Ubuntu系统中,有时需要在系统启动时自动执行某些命令,特别是需要 sudo权限的指令。为了实现这一功能,可以使用多种方法,包括编写Systemd服务、配置 rc.local文件或使用 cron任务计划。本文将详细介绍这些方法,并提供…...
LLM基础1_语言模型如何处理文本
基于GitHub项目:https://github.com/datawhalechina/llms-from-scratch-cn 工具介绍 tiktoken:OpenAI开发的专业"分词器" torch:Facebook开发的强力计算引擎,相当于超级计算器 理解词嵌入:给词语画"…...
css3笔记 (1) 自用
outline: none 用于移除元素获得焦点时默认的轮廓线 broder:0 用于移除边框 font-size:0 用于设置字体不显示 list-style: none 消除<li> 标签默认样式 margin: xx auto 版心居中 width:100% 通栏 vertical-align 作用于行内元素 / 表格单元格ÿ…...
Java线上CPU飙高问题排查全指南
一、引言 在Java应用的线上运行环境中,CPU飙高是一个常见且棘手的性能问题。当系统出现CPU飙高时,通常会导致应用响应缓慢,甚至服务不可用,严重影响用户体验和业务运行。因此,掌握一套科学有效的CPU飙高问题排查方法&…...
return this;返回的是谁
一个审批系统的示例来演示责任链模式的实现。假设公司需要处理不同金额的采购申请,不同级别的经理有不同的审批权限: // 抽象处理者:审批者 abstract class Approver {protected Approver successor; // 下一个处理者// 设置下一个处理者pub…...

【分享】推荐一些办公小工具
1、PDF 在线转换 https://smallpdf.com/cn/pdf-tools 推荐理由:大部分的转换软件需要收费,要么功能不齐全,而开会员又用不了几次浪费钱,借用别人的又不安全。 这个网站它不需要登录或下载安装。而且提供的免费功能就能满足日常…...

【从零学习JVM|第三篇】类的生命周期(高频面试题)
前言: 在Java编程中,类的生命周期是指类从被加载到内存中开始,到被卸载出内存为止的整个过程。了解类的生命周期对于理解Java程序的运行机制以及性能优化非常重要。本文会深入探寻类的生命周期,让读者对此有深刻印象。 目录 …...

Python 实现 Web 静态服务器(HTTP 协议)
目录 一、在本地启动 HTTP 服务器1. Windows 下安装 node.js1)下载安装包2)配置环境变量3)安装镜像4)node.js 的常用命令 2. 安装 http-server 服务3. 使用 http-server 开启服务1)使用 http-server2)详解 …...
深入浅出Diffusion模型:从原理到实践的全方位教程
I. 引言:生成式AI的黎明 – Diffusion模型是什么? 近年来,生成式人工智能(Generative AI)领域取得了爆炸性的进展,模型能够根据简单的文本提示创作出逼真的图像、连贯的文本,乃至更多令人惊叹的…...