当前位置: 首页 > news >正文

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(5月26日论文合集)

文章目录

  • 一、检测相关(9篇)
    • 1.1 Energy-based Detection of Adverse Weather Effects in LiDAR Data
    • 1.2 Anomaly Detection with Conditioned Denoising Diffusion Models
    • 1.3 Mask Attack Detection Using Vascular-weighted Motion-robust rPPG Signals
    • 1.4 Improved Multi-Scale Grid Rendering of Point Clouds for Radar Object Detection Networks
    • 1.5 Language-Guided 3D Object Detection in Point Cloud for Autonomous Driving
    • 1.6 Learning Occupancy for Monocular 3D Object Detection
    • 1.7 Towards Total Online Unsupervised Anomaly Detection and Localization in Industrial Vision
    • 1.8 Leveraging object detection for the identification of lung cancer
    • 1.9 Entropy-Aware Similarity for Balanced Clustering: A Case Study with Melanoma Detection

一、检测相关(9篇)

1.1 Energy-based Detection of Adverse Weather Effects in LiDAR Data

基于能量的激光雷达数据中不利天气影响的检测

论文地址:

https://arxiv.org/abs/2305.16129

在这里插入图片描述

自动驾驶车辆依赖于LiDAR传感器对环境进行感知。然而,雨、雪、雾等恶劣天气条件会对这些传感器造成负面影响,导致测量数据中引入不必要的噪声,降低了其可靠性。在本研究中,我们通过提出一种新的方法来检测LiDAR数据中的恶劣天气效应来解决这个问题。

我们将这个问题重新定义为异常检测任务,并利用能量框架来检测点云中的异常值。具体而言,我们的方法通过学习将能量评分与内点点云关联起来,将高能量评分与异常值关联起来,从而实现对恶劣天气效应的鲁棒检测。通过广泛的实验,我们证明了我们的方法在恶劣天气检测方面表现更好,并且对未见过的天气效应具有更高的鲁棒性,超过了先前最先进的方法。此外,我们还展示了如何利用我们的方法进行同时的异常检测和语义分割。最后,为了推动在恶劣天气条件下的LiDAR感知研究领域的发展,我们发布了SemanticSpray数据集,其中包含在类似高速公路场景中标记的车辆喷雾数据。

1.2 Anomaly Detection with Conditioned Denoising Diffusion Models

基于条件去噪扩散模型的异常检测

论文地址:

https://arxiv.org/abs/2305.15956

在这里插入图片描述
基于重建的方法在异常检测方面一直难以取得竞争性的性能。本文引入了一种称为Denoising Diffusion Anomaly Detection(DDAD)的方法。我们提出了一种新颖的去噪过程,用于基于目标图像的图像重建。这样可以得到一个与目标图像密切相似的连贯恢复图像。随后,我们的异常检测框架利用这种条件化,在去噪过程中将目标图像设定为输入图像,以引导去噪过程,从而实现无缺陷的重建,并保持正常模式。我们通过对输入图像和重建图像进行像素级和特征级的比较来定位异常。最后,为了增强特征比较的有效性,我们引入了一种域自适应方法,利用我们的条件化去噪过程生成的示例来微调特征提取器。该方法在各种数据集上进行了验证,包括MVTec和VisA基准数据集,分别实现了99.5%和99.3%的图像级AUROC的最先进结果。

1.3 Mask Attack Detection Using Vascular-weighted Motion-robust rPPG Signals

基于血管加权运动稳健rPPG信号的伪装攻击检测

论文地址:

https://arxiv.org/abs/2305.15940

在这里插入图片描述

1.4 Improved Multi-Scale Grid Rendering of Point Clouds for Radar Object Detection Networks

一种改进的雷达目标检测网络点云多尺度网格绘制方法

论文地址:

https://arxiv.org/abs/2305.15836

在这里插入图片描述
对于基于雷达的物体检测任务,将点云首先转换为网格表示,然后应用卷积神经网络的架构能够取得良好的性能。然而,从不规则的点云数据到密集的网格结构的转换通常会导致信息的丢失,这是由于点的离散化和聚合造成的。在本文中,我们提出了一种新颖的架构,即多尺度KPPillarsBEV,旨在减轻网格渲染的负面影响。具体而言,我们提出了一种新颖的网格渲染方法,即KPBEV,它利用核心点卷积的描述能力,在网格渲染过程中改进了局部点云上下文的编码。此外,我们提出了一种通用的多尺度网格渲染形式,将多尺度特征图与任意网格渲染方法结合到检测网络的卷积主干中。我们在nuScenes数据集上进行了大量实验证明了这些方法在检测性能和计算复杂度方面的优势。所提出的多尺度KPPillarsBEV架构在nuScenes验证集的Car AP4.0(匹配阈值为4米的平均精度)上相对于基线提高了5.37%,相对于先前的最先进方法提高了2.88%。此外,所提出的单尺度KPBEV网格渲染相对于基线提高了2.90%的Car AP4.0,并且保持了相同的推理速度。

1.5 Language-Guided 3D Object Detection in Point Cloud for Autonomous Driving

基于语言制导的点云自动驾驶三维目标检测

论文地址:

https://arxiv.org/abs/2305.15765

在这里插入图片描述

1.6 Learning Occupancy for Monocular 3D Object Detection

单目三维目标检测中的学习占有率

论文地址:

https://arxiv.org/abs/2305.15694

在这里插入图片描述

由于缺乏准确的3D信息,单目3D检测是一项具有挑战性的任务。现有的方法通常依赖于几何约束和密集的深度估计,以促进学习,但往往不能充分利用的好处,在锥台和3D空间的三维特征提取。在本文中,我们提出了\textbf{OccupancyM 3D},一种学习单目3D检测占用的方法。它直接学习平截头体和3D空间中的占用,从而产生更具鉴别力和信息量的3D特征和表示。具体来说,通过使用同步的原始稀疏激光雷达点云,我们定义的空间状态,并生成基于体素的占用标签。我们制定一个简单的分类问题和设计相关的占用率损失的占用率预测。所得占用估计被用来增强原始截头体/3D特征。因此,在KITTI和Waymo开放数据集上的实验表明,该方法达到了新的技术水平,并以显着的优势超越了其他方法。代码和预训练模型将在\url{https://github.com/SPengLiang/OccupancyM3D}上提供。

1.7 Towards Total Online Unsupervised Anomaly Detection and Localization in Industrial Vision

面向工业视觉的全在线无监督异常检测与定位

论文地址:

https://arxiv.org/abs/2305.15652

在这里插入图片描述

虽然现有的图像异常检测方法产生了令人印象深刻的结果,但它们大多是离线学习范式,需要过多的数据预收集,限制了它们在具有在线流数据的工业场景中的适应性。基于在线学习的图像异常检测方法与工业在线流数据更兼容,但很少受到关注。本文首次提出了一种完全在线学习的图像异常检测方法,即LeMO,用于在线图像异常检测的学习记忆方法。LeMO利用正交随机噪声初始化的可学习内存,消除了内存初始化中对过多数据的需求,并避免了离线数据收集的低效。此外,一个基于对比学习的异常检测损失函数的设计,使内存和图像目标为导向的功能在线联合优化。该方法简单、高效。大量的实验证明了LeMO在在线环境中的优越性能。此外,在离线设置中,LeMO也与当前最先进的方法竞争,并在Few-Shot场景中实现出色的性能。

1.8 Leveraging object detection for the identification of lung cancer

利用目标检测识别肺癌

论文地址:

https://arxiv.org/abs/2305.15813

在这里插入图片描述

肺癌构成了一个重大的全球公共卫生挑战,强调了早期检测对改善患者预后的重要性。深度学习算法的最新进展在医学图像分析中显示出有希望的结果。本研究的目的是探讨目标检测,特别是YOLOv5,一个先进的目标识别系统,在医学成像肺癌识别的应用。为了训练和评估算法,从Kaggle获得包括胸部X射线和对应注释的数据集。YOLOv5模型用于训练能够检测癌性肺病变的算法。训练过程涉及优化超参数和利用增强技术来增强模型的性能。经过训练的YOLOv5模型在识别肺癌病变方面表现出出色的能力,显示出高准确率和召回率。它成功地确定了胸部X光片中的恶性区域,并通过一个单独的测试集进行了验证,该测试集优于以前的技术。此外,YOLOv5模型证明了计算效率,实现了实时检测,并使其适合集成到临床程序中。这种方法有望帮助放射科医生早期发现和诊断肺癌,最终导致及时治疗和改善患者预后。

1.9 Entropy-Aware Similarity for Balanced Clustering: A Case Study with Melanoma Detection

用于平衡聚类的熵感知相似性:黑色素瘤检测的案例研究

论文地址:

https://arxiv.org/abs/2305.15417

在这里插入图片描述

聚类数据是一种无监督学习方法,旨在将一组数据点划分为多个组。它是机器学习和数据挖掘中一个关键而又苛刻的主题。它的成功应用跨越了各个领域。然而,传统的聚类技术需要考虑在特定的应用中的平衡意义。因此,本文解决了不平衡聚类问题的挑战,并提出了一种新的方法,平衡聚类,利用熵感知的相似性,这可以被定义为程度的平衡。我们创造了一个术语,熵感知的相似性平衡聚类(EASB),它最大限度地平衡在聚类过程中的互补聚类不平衡的数据,并将熵在一个新的相似性公式,占角度差异和距离。该方法的有效性在实际的黑色素瘤医学数据上进行了评估,特别是国际皮肤成像合作组织(ISIC)2019年和2020年的挑战数据集,以证明它如何在保持平衡的同时成功地对数据进行聚类。最后,我们可以确认,所提出的方法在检测黑色素瘤表现出出色的性能,与经典的方法相比。

相关文章:

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(5月26日论文合集)

文章目录 一、检测相关(9篇)1.1 Energy-based Detection of Adverse Weather Effects in LiDAR Data1.2 Anomaly Detection with Conditioned Denoising Diffusion Models1.3 Mask Attack Detection Using Vascular-weighted Motion-robust rPPG Signals1.4 Improved Multi-Sca…...

网络编程与自动化(python)

20.1 网络编程与自动化概述 传统网络运维困境大家在日常的网络运维中是否遇到过如下问题: 设备升级:现网有数千台网络设备,你需要周期性、批量性地对设备进行升级。配置审计:企业年度需要对设备进行配置审计。例如要求所有设备开启sTelnet功能,以太网交换机配置生成树安全…...

有趣的数学 对称/非对称加密简史及数学原理一览

一、非对称加密简史 1、算法建立 对于任何想发送加密信息的人,另一个问题是如何让接收人知道这条信息一开始是如何加密的。对于像字母替换式密码这样的密码,问题在于,一旦窃听者知道了加密方案,后续的信息都可以轻松获取。 公钥加…...

AI大模型落地不远了!首个全量化Vision Transformer的方法FQ-ViT(附源代码)

点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 公众号ID|计算机视觉研究院 学习群|扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2111.13824.pdf 项目代码:https://github.com/megvii-research/FQ-ViT 计…...

YouTubeDNN

这个youTubeDNN主要是工程导向,对于推荐方向的业界人士真的是必须读的一篇文章。它从召回到排序整个流程都做了描述,真正是在工业界应用的经典介绍。 作者首先说了在工业上YouTube视频推荐系统主要面临的三大挑战: 1.Scale(规模)&#xff1…...

面向对象的介绍和内存

学习面向对象内容的三条主线 • Java 类及类的成员:(重点)属性、方法、构造器;(熟悉)代码块、内部类 • 面向对象的特征:封装、继承、多态、(抽象) • 其他关键字的使用…...

【数据可视化】Plotly Express绘图库使用

Plotly Express是一个基于Plotly库的高级Python可视化库。它旨在使绘图变得简单且直观,无需繁琐的设置和配置。通过使用Plotly Express,您可以使用少量的代码创建具有丰富交互性和专业外观的各种图表。以下是Plotly Express的一些主要特点和优势&#xf…...

小红书企业号限流原因有哪些,限流因素

作为企业、品牌在小红书都有官方账号,很多人将注册小红书企业号看作是获取品牌宣推“特权”的必行之举。事实真的如此吗,那为什么小红书企业号限流频发,小红书企业号限流原因有哪些,限流因素。 一、小红书企业号限流真的存在吗 首…...

1.6C++双目运算符重载

C双目运算符重载 C中的双目运算符重载指的是重载二元运算符,即有两个操作数的运算符,如加减乘除运算符“”、“-”、“*”和“/”等。 通过重载双目运算符,可以实现自定义类型的运算符操作。 比如可以通过重载加减运算符实现自定义类型的向…...

CDD诊断数据库的简单介绍

1. 什么是数据库? 数据库是以结构化方式组织的一个数据集合。 比如DBC数据库: Network nodes Display Rx Messages EngineState(0x123) 通过结构化的方式把网络节点Display里Rx报文EngineState(0x123)层层展开。这种方 式的好处是:层次清晰,结构分明,易于查找。 2. 什么…...

【笔试强训选择题】Day25.习题(错题)解析

作者简介:大家好,我是未央; 博客首页:未央.303 系列专栏:笔试强训选择题 每日一句:人的一生,可以有所作为的时机只有一次,那就是现在!!!&#xff…...

Python心经(6)

目录 callable super type()获取对应类型 isinstance判断对象是否是某个类或者子类的实例 issubclass,判断对象是不是类的子孙类 python3的异常处理 反射: 心经第三节和第五节都写了些面向对象的,这一节补充一…...

MMPose安装记录

参考:GitHub - open-mmlab/mmpose: OpenMMLab Pose Estimation Toolbox and Benchmark. 一、依赖环境 MMPose 适用于 Linux、Windows 和 macOS。它需要 Python 3.7、CUDA 9.2 和 PyTorch 1.6。我的环境: Windows 11 Python 3.9 CUDA 11.6 PyTorch 1.13 …...

梯度下降优化

二阶梯度优化 1.无约束优化算法1.1最小二乘法1.2梯度下降法1.3牛顿法/拟牛顿法 2.一阶梯度优化2.1梯度的数学原理2.2梯度下降算法 3.二阶梯度优化梯度优化3.1 牛顿法3.2 拟牛顿法 1.无约束优化算法 在机器学习中的无约束优化算法中,除了梯度下降以外,还…...

一起看 I/O | 将 Kotlin 引入 Web

作者 / 产品经理 Vivek Sekhar 我们将在本文为您介绍 JetBrains 和 Google 的早期实验性工作。您可以观看今年 Google I/O 大会中的 WebAssembly 相关演讲,了解更多详情: https://youtu.be/RcHER-3gFXI?t604 应用开发者想要尽可能地在更多平台上最大限度地吸引用户…...

极致呈现系列之:Echarts地图的浩瀚视野(一)

目录 Echarts中的地图组件地图组件初体验下载地图数据准备Echarts的基本结构导入地图数据并注册展示地图数据结合visualMap展示地图数据 Echarts中的地图组件 Echarts中的地图组件是一种用于展示地理数据的可视化组件。它可以显示全国、各省市和各城市的地图,并支持…...

第四章 模型篇:模型训练与示例

文章目录 SummaryAutogradFunctions ()GradientBackward() OptimizationOptimization loopOptimizerLearning Rate SchedulesTime-dependent schedulesPerformance-dependent schedulesTraining with MomentumAdaptive learning rates optim.lr_scheluder Summary 在pytorch_t…...

利用人工智能模型学习Python爬虫

爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 网络爬虫(又称为网页蜘蛛,网络机器人)是其中一种类型。 爬虫可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络…...

.Net泛型详解

引言 在我们使用.Net进行编程的过程中经常遇到这样的场景:对于几乎相同的处理,由于入参的不同,我们需要写N多个重载,而执行过程几乎是相同的。更或者,对于几乎完成相同功能的类,由于其内部元素类型的不同&…...

C++ 教程(10)——存储类

存储类定义 C 程序中变量/函数的范围(可见性)和生命周期。这些说明符放置在它们所修饰的类型之前。下面列出 C 程序中可用的存储类: autoregisterstaticexternmutablethread_local (C11) 从 C 17 开始,auto 关键字不再是 C 存储…...

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

CVPR 2025 | MIMO:支持视觉指代和像素对齐的医学视觉语言模型 论文信息 标题:MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者:Yanyuan Chen, Dexuan Xu, Yu Hu…...

突破不可导策略的训练难题:零阶优化与强化学习的深度嵌合

强化学习(Reinforcement Learning, RL)是工业领域智能控制的重要方法。它的基本原理是将最优控制问题建模为马尔可夫决策过程,然后使用强化学习的Actor-Critic机制(中文译作“知行互动”机制),逐步迭代求解…...

以下是对华为 HarmonyOS NETX 5属性动画(ArkTS)文档的结构化整理,通过层级标题、表格和代码块提升可读性:

一、属性动画概述NETX 作用:实现组件通用属性的渐变过渡效果,提升用户体验。支持属性:width、height、backgroundColor、opacity、scale、rotate、translate等。注意事项: 布局类属性(如宽高)变化时&#…...

UDP(Echoserver)

网络命令 Ping 命令 检测网络是否连通 使用方法: ping -c 次数 网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法:netstat [选项] 功能:查看网络状态 常用选项: n 拒绝显示别名&#…...

【解密LSTM、GRU如何解决传统RNN梯度消失问题】

解密LSTM与GRU:如何让RNN变得更聪明? 在深度学习的世界里,循环神经网络(RNN)以其卓越的序列数据处理能力广泛应用于自然语言处理、时间序列预测等领域。然而,传统RNN存在的一个严重问题——梯度消失&#…...

【机器视觉】单目测距——运动结构恢复

ps:图是随便找的,为了凑个封面 前言 在前面对光流法进行进一步改进,希望将2D光流推广至3D场景流时,发现2D转3D过程中存在尺度歧义问题,需要补全摄像头拍摄图像中缺失的深度信息,否则解空间不收敛&#xf…...

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文? 多租户隔离:自动为接入设备追加租户前缀,后端按 ClientID 拆分队列。零代码鉴权:将入站用户名替换为 OAuth Access-Token,后端 Broker 统一校验。灰度发布:根据 IP/地理位写…...

【生成模型】视频生成论文调研

工作清单 上游应用方向:控制、速度、时长、高动态、多主体驱动 类型工作基础模型WAN / WAN-VACE / HunyuanVideo控制条件轨迹控制ATI~镜头控制ReCamMaster~多主体驱动Phantom~音频驱动Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation速…...

Mysql中select查询语句的执行过程

目录 1、介绍 1.1、组件介绍 1.2、Sql执行顺序 2、执行流程 2.1. 连接与认证 2.2. 查询缓存 2.3. 语法解析(Parser) 2.4、执行sql 1. 预处理(Preprocessor) 2. 查询优化器(Optimizer) 3. 执行器…...

20个超级好用的 CSS 动画库

分享 20 个最佳 CSS 动画库。 它们中的大多数将生成纯 CSS 代码,而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库,可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画,可以包含在你的网页或应用项目中。 3.An…...