当前位置: 首页 > news >正文

Learning Open-World Object Proposals without Learning to Classify(论文解析)

Learning Open-World Object Proposals without Learning to Classify

    • 摘要
    • 1 介绍
    • 2 相关工作
    • 3 方法
      • 3.1 基线
      • 3.2 基于纯定位的对象性
      • 3.3. 对象定位网络 (OLN)
    • 4 实验
      • 4.1跨类泛化
      • 4.2.开放世界类不可知检测
      • 4.3更多的跨数据集泛化
        • 4.3.1 Objects365 泛化
        • 4.3.2 EpicKitchens 的泛化
      • 4.4.对长尾目标检测的影响
    • 5 结论

摘要

物体提议已经成为许多视觉流程的重要预处理步骤,包括目标检测、弱监督检测、目标发现、跟踪等。与无需学习的方法相比,基于学习的提议最近变得越来越受欢迎,这主要是因为对目标检测的兴趣日益增长。常见的范式是从带有一组对象区域及其对应类别的标记数据中学习对象提议。然而,这种方法通常难以处理在训练集中不存在的开放世界中的新对象。在本文中,我们发现问题在于现有提议方法中的二元分类器往往对训练类别过拟合。因此,我们提出了一种无需分类的对象定位网络(Object Localization Network,OLN),它纯粹通过区域的位置和形状与标记的真实对象(例如,中心度和IoU)的重叠程度来估计每个区域的对象性。这种简单的策略学习了通用的对象性,并在COCO的跨类别泛化以及RoboNet、Object365和EpicKitchens的跨数据集评估中胜过了现有的提议方法。最后,我们展示了OLN在大词汇数据集LVIS上长尾目标检测方面的优点,其中我们注意到在罕见和常见类别中明显改进。

1 介绍

物体提议是一组包含高概率包含对象的区域或边界框[33, 41, 42, 45, 59-61, 74]。它们已经成为许多计算机视觉系统的重要预处理步骤,包括目标检测[33, 41, 42, 45, 59, 74]、分割[3, 8, 13]、对象发现[12, 16, 47]、弱监督目标检测[5, 21, 53]、视觉跟踪[35, 63]、内容感知重定向[51]等。由于目标检测的成功,物体提议研究的最近趋势已经从对象发现转向了检测。虽然对象发现提议的目标是在图像中提议任何对象,但检测提议的目标是仅为下游分类器提议已标记的类别。由于其简单性和与下游检测的共享计算,基于学习的提议成为受欢迎的检测提议。然而,与其无需学习的对应物[42, 59, 74]不同,这些方法倾向于过度拟合已注释的类别,并难以处理新对象[33, 41, 64]。我们想要探讨的问题是,是否可能将两者的优点结合起来,“学习开放世界(新颖)的对象提议”?这可能会为一些有前途的应用程序提供学习提议,包括开放世界检测[30]/分割[66]、机器人抓取[15]、主观视角视频理解[14]和大词汇检测[24]。

在给定一组物体注释的情况下,我们希望学习一般物体的外观,并从看不见的类别和新数据源中提出高度不同的物体候选项。这与人类在新环境中检测新颖物体而不命名它们的类别的能力相匹配,例如,道路上的障碍物,货架上的新产品。我们的主要洞察力在于,现有对象提议器[33, 41, 60]中的分类器或类别无关的检测器[45, 56]阻碍了这种泛化,因为模型倾向于过度拟合标记的对象并将训练集中的未标记对象视为背景。我们提出了对象定位网络(Object Localization Network,OLN),它通过预测一个区域的定位质量来学习检测对象,而不是进行前景-背景分类。这个简单的想法使模型能够学习更强的对象性线索。据我们所知,我们是第一个证明纯定位为基础的对象性学习对于提出新颖对象的价值的人,尽管在标准的固定类别检测设置中已经有其他人提出了将定位质量估计纳入其中的想法[28, 29, 56, 69]。我们展示了一个不依赖分类器的对象提议器是实现最佳的跨类别和跨数据集泛化的关键,这是与现有提议器或类别无关的检测器的重要设计区别。

我们在COCO交叉类别设置中研究了OLN的有效性,遵循了现有的研究[33, 41, 64]。尽管简单,OLN在新颖类别上的性能优于最先进的方法,AUC提高了+3.3(AR@10提高了+5.0,AR@100提高了+5.1)。我们的消融研究证实前景与背景分类器的使用有害,而定位有助于提高性能。此外,我们研究了从COCO到RoboNet [15]、Objects365 [48]和EpicKitchens [14]的跨数据集泛化。我们选择了RoboNet,因为它包含了机器人抓取应用中常见的各种新颖物体,而垃圾箱环境允许更可靠的详尽注释以进行适当的评估。在RoboNet上,OLN执行详尽的、与类别无关的对象检测,并在AP上优于标准方法+13∼16,而在Objects365上,OLN在AR@10上提高了+4,在AR@100上提高了+8。在EpicKitchens上的定性可视化进一步显示,OLN在检测各种新颖物体方面优于标准方法。最后,我们将OLN作为RPN [45]在LVIS长尾检测 [24]上的替代,并观察到AP提高了+1.4,其中大部分归因于罕见类别的提高(+3.4 APr)和常见类别的提高(+1.8 APc)。这表明OLN能够捕捉大词汇检测中的长尾。

值得注意的是,评估定位质量在标准检测中并不新鲜,但它们总是与分类一起使用,并仅在已知类别上进行验证,例如FCOS [56]。据我们所知,我们是首批独立于分类使用定位线索进行对象提议的研究者。这一发现帮助我们在COCO数据集上取得显著的增益,并在许多不同的数据集上比现有方法更好地进行泛化。

我们的贡献总结如下:
• 据我们所知,我们是首批展示了基于纯定位的对象性学习对于新颖对象提议的价值,并提出了一种简单但有效的无分类器的Object Localization Network(OLN)。
• 我们的方法在COCO的跨类别设置上优于现有方法,并改进了在RoboNet和Object365的跨数据集设置、长尾检测(LVIS)和主观视频

相关文章:

Learning Open-World Object Proposals without Learning to Classify(论文解析)

Learning Open-World Object Proposals without Learning to Classify 摘要1 介绍2 相关工作3 方法3.1 基线3.2 基于纯定位的对象性3.3. 对象定位网络 (OLN)4 实验4.1跨类泛化4.2.开放世界类不可知检测4.3更多的跨数据集泛化4.3.1 Objects365 泛化4.3.2 EpicKitchens 的泛化4.4…...

前端在项目中添加自己的功能页面

1.src—>mock–>sideMenue:边表(sidemenue)的子功能的添加:左边功能框中的显示 在相应的父功能添加子功能 id号不能和他人的一样,casecode:就是路由名字 title:中文名称 2.前后端接口(后端程序员给),定义好接口名称 src—>moudles—…...

数据库MySQL(二):DDL数据定义语言

数据定义语言(Data Definition Language,DDL) 该语言主要用于定义数据库对象,操作对象为数据库、表或字段。 数据库操作 # 查询所有数据库 SHOW DATABASES;# 查询当前数据库 SELECT DATABASE(); # 创建数据库 CREATE DATABASE […...

Spring FactoryBean 源码讲解

Spring FactoryBean 源码讲解 什么是Spring FactoryBean Spring FactoryBean是一个特殊的Bean,它实现了FactoryBean接口并重写了其getObject()方法,用于生产其他Bean的实例。在Spring容器启动时,会自动调用FactoryBean的getObject()方法来获…...

【C语言】零碎知识点|细节

除法运算符(/)的使用规则 在C语言中,除法运算符(/)的使用规则如下: 当两个整数相除时,结果也是一个整数。例如,如果A和B都是整数,那么A / B的结果也是一个整数。这意味着,除法运算的结果会忽略小数部分。例如,10 / 3 的结果是3,而不是3.3333。 当一个整数和一个浮点…...

电影评分数据分析案例-Spark SQL

# cording:utf8from pyspark.sql import SparkSession from pyspark.sql.types import IntegerType, StringType, StructType import pyspark.sql.functions as Fif __name__ __main__:# 0.构建执行环境入口对象SparkSessionspark SparkSession.builder.\appName(movie_demo)…...

vue如何使用冻结对象提升代码效率及其原理解析

先给大家伙整个实际工作中一定会碰到的问题 如下vue dome ,它的代码非常简单功能也1非常简单,就是一个按钮,点击后会显示有多少条数据 来看看源码, html部分就是一个按钮绑定了一个loadData事件,然后在p标签内展示了这个myData这个数据的长度 <template><div id&quo…...

基于深度学习网络的手势识别算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 clc; clear; close all; warning off; addpath(genpath(pwd)); rng(default)load gnet.mat[Pr…...

[论文笔记] 多语言模型中的负干扰研究结果和元学习算法

On Negative Interference in Multilingual Models: Findings and A Meta-Learning Treatment 多语言模型中的负干扰:研究结果和元学习解决办法 概述: 训练语料库大小(训练数据大小和 负干扰 无关)。 语言亲缘关系/语系 和 负干扰 有关。添加相似的语言并不能减轻负面干扰。…...

【OpenVINO】行人摔倒检测 — 基于 OpenVINO C# API 部署PP-Human-下篇

行人摔倒检测 — 基于 OpenVINO C# API 部署PP-Human 4. 配置 PP-Human_Fall_Detection 项目4.1 环境配置4.2 创建 AlxBoard_deploy_yolov8 项目4.3 添加项目源码4.4 添加 OpenVINO C# API4.5 添加 OpenCvSharp 5. 测试 PP-Human_Fall_Detection 项目5.1 创建视频读取器5.2 行人…...

运行报错(三)git bash报错fatal: detected dubious ownership in repository at

报错现象 在运行git 命令时&#xff0c;出现报错 “fatal: detected dubious ownership in repository at” 报错原因 文件夹的所有者和现在的用户不一致 栗子&#xff1a; 文件夹的所有者是root&#xff0c;而当前用户是admin 解决方案 方法一、 将文件夹的所有者替换成ad…...

nvm 的安装及使用

文章目录 一、nvm是什么&#xff1f;二、下载nvm三、在cmd控制台进行操作1、nvm 查询版本号2、查询可以下载的node版本3、安装指定版本4、查看已经安装的node版本5、切换node版本(如果失败那就用管理员身份打开cmd进行切换) 一、nvm是什么&#xff1f; nvm是一个node的版本管理…...

xcode Simulator 安装

xcode Simulator 安装 参考文档 xcode又又又升级了&#xff0c;升级完成之后不下载最新的 iOS 17 Simulator就不能编译运行了&#xff0c;只能静静的等他下载。但是离谱的是这个居然没有断点续下&#xff0c;每次都要重新下载&#xff0c;眼睁睁的看着下载了4个G然后断掉了从…...

【Maven教程】(八):使用 Nexus 创建私服 ~

Maven 使用 Nexus 创建私服 1️⃣ Nexus简介2️⃣ 安装 Nexus2.1 下载 Nexus2.2 Bundle 方式安装 Nexus2.3 WAR 方式安装 Nexus2.4 登录 Nexus 3️⃣ Nexus 的仓库与仓库组3.1 Nexus 内置的仓库3.2 Nexus 仓库分类的概念3.3 创建 Nexus 宿主仓库3.4 创建 Nexus 代理仓库3.5 创…...

螺旋矩阵[中等]

优质博文&#xff1a;IT-BLOG-CN 一、题目 给你一个m行n列的矩阵matrix&#xff0c;请按照顺时针螺旋顺序&#xff0c;返回矩阵中的所有元素。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,2,3],[4,5,6],[7,8,9]] 输出&#xff1a;[1,2,3,6,9,8,7,4,5] 示例 2&#xf…...

babel6使用ES2020最新js语法

babel6使用ES2020最新js语法 Babel 6 原本是不支持 ES2020 语法&#xff0c;因为它是在 Babel 7 中引入的。如果您想使用 ES2020 语法&#xff0c;您需要将 Babel 6 升级到 Babel 7 或更高版本(推荐),当然也可以在bebel6中安装支持某个语法的plugin,比如你想使用 ES2020 中的可…...

【iOS】简单的网络请求

应iOS小组要求&#xff0c;仿写知乎日报需要实现网络请求并解析JSON格式数据&#xff0c;这篇文章仅对基本的网络请求和iOS中的JSON解析作以记录&#xff0c;还涉及到RunLoop的一点小插曲&#xff0c;具体请求过程和原理以后会详细学习&#xff01;&#x1f64f; 基本网络流程简…...

Vulnhub系列靶机---mhz_cxf: c1f

靶机文档&#xff1a;&#xff1a;mhz_cxf: c1f 下载地址&#xff1a;Download (Mirror): 网卡配置 靶机开机后按住shift&#xff0c;出现界面如图&#xff0c;按e键进入安全模式&#xff1a; 找到ro&#xff0c;删除该行后边内容&#xff0c;并将ro 。。。修改为&#xff1a…...

SDRAM与DRAM

SDRAM&#xff08;同步动态随机存取内存&#xff09;和DRAM&#xff08;动态随机存取内存&#xff09;都是RAM的一种类型&#xff0c;但是它们工作的方式有所不同。 DRAM&#xff1a;DRAM是最基础的动态随机存取内存&#xff0c;它的工作方式是总线在内存中读取或写入数据的速度…...

数据库基础(一)【MySQL】

文章目录 安装 MySQL修改密码连接和退出数据库服务器使用 systemctl 管理服务器进程配置数据库从文件角度看待数据库查看连接情况 安装 MySQL 这是在 Linux 中安装 MySQL 的教程&#xff1a;Linux 下 MySQL 安装。本系列测试用的 MySQL 版本是 5.7&#xff0c;机器是 centOS7.…...

CTF show Web 红包题第六弹

提示 1.不是SQL注入 2.需要找关键源码 思路 进入页面发现是一个登录框&#xff0c;很难让人不联想到SQL注入&#xff0c;但提示都说了不是SQL注入&#xff0c;所以就不往这方面想了 ​ 先查看一下网页源码&#xff0c;发现一段JavaScript代码&#xff0c;有一个关键类ctfs…...

MySQL 隔离级别:脏读、幻读及不可重复读的原理与示例

一、MySQL 隔离级别 MySQL 提供了四种隔离级别,用于控制事务之间的并发访问以及数据的可见性,不同隔离级别对脏读、幻读、不可重复读这几种并发数据问题有着不同的处理方式,具体如下: 隔离级别脏读不可重复读幻读性能特点及锁机制读未提交(READ UNCOMMITTED)允许出现允许…...

Cesium1.95中高性能加载1500个点

一、基本方式&#xff1a; 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具

文章目录 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染2. 插值表达式{{}}3. 访问数据和修改数据4. vue响应式5. Vue开发者工具--方便调试 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染 准备容器引包创建Vue实例 new Vue()指定配置项 ->渲染数据 准备一个容器,例如: …...

linux arm系统烧录

1、打开瑞芯微程序 2、按住linux arm 的 recover按键 插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 &#xff08;忘了有没有这步了 估计有&#xff09; 刷机程序 和 镜像 就不提供了。要刷的时…...

vue3 定时器-定义全局方法 vue+ts

1.创建ts文件 路径&#xff1a;src/utils/timer.ts 完整代码&#xff1a; import { onUnmounted } from vuetype TimerCallback (...args: any[]) > voidexport function useGlobalTimer() {const timers: Map<number, NodeJS.Timeout> new Map()// 创建定时器con…...

什么是EULA和DPA

文章目录 EULA&#xff08;End User License Agreement&#xff09;DPA&#xff08;Data Protection Agreement&#xff09;一、定义与背景二、核心内容三、法律效力与责任四、实际应用与意义 EULA&#xff08;End User License Agreement&#xff09; 定义&#xff1a; EULA即…...

Hive 存储格式深度解析:从 TextFile 到 ORC,如何选对数据存储方案?

在大数据处理领域&#xff0c;Hive 作为 Hadoop 生态中重要的数据仓库工具&#xff0c;其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式&#xff0c;很多开发者常常陷入选择困境。本文将从底…...

九天毕昇深度学习平台 | 如何安装库?

pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子&#xff1a; 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...

20个超级好用的 CSS 动画库

分享 20 个最佳 CSS 动画库。 它们中的大多数将生成纯 CSS 代码&#xff0c;而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库&#xff0c;可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画&#xff0c;可以包含在你的网页或应用项目中。 3.An…...