当前位置: 首页 > news >正文

Learning Open-World Object Proposals without Learning to Classify(论文解析)

Learning Open-World Object Proposals without Learning to Classify

    • 摘要
    • 1 介绍
    • 2 相关工作
    • 3 方法
      • 3.1 基线
      • 3.2 基于纯定位的对象性
      • 3.3. 对象定位网络 (OLN)
    • 4 实验
      • 4.1跨类泛化
      • 4.2.开放世界类不可知检测
      • 4.3更多的跨数据集泛化
        • 4.3.1 Objects365 泛化
        • 4.3.2 EpicKitchens 的泛化
      • 4.4.对长尾目标检测的影响
    • 5 结论

摘要

物体提议已经成为许多视觉流程的重要预处理步骤,包括目标检测、弱监督检测、目标发现、跟踪等。与无需学习的方法相比,基于学习的提议最近变得越来越受欢迎,这主要是因为对目标检测的兴趣日益增长。常见的范式是从带有一组对象区域及其对应类别的标记数据中学习对象提议。然而,这种方法通常难以处理在训练集中不存在的开放世界中的新对象。在本文中,我们发现问题在于现有提议方法中的二元分类器往往对训练类别过拟合。因此,我们提出了一种无需分类的对象定位网络(Object Localization Network,OLN),它纯粹通过区域的位置和形状与标记的真实对象(例如,中心度和IoU)的重叠程度来估计每个区域的对象性。这种简单的策略学习了通用的对象性,并在COCO的跨类别泛化以及RoboNet、Object365和EpicKitchens的跨数据集评估中胜过了现有的提议方法。最后,我们展示了OLN在大词汇数据集LVIS上长尾目标检测方面的优点,其中我们注意到在罕见和常见类别中明显改进。

1 介绍

物体提议是一组包含高概率包含对象的区域或边界框[33, 41, 42, 45, 59-61, 74]。它们已经成为许多计算机视觉系统的重要预处理步骤,包括目标检测[33, 41, 42, 45, 59, 74]、分割[3, 8, 13]、对象发现[12, 16, 47]、弱监督目标检测[5, 21, 53]、视觉跟踪[35, 63]、内容感知重定向[51]等。由于目标检测的成功,物体提议研究的最近趋势已经从对象发现转向了检测。虽然对象发现提议的目标是在图像中提议任何对象,但检测提议的目标是仅为下游分类器提议已标记的类别。由于其简单性和与下游检测的共享计算,基于学习的提议成为受欢迎的检测提议。然而,与其无需学习的对应物[42, 59, 74]不同,这些方法倾向于过度拟合已注释的类别,并难以处理新对象[33, 41, 64]。我们想要探讨的问题是,是否可能将两者的优点结合起来,“学习开放世界(新颖)的对象提议”?这可能会为一些有前途的应用程序提供学习提议,包括开放世界检测[30]/分割[66]、机器人抓取[15]、主观视角视频理解[14]和大词汇检测[24]。

在给定一组物体注释的情况下,我们希望学习一般物体的外观,并从看不见的类别和新数据源中提出高度不同的物体候选项。这与人类在新环境中检测新颖物体而不命名它们的类别的能力相匹配,例如,道路上的障碍物,货架上的新产品。我们的主要洞察力在于,现有对象提议器[33, 41, 60]中的分类器或类别无关的检测器[45, 56]阻碍了这种泛化,因为模型倾向于过度拟合标记的对象并将训练集中的未标记对象视为背景。我们提出了对象定位网络(Object Localization Network,OLN),它通过预测一个区域的定位质量来学习检测对象,而不是进行前景-背景分类。这个简单的想法使模型能够学习更强的对象性线索。据我们所知,我们是第一个证明纯定位为基础的对象性学习对于提出新颖对象的价值的人,尽管在标准的固定类别检测设置中已经有其他人提出了将定位质量估计纳入其中的想法[28, 29, 56, 69]。我们展示了一个不依赖分类器的对象提议器是实现最佳的跨类别和跨数据集泛化的关键,这是与现有提议器或类别无关的检测器的重要设计区别。

我们在COCO交叉类别设置中研究了OLN的有效性,遵循了现有的研究[33, 41, 64]。尽管简单,OLN在新颖类别上的性能优于最先进的方法,AUC提高了+3.3(AR@10提高了+5.0,AR@100提高了+5.1)。我们的消融研究证实前景与背景分类器的使用有害,而定位有助于提高性能。此外,我们研究了从COCO到RoboNet [15]、Objects365 [48]和EpicKitchens [14]的跨数据集泛化。我们选择了RoboNet,因为它包含了机器人抓取应用中常见的各种新颖物体,而垃圾箱环境允许更可靠的详尽注释以进行适当的评估。在RoboNet上,OLN执行详尽的、与类别无关的对象检测,并在AP上优于标准方法+13∼16,而在Objects365上,OLN在AR@10上提高了+4,在AR@100上提高了+8。在EpicKitchens上的定性可视化进一步显示,OLN在检测各种新颖物体方面优于标准方法。最后,我们将OLN作为RPN [45]在LVIS长尾检测 [24]上的替代,并观察到AP提高了+1.4,其中大部分归因于罕见类别的提高(+3.4 APr)和常见类别的提高(+1.8 APc)。这表明OLN能够捕捉大词汇检测中的长尾。

值得注意的是,评估定位质量在标准检测中并不新鲜,但它们总是与分类一起使用,并仅在已知类别上进行验证,例如FCOS [56]。据我们所知,我们是首批独立于分类使用定位线索进行对象提议的研究者。这一发现帮助我们在COCO数据集上取得显著的增益,并在许多不同的数据集上比现有方法更好地进行泛化。

我们的贡献总结如下:
• 据我们所知,我们是首批展示了基于纯定位的对象性学习对于新颖对象提议的价值,并提出了一种简单但有效的无分类器的Object Localization Network(OLN)。
• 我们的方法在COCO的跨类别设置上优于现有方法,并改进了在RoboNet和Object365的跨数据集设置、长尾检测(LVIS)和主观视频

相关文章:

Learning Open-World Object Proposals without Learning to Classify(论文解析)

Learning Open-World Object Proposals without Learning to Classify 摘要1 介绍2 相关工作3 方法3.1 基线3.2 基于纯定位的对象性3.3. 对象定位网络 (OLN)4 实验4.1跨类泛化4.2.开放世界类不可知检测4.3更多的跨数据集泛化4.3.1 Objects365 泛化4.3.2 EpicKitchens 的泛化4.4…...

前端在项目中添加自己的功能页面

1.src—>mock–>sideMenue:边表(sidemenue)的子功能的添加:左边功能框中的显示 在相应的父功能添加子功能 id号不能和他人的一样,casecode:就是路由名字 title:中文名称 2.前后端接口(后端程序员给),定义好接口名称 src—>moudles—…...

数据库MySQL(二):DDL数据定义语言

数据定义语言(Data Definition Language,DDL) 该语言主要用于定义数据库对象,操作对象为数据库、表或字段。 数据库操作 # 查询所有数据库 SHOW DATABASES;# 查询当前数据库 SELECT DATABASE(); # 创建数据库 CREATE DATABASE […...

Spring FactoryBean 源码讲解

Spring FactoryBean 源码讲解 什么是Spring FactoryBean Spring FactoryBean是一个特殊的Bean,它实现了FactoryBean接口并重写了其getObject()方法,用于生产其他Bean的实例。在Spring容器启动时,会自动调用FactoryBean的getObject()方法来获…...

【C语言】零碎知识点|细节

除法运算符(/)的使用规则 在C语言中,除法运算符(/)的使用规则如下: 当两个整数相除时,结果也是一个整数。例如,如果A和B都是整数,那么A / B的结果也是一个整数。这意味着,除法运算的结果会忽略小数部分。例如,10 / 3 的结果是3,而不是3.3333。 当一个整数和一个浮点…...

电影评分数据分析案例-Spark SQL

# cording:utf8from pyspark.sql import SparkSession from pyspark.sql.types import IntegerType, StringType, StructType import pyspark.sql.functions as Fif __name__ __main__:# 0.构建执行环境入口对象SparkSessionspark SparkSession.builder.\appName(movie_demo)…...

vue如何使用冻结对象提升代码效率及其原理解析

先给大家伙整个实际工作中一定会碰到的问题 如下vue dome ,它的代码非常简单功能也1非常简单,就是一个按钮,点击后会显示有多少条数据 来看看源码, html部分就是一个按钮绑定了一个loadData事件,然后在p标签内展示了这个myData这个数据的长度 <template><div id&quo…...

基于深度学习网络的手势识别算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 clc; clear; close all; warning off; addpath(genpath(pwd)); rng(default)load gnet.mat[Pr…...

[论文笔记] 多语言模型中的负干扰研究结果和元学习算法

On Negative Interference in Multilingual Models: Findings and A Meta-Learning Treatment 多语言模型中的负干扰:研究结果和元学习解决办法 概述: 训练语料库大小(训练数据大小和 负干扰 无关)。 语言亲缘关系/语系 和 负干扰 有关。添加相似的语言并不能减轻负面干扰。…...

【OpenVINO】行人摔倒检测 — 基于 OpenVINO C# API 部署PP-Human-下篇

行人摔倒检测 — 基于 OpenVINO C# API 部署PP-Human 4. 配置 PP-Human_Fall_Detection 项目4.1 环境配置4.2 创建 AlxBoard_deploy_yolov8 项目4.3 添加项目源码4.4 添加 OpenVINO C# API4.5 添加 OpenCvSharp 5. 测试 PP-Human_Fall_Detection 项目5.1 创建视频读取器5.2 行人…...

运行报错(三)git bash报错fatal: detected dubious ownership in repository at

报错现象 在运行git 命令时&#xff0c;出现报错 “fatal: detected dubious ownership in repository at” 报错原因 文件夹的所有者和现在的用户不一致 栗子&#xff1a; 文件夹的所有者是root&#xff0c;而当前用户是admin 解决方案 方法一、 将文件夹的所有者替换成ad…...

nvm 的安装及使用

文章目录 一、nvm是什么&#xff1f;二、下载nvm三、在cmd控制台进行操作1、nvm 查询版本号2、查询可以下载的node版本3、安装指定版本4、查看已经安装的node版本5、切换node版本(如果失败那就用管理员身份打开cmd进行切换) 一、nvm是什么&#xff1f; nvm是一个node的版本管理…...

xcode Simulator 安装

xcode Simulator 安装 参考文档 xcode又又又升级了&#xff0c;升级完成之后不下载最新的 iOS 17 Simulator就不能编译运行了&#xff0c;只能静静的等他下载。但是离谱的是这个居然没有断点续下&#xff0c;每次都要重新下载&#xff0c;眼睁睁的看着下载了4个G然后断掉了从…...

【Maven教程】(八):使用 Nexus 创建私服 ~

Maven 使用 Nexus 创建私服 1️⃣ Nexus简介2️⃣ 安装 Nexus2.1 下载 Nexus2.2 Bundle 方式安装 Nexus2.3 WAR 方式安装 Nexus2.4 登录 Nexus 3️⃣ Nexus 的仓库与仓库组3.1 Nexus 内置的仓库3.2 Nexus 仓库分类的概念3.3 创建 Nexus 宿主仓库3.4 创建 Nexus 代理仓库3.5 创…...

螺旋矩阵[中等]

优质博文&#xff1a;IT-BLOG-CN 一、题目 给你一个m行n列的矩阵matrix&#xff0c;请按照顺时针螺旋顺序&#xff0c;返回矩阵中的所有元素。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,2,3],[4,5,6],[7,8,9]] 输出&#xff1a;[1,2,3,6,9,8,7,4,5] 示例 2&#xf…...

babel6使用ES2020最新js语法

babel6使用ES2020最新js语法 Babel 6 原本是不支持 ES2020 语法&#xff0c;因为它是在 Babel 7 中引入的。如果您想使用 ES2020 语法&#xff0c;您需要将 Babel 6 升级到 Babel 7 或更高版本(推荐),当然也可以在bebel6中安装支持某个语法的plugin,比如你想使用 ES2020 中的可…...

【iOS】简单的网络请求

应iOS小组要求&#xff0c;仿写知乎日报需要实现网络请求并解析JSON格式数据&#xff0c;这篇文章仅对基本的网络请求和iOS中的JSON解析作以记录&#xff0c;还涉及到RunLoop的一点小插曲&#xff0c;具体请求过程和原理以后会详细学习&#xff01;&#x1f64f; 基本网络流程简…...

Vulnhub系列靶机---mhz_cxf: c1f

靶机文档&#xff1a;&#xff1a;mhz_cxf: c1f 下载地址&#xff1a;Download (Mirror): 网卡配置 靶机开机后按住shift&#xff0c;出现界面如图&#xff0c;按e键进入安全模式&#xff1a; 找到ro&#xff0c;删除该行后边内容&#xff0c;并将ro 。。。修改为&#xff1a…...

SDRAM与DRAM

SDRAM&#xff08;同步动态随机存取内存&#xff09;和DRAM&#xff08;动态随机存取内存&#xff09;都是RAM的一种类型&#xff0c;但是它们工作的方式有所不同。 DRAM&#xff1a;DRAM是最基础的动态随机存取内存&#xff0c;它的工作方式是总线在内存中读取或写入数据的速度…...

数据库基础(一)【MySQL】

文章目录 安装 MySQL修改密码连接和退出数据库服务器使用 systemctl 管理服务器进程配置数据库从文件角度看待数据库查看连接情况 安装 MySQL 这是在 Linux 中安装 MySQL 的教程&#xff1a;Linux 下 MySQL 安装。本系列测试用的 MySQL 版本是 5.7&#xff0c;机器是 centOS7.…...

linux之kylin系统nginx的安装

一、nginx的作用 1.可做高性能的web服务器 直接处理静态资源&#xff08;HTML/CSS/图片等&#xff09;&#xff0c;响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器 隐藏后端服务器IP地址&#xff0c;提高安全性 3.负载均衡服务器 支持多种策略分发流量…...

超短脉冲激光自聚焦效应

前言与目录 强激光引起自聚焦效应机理 超短脉冲激光在脆性材料内部加工时引起的自聚焦效应&#xff0c;这是一种非线性光学现象&#xff0c;主要涉及光学克尔效应和材料的非线性光学特性。 自聚焦效应可以产生局部的强光场&#xff0c;对材料产生非线性响应&#xff0c;可能…...

golang循环变量捕获问题​​

在 Go 语言中&#xff0c;当在循环中启动协程&#xff08;goroutine&#xff09;时&#xff0c;如果在协程闭包中直接引用循环变量&#xff0c;可能会遇到一个常见的陷阱 - ​​循环变量捕获问题​​。让我详细解释一下&#xff1a; 问题背景 看这个代码片段&#xff1a; fo…...

AI Agent与Agentic AI:原理、应用、挑战与未来展望

文章目录 一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程 三、AI Agent的核心技术栈解密3.1 感知模块代码示例&#xff1a;使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例&#xff1a;使用OpenAI GPT-3进…...

QMC5883L的驱动

简介 本篇文章的代码已经上传到了github上面&#xff0c;开源代码 作为一个电子罗盘模块&#xff0c;我们可以通过I2C从中获取偏航角yaw&#xff0c;相对于六轴陀螺仪的yaw&#xff0c;qmc5883l几乎不会零飘并且成本较低。 参考资料 QMC5883L磁场传感器驱动 QMC5883L磁力计…...

Go 语言接口详解

Go 语言接口详解 核心概念 接口定义 在 Go 语言中&#xff0c;接口是一种抽象类型&#xff0c;它定义了一组方法的集合&#xff1a; // 定义接口 type Shape interface {Area() float64Perimeter() float64 } 接口实现 Go 接口的实现是隐式的&#xff1a; // 矩形结构体…...

江苏艾立泰跨国资源接力:废料变黄金的绿色供应链革命

在华东塑料包装行业面临限塑令深度调整的背景下&#xff0c;江苏艾立泰以一场跨国资源接力的创新实践&#xff0c;重新定义了绿色供应链的边界。 跨国回收网络&#xff1a;废料变黄金的全球棋局 艾立泰在欧洲、东南亚建立再生塑料回收点&#xff0c;将海外废弃包装箱通过标准…...

根据万维钢·精英日课6的内容,使用AI(2025)可以参考以下方法:

根据万维钢精英日课6的内容&#xff0c;使用AI&#xff08;2025&#xff09;可以参考以下方法&#xff1a; 四个洞见 模型已经比人聪明&#xff1a;以ChatGPT o3为代表的AI非常强大&#xff0c;能运用高级理论解释道理、引用最新学术论文&#xff0c;生成对顶尖科学家都有用的…...

大语言模型(LLM)中的KV缓存压缩与动态稀疏注意力机制设计

随着大语言模型&#xff08;LLM&#xff09;参数规模的增长&#xff0c;推理阶段的内存占用和计算复杂度成为核心挑战。传统注意力机制的计算复杂度随序列长度呈二次方增长&#xff0c;而KV缓存的内存消耗可能高达数十GB&#xff08;例如Llama2-7B处理100K token时需50GB内存&a…...

AI,如何重构理解、匹配与决策?

AI 时代&#xff0c;我们如何理解消费&#xff1f; 作者&#xff5c;王彬 封面&#xff5c;Unplash 人们通过信息理解世界。 曾几何时&#xff0c;PC 与移动互联网重塑了人们的购物路径&#xff1a;信息变得唾手可得&#xff0c;商品决策变得高度依赖内容。 但 AI 时代的来…...