当前位置: 首页 > news >正文

Learning Open-World Object Proposals without Learning to Classify(论文解析)

Learning Open-World Object Proposals without Learning to Classify

    • 摘要
    • 1 介绍
    • 2 相关工作
    • 3 方法
      • 3.1 基线
      • 3.2 基于纯定位的对象性
      • 3.3. 对象定位网络 (OLN)
    • 4 实验
      • 4.1跨类泛化
      • 4.2.开放世界类不可知检测
      • 4.3更多的跨数据集泛化
        • 4.3.1 Objects365 泛化
        • 4.3.2 EpicKitchens 的泛化
      • 4.4.对长尾目标检测的影响
    • 5 结论

摘要

物体提议已经成为许多视觉流程的重要预处理步骤,包括目标检测、弱监督检测、目标发现、跟踪等。与无需学习的方法相比,基于学习的提议最近变得越来越受欢迎,这主要是因为对目标检测的兴趣日益增长。常见的范式是从带有一组对象区域及其对应类别的标记数据中学习对象提议。然而,这种方法通常难以处理在训练集中不存在的开放世界中的新对象。在本文中,我们发现问题在于现有提议方法中的二元分类器往往对训练类别过拟合。因此,我们提出了一种无需分类的对象定位网络(Object Localization Network,OLN),它纯粹通过区域的位置和形状与标记的真实对象(例如,中心度和IoU)的重叠程度来估计每个区域的对象性。这种简单的策略学习了通用的对象性,并在COCO的跨类别泛化以及RoboNet、Object365和EpicKitchens的跨数据集评估中胜过了现有的提议方法。最后,我们展示了OLN在大词汇数据集LVIS上长尾目标检测方面的优点,其中我们注意到在罕见和常见类别中明显改进。

1 介绍

物体提议是一组包含高概率包含对象的区域或边界框[33, 41, 42, 45, 59-61, 74]。它们已经成为许多计算机视觉系统的重要预处理步骤,包括目标检测[33, 41, 42, 45, 59, 74]、分割[3, 8, 13]、对象发现[12, 16, 47]、弱监督目标检测[5, 21, 53]、视觉跟踪[35, 63]、内容感知重定向[51]等。由于目标检测的成功,物体提议研究的最近趋势已经从对象发现转向了检测。虽然对象发现提议的目标是在图像中提议任何对象,但检测提议的目标是仅为下游分类器提议已标记的类别。由于其简单性和与下游检测的共享计算,基于学习的提议成为受欢迎的检测提议。然而,与其无需学习的对应物[42, 59, 74]不同,这些方法倾向于过度拟合已注释的类别,并难以处理新对象[33, 41, 64]。我们想要探讨的问题是,是否可能将两者的优点结合起来,“学习开放世界(新颖)的对象提议”?这可能会为一些有前途的应用程序提供学习提议,包括开放世界检测[30]/分割[66]、机器人抓取[15]、主观视角视频理解[14]和大词汇检测[24]。

在给定一组物体注释的情况下,我们希望学习一般物体的外观,并从看不见的类别和新数据源中提出高度不同的物体候选项。这与人类在新环境中检测新颖物体而不命名它们的类别的能力相匹配,例如,道路上的障碍物,货架上的新产品。我们的主要洞察力在于,现有对象提议器[33, 41, 60]中的分类器或类别无关的检测器[45, 56]阻碍了这种泛化,因为模型倾向于过度拟合标记的对象并将训练集中的未标记对象视为背景。我们提出了对象定位网络(Object Localization Network,OLN),它通过预测一个区域的定位质量来学习检测对象,而不是进行前景-背景分类。这个简单的想法使模型能够学习更强的对象性线索。据我们所知,我们是第一个证明纯定位为基础的对象性学习对于提出新颖对象的价值的人,尽管在标准的固定类别检测设置中已经有其他人提出了将定位质量估计纳入其中的想法[28, 29, 56, 69]。我们展示了一个不依赖分类器的对象提议器是实现最佳的跨类别和跨数据集泛化的关键,这是与现有提议器或类别无关的检测器的重要设计区别。

我们在COCO交叉类别设置中研究了OLN的有效性,遵循了现有的研究[33, 41, 64]。尽管简单,OLN在新颖类别上的性能优于最先进的方法,AUC提高了+3.3(AR@10提高了+5.0,AR@100提高了+5.1)。我们的消融研究证实前景与背景分类器的使用有害,而定位有助于提高性能。此外,我们研究了从COCO到RoboNet [15]、Objects365 [48]和EpicKitchens [14]的跨数据集泛化。我们选择了RoboNet,因为它包含了机器人抓取应用中常见的各种新颖物体,而垃圾箱环境允许更可靠的详尽注释以进行适当的评估。在RoboNet上,OLN执行详尽的、与类别无关的对象检测,并在AP上优于标准方法+13∼16,而在Objects365上,OLN在AR@10上提高了+4,在AR@100上提高了+8。在EpicKitchens上的定性可视化进一步显示,OLN在检测各种新颖物体方面优于标准方法。最后,我们将OLN作为RPN [45]在LVIS长尾检测 [24]上的替代,并观察到AP提高了+1.4,其中大部分归因于罕见类别的提高(+3.4 APr)和常见类别的提高(+1.8 APc)。这表明OLN能够捕捉大词汇检测中的长尾。

值得注意的是,评估定位质量在标准检测中并不新鲜,但它们总是与分类一起使用,并仅在已知类别上进行验证,例如FCOS [56]。据我们所知,我们是首批独立于分类使用定位线索进行对象提议的研究者。这一发现帮助我们在COCO数据集上取得显著的增益,并在许多不同的数据集上比现有方法更好地进行泛化。

我们的贡献总结如下:
• 据我们所知,我们是首批展示了基于纯定位的对象性学习对于新颖对象提议的价值,并提出了一种简单但有效的无分类器的Object Localization Network(OLN)。
• 我们的方法在COCO的跨类别设置上优于现有方法,并改进了在RoboNet和Object365的跨数据集设置、长尾检测(LVIS)和主观视频

相关文章:

Learning Open-World Object Proposals without Learning to Classify(论文解析)

Learning Open-World Object Proposals without Learning to Classify 摘要1 介绍2 相关工作3 方法3.1 基线3.2 基于纯定位的对象性3.3. 对象定位网络 (OLN)4 实验4.1跨类泛化4.2.开放世界类不可知检测4.3更多的跨数据集泛化4.3.1 Objects365 泛化4.3.2 EpicKitchens 的泛化4.4…...

前端在项目中添加自己的功能页面

1.src—>mock–>sideMenue:边表(sidemenue)的子功能的添加:左边功能框中的显示 在相应的父功能添加子功能 id号不能和他人的一样,casecode:就是路由名字 title:中文名称 2.前后端接口(后端程序员给),定义好接口名称 src—>moudles—…...

数据库MySQL(二):DDL数据定义语言

数据定义语言(Data Definition Language,DDL) 该语言主要用于定义数据库对象,操作对象为数据库、表或字段。 数据库操作 # 查询所有数据库 SHOW DATABASES;# 查询当前数据库 SELECT DATABASE(); # 创建数据库 CREATE DATABASE […...

Spring FactoryBean 源码讲解

Spring FactoryBean 源码讲解 什么是Spring FactoryBean Spring FactoryBean是一个特殊的Bean,它实现了FactoryBean接口并重写了其getObject()方法,用于生产其他Bean的实例。在Spring容器启动时,会自动调用FactoryBean的getObject()方法来获…...

【C语言】零碎知识点|细节

除法运算符(/)的使用规则 在C语言中,除法运算符(/)的使用规则如下: 当两个整数相除时,结果也是一个整数。例如,如果A和B都是整数,那么A / B的结果也是一个整数。这意味着,除法运算的结果会忽略小数部分。例如,10 / 3 的结果是3,而不是3.3333。 当一个整数和一个浮点…...

电影评分数据分析案例-Spark SQL

# cording:utf8from pyspark.sql import SparkSession from pyspark.sql.types import IntegerType, StringType, StructType import pyspark.sql.functions as Fif __name__ __main__:# 0.构建执行环境入口对象SparkSessionspark SparkSession.builder.\appName(movie_demo)…...

vue如何使用冻结对象提升代码效率及其原理解析

先给大家伙整个实际工作中一定会碰到的问题 如下vue dome ,它的代码非常简单功能也1非常简单,就是一个按钮,点击后会显示有多少条数据 来看看源码, html部分就是一个按钮绑定了一个loadData事件,然后在p标签内展示了这个myData这个数据的长度 <template><div id&quo…...

基于深度学习网络的手势识别算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 clc; clear; close all; warning off; addpath(genpath(pwd)); rng(default)load gnet.mat[Pr…...

[论文笔记] 多语言模型中的负干扰研究结果和元学习算法

On Negative Interference in Multilingual Models: Findings and A Meta-Learning Treatment 多语言模型中的负干扰:研究结果和元学习解决办法 概述: 训练语料库大小(训练数据大小和 负干扰 无关)。 语言亲缘关系/语系 和 负干扰 有关。添加相似的语言并不能减轻负面干扰。…...

【OpenVINO】行人摔倒检测 — 基于 OpenVINO C# API 部署PP-Human-下篇

行人摔倒检测 — 基于 OpenVINO C# API 部署PP-Human 4. 配置 PP-Human_Fall_Detection 项目4.1 环境配置4.2 创建 AlxBoard_deploy_yolov8 项目4.3 添加项目源码4.4 添加 OpenVINO C# API4.5 添加 OpenCvSharp 5. 测试 PP-Human_Fall_Detection 项目5.1 创建视频读取器5.2 行人…...

运行报错(三)git bash报错fatal: detected dubious ownership in repository at

报错现象 在运行git 命令时&#xff0c;出现报错 “fatal: detected dubious ownership in repository at” 报错原因 文件夹的所有者和现在的用户不一致 栗子&#xff1a; 文件夹的所有者是root&#xff0c;而当前用户是admin 解决方案 方法一、 将文件夹的所有者替换成ad…...

nvm 的安装及使用

文章目录 一、nvm是什么&#xff1f;二、下载nvm三、在cmd控制台进行操作1、nvm 查询版本号2、查询可以下载的node版本3、安装指定版本4、查看已经安装的node版本5、切换node版本(如果失败那就用管理员身份打开cmd进行切换) 一、nvm是什么&#xff1f; nvm是一个node的版本管理…...

xcode Simulator 安装

xcode Simulator 安装 参考文档 xcode又又又升级了&#xff0c;升级完成之后不下载最新的 iOS 17 Simulator就不能编译运行了&#xff0c;只能静静的等他下载。但是离谱的是这个居然没有断点续下&#xff0c;每次都要重新下载&#xff0c;眼睁睁的看着下载了4个G然后断掉了从…...

【Maven教程】(八):使用 Nexus 创建私服 ~

Maven 使用 Nexus 创建私服 1️⃣ Nexus简介2️⃣ 安装 Nexus2.1 下载 Nexus2.2 Bundle 方式安装 Nexus2.3 WAR 方式安装 Nexus2.4 登录 Nexus 3️⃣ Nexus 的仓库与仓库组3.1 Nexus 内置的仓库3.2 Nexus 仓库分类的概念3.3 创建 Nexus 宿主仓库3.4 创建 Nexus 代理仓库3.5 创…...

螺旋矩阵[中等]

优质博文&#xff1a;IT-BLOG-CN 一、题目 给你一个m行n列的矩阵matrix&#xff0c;请按照顺时针螺旋顺序&#xff0c;返回矩阵中的所有元素。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,2,3],[4,5,6],[7,8,9]] 输出&#xff1a;[1,2,3,6,9,8,7,4,5] 示例 2&#xf…...

babel6使用ES2020最新js语法

babel6使用ES2020最新js语法 Babel 6 原本是不支持 ES2020 语法&#xff0c;因为它是在 Babel 7 中引入的。如果您想使用 ES2020 语法&#xff0c;您需要将 Babel 6 升级到 Babel 7 或更高版本(推荐),当然也可以在bebel6中安装支持某个语法的plugin,比如你想使用 ES2020 中的可…...

【iOS】简单的网络请求

应iOS小组要求&#xff0c;仿写知乎日报需要实现网络请求并解析JSON格式数据&#xff0c;这篇文章仅对基本的网络请求和iOS中的JSON解析作以记录&#xff0c;还涉及到RunLoop的一点小插曲&#xff0c;具体请求过程和原理以后会详细学习&#xff01;&#x1f64f; 基本网络流程简…...

Vulnhub系列靶机---mhz_cxf: c1f

靶机文档&#xff1a;&#xff1a;mhz_cxf: c1f 下载地址&#xff1a;Download (Mirror): 网卡配置 靶机开机后按住shift&#xff0c;出现界面如图&#xff0c;按e键进入安全模式&#xff1a; 找到ro&#xff0c;删除该行后边内容&#xff0c;并将ro 。。。修改为&#xff1a…...

SDRAM与DRAM

SDRAM&#xff08;同步动态随机存取内存&#xff09;和DRAM&#xff08;动态随机存取内存&#xff09;都是RAM的一种类型&#xff0c;但是它们工作的方式有所不同。 DRAM&#xff1a;DRAM是最基础的动态随机存取内存&#xff0c;它的工作方式是总线在内存中读取或写入数据的速度…...

数据库基础(一)【MySQL】

文章目录 安装 MySQL修改密码连接和退出数据库服务器使用 systemctl 管理服务器进程配置数据库从文件角度看待数据库查看连接情况 安装 MySQL 这是在 Linux 中安装 MySQL 的教程&#xff1a;Linux 下 MySQL 安装。本系列测试用的 MySQL 版本是 5.7&#xff0c;机器是 centOS7.…...

ERNIE-4.5-0.3B-PT企业落地场景:基于vLLM的轻量级智能问答助手搭建

ERNIE-4.5-0.3B-PT企业落地场景&#xff1a;基于vLLM的轻量级智能问答助手搭建 1. 项目概述与价值 智能问答助手已经成为企业提升服务效率和用户体验的重要工具。传统方案往往面临部署复杂、资源消耗大、响应速度慢等问题。今天介绍的基于vLLM部署的ERNIE-4.5-0.3B-PT模型&am…...

Pixel Language Portal惊艳效果展示:全屏沉浸双栏布局下中英对照滚动同步+光标联动演示

Pixel Language Portal惊艳效果展示&#xff1a;全屏沉浸双栏布局下中英对照滚动同步光标联动演示 1. 像素语言传送门概览 **像素语言跨维传送门(Pixel Language Portal)**是一款基于腾讯Hunyuan-MT-7B核心引擎构建的创新翻译工具。与传统翻译软件不同&#xff0c;它将语言转…...

Pixel Dream Workshop 创意激发:利用算法生成无限可能的艺术图案与纹理

Pixel Dream Workshop 创意激发&#xff1a;利用算法生成无限可能的艺术图案与纹理 1. 当算法遇见艺术&#xff1a;数字创作的新纪元 在传统艺术创作中&#xff0c;设计师们常常需要花费大量时间手工绘制图案和纹理。而如今&#xff0c;Pixel Dream Workshop的出现彻底改变了…...

FireRedASR Pro代码详解:从音频预处理到文本后处理全流程

FireRedASR Pro代码详解&#xff1a;从音频预处理到文本后处理全流程 1. 引言 如果你对语音识别感兴趣&#xff0c;想知道一段音频是怎么变成文字的&#xff0c;那么这篇文章就是为你准备的。我们这次不聊怎么用现成的工具&#xff0c;而是直接打开一个叫FireRedASR Pro的语音…...

在 AMD Ryzen AI 7 H350 Radeon 860M 上使用 Ollama 运行 GPU 加速

本文介绍了如何在搭载 AMD Ryzen AI 7 H350 及 Radeon 860M 显卡的系统上&#xff0c;配置 Ollama 以利用 GPU 运行 AI 模型。 一、安装 AMD 驱动程序 首先&#xff0c;请安装最新的 AMD 驱动程序&#xff0c;以确保系统能够正确识别并调用显卡硬件。 驱动程序下载地址&…...

微信小程序地图气泡实战:从callout到customCallout的性能与兼容性深度解析

1. 微信小程序地图气泡的核心需求解析 第一次接触微信小程序地图气泡需求时&#xff0c;我也被各种技术方案搞得晕头转向。经过多个项目的实战验证&#xff0c;我发现开发者最常遇到的三大核心问题就是&#xff1a;内容复杂度、性能瓶颈和跨平台兼容性。比如在电商小程序中&…...

Kafka消费者数据质量与治理:构建可信数据管道的最佳实践

摘要 在实时数据驱动的企业架构中&#xff0c;Apache Kafka已成为流式数据骨干的核心组件。然而&#xff0c;随着数据规模的指数级增长和数据消费者的多样化&#xff0c;如何确保Kafka管道中的数据质量与治理有效性&#xff0c;成为数据平台团队面临的核心挑战。本文从Kafka消…...

OpenClaw硬件优化:Qwen2.5-VL-7B在低配设备上的运行技巧

OpenClaw硬件优化&#xff1a;Qwen2.5-VL-7B在低配设备上的运行技巧 1. 为什么要在低配设备上运行OpenClaw&#xff1f; 去年夏天&#xff0c;我在一台2018款MacBook Air&#xff08;8GB内存&#xff09;上第一次尝试部署OpenClaw时&#xff0c;系统几乎瞬间卡死。这让我意识…...

嵌入式系统错误处理策略与实现技术

1. 嵌入式系统中的错误处理概述在嵌入式软件开发中&#xff0c;错误处理是确保系统稳定性和可靠性的关键环节。与通用计算机系统不同&#xff0c;嵌入式系统往往运行在资源受限的环境中&#xff0c;且需要长时间不间断工作&#xff0c;这使得错误处理策略的选择尤为重要。嵌入式…...

Rust错误处理最佳实践:从恐慌到优雅处理

Rust错误处理最佳实践&#xff1a;从恐慌到优雅处理 前言 大家好&#xff0c;我是第一程序员&#xff08;名字大&#xff0c;人很菜&#xff09;&#xff0c;一个正在跟Rust所有权和生命周期死磕的后端转Rust萌新。最近&#xff0c;我开始学习Rust的错误处理&#xff0c;发现…...