当前位置: 首页 > news >正文

【前沿 热点 顶会】AAAI 2025中与目标检测有关的论文

CP-DETR: Concept Prompt Guide DETR Toward Stronger Universal Object Detection(AAAI 2025)

最近关于通用物体检测的研究旨在将语言引入最先进的闭集检测器,然后通过构建大规模(文本区域)数据集进行训练,以推广开放集概念。然而,这些方法面临两个主要挑战:(i)如何有效地利用提示中的先验信息以泛化物体,以及(ii)如何在下游任务中减少对齐偏差,这两者在预训练以外的一些场景中导致次优性能。为了解决这些挑战,我们提出了一种强大的通用检测基础模型,称为CP-DETR,该模型在几乎所有场景中都具有竞争力,只需一个预训练权重。具体来说,我们设计了一种高效的提示视觉混合编码器,通过逐层和多尺度融合模块增强提示与视觉之间的信息互动。然后,混合编码器通过提示多标签损失和辅助检测头充分利用提示信息。除了文本提示外,我们还设计了两种实用的概念提示生成方法,即视觉提示和优化提示,通过具体的视觉示例提取抽象概念,并在下游任务中稳定地减少对齐偏差。凭借这些有效的设计,CP-DETR在广泛的场景中表现出卓越的通用检测性能。例如,我们的Swin-T主干模型在LVIS上达到了47.6的零样本AP,而Swin-L主干模型在ODinW35上达到了32.2的零样本AP。此外,我们的视觉提示生成方法通过交互检测在COCO验证集上达到了68.4的AP,而优化提示在ODinW13上达到了73.1的全样本AP。

SCKD: Semi-Supervised Cross-Modality Knowledge Distillation for 4D Radar Object Detection(AAAI 2025)

对于自动驾驶汽车来说,3D 目标检测是一项基础的感知任务。使用 4D 毫米波雷达完成这样的任务极具吸引力,因为该传感器能够获取类似于激光雷达的 3D 点云,同时在恶劣天气下仍能保持稳定的测量。然而,由于雷达点云的高稀疏性和噪声,现有方法的性能仍然远低于预期。在本文中,我们针对基于 4D 雷达的 3D 目标检测提出了一种新颖的半监督跨模态知识蒸馏 (SCKD) 方法。它通过半监督蒸馏表征了从 Lidar 雷达融合教师网络学习特征的能力。我们首先在教师网络中提出了一个自适应融合模块来提升其性能。然后,设计了两个特征蒸馏模块来促进跨模态知识转移。最后,提出了一种半监督输出蒸馏来提高蒸馏框架的有效性和灵活性。在相同网络结构下,我们由 SCKD 训练的仅限雷达学生将基准测试的 mAP 提升了 10.38%,并且优于 VoD 数据集上的最新成果。当有额外的未标记数据可用时,ZJUODset 上的实验还显示在中等难度级别上,与基准测试相比,mAP 提高了 5.12%。代码可在GitHub - Ruoyu-Xu/SCKD: AAAI 2025获得。

HGSFusion: Radar-Camera Fusion with Hybrid Generation and Synchronization for 3D Object Detection(AAAI 2025)

毫米波雷达由于其全天候和全光照条件下的感知能力,在自动驾驶的3D目标检测中起着至关重要的作用。然而,雷达点云具有明显的稀疏性和不可避免的角度估计误差。为了解决这些限制,结合使用摄像头可以部分帮助缓解这些缺点。然而,由于图像中缺乏深度信息和在恶劣光照条件下的低质量图像特征,雷达和摄像头数据的直接融合会导致负面甚至相反的效果。因此,在本文中,我们提出了具有混合生成和同步 (HGSFusion) 的雷达相机融合网络,旨在更好地融合雷达电位和图像特征以进行 3D 物体检测。具体来说,我们提出了雷达混合生成模块 (RHGM),该模块在雷达信号处理中充分考虑了到达方向 (DOA) 估计误差。该模块通过不同的概率密度函数 (PDF) 生成更密集的雷达点,并借助语义信息。同时,我们引入了双重同步模块 (DSM),包括空间同步和模态同步,以使用雷达位置信息增强图像特征并促进不同模态中不同特征的融合。大量实验表明了我们方法的有效性,在 RoI AP 和 BEV AP 中分别以 6.53% 和 2.03% 的优势优于 VoD 和 TJ4DRadSet 数据集中的最先进方法。代码可在https://github.com/garfield-cpp/HGSFusion获得。

RCTrans: Radar-Camera Transformer via Radar Densifier and Sequential Decoder for 3D Object Detection(AAAI 2025)

在雷达相机 3D 目标检测中,雷达点云通常稀疏且噪声大,这给相机和雷达模态的融合带来了困难。为了解决这个问题,我们引入了一种名为雷达相机 Transformer(RCTrans)的新型基于查询的检测方法。具体来说,我们首先设计了一个雷达稠密编码器来丰富稀疏的有效雷达标记,然后将它们与图像标记连接起来。通过这样做,我们可以充分探索每个感兴趣区域的 3D 信息,并在融合阶段减少空标记的干扰。然后,我们设计了一个剪枝顺序解码器,以基于获得的标记和随机初始化的查询预测 3D 框。为了减轻雷达点云中仰角模糊的影响,我们通过顺序融合结构逐步定位物体的位置。它有助于在标记和查询之间获得更精确和灵活的对应关系。解码器中采用了剪枝训练策略,这可以在推理过程中节省大量时间,并抑制查询丢失其独特性。在大型 nuScenes 数据集上的大量实验证明了我们方法的优越性,并且我们还取得了新的最先进的雷达相机 3D 检测结果。我们的实现可在GitHub - liyih/RCTrans: [AAAI 2025] RCTrans: Radar-Camera Transformer via Radar Densiffer and Sequential Decoder for 3D Object Detection获得。

Universal Domain Adaptive Object Detection via Dual Probabilistic Alignment(AAAI 2025)

领域自适应对象检测(DAOD)在封闭集假设下将来自标记源域的知识转移到未标注文目标域。通用DAOD(UniDAOD)扩展了DAOD以处理开放集、部分集和封闭集域自适应。在本文中,我们首先揭示了两个问题:域私有类别对齐对于全局级特征至关重要,并且不同级别特征的域概率异质性。为了解决这些问题,我们提出了一种新颖的双概率对齐(DPA)框架,将域概率建模为高斯分布,从而实现异质域分布采样和度量。DPA包括三个定制模块:全局级别域私有对齐(GDPA)、实例级别域共享对齐(IDSA)和私有类约束(PCC)。GDPA利用全局级别采样来挖掘域私有类别样本,并通过累积分布函数计算对齐权重以解决全局级别私有类别对齐问题。IDSA 利用实例级别采样来挖掘域共享类别样本,并通过高斯分布计算对齐权重以执行域共享类别域对齐以解决特征异质性。PCC汇总了特征和概率空间之间的域私有类别质心以减轻负迁移。大量实验表明,我们的DPA在各种数据集和场景(包括开放集、部分集和封闭集)中都优于最先进的UniDAOD和DAOD方法。代码可在以下网址获得:https://github.com/zyfone/DPA。

Differential Alignment for Domain Adaptive Object Detection(AAAI 2025)

领域自适应目标检测 (DAOD) 旨在将针对标记源域数据训练的目标检测器泛化到没有注释的目标域,其核心原则是源目标特征对齐。一般来说,现有方法使用对抗性学习对齐源域和目标域的分布,在特征对齐过程中几乎不考虑不同区域(例如,在不同情况下和前景 vs 背景区域中的实例)的不同重要性。为了克服这一缺陷,我们研究了一种差分特征对齐策略。具体来说,我们设计了一个预测差异反馈实例对齐模块(简称 PDFA)自适应地将较大权重分配给具有较高教师学生检测差异的实例,有效处理较重的特定域信息。此外,我们还提出了一种基于不确定性的面向前景的图像对齐模块 (UFOA),以明确指导模型更多地关注感兴趣区域。我们对广泛使用的 DAOD 数据集进行了大量实验以及消融研究,以证明我们提出的方法的有效性,并揭示其优于其他 SOTA 替代方案。我们的代码可在https://github.com/EstrellaXyu/Differential-Alignment-for-DAOD获得。

CREST: An Efficient Conjointly-trained Spike-driven Framework for Event-based Object Detection Exploiting Spatiotemporal Dynamics(AAAI 2025)

基于事件的相机具有高时间分辨率、宽动态范围和低功耗,非常适合高速和低光照对象检测。由于其尖峰特性,尖峰神经网络 (SNN) 有望用于基于事件的对象识别和检测,但这缺乏高效的训练方法,导致梯度消失和计算开销高,尤其是在深度 SNN 中。此外,现有的 SNN 框架通常无法有效处理多尺度时空特征,从而导致数据冗余增加和精度降低。为了解决这些问题,我们提出了 CREST,这是一个新颖的联合训练的尖峰驱动框架,用于利用基于事件的对象检测中的时空动态。我们引入了联合学习规则来加速 SNN 学习并缓解梯度消失问题。它还支持双重操作模式,以便在不同类型的硬件上高效且灵活地实施。此外,CREST 采用了完全尖峰驱动的框架,其中包括多尺度时空事件积分器 (MESTOR) 和时空-IoU (ST-IoU) 损失。与最先进的 SNN 算法相比,我们的方法在三个数据集上实现了卓越的对象识别和检测性能,并且能效提高了 100 倍,为基于 SNN 硬件实现的基于事件的对象检测算法提供了一种高效的解决方案。

小小的总结:

从上面的内容可以看出,通用目标检测和事件相机仍然是一个热点,尤其是事件相机,论文数量在不断增加,但是远未到泛滥的地步;在自动驾驶中,Radar获得了越来越多的关注,这大概是因为基于Lidar的算法已经到达了很高的指标,难以提升;域适应仍然是一个难点,但是通用目标检测是否会冲击域适应?
总体来说,希望能够尽快放出全部AAAI的论文,从而根据自己领域的录用情况,判断当下的热点和未来的研究方向。

NIPS|CVPR 2024论文合集PDF版

这些资料收录了NIPS和CVPR 2024所有论文的标题和摘要,是中英文对照的,读起来方便多了。

如果你对人工智能领域感兴趣,或者想找找灵感,这绝对是个好资源。翻一翻这些最新的研究,说不定就能找到一些新的想法或思路。

平时闲下来的时候看看,既增长知识又能跟上最新的技术趋势,挺实用的。有空的话不妨看看,应该会有收获的!

NIPS 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpyUlp5v

CVPR 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpeYmplt

相关文章:

【前沿 热点 顶会】AAAI 2025中与目标检测有关的论文

CP-DETR: Concept Prompt Guide DETR Toward Stronger Universal Object Detection(AAAI 2025) 最近关于通用物体检测的研究旨在将语言引入最先进的闭集检测器,然后通过构建大规模(文本区域)数据集进行训练&#xff0…...

APP投放的归因框架设计

一、归因相关概念回顾 在广告归因简介中我们介绍常见的归因模型和归因方法,我们先来回顾一下: 1. 背景 2. 设备标识 3. 归因模型 归因模型的多样性意味着每种模型都有其独特的优势和局限。关键在于选择一个与您的业务场景相匹配的模型,并且…...

职业生涯记录-1

机缘 普通人改命,要学会向上社交,能自然融入的圈子,多数是往下社交,没有多少价值,想要获取更多资源,但是有钱人只跟有钱人交朋友,不会带我们普通人玩,又错了,有钱人身边最不缺的就是有钱人,他们缺的是对他们有利用价值的朋友,往上社交的关键,你必须是个对他有利用价…...

江苏捷科云:可视化平台助力制造企业智能化管理

公司简介 江苏捷科云信息科技有限公司(以下简称“捷科”)是一家专注于云平台、云储存、云管理等产品领域的创新型企业,集研发、生产和销售于一体,致力于在网络技术领域打造尖端品牌。在推动制造业企业数字化转型的进程中&#xf…...

【ES6复习笔记】Promise对象详解(12)

1. 什么是 Promise? Promise 是 JavaScript 中处理异步操作的一种机制,它可以让异步操作更加容易管理和控制。Promise 对象代表一个异步操作的最终完成或失败,并提供了一种方式来处理操作的结果。 2. Promise 的基本语法 Promise 对象有三…...

01 Oracle 基本操作

Oracle 基本操作 初使用步骤 1.创建表空间 2.创建用户、设置密码、指定表空间 3.给用户授权 4.切换用户登录 5.创建表 注意点:oracle中管理表的基本单位是用户 文章目录 了解Oracle体系结构 1.创建表空间**2.删除表空间**3.创建用户4.给用户授权5.切换用户登录6.表操…...

C语言基础:指针(数组指针与指针数组)

数组指针与指针数组 数组指针 概念:数组指针是指向数组的指针,本质上还是指针 特点: 先有数组,后有指针 它指向的是一个完整的数组 一维数组指针: 语法: 数据类型 (*指针变量名)[行容量][列容量]; 案…...

本地部署 LLaMA-Factory

本地部署 LLaMA-Factory 1. 本地部署 LLaMA-Factory2. 下载模型3. 微调模型3-1. 下载数据集3-2. 配置参数3-3. 启动微调3-4. 模型评估3-5. 模型对话 1. 本地部署 LLaMA-Factory 下载代码, git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Facto…...

Web前端基础知识(三)

表单的应用非常丰富&#xff0c;可以说&#xff0c;每个网站都会用到表单。下面首先介绍表单中的form标签。 --------------------------------------------------------------------------------------------------------------------------------- <form></form&g…...

数据库设计问题记录

唯一性约束和逻辑删除的冲突 问题描述 如果一张表中&#xff0c;存在唯一性约束&#xff0c;比如一些数据中的code&#xff0c;且数据表使用逻辑删除。当删除某行数据的时候&#xff0c;以后再次插入相同code的数据&#xff0c;数据库会报错。 问题分析 在逻辑删除中&#…...

mac_录屏

参考&#xff1a; mac m1上系统内录方法BlackHole代替soundflower录音(附安装包) https://blog.csdn.net/boildoctor/article/details/122765119录屏后没声音&#xff1f;这应该是 Mac&#xff08;苹果电脑&#xff09; 内录声音最优雅的解决方案了 https://www.bilibili.com/…...

【Java-tesseract】OCR图片文本识别

文章目录 一、需求二、概述三、部署安装四、技术细节五、总结 一、需求 场景需求:是对识别常见的PNG,JPEG,TIFF,GIF图片识别&#xff0c;环境为离线内网。组件要求开源免费&#xff0c;并且可以集成Java生成接口服务。 二、概述 我不做选型对比了,我筛选测试了下Tesseract(v…...

redis cluster集群

华子目录 什么是redis集群redis cluster的体系架构什么是数据sharding&#xff1f;什么是hash tag集群中删除或新增节点&#xff0c;数据如何迁移&#xff1f;redis集群如何使用gossip通信?定义meet信息ping消息pong消息fail消息&#xff08;不是用gossip协议实现的&#xff0…...

解锁高效密码:适当休息,让学习状态满格

一、“肝帝” 的困境 在当今竞争激烈的职场中&#xff0c;“肝帝” 现象屡见不鲜。超长工时仿佛成为了许多行业的 “标配”&#xff0c;从互联网企业的 “996”“007”&#xff0c;到传统制造业的轮班倒、无休无止的加班&#xff0c;员工们的工作时间被不断拉长。清晨&#xff…...

代码随想录算法训练营第十一天-150.逆波兰表达式求值

队列栈 #include <iostream> #include <vector> #include <stack>class Solution { public:int evalRPN(std::vector<std::string>& tokens) {std::stack<long long> stack_number;for (auto it tokens.begin(); it ! tokens.end(); it) {…...

C++ 泛编程 —— 嵌套使用模板类

嵌套使用模板类 嵌套使用模板类最常见的场景数组容器中有栈容器栈容器中有数组容器递归使用模板类 嵌套使用模板类最常见的场景 容器中有容器 数组的元素可以是栈&#xff0c;栈中的元素可以是数组。先来看一下Stack和Vector的基本代码&#xff0c;定长数组Array的代码也给出来…...

【WebGIS】Cesium:GLTF数据加载

在3D Web GIS开发中&#xff0c;使用GLTF格式的模型可以提高应用的加载速度并提升用户体验。Cesium.js是一个强大的3D地理空间引擎&#xff0c;支持GLTF格式的3D模型&#xff0c;并且提供丰富的API来处理和优化模型的加载和渲染。本文将系统地介绍如何加载GLTF模型&#xff0c;…...

【面经】25届 双非本科 字节跳动 北京 四年的总结

点击“硬核王同学”&#xff0c;选择“关注” 福利干货第一时间送达 大家好&#xff0c;我是硬核王同学&#xff0c;最近在做免费的嵌入式知识分享&#xff0c;帮助对嵌入式感兴趣的同学学习嵌入式、做项目、找工作&#xff01; 给大家分享一个25届本科大佬的面经&#xff0c…...

抖去推碰一碰系统技术源码/open SDK转发技术开发

抖去推碰一碰系统技术源码/open SDK转发技术开发 碰一碰智能系统#碰碰卡系统#碰一碰系统#碰一碰系统技术源头开发 碰碰卡智能营销系统开发是一种集成了人工智能和NFC技术的工具&#xff0c;碰碰卡智能营销系统通过整合数据分析、客户关系管理、自动化营销活动、多渠道整合和个…...

goview——vue3+vite——数据大屏配置系统

低代码数据大屏配置系统&#xff1a; 数据来源是可以动态api配置的&#xff1a; 配置上面的api接口后&#xff0c;在数据过滤中进行数据格式的转化。 以上内容&#xff0c;来源于https://gitee.com/dromara/go-view/tree/master-fetch/ 后端代码如下&#xff0c;需要更改…...

前端倒计时误差!

提示:记录工作中遇到的需求及解决办法 文章目录 前言一、误差从何而来?二、五大解决方案1. 动态校准法(基础版)2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言 前几天听说公司某个项…...

(二)TensorRT-LLM | 模型导出(v0.20.0rc3)

0. 概述 上一节 对安装和使用有个基本介绍。根据这个 issue 的描述&#xff0c;后续 TensorRT-LLM 团队可能更专注于更新和维护 pytorch backend。但 tensorrt backend 作为先前一直开发的工作&#xff0c;其中包含了大量可以学习的地方。本文主要看看它导出模型的部分&#x…...

2024年赣州旅游投资集团社会招聘笔试真

2024年赣州旅游投资集团社会招聘笔试真 题 ( 满 分 1 0 0 分 时 间 1 2 0 分 钟 ) 一、单选题(每题只有一个正确答案,答错、不答或多答均不得分) 1.纪要的特点不包括()。 A.概括重点 B.指导传达 C. 客观纪实 D.有言必录 【答案】: D 2.1864年,()预言了电磁波的存在,并指出…...

Opencv中的addweighted函数

一.addweighted函数作用 addweighted&#xff08;&#xff09;是OpenCV库中用于图像处理的函数&#xff0c;主要功能是将两个输入图像&#xff08;尺寸和类型相同&#xff09;按照指定的权重进行加权叠加&#xff08;图像融合&#xff09;&#xff0c;并添加一个标量值&#x…...

【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)

🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...

基于matlab策略迭代和值迭代法的动态规划

经典的基于策略迭代和值迭代法的动态规划matlab代码&#xff0c;实现机器人的最优运输 Dynamic-Programming-master/Environment.pdf , 104724 Dynamic-Programming-master/README.md , 506 Dynamic-Programming-master/generalizedPolicyIteration.m , 1970 Dynamic-Programm…...

GitFlow 工作模式(详解)

今天再学项目的过程中遇到使用gitflow模式管理代码&#xff0c;因此进行学习并且发布关于gitflow的一些思考 Git与GitFlow模式 我们在写代码的时候通常会进行网上保存&#xff0c;无论是github还是gittee&#xff0c;都是一种基于git去保存代码的形式&#xff0c;这样保存代码…...

Python 训练营打卡 Day 47

注意力热力图可视化 在day 46代码的基础上&#xff0c;对比不同卷积层热力图可视化的结果 import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader import matplotlib.pypl…...

基于鸿蒙(HarmonyOS5)的打车小程序

1. 开发环境准备 安装DevEco Studio (鸿蒙官方IDE)配置HarmonyOS SDK申请开发者账号和必要的API密钥 2. 项目结构设计 ├── entry │ ├── src │ │ ├── main │ │ │ ├── ets │ │ │ │ ├── pages │ │ │ │ │ ├── H…...

Axure 下拉框联动

实现选省、选完省之后选对应省份下的市区...