当前位置: 首页 > news >正文

【佳佳怪文献分享】MVFusion: 利用语义对齐的多视角 3D 物体检测雷达和相机融合

标题:MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion

作者:Zizhang Wu , Guilian Chen , Yuanzhu Gan , Lei Wang , Jian Pu

来源:2023 IEEE International Conference on Robotics and Automation (ICRA 2023)

这是佳佳怪分享的第2篇文章

摘要

多视角雷达-摄像头融合三维物体检测为自动驾驶提供了更远的检测范围和更多有用的功能,尤其是在恶劣天气下。目前的雷达-相机融合方法提供了多种将雷达信息与相机数据融合的设计。然而,这些融合方法通常采用多模态特征之间的直接串联操作,忽略了雷达特征的语义一致性和模态之间的充分相关性。在本文中,我们提出了一种新颖的多视图雷达-摄像机融合方法 MVFusion,以实现雷达特征的语义对齐并增强跨模态信息交互。为此,我们通过语义对齐雷达编码器(SARE)将语义对齐注入雷达特征,生成图像引导的雷达特征。然后,我们提出了雷达引导融合变换器(RGFT)来融合雷达和图像特征,通过交叉注意机制从全局范围加强两种模态的相关性。大量实验表明 MVFusion 在 nuScenes 数据集上实现了最先进的性能(51.7% NDS 和 45.3% mAP)。我们将在论文发表后公布我们的代码和训练有素的网络。

在这里插入图片描述
图 1. 基于摄像头的方法 [13] 和我们的 MVFusion 的探测对比。(a) 图像和雷达输入,雷达点的颜色表示与雷达的距离。(b) 3D 检测地面实况。© 基于摄像头的方法 [13] 的结果,该方法未能检测到远处的汽车和近处的行人。(d) 我们的方法利用语义对齐的雷达信息进行了充分的雷达-摄像机融合,成功检测到了丢失的汽车和行人。

在这里插入图片描述
图 2. 我们提出的 MVFusion 概览,主要由五个部分组成:雷达预处理模块、图像编码器、语义对齐雷达编码器(SARE)、雷达引导融合变换器(RGFT)和检测网络。SARE 将语义配准注入雷达特征,而 RGFT 则 RGFT 融合雷达和图像特征,旨在从全局范围充分促进两种模态的互动。多视角雷达表示法参考了文献[15]。

在这里插入图片描述
图 3. 雷达特征提取器(RFE)的结构图,其中包括 用于稀疏雷达特征的残差特征卷积块。
在这里插入图片描述
图 4. 图像制导雷达变换器(IGRT)概览。IGRT 为雷达特征分配可学习的位置编码,以通过多头自注意机制进一步增强 空间信息。
在这里插入图片描述
图 5. 雷达引导融合变换器(RGFT)概述。RGFT 融合了高级雷达和图像特征,在交叉注意机制下实现了充分的相关性。
在这里插入图片描述
图 6. 我们的方法与之前的方法 [13] 的环视检测结果对比。我们用 黄色圆圈表示我们的方法,蓝色圆圈表示 [13] 的方法。我们的方法在不同视角下都能实现正确的目标检测,而我们的方法在不同视角下都能实现充分的目标检测。在不同视角下,我们的方法都能正确检测到物体,其中语义对齐的雷达特征与视觉特征之间充分的雷达-相机互动为三维检测提供了更多有用的线索。
在这里插入图片描述
表1. 在 nuscenes 测试集上使用不同模态的单帧最先进作品比较。表示采用 dd3d [42] 预训练 v2-99 [43] 主干网
在这里插入图片描述
表2. 采用不同骨干网和模态对 nuscenes val 集进行的单帧最新研究成果比较。† 表示采用 dd3d [42] 预先训练的 v2-99 [43] 骨架。
在这里插入图片描述
表3. 对拟议组件的值集进行消融研究。sare "表示语义对齐雷达编码器,"rgft "表示雷达制导融合变换器。
在这里插入图片描述
表4. 语义对齐雷达编码器(SARE)阀值集消融实验。si "表示语义指示器。igt "表示图像制导雷达变换器。

在这里插入图片描述
表5. 雷达制导融合变压器(RGFT)阀组烧蚀研究 变压器(RGFT)。w "表示 “有”,"w/o "表示 “无”。表示 “无”。q’、‘k’、‘v’表示查询、键、值。IMG. 表示图像。concat.’ 表示 “连接”。

结论

本文提供了一种用于三维物体检测的新型多视图雷达-摄像机融合方法 MVFusion,该方法实现了语义对齐雷达特征和鲁棒跨模态信息交互。具体来说,我们提出了语义对齐雷达编码器(SARE)来提取图像引导的雷达特征。在提取雷达特征后,我们提出了雷达引导融合变换器(RGFT),将增强的雷达特征与高级图像特征进行融合。在 nuScenes 数据集上进行的大量实验验证了我们的模型达到了单帧雷达-摄像机融合的最先进性能。未来,我们将汇集多视角相机的时空信息,进一步促进雷达-相机融合。​​

相关文章:

【佳佳怪文献分享】MVFusion: 利用语义对齐的多视角 3D 物体检测雷达和相机融合

标题:MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion 作者:Zizhang Wu , Guilian Chen , Yuanzhu Gan , Lei Wang , Jian Pu 来源:2023 IEEE International Conference on Robotics and Automat…...

word 应用 打不开 显示一直是正在启动中

word打开来显示一直正在启动中,其他调用word的应用也打不开,网上查了下以后进程关闭spoolsv.exe,就可以正常打开word了...

Flink-----Yarn应用模式作业提交流程

Yarn应用模式作业提交流程 在Yarn当中又分为Session,PerJob,Application,建议和推荐使用独立集群的,其中就包含PerJob 和Application,但是1.17版本的Flink已将PerJob标记为过时,并且Application可以解决PerJob的一些痛点,减轻客户端的一些压力,所以需要重点了解Yarn应…...

Python学习笔记_基础篇(五)_数据类型之字典

一.基本数据类型 整数:int 字符串:str(注:\t等于一个tab键) 布尔值: bool 列表:list 列表用[] 元祖:tuple 元祖用() 字典:dict 注:所有的数据类型都存在想对…...

【第三阶段】kotlin语言的安全调用操作符

?. fun main() {var name:String?"kotlin" //name是一个可空类型,发出广播,调用的地方必须补救措施namenullvar r name?.capitalize() //?. 如果namenull,那么?.的将不执行,就不会引发空指针异常prin…...

机器学习重要内容:特征工程之特征抽取

目录 1、简介 2、⭐为什么需要特征工程 3、特征抽取 3.1、简介 3.2、特征提取主要内容 3.3、字典特征提取 3.4、"one-hot"编码 3.5、文本特征提取 3.5.1、英文文本 3.5.2、结巴分词 3.5.3、中文文本 3.5.4、Tf-idf ⭐所属专栏:人工智能 文中提…...

Logic 2逻辑分析器捉到的CAN帧

代码开发环境 逻辑分析仪环境 MCU芯片环境&#xff1a;RH850/U2A16 逻辑分析器(LA)抓到的CAN帧 <完>...

手机的发展历史

目录 一.人类的通信方式变化 二.手机对人类通信的影响 三.手机的发展过程 四.手机对现代人的影响 一.人类的通信方式变化 人类通信方式的变化是一个非常广泛和复杂的话题&#xff0c;随着技术的进步和社会的发展&#xff0c;人类通信方式发生了许多重大的变化。下面是一些主…...

为什么要分库分表?

不急于上手实战 ShardingSphere 框架&#xff0c;先来复习下分库分表的基础概念&#xff0c;技术名词大多晦涩难懂&#xff0c;不要死记硬背理解最重要&#xff0c;当你捅破那层窗户纸&#xff0c;发现其实它也就那么回事。 什么是分库分表 分库分表是在海量数据下&#xff0…...

Unity游戏源码分享-中国象棋Unity5.6版本

Unity游戏源码分享-中国象棋Unity5.6版本 项目地址&#xff1a; https://download.csdn.net/download/Highning0007/88215699...

打造专属花店展示小程序

在当今社会&#xff0c;微信小程序已经成为了各行各业拓展客户资源的利器&#xff0c;而花店行业也不例外。通过打造一个独特的花店小程序&#xff0c;你可以为你的花店带来更多的曝光和客户资源。那么&#xff0c;如何制作一个专属的花店小程序呢&#xff1f;下面我们就来一步…...

SpringBoot整合、SpringBoot与异步任务

目录 一、背景描述二、简单使用方法三、原理五、使用自定义线程池1、默认使用2、如何使用自定义线程池 六、Async失效情况1、同一个类中&#xff0c;一个方法调用 Async标注的方法 一、背景描述 java 的代码是同步顺序执行&#xff0c;当我们需要执行异步操作时我们通常会去创…...

复习1-2天【80天学习完《深入理解计算机系统》】第六天

专注 效率 记忆 预习 笔记 复习 做题 欢迎观看我的博客&#xff0c;如有问题交流&#xff0c;欢迎评论区留言&#xff0c;一定尽快回复&#xff01;&#xff08;大家可以去看我的专栏&#xff0c;是所有文章的目录&#xff09;   文章字体风格&#xff1a; 红色文字表示&#…...

62、华为昇腾开发板Atlas 200I DK A2配置mmpose的hrnet模型推理python/c++

基本思想&#xff1a;适配mmpose模型&#xff0c;记录一下流水帐&#xff0c;环境配置和模型来自&#xff0c;请查看参考链接。 链接: https://pan.baidu.com/s/1IkiwuZf1anyKX1sZkYmD1g?pwdi51s 提取码: i51s 一、转模型 (base) rootdavinci-mini:~/sxj731533730# atc --mo…...

【数据结构】双链表

大家好&#xff01;今天我们来学习数据结构中的双链表。&#xff08;我们这里讲解的是带头&#xff08;哨兵位&#xff09;双向循环链表哦~&#xff09; 目录 1.双链表的概念 2. 双链表的逻辑结构 3. 双链表的定义 4. 双链表的接口实现 4.1 动态申请一个新结点 4.2 双链表…...

android设置竖屏仍然跟随屏幕旋转怎么办

如题所问&#xff0c;我最近遇到一个bug&#xff0c;就是设置了摇感&#xff0c;然后有用户反馈说设置了手机下拉的系统设置-屏幕旋转-关闭。然后屏幕还是会旋转的问题。 首先&#xff0c;我们先从如何设置横竖屏了解下好了 设置横屏和竖屏的方法&#xff1a; 方法一&#x…...

java spring cloud 企业电子招标采购系统源码:营造全面规范安全的电子招投标环境,促进招投标市场健康可持续发展 tbms

​ 项目说明 随着公司的快速发展&#xff0c;企业人员和经营规模不断壮大&#xff0c;公司对内部招采管理的提升提出了更高的要求。在企业里建立一个公平、公开、公正的采购环境&#xff0c;最大限度控制采购成本至关重要。符合国家电子招投标法律法规及相关规范&#xff0c;以…...

【Java】2021 RoboCom 机器人开发者大赛-高职组(初赛)题解

7-1 机器人打招呼 机器人小白要来 RoboCom 参赛了&#xff0c;在赛场中遇到人要打个招呼。请你帮它设置好打招呼的这句话&#xff1a;“ni ye lai can jia RoboCom a?”。 输入格式&#xff1a; 本题没有输入。 输出格式&#xff1a; 在一行中输出 ni ye lai can jia Robo…...

汽车制造业上下游协作时 外发数据如何防泄露?

数据文件是制造业企业的核心竞争力&#xff0c;一旦发生数据外泄&#xff0c;就会给企业造成经济损失&#xff0c;严重的&#xff0c;可能会带来知识产权剽窃损害、名誉伤害等。汽车制造业&#xff0c;会涉及到重要的汽车设计图纸&#xff0c;像小米发送汽车设计图纸外泄事件并…...

H13-922题库 HCIP-GaussDB-OLAP V1.5

**H13-922 V1.5 GaussDB(DWS) OLAP题库 华为认证GaussDB OLAP数据库高级工程师HCIP-GaussDB-OLAP V1.0自2019年10月18日起&#xff0c;正式在中国区发布。当前版本V1.5 考试前提&#xff1a; 掌握基本的数据库基础知识、掌握数据仓库运维的基础知识、掌握基本Linux运维知识、…...

ESP32 CMakeLists.txt配置避坑指南:为什么加了PRIV_REQUIRES driver反而编译失败?

ESP32 CMakeLists.txt配置避坑指南&#xff1a;为什么加了PRIV_REQUIRES driver反而编译失败&#xff1f; 在ESP-IDF开发环境中&#xff0c;CMakeLists.txt文件的配置往往是决定项目能否顺利编译的关键。许多开发者在移植或创建新组件时&#xff0c;常常陷入依赖声明的误区——…...

Harness:统一企业级 DevOps 平台的新标准

核心导读&#xff1a;随着云计算和微服务架构的普及&#xff0c;传统 DevOps 工具链越来越碎片化。Harness 作为一个集 CI/CD、GitOps、功能发布、云成本管理、混沌工程于一身的企业级平台&#xff0c;正在改变团队的交付方式。本文深入探讨 Harness 如何解决现代化 DevOps 的核…...

软件工程小白必看:从零理解软件生命周期与常见模型

软件工程入门指南&#xff1a;从零理解开发全流程与核心模型 从生活场景看软件生命周期 想象一下建造一栋房子的过程——从最初的蓝图设计到最终交付钥匙&#xff0c;每个阶段都有明确的目标和交付物。软件开发的历程同样如此&#xff0c;我们称之为"软件生命周期"。…...

Redis持久化:从AOF到RDB,如何实现数据不丢失?

Redis属于内存数据库&#xff0c;但为了防止宕机等导致的数据丢失&#xff0c;也有对应的数据持久化技术。持久化主要作用就是数据备份&#xff0c;即将数据存储在硬盘&#xff0c;保证数据不会因进程退出而丢失。 AOF持久化 Append Only File 类似于Mysql的binlog日志类似&…...

Node.js——util工具模块

util工具模块1、util模块概述2、util模块的使用2.1、格式化输出字符串2.2、将对象转换为字符串&#xff08;调试&#xff09;2.3、实现对象间的原型继承2.4、转换异步函数的风格2.5、判断是否为指定类型的内置对象2.6、其它方法1、util模块概述 util模块是Node.js的内置模块&a…...

为什么我放弃Python选择maxscript开发3dsMax插件?性能对比实测

为什么我放弃Python选择maxscript开发3dsMax插件&#xff1f;性能对比实测 当技术美术&#xff08;TA&#xff09;或开发者面临3dsMax插件开发的技术选型时&#xff0c;性能、开发效率和原生集成能力往往是核心考量因素。本文将基于实际测试数据&#xff0c;从执行速度、API调用…...

别只盯着错误页!从一次线上事故复盘:优化微信小程序web-view体验的5个隐藏细节

从线上事故到极致体验&#xff1a;微信小程序web-view优化的5个实战细节 那天凌晨3点&#xff0c;我被一阵急促的告警声惊醒。监控系统显示&#xff0c;公司核心小程序的H5活动页加载成功率从99.8%暴跌至62%。这个承载着双十一预售活动的页面&#xff0c;每小时流失着数百万潜在…...

Windows 10平台Android子系统技术实现与跨平台应用实践

Windows 10平台Android子系统技术实现与跨平台应用实践 【免费下载链接】WSA-Windows-10 This is a backport of Windows Subsystem for Android to Windows 10. 项目地址: https://gitcode.com/gh_mirrors/ws/WSA-Windows-10 Windows Subsystem for Android&#xff0…...

从“单点防御”到“全局联动”:手把手教你用EDR和NDR构建企业安全闭环

从“单点防御”到“全局联动”&#xff1a;手把手教你用EDR和NDR构建企业安全闭环 当企业的安全团队还在疲于应对零散的端点告警和网络流量异常时&#xff0c;攻击者早已开始采用自动化工具进行横向移动。传统孤立的防御手段就像用多个单点摄像头监控银行金库——每个摄像头都…...

聚焦 AI 智能体:2026年上市企业综合竞争力全景盘点

随着人工智能技术的深度渗透&#xff0c;AI智能体正从概念走向规模化应用&#xff0c;成为企业数字化转型的核心引擎。在A股市场中&#xff0c;多家上市公司积极布局AI智能体赛道&#xff0c;凭借各自的技术积淀与行业理解&#xff0c;推出了差异化的产品与服务。本文将聚焦五家…...