当前位置：首页 > news >正文

论文阅读《BEVFormer v2》

news 2026/5/12 8:42:56

BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervision

摘要

我们提出了一种具有透视监督的新型鸟瞰图（BEV）检测器，其收敛速度更快并且更适合现代图像主干。现有的最先进的BEV检测器通常与某些深度预训练主干网络（如VoVNet）相关联，从而阻碍了蓬勃发展的图像主干网络和BEV检测器之间的协同作用。为了解决这一限制，我们优先通过引入透视图监督来简化BEV检测器的优化。为此，我们提出了一个两阶段BEV检测器，其中来自透视头的提议被输入到鸟瞰头中进行最终预测。为了评估我们模型的有效性，我们进行了广泛的消融研究，重点关注监督形式和所提出的检测器的通用性。所提出的方法通过广泛的传统和现代图像主干得到了验证，并在大规模nuScenes数据集上取得了新的SoTA结果。代码即将发布。

1 介绍

鸟瞰图(BEV)识别模型引起了自动驾驶领域的兴趣，因为它们可以自然地将来自多个传感器的部分原始观测结果整合到统一的整体3D输出空间中。典型的BEV模型建立在图像主干之上，然后是视图转换模块，该模块将透视图像特征提升为 BEV 特征，然后由BEV特征编码器和一些特定任务的头进一步处理。人们投入了大量精力来设计视图转换模块，并将不断增长的下游任务列表纳入新的识别框架，但BEV模型中图像主干的研究却被忽视了。作为一个前沿且要求极高的领域，将现代图像主干引入自动驾驶是理所当然的。令人惊讶的是，研究界选择坚持使用VoVNet来享受其大规模深度预训练。在这项工作中，我们专注于释放现代图像特征提取器的全部威力，用于BEV识别，为未来的研究人员探索该领域更好的图像主干设计打开大门。

然而，仅仅采用那些现代图像主干而没有进行适当的预训练并不能产生令人满意的结果。例如，在3D物体检测方面，ImageNet预训练的ConvNeXt-XL主干网络的性能与DDAD-15M预训练的VoVNet-99相当，尽管后者的参数是前者的3.5倍。我们将适应现代图像主干的努力归因于以下问题。其一，自然图像和自动驾驶场景之间的领域差距。在一般二维识别任务上进行预训练的主干网络无法感知三维场景，尤其是无法估计深度。其二，当前BEV检测器的结构复杂。以BEVFormer为例。3D边界框和物体类别标签的监督信号通过视图编码器和物体解码器与图像主干分离，每个编码器和物体解码器由多层transformer组成。用于适应自动驾驶任务的通用二维图像主干的梯度流被堆叠的transformer层扭曲了。为了解决在将现代图像主干网络应用于BEV识别时遇到的上述困难，我们在BEVFormer中引入了透视监督，即将来自透视视图任务的额外监督信号直接应用于主干网络。它引导主干网络学习二维识别任务中缺失的三维知识，并克服BEV检测器的复杂性，极大地促进了模型的优化。具体来说，我们在主干网络上构建一个透视3D检测头，它将图像特征作为输入并直接预测目标对象的3D边界框和类别标签。这个透视头的损失，表示为透视损失，被添加到由BEV头衍生的原始损失（BEV损失）中，作为辅助检测损失。两个检测头使用其相应的损失项进行联合训练。此外，我们发现将两个检测头自然而然地组合成两级BEV检测器BEV-Former v2。由于透视头已经很成熟了，它可以在透视图中生成高质量的目标提案，我们将其作为第一阶段提案。我们将它们编码为目标查询，并将它们与原始BEVFormer中可学习的查询收集起来，形成混合对象查询，然后将其输入到第二阶段检测头以生成最终预测。

我们进行了大量的实验来证实我们提出的透视监督的有效性和必要性。透视损失有助于图像主干的适应，从而提高检测性能并加快模型收敛。而如果没有这种监督，即使经过更长的时间训练，模型也无法取得类似的结果。因此，我们成功地将现代图像主干适应BEV模型，在nuScenes测试集上实现了63.4%的NDS。

本文的贡献总结如下：

我们指出，透视监督是将一般的二维图像主干适应BEV模型的关键。我们通过透视图中的检测损失明确地添加了这种监督。
我们提出了一种新颖的两阶段BEV检测器，BEV-Former v2。它由一个透视3D和一个BEV检测头组成，前者的提议与后者的目标查询相结合。
我们通过将我们的方法与最新开发的图像主干相结合来强调其有效性，并在nuScenes数据集上取得了比以前最先进的结果更显著的改进。

2 相关工作

2.1 BEV三维目标检测器

最近，鸟瞰图（BEV）目标检测因其在自动驾驶系统中的巨大成功而受到了更多的关注。

早期的研究包括OF、Pseudo LiDAR和VPN，它们阐明了如何将透视特征转换为BEV特征，但无论是针对单个摄像头还是不太知名的任务。OFT率先采用从2D图像特征到3D BEV特征的转换，实现单目3D目标检测。Pseudo LiDAR，顾名思义，通过单目深度估计和相机内参创建伪点云，然后在BEV空间中对其进行处理。VPN是第一个将多视角相机输入融合到自上而下的视角特征图中以进行语义分割的技术。

论文阅读《BEVFormer v2》

目录

摘要

1 介绍

2 相关工作

2.1 BEV三维目标检测器

相关文章：

论文阅读《BEVFormer v2》

自动化运维(k8s)：一键获取指定命名空间镜像包脚本

HarmonyOS ArkUI(基于ArkTS) 开发布局（上）

第九部分：1.STM32之通信接口《精讲》（USART，I2C，SPI，CAN，USB）

5. langgraph中的react agent使用 (从零构建一个react agent)

uniapp vue3的下拉刷新和上拉加载

STM32设计井下瓦斯检测联网WIFI加Zigbee多路节点协调器传输

Vue 3 中的原生事件监听与组件事件处理详解

Flink Source 详解

2024年了，TCP分析工具有哪些？

SRP 实现 Cook-Torrance BRDF

MySQL慢日志

Flutter网络通信-封装Dio

matlab 读取csv

网络层9——虚拟专用网VPN和网络地址转换NAT

开源科学工程技术软件介绍 – EDA工具KLayout

【网络安全】Cookie SameSite属性

Linux 命令 | 每日一学，文本处理三剑客之awk命令实践

RabbitMQ的工作队列在Spring Boot中实现（详解常⽤的⼯作模式）

【web前端笔记】vue3 + vite的前端项目中，使用import.meta.glob()方法实现全局注册组件的通用代码

【MySQL】《MySQL索引核心分类面试高频考点问答清单》（附：《一页纸速记版》）

虞城装修公司选哪家专业？业主正确对比装修公司的方法，看完不踩坑

矩阵本地化获客技术落地：同城流量精准匹配与合规运营方案

2026-05-11 全国各地响应最快的 BT Tracker 服务器(联通版)

基于Ollama构建本地大模型智能体：从原理到工程实践

不止于导航：用AI Habitat的语义分割数据，教你构建自己的室内物体识别与场景理解Pipeline

Gemini自动生成PPT实战手册：从零输入到专业演示文稿，3步完成95%的幻灯片工作流

Midjourney未来三年风格演进路径图（2024–2026关键拐点全标注）

别再死记硬背关键帧了！用Blender 2.83.9的Rigify，带你拆解走路动画的物理原理（附膝跳问题修复）

设计师连夜删稿的真相：Onion Skin未启用导致版本错位！3分钟紧急修复+历史帧自动锚定脚本