当前位置：首页 > news >正文

【论文笔记】BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation

news 2026/2/9 19:47:31

原文链接：https://arxiv.org/abs/2403.11761

0. 概述

本文的BEVCar模型是基于环视图像和雷达融合的BEV目标检测和地图分割模型，如图所示。模型的图像分支利用可变形注意力，将图像特征提升到BEV空间中，其中雷达数据用于初始化查询。然后，使用交叉注意力融合图像和雷达特征。最后，降低空间分辨率，并使用多类分类头进行BEV分割（车辆、地图）。
在这里插入图片描述

1. 传感器数据编码

摄像头：使用冻结的DINOv2 ViT-B/14（可学权重的ViT适应器），输出多尺度图像特征。

雷达：类似SparseFusion3D，本文使用的雷达点原始特征包括3D位置 $(x, y, z)$ ，未补偿的速度 $v_x,v_y)$ 和RCS值（捕捉表面的可检测程度）。将点云体素化后，输入下图所示的特征编码模块（FCN表示全连接层，其结构与PointNet类似）。最后将体素特征表达输入体素编码器，压缩高度，得到雷达BEV特征 $f_{rad}$ 。
在这里插入图片描述

2. 图像特征提升

受BEVFormer启发，本文在可变形注意力的基础上，提出使用稀疏雷达点来初始化查询。

查询初始化：即利用雷达的3D信息初步地将图像特征提升到BEV。首先初始化以前视相机为中心的3D体素，将每个体素与一个或两个视图关联，然后根据射线投射将图像特征提升到3D（关联多个视图的体素，其特征取平均）。

注：此步骤与LSS的方法不同，因其考虑了每个像素的大小（如图，射线经过区域的部分相邻区域也被标记为同一颜色）。因此，实际上该方法更接近Simple-BEV（其中双线性采样被替换为最近邻采样）。

最后使用 $1\times 1$ 卷积压缩高度，得到 $X\times Y\times F$ 的特征。然后，使用雷达指导的可变形注意力得到 $X\times Y\times F$ 的初始化查询 $Q_{img}^L$ 。
在这里插入图片描述
提升：将初始化查询 $Q_{img}^L$ 与可学习位置编码 $Q_{pos}^L$ 和可学习查询 $Q_{bev}^L$ 求和得到 $Q^L$ ，再使用可变形注意力从图像进行特征采样，得到最终的图像BEV特征。

此处可变形注意力的查询参考点如何确定？文中提到再次建立 $X\times Y\times Z$ 的体素空间，是否同一BEV位置、不同高度的体素对应的查询均相同（为对应的BEV查询），而参考点为体素在图像上的投影？

3. 传感器融合

类似TransFusion，本文查询雷达点周围的图像特征，并使用可变形注意力提取特征。本文将 $f_{rad}$ ，可学习位置编码 $Q_{pos}^F$ 和可学习BEV查询 $Q_{bev}^F$ 求和，得到 $Q^F$ ，然后将图像特征作为交叉注意力的键与值，并将输出送入BEV编码器。

4. BEV分割头

本文为多类BEV分割使用单一任务头。具体来说，使用卷积网络输出1个物体类别和 $M$ 个地图元素类别，输出的大小为 $(M+1)\times X\times Y$ （注意一个像素可以同时属于多种类别）。

目标检测：本文考虑所有车辆。使用二元交叉熵损失监督：

$L_{BCE}=-\frac1N\sum_{i=1}^N\log(p_{i,t})$

其中

$p_{i,t}=\begin{cases}p_i&若y_i=1\\1-p_i&否则\end{cases}$

$y_i\in\{0,1\}$ 表示像素 $i$ 是否属于车辆类别， $p_i$ 为预测 $y_i=1$ 的概率。

地图分割：本文使用 $\alpha$ 平衡的多类别focal损失：

$F_{FOC}=\sum_{c=1}^C-\frac1N\sum_{i=1}^N\alpha_{i,t}(1-p_{i,t})^\gamma\log(p_{i,t})$

其中 $c$ 为语义类别编号， $\gamma$ 为区分简单/困难样本的聚焦参数。 $\alpha_{i,t}$ 类似 $p_{i,t}$ 的定义：

$\alpha_{i,t}=\begin{cases}\alpha&若y_i=1\\1-\alpha&否则\end{cases}$

其中 $\alpha$ 处理前景/背景的不平衡性。

【论文笔记】BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation

0. 概述

1. 传感器数据编码

2. 图像特征提升

3. 传感器融合

4. BEV分割头

相关文章：

【论文笔记】BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation

圆通寄15kg30kg一般多少钱？寄大件物品怎么寄最便宜？

transformer初探

JUC并发编程基础(包含线程概念,状态等具体实现)

集中管理和分析日志：使用 ELK 套件构建强大的日志管理平台

深度学习 - 模型的保存与部署方式汇总

人工智能对网络安全有何影响？

Oracle的RECYCLEBIN回收站：轻松恢复误删对象

Android 内存原理详解以及优化（二）

Shell学习——Shell变量

Java中的持续集成与持续部署（CI/CD）

极狐GitLab 将亮相2024空天信息大会暨数字地球生态峰会，携手中科星图赋能空天行业开发者

Beats：使用 Filebeat 从 Python 应用程序中提取日志

51单片机第23步_定时器1工作在模式0(13位定时器)

linux的服务管理

动手学深度学习（Pytorch版）代码实践 -循环神经网络-53语言模型和数据集

Python 学习之自动化运维技术（八）

【python】PyQt5可视化开发，如何设计鼠标显示的形状？

利用大模型知识库，优化智能客服问答效果 | 创新场景

物联网协议都包含哪些协议？

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

多模态商品数据接口：融合图像、语音与文字的下一代商品详情体验

什么是库存周转？如何用进销存系统提高库存周转率？

对WWDC 2025 Keynote 内容的预测

CMake 从 GitHub 下载第三方库并使用

Unit 1 深度强化学习简介

QT： `long long` 类型转换为 `QString` 2025.6.5

在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的？

CSS设置元素的宽度根据其内容自动调整

如何更改默认 Crontab 编辑器？