当前位置：首页 > news >正文

解读 | 自动驾驶系统中的多视点三维目标检测网络

news 2026/2/10 19:24:36

原创 | 文 BFT机器人

背景

多视角三维物体检测网络，用于实现自动驾驶场景高精度三维目标检测，该网络使用激光雷达点云和RGB图像进行感知融合，以预测定向的三维边界框，相比于现有技术，取得了显著的精度提升。同时现代自动驾驶汽车通常配备多个传感器，如雷达和相机，激光扫描仪具有精确的深度信息，而相机保留了更详细的语义信息，激光雷达点云和RGB图像的融合应该能够实现更高的性能和安全性。本文提出并设计了一个深度融合方案结合多视图的区域特征，实现不同路径的中间层交互。

理论研究

在本文中提出的一种多视点三维物体检测网络（MV3D），该网络以多模态数据为输入，并预测了三维空间中物体的全三维范围。利用多模态信息的主要思想是进行基于区域的特征融合。首先提出了一种多视图编码方案，以获得稀疏三维点云的紧凑有效表示。三维提案网络利用点云的鸟瞰图表示来生成高精度的三维候选框。3D对象建议的好处是它可以投影到三维空间的任何视图中。多视图融合网络通过将三维建议从多个视图投影到特征图上来提取区域特征。深度融合的方法使得来自不同视图的中间层能够进行交互。本文在采用多视图特征表示的情况下，该网络进行定向三维盒回归，可以准确地预测三维空间中物体的三维位置、大小和方向。

图1 多视点三维目标检测网络

图像中的三维对象检测，是基于图像的方法通常依赖于精确的深度估计或地标检测。我们的工作展示了如何合并激光雷达点云来改进三维定位。并且在自动驾驶的环境中，利用多种数据模式的工作很少，我们的网络与它们不同，它对每个列使用相同的基础网络，并添加辅助路径和损失进行正则化。

图2 MV3D网络中输入的图片

对于MV3D网络，文中介绍了如何从鸟瞰图表示的点云中高效地生成3D物体候选框。不仅使用了一个基于卷积神经网络的物体候选框生成器，该生成器可以从鸟瞰图中提取出物体的候选框。

为了提高检测精度，还使用了一种基于锚的方法，即将一些预定义的3D 锚框与鸟瞰图中的像素点对应起来，从而生成更加准确的物体候选框。此外，为了解决物体候选框过小的问题，作者还使用了特征图上采样的方法，将特征图的分辨率提高一倍，从而使得物体候选框更加准确。同时也介绍了如何将来自多个视角的特征进行融合，以提高物体检测的精度和鲁棒性。具体来说，文中使用了一种深度融合方案，即将来自不同视角的特征进行逐层融合，从而使得网络可以更好地利用多视角信息。

此外，为了增强不同路径之间的交互，作者还使用了一种特殊的跨路径连接方式，即将不同路径的中间层进行交互，从而使得网络可以更好地利用不同路径之间的信息。

图3 本文提出的基于区域的融合网络的训练策略

实验与分析

本文提出的方法在基于激光雷达的2D检测方法中，在硬设置中比最近提出的Vote3Deep方法高出14.93%的精度。然而，值得注意的是，在2D检测方面，基于图像的方法通常比基于激光雷达的方法表现更好，因为它们直接优化2D盒子，而基于雷达的方法优化3D盒子。尽管如此，与最先进的二维检测方法相比，文章中的方法仍然获得了有竞争力的结果。

图4 实验模型在KITTI数据集上的检测和消融实验结果比较

文中提出设计为稳健而高效，可以处理复杂的场景，如遮挡和杂乱的环境，这种用于道路场景中三维目标检测的多视角感觉融合模型。我们的模型同时利用了激光雷达点云和图像，通过生成三维提案并将它们投影到多个视图中以进行特征提取来对齐不同的模式。总体而言，本文中的自动驾驶多视角三维物体检测网络是提高自动驾驶场景下物体检测精度和鲁棒性的有前途的方法。

END

作者 | 小雨点

排版 | 小河

审核 | 猫

若您对该文章内容有任何疑问，请与我们联系，我们将及时回应。

解读 | 自动驾驶系统中的多视点三维目标检测网络

相关文章：

解读 | 自动驾驶系统中的多视点三维目标检测网络

C++ 用户学习 Python 的最佳方法

使用docker搭建drogon windows10，linux，mac下开发环境

【RKNN】YOLO V5中pytorch2onnx，pytorch和onnx模型输出不一致，精度降低

六分科技CEO李阳：精准定位助力汽车智能化普及

信号完整性分析基础知识之有损传输线、上升时间衰减和材料特性（六）：衰减和dB

吃鸡达人必备：分享顶级干货+作图工具推荐+账号安全查询！

帆软报表解决单元格不显示问题

LeetCode讲解篇之138. 随机链表的复制

主定理（简化版）

HTTP1.0和HTTP2.0的区别

ARM资源记录《AI嵌入式系统：算法优化与实现》第八章（暂时用不到）

微信小程序2

G.711语音编解码器详解

蓝桥杯每日一题2023.10.17

16.SpringBoot前后端分离项目之简要配置一

Probability Calibration概率校准大比拼：性能、应用场景和可视化对比总结

PHP 球鞋在线商城系统mysql数据库web结构apache计算机软件工程网页wamp计算机毕业设计

使用Apache和内网穿透实现私有服务公网远程访问——“cpolar内网穿透”

PreparedStatement

k8s从入门到放弃之Ingress七层负载

django filter 统计数量按属性去重

剑指offer20_链表中环的入口节点

稳定币的深度剖析与展望

uniapp手机号一键登录保姆级教程（包含前端和后端）

Go语言多线程问题

三分算法与DeepSeek辅助证明是单峰函数

NPOI操作EXCEL文件 ——CAD C# 二次开发

路由基础-路由表

前端工具库lodash与lodash-es区别详解