解读 | 自动驾驶系统中的多视点三维目标检测网络
原创 | 文 BFT机器人

01
背景
多视角三维物体检测网络,用于实现自动驾驶场景高精度三维目标检测,该网络使用激光雷达点云和RGB图像进行感知融合,以预测定向的三维边界框,相比于现有技术,取得了显著的精度提升。同时现代自动驾驶汽车通常配备多个传感器,如雷达和相机,激光扫描仪具有精确的深度信息,而相机保留了更详细的语义信息,激光雷达点云和RGB图像的融合应该能够实现更高的性能和安全性。本文提出并设计了一个深度融合方案结合多视图的区域特征,实现不同路径的中间层交互。
02
理论研究
在本文中提出的一种多视点三维物体检测网络(MV3D),该网络以多模态数据为输入,并预测了三维空间中物体的全三维范围。利用多模态信息的主要思想是进行基于区域的特征融合。首先提出了一种多视图编码方案,以获得稀疏三维点云的紧凑有效表示。三维提案网络利用点云的鸟瞰图表示来生成高精度的三维候选框。3D对象建议的好处是它可以投影到三维空间的任何视图中。多视图融合网络通过将三维建议从多个视图投影到特征图上来提取区域特征。深度融合的方法使得来自不同视图的中间层能够进行交互。本文在采用多视图特征表示的情况下,该网络进行定向三维盒回归,可以准确地预测三维空间中物体的三维位置、大小和方向。

图1 多视点三维目标检测网络
图像中的三维对象检测,是基于图像的方法通常依赖于精确的深度估计或地标检测。我们的工作展示了如何合并激光雷达点云来改进三维定位。并且在自动驾驶的环境中,利用多种数据模式的工作很少,我们的网络与它们不同,它对每个列使用相同的基础网络,并添加辅助路径和损失进行正则化。

图2 MV3D网络中输入的图片
对于MV3D网络,文中介绍了如何从鸟瞰图表示的点云中高效地生成3D物体候选框。不仅使用了一个基于卷积神经网络的物体候选框生成器,该生成器可以从鸟瞰图中提取出物体的候选框。
为了提高检测精度,还使用了一种基于锚的方法,即将一些预定义的3D 锚框与鸟瞰图中的像素点对应起来,从而生成更加准确的物体候选框。此外,为了解决物体候选框过小的问题,作者还使用了特征图上采样的方法,将特征图的分辨率提高一倍,从而使得物体候选框更加准确。同时也介绍了如何将来自多个视角的特征进行融合,以提高物体检测的精度和鲁棒性。具体来说,文中使用了一种深度融合方案,即将来自不同视角的特征进行逐层融合,从而使得网络可以更好地利用多视角信息。
此外,为了增强不同路径之间的交互,作者还使用了一种特殊的跨路径连接方式,即将不同路径的中间层进行交互,从而使得网络可以更好地利用不同路径之间的信息。

图3 本文提出的基于区域的融合网络的训练策略
03
实验与分析
本文提出的方法在基于激光雷达的2D检测方法中,在硬设置中比最近提出的Vote3Deep方法高出14.93%的精度。然而,值得注意的是,在2D检测方面,基于图像的方法通常比基于激光雷达的方法表现更好,因为它们直接优化2D盒子,而基于雷达的方法优化3D盒子。尽管如此,与最先进的二维检测方法相比,文章中的方法仍然获得了有竞争力的结果。


图4 实验模型在KITTI数据集上的检测和消融实验结果比较
文中提出设计为稳健而高效,可以处理复杂的场景,如遮挡和杂乱的环境,这种用于道路场景中三维目标检测的多视角感觉融合模型。我们的模型同时利用了激光雷达点云和图像,通过生成三维提案并将它们投影到多个视图中以进行特征提取来对齐不同的模式。总体而言,本文中的自动驾驶多视角三维物体检测网络是提高自动驾驶场景下物体检测精度和鲁棒性的有前途的方法。
END
作者 | 小雨点
排版 | 小河
审核 | 猫
若您对该文章内容有任何疑问,请与我们联系,我们将及时回应。
相关文章:
解读 | 自动驾驶系统中的多视点三维目标检测网络
原创 | 文 BFT机器人 01 背景 多视角三维物体检测网络,用于实现自动驾驶场景高精度三维目标检测,该网络使用激光雷达点云和RGB图像进行感知融合,以预测定向的三维边界框,相比于现有技术,取得了显著的精度提升。同时现…...
C++ 用户学习 Python 的最佳方法
对于很多是一名计算机科学专业的学生而言,很多入门是学习的C和 C,可能熟悉非常基本的 python 语法,以及 C 中相当高级的数据结构。现在想深入学习Python的话,光看很多在线教程可能没法有较大的提升,这里有一些针对C用户…...
使用docker搭建drogon windows10,linux,mac下开发环境
2023年10月13日14:52:26 本机环境 Windows 10 专业版 22H2 操作内核19045.2965 如果直接在windows,linux,mac上直接搭建环境确实有一点难度,之前drogon官方并未提供官方镜像,现在有了docker镜像确实方便了,其实我是最…...
【RKNN】YOLO V5中pytorch2onnx,pytorch和onnx模型输出不一致,精度降低
在yolo v5训练的模型,转onnx,再转rknn后,测试发现: rknn模型,量化与非量化,相较于pytorch模型,测试精度都有降低onnx模型,相较于pytorch模型,测试精度也有降低ÿ…...
六分科技CEO李阳:精准定位助力汽车智能化普及
10月10日,2023四维图新用户大会在上海成功举办。大会现场,六分科技展示了基于PPP-RTK技术的“星璨”产品和软硬件一体化解决方案。同时在智能驾驶主题论坛上,六分科技CEO李阳受邀发表了以《精准定位助力汽车智能化普及》为主题的演讲。 高精度…...
信号完整性分析基础知识之有损传输线、上升时间衰减和材料特性(六):衰减和dB
线路中的损耗对信号的主要影响是当信号沿线路长度传播时幅度减小。如果将幅度为 V 的正弦波电压信号引入传输线,则其幅度将随着传输线向下移动而下降。图 9-16 显示了如果我们可以冻结时间并观察直线上存在的正弦波,则正弦波在不同位置可能会是什么样子。…...
吃鸡达人必备:分享顶级干货+作图工具推荐+账号安全查询!
吃鸡达人们,你们好!今天我来给大家介绍一些炙手可热的吃鸡话题,以及一些让你实力飙升的独家干货! 首先,让我们说一下如何提高自己的游戏战斗力。作为一名专业吃鸡行家,我将与你们分享一些顶级游戏作战干货&…...
帆软报表解决单元格不显示问题
前言 使用帆软报表设计器制作普通报表时、设计器界面经常有一根垂直的 “虚线”。一旦单元格超过这条 “虚线” ,那么真正打开报表就看不到这些列了。以下提供了简单的修正方法、欢迎大家讨论交流。 操作环境 设计器是帆软报表 9.0,操作系统是 Window…...
LeetCode讲解篇之138. 随机链表的复制
LeetCode讲解篇之138. 随机链表的复制 文章目录 LeetCode讲解篇之138. 随机链表的复制题目描述题解思路题解代码 题目描述 题解思路 先遍历一遍链表,用哈希表保存原始节点和克隆节点的映射关系,先只克隆节点的Val,然后再次遍历链表ÿ…...
主定理(简化版)
主定理(Master Theorem)是用于分析递归算法时间复杂度的一个重要工具。它适用于形式化定义的一类递归关系,通常采用分治策略解决问题的情况。 假设我们有一个递归算法,它将问题分解成 a a a 个子问题,每个子问题的规模…...
HTTP1.0和HTTP2.0的区别
相同点:所有的HTTP请求都要基于TCP连接。 HTTP1.0:每次发送请求时建立一个TCP连接,得到响应后,释放TCP连接。 HTP1.1:**相比于1.0,引入了Keep live,客户端得到响应后,不会立刻释放T…...
ARM资源记录《AI嵌入式系统:算法优化与实现》第八章(暂时用不到)
1.CMSIS的代码 书里给的5,https://github.com/ARM-software/CMSIS_5 现在有6了,https://github.com/ARM-software/CMSIS_6 这是官网的书,介绍cmsis函数的https://arm-software.github.io/CMSIS_5/Core/html/index.html 2.CMSIS介绍 Cort…...
微信小程序2
一,视图层 1.什么视图层 框架的视图层由 WXML 与 WXSS 编写,由组件来进行展示。 将逻辑层的数据反映成视图,同时将视图层的事件发送给逻辑层。 WXML(WeiXin Markup language) 用于描述页面的结构。 WXS(WeiXin Script) 是小程序的一套脚本语…...
G.711语音编解码器详解
语音编解码利用人听觉上的冗余对语音信息进行压缩从而达到节省带宽的目的。值得注意的是,本文说的是语音编解码器,也就Speech codec,而常用的还有另一种编解码器称作音频编解码器,英文是Audio codec,它们的区别如下。 以前在学校的时候研究了很多VoIP的编解码器从G.723到A…...
蓝桥杯每日一题2023.10.17
迷宫 - 蓝桥云课 (lanqiao.cn) 题目描述 样例: 01010101001011001001010110010110100100001000101010 00001000100000101010010000100000001001100110100101 01111011010010001000001101001011100011000000010000 0100000000101010001101000010100000101010101100…...
16.SpringBoot前后端分离项目之简要配置一
SpringBoot前后端分离项目之简要配置一 前面对后端所需操作及前端页面进行了了解及操作,这一节开始前后端分离之简要配置 为什么要前后端分离 为了更低成本、更高效率的开发模式。 前端有一个独立的服务器。 后端有一个独立的服务器。两个服务器之间实时数据交换…...
Probability Calibration概率校准大比拼:性能、应用场景和可视化对比总结
在机器学习中,概率校准(Probability Calibration)是一个重要的概念。简单来说,概率校准就是将分类器输出的原始预测概率转换为更准确、更可靠的概率值。这样做的目的是为了让模型的预测结果更接近实际情况,从而提高模型在特定应用场景中的可用性。 在Python的Scikit-Lear…...
PHP 球鞋在线商城系统mysql数据库web结构apache计算机软件工程网页wamp计算机毕业设计
一、源码特点 PHP球鞋在线商城系统是一套完善的web设计系统,对理解php编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。 php球鞋在线商城系统 代码 https://download.csdn.net/download/qq_41221322/8843725…...
使用Apache和内网穿透实现私有服务公网远程访问——“cpolar内网穿透”
文章目录 前言1.Apache服务安装配置1.1 进入官网下载安装包1.2 Apache服务配置 2.安装cpolar内网穿透2.1 注册cpolar账号2.2 下载cpolar客户端 3. 获取远程桌面公网地址3.1 登录cpolar web ui管理界面3.2 创建公网地址 4. 固定公网地址 前言 Apache作为全球使用较高的Web服务器…...
PreparedStatement
使用参数化查询:使用预编译的语句和参数化查询来执行SQL语句,而不是将用户输入直接嵌入到SQL语句中。这将帮助防止恶意输入注入SQL语句。...
11款独特开源字体,让你的创意设计焕发生机
11款独特开源字体,让你的创意设计焕发生机 【免费下载链接】HoYo-Glyphs Constructed scripts by HoYoverse 米哈游的架空文字 项目地址: https://gitcode.com/gh_mirrors/ho/HoYo-Glyphs 在数字创作领域,字体是视觉表达的核心元素。然而…...
Wan2.2-I2V-A14B开源镜像实测:xFormers+FlashAttention-2加速推理35%+
Wan2.2-I2V-A14B开源镜像实测:xFormersFlashAttention-2加速推理35% 1. 镜像概述与核心价值 Wan2.2-I2V-A14B是一款专为文生视频任务优化的私有部署镜像,它让高质量视频生成变得触手可及。这个镜像最吸引人的地方在于,它已经为你准备好了所…...
Pandas索引器 loc 和 iloc 比较及代码示例
Pandas 索引器 loc 和 iloc 比较及代码示例 以下是针对 Pandas 中 loc 和 iloc 的深度对比分析及代码示例,结合核心差异、使用场景和底层机制展开说明: 一、核心差异解析 特性loc (标签索引)iloc (位置索引)索引类型行/列标签(字符串、日期等…...
Windows下用CMake和VS编译gRPC 1.72.0,我踩过的那些坑(附完整依赖库列表)
Windows平台下gRPC 1.72.0编译实战:从CMake配置到VS链接错误的系统化解法 最近在Windows平台上手动编译gRPC 1.72.0的经历可谓是一波三折。作为一个长期在Linux环境下工作的开发者,这次回到Windows平台进行gRPC编译,遇到了不少特有的挑战。本…...
Qwen3.5-9B训练复现:从SFT到RLHF的全流程开源实践指南
Qwen3.5-9B训练复现:从SFT到RLHF的全流程开源实践指南 1. 项目概述 Qwen3.5-9B是一个拥有90亿参数的开源大语言模型,具备强大的逻辑推理、代码生成和多轮对话能力。该模型支持多模态理解(图文输入)和长上下文处理(最…...
OpenClaw硬件监控:Gemma-3-12b-it分析传感器数据并预警
OpenClaw硬件监控:Gemma-3-12b-it分析传感器数据并预警 1. 为什么需要AI驱动的硬件监控? 去年夏天,我的家用服务器因为CPU散热器故障导致过热关机,丢失了正在处理的科研数据。这件事让我开始思考:传统的阈值告警太被…...
如何快速集成gh_mirrors/ca/card到React/Vue/Angular:打造专业信用卡表单的完整指南
如何快速集成gh_mirrors/ca/card到React/Vue/Angular:打造专业信用卡表单的完整指南 【免费下载链接】card :credit_card: make your credit card form better in one line of code 项目地址: https://gitcode.com/gh_mirrors/ca/card gh_mirrors/ca/card是一…...
MS5611高精度气压温度传感器Arduino驱动库
1. 项目概述MS5611-Mike-Refactored 是一款面向嵌入式平台(特别是 Arduino 兼容生态)的 MS5611 高精度气压/温度传感器驱动库。该库并非简单封装,而是对 Korneliusz Jarzebski 原始实现的一次系统性重构与工程化增强。其核心目标是将一个基础…...
抖音视频批量下载终极指南:5分钟掌握免费去水印技巧
抖音视频批量下载终极指南:5分钟掌握免费去水印技巧 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support…...
MMS50MV ToF传感器SPI驱动开发与嵌入式应用
1. MMS50MV ToF传感器驱动深度解析1.1 器件背景与系统定位MMS50MV是由日本Sunhayato株式会社(サンハヤト)专为Sony Spresense开发平台设计的飞行时间(Time-of-Flight, ToF)传感器扩展板。该模块并非通用型ToF芯片,而是…...
