(已开源) 详解4D Radar数据集K-Radar
本文介绍一个4D Radar公开数据集:KAIST-Radar(简称K-Radar,由AVELab提供)是一个新型的大规模目标检测数据集和基准测试集,包含35000帧4D雷达张量(4DRT)数据。本文主要贡献有:
- 本文提出了一种新颖的基于4DRT的数据集K-Radar,用于3D目标检测。K-Radar 是第一个基于大规模4DRT的基准数据集,具有不同的和具有挑战性的光照、时间和天气条件。通过仔细标注的3D框标签和多模式传感器,K-Radar还可以用于其他自动驾驶任务,如目标跟踪和里程计。
- 本文提出了一种直接使用4DRT作为输入的三维目标检测基线神经网络,验证了4DRT的高度信息对于3D目标检测是必不可少的。我们还展示了基于4DRT的自动驾驶感知的鲁棒性,特别是在不利的天气条件下。
- 本文还提供了开发工具包,包括:(1)训练/评估代码,(2)标定/标注代码,以及(3)可视化工具来加速基于4DRT的自动驾驶感知研究。
项目链接:https://github.com/kaist-avelab/K-Radar?tab=readme-ov-file
文章目录
- Introduction & Related Works
- K-Radar
- Experiment
- Enhanced K-Radar: Optimal Density Reduction to Improve Detection Performance and Accessibility of 4D Radar Tensor-based Object Detection
Introduction & Related Works
首先回顾下FMCW Radar的信号处理流程,如下图所示。Radar Tensor 是一个密集的数据矩阵,通过对FMCW信号进行快速傅里叶变换操作得到。由于矩阵所有元素都是非零值,RT以最小的损失提供有关环境的密集信息,但代价是高内存需求。另一方面,Radar Point Cloud 是另一种数据类型,其中通过将CFAR算法应用于 RT,以少量内存的点云形式提取目标信息。由于直接在硬件上实现FFT和CFAR容易,许多雷达传感器提供RPC作为输出。然而,由于CFAR算法,RPC 可能会丢失有关环境的大量信息。
表1是自动驾驶目标检测公开数据集的对比,包括Nuscenes、KITTI、Waymo等大规模数据集。可以看到K-Radar包含RT、RPC、LPC、Camera、GPS等不同形式数据。
表2是不同数据集天气和光照条件对比,K-Radar包含fog、snow、rain、sleet、day、night等多种天气。
K-Radar
下面首先介绍 K-Radar数据集传感器配置、数据收集过程和数据分布情况以及本文提出的目标检测基线网络。
为了收集恶劣天气下的数据,根据图3所示的配置,安装了五种防水传感器。首先,将4D雷达连接到汽车前保险杠处。其次,64线长距激光雷达和128线高分辨率激光雷达安装于汽车中间上方不同高度位置(图3-(a))。长距激光雷达点云用于精确标注各种距离的目标,而高分辨率激光雷达点云提供密集信息,具有44.5度垂直视角。第三,将立体相机放置在车辆的前侧、后侧、左侧和右侧,得到四个立体RGB图像,从自车的角度覆盖360度视野。最后,在车辆后部安装RTK-GPS天线和两个IMU传感器,以实现自车的准确定位。
大多数恶劣天气条件下的数据都是在韩国江口收集的,韩国是全国降雪最高的省。另一方面,城市环境的数据大多是在韩国大田收集的。数据收集过程产生了35000帧多模态传感器测量,构成K-Radar数据集。我们将整个数据集划分为训练集和测试集,如下图所示,测试集和训练集在不同天气条件的分布尽可能保持相同。
总共标注了93300个3D框(轿车、公共汽车或卡车、行人、自行车和摩托车),标注范围为自车纵向120米内,横向80米内。请注意,我们只标注出现在自车纵向前方的目标。在图5中,展示了K-Radar数据集中物体类别和物体距离的分布。
与缺乏高度信息的 3D 雷达张量 (3DRT) 不同,4D 雷达张量 (4DRT) 是一个密集数据张量,在四个维度上进行功率测量:多普勒、距离、方位角和俯仰角。然而,密集数据的附加维度对将4DRT可视化为稀疏数据提出了挑战。为了解决这个问题,我们通过启发式处理将4DRT可视化为笛卡尔坐标系中的二维热图,如图 6(a) 所示,这导致鸟瞰图 (BEV-2D)、前视图 (FV-2D) 和左视图 (SV-2D) 中的2D热力图可视化。我们将这些 2D 热力图统称为 BFS-2D。
通过BEV-2D热力图,我们可以直观地验证4D雷达对恶劣天气条件的鲁棒性,如图2所示。如前所述,在雨、雪、雪等不利天气条件下,相机和激光雷达测量可能会恶化。在图 2-(e,f) 中,表明激光雷达对远距离物体的测量在重雪条件下会丢失。然而,4DRT的BEV-2D热力图清楚地表明了对边界框边缘进行高功率测量的目标。即使使用BFS-2D热力图,人类标注识别出现在帧上的目标形状并准确标注相应的3D 边界框仍然具有挑战性。因此,我们开发了一个工具,可以在激光雷达点云中实现3D边界框标注,其中目标形状为更容易识别。此外,由于恶劣的天气条件,我们使用BEV-2D热力图来帮助标注者在激光雷达测量丢失的情况下进行标注。
我们提供了两个基线神经网络来证明高度信息对3D目标检测的重要性:(1)具有高度的雷达张量网络(RTNH),它使用 3D Sparse CNN 从 RT 中提取特征图 (FM),以便利用高度信息; (2) 没有高度的雷达张量网络(RTN),它使用不 2D CNN 从 RT 中提取 FM。
如图7所示,RTNH和RTN都包含预处理、主干网、Neck和检测头模块。预处理将4DRT从极坐标转换为笛卡尔坐标,并在感兴趣区域(RoI)中提取3DRT-XYZ。注意,我们通过沿多普勒维度取均值降低多普勒维度。然后主干网提取特征FM。检测头从Neck拼接后的特征预测目标框。
RTNH和RTN的网络结构,除了主干网之外是相似的。我们分别使用3D SparseConv(3D-SCB)和2D DenseConv(2D-DCB)构建了RTNH和RTN的主干网。3D-SCB 利用3D稀疏卷积以便将三维空间信息 (X, Y, Z) 编码到最终的FM中。我们选择在稀疏RT(RT 中的前30%功率测量)上使用稀疏卷积,因为原始RT上的密集卷积需要大量内存和计算,不适合实时自动驾驶应用。与3D-SCB不同,2D-DCB使用2D卷积,因此仅将二维空间信息 (X, Y) 编码到最终的FM中。
Experiment
在本节中,我们将展示基于4DRT的感知模型在各种天气下的鲁棒性,并比较了基线神经网络和类似结构的基于激光雷达的PointPillars模型之间的3D目标检测性能。我们还通过对比RTNH和RTN模型之间的3D目标检测性能来讨论高度信息的重要性。
我们将检测目标设置为sedan类,该类在K-Radar数据集中的样本数量最大。在实验中,我们利用广泛使用的IOU的平均精度AP度量来评估3D目标检测性能,我们对比了3D和BEV下的AP。在表3中展示了RTNH和RTN模型的检测性能比较。可以观察到,与RTN相比,RTNH在 A P 3 D AP_{3D} AP3D 和 A P B E V AP_{BEV} APBEV上的性能分别提高了 9.43% 和 1.96%。特别是,RTNH在 A P 3 D AP_{3D} AP3D方面显著超过了RTN,表明4DRT中可用的高度信息对于3D目标检测的重要性。此外,RTNH与RTN相比需要更少的GPU内存,因为它利用了前文提到的内存高效地稀疏卷积。
在表4中展示了RTNH和激光雷达检测网络模型PointPillars之间的检测性能比较。与normal条件相比,激光雷达网络在heavy snow条件下BEV和3D检测性能分别下降了 18.1% 和14.0%。相比之下,雷达RTNH模型检测性能几乎不受恶劣天气的影响,与normal条件相比,heavy snow条件下BEV和3D目标检测性能相似或更好。结果表明,基于4D雷达的感知模型在恶劣天气有着更好的鲁棒性。
Enhanced K-Radar: Optimal Density Reduction to Improve Detection Performance and Accessibility of 4D Radar Tensor-based Object Detection
这是K-Radar数据集作者第二篇论文,在上文中可以看到基于4DRT的3D检测模型在恶劣天气条件下的鲁棒性。然而由于数据量大,处理4D雷达数据仍然是一个挑战,需要大量的内存来计算和存储。 在以往的工作中,对4D雷达张量(4DRT)进行在线密度缩减,以减少数据大小,其中密度降低级别是任意选择的。然而,密度降低对检测性能和内存消耗的影响在很大程度上仍不清楚。在本文中,我们的目标是通过对密度降低级别进行广泛的超参数调整来解决这个问题。实验结果表明,将原始4DRT数据密度从0.01%增加到50%的过程中,当密度水平增加到5%以上时,只有内存消耗增加,而检测性能在峰值点附近振荡。 除了优化的密度超参数外,本文还引入了4D稀疏雷达张量(4DSRT),这是一种用于离线降低4D雷达数据密度的新表示,导致原始数据大小显著降低。还提供了一个用于训练神经网络的优化开发工具包,与最先进的基于4DRT的神经网络相比,训练速度提高了 17.1 倍。
如图3所示,4D稀疏雷达张量 (4DSRT) 是4D雷达张量 (4DRT) 的稀疏表示,可用作基于4D雷达的神经网络的输入,例如RTNH。为了构建4DSRT,我们将4DRT从极坐标转换为笛卡尔坐标,然后进行池化操作,其中保留了功率测量最高的前N%元素。然后使用这些后池化值作为神经网络的输入。请注意,宇RTNH在训练过程每次迭代中执行坐标转换和池化操作不同,我们只需要为每个4DRT执行一次坐标转换和池化,并为每个后续迭代使用相应的4DSRT。
表I和表II分别显示了基于不同密度的RTNH网络的检测性能。在原始RTNH模型中,任意选择10%数据作为输入张量的。但是,正如在表格中看到的,在考虑内存消耗和AP性能时,它不是最佳密度级别。如表中所示,对于50%密度水平,内存消耗从 205MB增加到802MB。然而,增加密度水平并不能保证检测性能的提高。具体来说,总 A P 3 D AP_{3D} AP3D和总 A P B E V AP_{BEV} APBEV与4DSRT的密度从0.01%到5%时成比例增加,密度水平在5%时, A P 3 D AP_{3D} AP3D达到峰值47.9%, A P B E V AP_{BEV} APBEV峰值在密度为3%处。当密度超过5%时,检测性能在47%和57%附近振荡。这些可以作为汽车雷达工业中硬件级实现的指导方针。
图4直观的展示了不同密度对检测性能的影响。
下面时4DRT和4DSRT训练速度对比,4DSRT作为输入,训练速度提高了17倍。
相关文章:

(已开源) 详解4D Radar数据集K-Radar
本文介绍一个4D Radar公开数据集:KAIST-Radar(简称K-Radar,由AVELab提供)是一个新型的大规模目标检测数据集和基准测试集,包含35000帧4D雷达张量(4DRT)数据。本文主要贡献有: 本文提…...

基于RK3588机器人控制器+3D视觉传感器的送餐机器人解决方案
送餐机器人 通过搭载3D视觉传感器信迈机器人控制器,送餐机器人可以在复杂的餐厅环境中灵活避障通行,极大地提升餐品配送效率,改善用户用餐体验,并显著降低店家经营成本。 高峰期送餐难,曾一直是送餐机器人的行业痛点。…...

基于Qwen2-VL模型针对LaTeX OCR任务进行微调训练 - 数据处理
基于Qwen2-VL模型针对LaTeX OCR任务进行微调训练 - 数据处理 flyfish 基于Qwen2-VL模型针对LaTeX_OCR任务进行微调训练_-_LoRA配置如何写 基于Qwen2-VL模型针对LaTeX_OCR任务进行微调训练_-_单图推理 基于Qwen2-VL模型针对LaTeX_OCR任务进行微调训练_-_原模型_单图推理 基于Q…...

Microi吾码|开源低代码.NET、VUE低代码项目,表单引擎介绍
Microi吾码|开源低代码.NET、VUE低代码项目,表单引擎介绍 一、摘要二、Microi吾码介绍2.1 功能介绍2.2 团队介绍2.3 上线项目案例 三、Microi吾码表单引擎是什么?四、Microi吾码表单引擎功能4.1 模块引擎 - 由表单引擎驱动4.2 流程引擎 - 由表…...

[Ubuntu] Linux命令收集
1、移动文件夹内的所有文件和子文件夹: 如果你想移动一个文件夹内的所有内容到另一个目录,但不移动该文件夹本身,你可以使用以下命令: 源:/home/ubuntu/www/demo/web下的所有文件及文件夹; 目标…...

鸿蒙应用ArkTS开发-利用axios进行网络请求(实现前后端交互)
引言: 我们上一章实现了简单的登录注册页面,今天小编来带着大家实现完整的登录注册功能。 一、后端的搭建 Spring Boot介绍:Spring Boot是一个用于简化Spring应用程序开发的开源框架。它通过自动配置、内置服务器和预设的最佳实践࿰…...

【开源】使用环信UIKit for uniapp 做一个IM即时聊天应用
环信单群聊 UIKit 是基于环信即时通讯云 IM SDK 开发的一款即时通讯 UI 组件库,提供各种组件实现会话列表、聊天界面、联系人列表及后续界面等功能,帮助开发者根据实际业务需求快速搭建包含 UI 界面的即时通讯应用。 本文教大家使用环信 uniapp UIKit 快…...

计算机网络知识点全梳理(一.TCP/IP网络模型)
目录 TCP/IP网络模型概述 应用层 什么是应用层 应用层功能 应用层协议 传输层 什么是传输层 传输层功能 传输层协议 网络层 什么是网络层 网络层功能 网络层协议 数据链路层 什么是数据链路层 数据链路层功能 物理层 物理层的概念和功能 写在前面 本系列文…...

神州数码DCME-320 online_list.php存在任意文件读取漏洞
免责声明: 本文旨在提供有关特定漏洞的深入信息,帮助用户充分了解潜在的安全风险。发布此信息的目的在于提升网络安全意识和推动技术进步,未经授权访问系统、网络或应用程序,可能会导致法律责任或严重后果。因此,作者不对读者基于本文内容所采取的任何行为承担责任。读者在…...

神经网络基础-神经网络搭建和参数计算
文章目录 1.构建神经网络2. 神经网络的优缺点 1.构建神经网络 在 pytorch 中定义深度神经网络其实就是层堆叠的过程,继承自nn.Module,实现两个方法: __init__方法中定义网络中的层结构,主要是全连接层,并进行初始化。…...

Linux入门攻坚——41、Linux集群系统入门-lvs(2)
lvs-dr:GATEWAY Director只负责请求报文,响应报文不经过Director,直接由RS返回给Client。 lvs-dr的报文路线如上图,基本思路就是报文不会回送Director,第①种情况是VIP、DIP、RIP位于同一个网段,这样&…...

音视频入门基础:MPEG2-TS专题(17)——FFmpeg源码中,解析TS program map section的实现
一、引言 由《音视频入门基础:MPEG2-TS专题(16)——PMT简介》可以知道,PMT表(Program map table)由一个或多个段(Transport stream program map section,简称TS program map sectio…...

了解https原理,对称加密/非对称加密原理,浏览器与服务器加密的进化过程,https做了些什么
最开始的加密 浏览器与服务器之间需要防止传输的数据被黑客破解。因此,浏览器在发送数据时会对数据进行加密,并把加密的密钥(或密钥的某些部分)放在数据的某一个区域中。服务器收到数据后,会提取密钥并用它来解密数据…...

山西省第十八届职业院校技能大赛高职组 5G 组网与运维赛项规程
山西省第十八届职业院校技能大赛高职组 5G 组网与运维赛项规程 一、赛项名称 赛项编号:GZ035 赛项名称:5G 组网与运维 赛项组别:高职学生组、教师组 二、竞赛目的 2019 年 6 月 6 日,5G 牌照正式发放,标志着我国全面进…...

tcpdump编译 wireshark远程抓包
https://github.com/westes/flex/releases/download/v2.6.4/flex-2.6.4.tar.gz tar -zxvf flex-2.6.4.tar.gz ./configure CFLAGS-D_GNU_SOURCE make sudo make installwget http://ftp.gnu.org/gnu/bison/bison-3.2.1.tar.gz ./configure make sudo make install以上两个库是…...

Web开发 -前端部分-CSS
CSS CSS(Cascading Style Sheet):层叠样式表,用于控制页面的样式(表现)。 一 基础知识 1 标题格式 标题格式一: 行内样式 <!DOCTYPE html> <html lang"en"><head><meta…...

用 Python Turtle 绘制流动星空:编程中的璀璨星河
用 Python Turtle 绘制流动星空:编程中的璀璨星河 🐸 前言 🐸🐞往期绘画>>点击进所有绘画🐞🐋 效果图 🐋🐉 代码 🐉 🐸 前言 🐸 夜空中繁星…...

Java从入门到工作2 - IDEA
2.1、项目启动 从git获取到项目代码后,用idea打开。 安装依赖完成Marven/JDK等配置检查数据库配置启动相关服务 安装依赖 如果个别依赖从私服下载不了,可以去maven官网下载补充。 如果run时提示程序包xx不存在,在项目目录右键Marven->Re…...

fastadmin批量压缩下载远程视频文件
后端代码 // 批量下载并压缩 public function downloadAll(){$ids input(ids);$row $this->model->where(id, in, $ids)->field(id,title,video_url)->select();if (!$row) {$this->error(记录不存在);}$arr [];$tempFiles []; // 用来存储临时下载的视频文…...

【保姆级】Mac如何安装+切换Java环境
本文从如何下载不同版本的JDK,到如何丝滑的切换JDK,以及常见坑坑的处理方法,应有尽有,各位看官走过路过不要错过~~~ 下载⏬ 首先上官网: https://www.oracle.com/ 打不开的话可以使用下面👇这个中文的 https://www.oracle.com/cn/java/technologies/downloads/a…...

2024首届世界酒中国菜国际地理标志产品美食文化节成功举办篇章
2024首届世界酒中国菜国际地理标志产品美食文化节成功举办,开启美食文化交流新篇章 近日,首届世界酒中国菜国际地理标志产品美食文化节在中国国际地理标志大厦成功举办,这场为期三天的美食文化盛会吸引了来自世界各地的美食爱好者、行业专家…...

Springboot静态资源
默认位置 静态资源访问目录下的资源可以直接访问,默认的四个位置 classpath:/META-INF/resources/(默认加载,不受自定义配置的影响) classpath:/resources/ classpath:/static/ classpath:/public/ 如果在静态目录下存在favic…...

MTK修改配置更改产品类型ro.build.characteristics
文章目录 需求场景实际问题 参考资料解决方案MTK 修改方案修改点一:build\core\product_config.mk修改点二:build\make\core\main.mk修改是否成功,adb 验证 实战项目中解决案例 需求场景 更改产品设备属性 table-phone-device,使…...

SQL 查询中的动态字段过滤
这段代码是一个 SQL 查询中的动态字段过滤部分,使用了 MyBatis 的 标签和 标签。以下是逐步的解释: <!-- 动态字段过滤 --><if test"parameters ! null and parameters.size() > 0"><foreach collection"parameters&qu…...

数字IC后端零基础入门基础理论(Day1)
数字IC后端设计导入需要用到的input数据如下图所示。 数字后端零基础入门系列 | Innovus零基础LAB学习Day9 Netlist: 设计的Gate level(门级)网表。下图所示为一个计数器设计综合后的门级netlist。 从这个netlist中我们看到这个设计顶层的名字叫counte…...

【LC】240. 搜索二维矩阵 II
题目描述: 编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性: 每行的元素从左到右升序排列。每列的元素从上到下升序排列。 示例 1: 输入:matrix [[1,4,7,11,15],[2,5,8,12,19],[3,6,…...

Redis应用—4.在库存里的应用
大纲 1.库存模块设计 2.库存缓存分片和渐进式同步方案 3.基于缓存分片的下单库存扣减方案 4.商品库存设置流程与异步落库的实现 6.库存入库时"缓存分片写入 渐进式写入 写入失败进行MQ补偿"的实现 7.库存扣减时"基于库存分片依次扣减 合并扣减 扣不了…...

selenium获取请求头
【原创】Selenium获取请求头、响应头-腾讯云开发者社区-腾讯云 selenium 4.0.0 selenium-wire 5.1.0 python 3.10 from seleniumwire import webdriver import time from selenium.webdriver.common.by import By import re def get_request_headers(driver):"""…...

Rust中自定义Debug调试输出
在 Rust 中,通过为类型实现 fmt::Debug,可以自定义该类型的调试输出。fmt::Debug 是标准库中的一个格式化 trait,用于实现 {:?} 格式的打印。这个 trait 通常通过自动派生(#[derive(Debug)])来实现,但你也…...

docker离线安装、linux 安装docker
之前写过一篇docker的离线安装,现在从头再看繁琐了,服务器换了,既然要重搭一遍就要改进一下了。下面步入正题: 1.下载离线软件包 https://download.docker.com/linux/static/stable/x86_64/docker-20.10.6.tgz 2.下载安装工具包…...