当前位置：首页 > news >正文

LATR：3D Lane Detection from Monocular Images with Transformer

news 2025/7/7 23:22:08

参考代码：LATR

动机与主要工作：
之前的3D车道线检测算法使用诸如IPM投影、3D anchor加NMS后处理等操作处理车道线检测，但这些操作或多或少会存在一些负面效应。IPM投影对深度估计和相机内外参数精度有要求，anchor的方式需要一些如NMS的后处理辅助。这篇文章主要的贡献有两点：

1）针对车道线的特性基于DETR目标检测算法提出了一种基于landline query的检测方法，为了使得query的初始化更合理借鉴了SparseInst方法从2D图像域中用不同实例来初始化query，并且建立车道线query的粒度不是车道线级别而是具体到了车道线上的点。
2）用图像特征作为key和val是较难去学习其中的3D信息的，在相机内外参数已知情况下构建一个可学习的3D空间位置编码，通过decoder中多轮迭代和与图像特征融合预测残差方式，不断修正3D空间位置编码。

检测器的结构：
这篇文章的方法流程见下图所示：
在这里插入图片描述
可以从上图中看到backbone出来之后接一个车道线实例预测网络，由此实现lane query生成和初始化。对于图像特征使用3D信息嵌入的位置编码，只不过这个位置编码是在给定一个的初始化基础上修正而来的，也就是说在transformer解码的过程中这个位置编码的值是动态的。

车道线query构建：
这部分参考SparseInst中对于inst feature的构建过程，具体可以去查阅对应的论文，由此可以得到车道线query的特征表达 $Q_{lane}\in R^{N*C}$ （这里是从特征图尺寸最大的那个特征上得到的）。而对于车道线来说，其是由多个点组成的，那么还需要对上面的点构建query，这里通过设定可学习的参数来实现 $Q_{}\in R^{M*C}$ 。那么接下来就是使用broadcast机制实现最后车道线的query构建 $Q\in R^{(N*M)*C}$

实例+点query的形式效果才是最好的：
在这里插入图片描述

图像feature的位置编码：
这里关注的是自动驾驶场景下的车道线，则根据车道线的分布特点可以为对应2D图像特征设置位置编码。这里的位置编码是首先在3D空间中进行采样（也就是文章定义的3D地平面），之后通过相机内外参数投影到图像中，以此来作为对应图像位置处的3D位置来源。只不过这里的3D地平面是动态更新的，在transformer的不同层中会预测不同的更新残差，定义的残差变量有旋转角度（偏航角） $\Delta \theta$ 和平面高度 $\Delta h$ ，其预测是通过一组FC层实现的：
$[\Delta \theta,\Delta h]=MLP(AvgPool(\mathcal{G}[X,M_p]))$
其中， $\mathcal{G},X,M_p$ 分别代表2层卷机操作、图像特征、上一轮的地平面的位置编码。

则新一轮的平面点会使用下面的矩阵进行更新：
在这里插入图片描述

则在原本不准确的3D平面上就可以通过自适应回归的方式优化3D地平面，由此实现特征3D位置编码的优化。此外，地平面的约束还使用过车道线上的点投影建立起来
$L_{plane}=\sum_{u,v\in \mathcal{P}\cap\mathcal{L}}||M_p[:,u,v]-M_l[:,u,v]||_2$

最终的效果也就是使得下图中的绿色平面与红色的车道线接近。不过截止10.09.2023这部分的代码并没有开放出来。下图展示了地平面会随着迭代的进行收敛到实际车道线的位置上：
在这里插入图片描述
分析位置编码的作用，首先看位置编码带来的性能提升：

从上表可以看到位置编码确实能带来性能的提升，无论是视锥还是固定平面编码，只不过这里动态平面编码的方式更加适合车道线，因而相比起来有1个点的提升。这里说明准确的位置编码有助于得到更好的检测性能，而且文章提出的平面优化自由度只有2个，更多的维度是否能更好呢？

车道线query+位置编码两者对检测性能的影响：
在这里插入图片描述

对于后面车道线的解码部分就跟传统的DETR一致了，这里就不做展开。

不同数据集下的性能表现：
OpenLane validation：
在这里插入图片描述
OpenLane不同天气条件下的表现

LATR：3D Lane Detection from Monocular Images with Transformer

相关文章：

LATR：3D Lane Detection from Monocular Images with Transformer

什么是UI自动化测试工具?

计算顺序表中值在100到500之间的元素个数

【问题总结】级数的括号可以拆吗？

抖音自动养号脚本+抖音直播控场脚本

uvm中transaction的response和id的解读

第四节（1）：EXCEL中判断一个WORD文件是否被打开

java.util.concurrent.locks.Condition详解

选择适合变更管理的产品开发工具的要点和建议

小程序词云图 echarts-for-weixin-wordcloud

VScode配置Jupyter

java模拟GPT流式问答

【好玩】如何在github主页放一条贪吃蛇

顶顶通ASR安装配置说明

VMware和别的服务器，组建局域网那些事。

自监督DINO论文笔记

计算机视觉: 基于隐式BRDF自编码器的文生三维技术

分类预测 | MATLAB实现KOA-CNN-BiLSTM开普勒算法优化卷积双向长短期记忆神经网络数据分类预测

Java队列相关面试题

水库大坝除险加固安全监测系统解决方案

Chapter03-Authentication vulnerabilities

前端倒计时误差!

基于Flask实现的医疗保险欺诈识别监测模型

C++ 基础特性深度解析

微信小程序云开发平台MySQL的连接方式

【VLNs篇】07：NavRL—在动态环境中学习安全飞行

BLEU评分：机器翻译质量评估的黄金标准

Rust 开发环境搭建

pikachu靶场通关笔记19 SQL注入02-字符型注入(GET)

热烈祝贺埃文科技正式加入可信数据空间发展联盟