当前位置：首页 > news >正文

自动驾驶三维重建

news 2025/7/7 5:43:52

大概八成估计是未来的科研方向了

文章目录

- 自动驾驶中的NeRF
- - [4]CLONeR：
  - Urban Radiance Fields
  - [6]S-NERF
  - Block-NeRF
  - Switch-NeRF
  - SceneRF
  - Behind the Scenes
- 大规模与自动驾驶场景重建:3D高斯
- - VastGaussian
  - Periodic Vibration Gaussian（复旦大学）
  - DrivingGaussian

自动驾驶中的NeRF

在这里插入图片描述
自动驾驶领域的NeRF方法，大部分是在做自动驾驶场景里的环境重建，对大规模无边界场景的重建
自动驾驶和Nerf的交集目前停留在深度估计和环境重建上面
想要做城市级别的场景重建，要用到多个MLP，在重建的过程中可以用雷达作为监督，但实际上雷达能够直接提供空间网格的占用信息，用这一点搭建基于体素的混合隐式场景表达是个很好的思路
未来的思路：要让Nerf和占用网格结合在一起，这样才能真正进入自动驾驶的核心系统中
在这里插入图片描述

[2] Plenoxels: Radiance Fields without Neural Networks, CVPR 2022，arXiv:2112.05131
[3] Grid-Centric Traffic Scenario Perception for Autonomous Driving: A Comprehensive Review, 2023, arXiv:2303.01212
[4] CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural Representations, 2022, arxiv 2209.01194
[5] Urban Radiance Fields, CVPR 2022, arXiv:2111.14643
[6] S-NeRF: Neural Radiance Fields for Street, ICLR 2023, arXiv:2303.00749
[7] Block-NeRF: Scalable Large Scene Neural View Synthesis, CVPR 2022, arXiv:2202.05263
[8] Switch-NeRF: Learning Scene Decomposition with Mixture of experts for Large-sacle Neural Radiance Fields, ICLR 2023, https://openreview.net/pdf?id=PQ2zoIZqvm
[9] SceneRF: Self-Supervised Monocular 3D Scene Reconstruction with Radiance Fields, 2023, arXiv:2212.02501
[10] Behind the Scenes: Density Fields for Single View Reconstruction, 2023, arXiv:2301.07668

[4]CLONeR：

使用占用网格，与自动驾驶联系紧密
在室外的无边界场景里面，NeRF的采样射线并不知道自己该在哪儿终止，于是用占用网格来作为辅助，让NeRF在被占据的(存在场景几何的地方采样)，这相较于原版NeRF粗糙的均匀采样会更好

缺点：用两个MLP+一个占用网格地图表示一个大场景，NeRF那边已经有体素里储存特征向量，这样的混合场景表达方法来做类似的事情
改进点：让占用网格储存特征向量，这样在保留新视角合成能力的同时，还能实现地图扩展，不受MLP限制

在这里插入图片描述

Urban Radiance Fields

实现了对城市级场景的重建
解决：采集的图像里光照条件会不一致，作者对图像的曝光进行隐式的编码，再用神经网络将它转化为一个颜色仿射变换，让图像能够有一致的外观
对于无边界的采样，采用圆拱形结构来建模天空
在训练的时候用了一个语义分割，把天空在图像中的位置给mask出来
对画面里动态的人或者车，也用语义模型mask掉
用一个MLP来存储大型的室外场景，显然MLP容量有限，在一系列的场景数据到来的时候，网络会更倾向于学到后面的数据，或者渲染出这些场景混在一起的样子(遗忘问题)
解决问题：1.用多个MLP 2.不用MLP换成点云体素之类的表达方式
在这里插入图片描述

[6]S-NERF

在这里插入图片描述

在重建自动驾驶场景的背景同时，也重建了路上移动的车辆
同样是用相机和雷达两种传感器，把背景和车辆分开建模
对于背景，S-NeRF用了一个半径参数来确定地图边界，然后把地图的内容归一化到这个边界里面
对于车辆，为了得到车辆的Nerf模型，S-NeRF先用一个3D目标检测得到车辆的bounding box，然后把和目标车辆相关的视角，变换到以车辆为中心的坐标系下，这样对于一辆车可以得到2到6张照片
为了得到更好的效果，S-NERF先用一个现有方法从这几个视角的图像和雷达点云里去生成粗糙的mesh，从中渲染出一个稠密的深度图来做监督，背景已经用语义分割模型去除掉了
S-NeRF还设计了一些深度补全的方法来从含有噪声的稀疏的雷达点云获得稠密的高质量的深度图
缺点：单个MLP对大型场景的拟合能力
在这里插入图片描述

Block-NeRF

把场景分解成多个单独的NeRF分开训练，从而让建模能够扩展到任意大的场景，允许每个场景的Block单独更新
虚线黄圈是每个NeRF的可见半径，针对target view的目标位置，如果它处于某个NeRF的可见半径内，那就去渲染一张RGB图，并根据距离预测一个能见度，如果能见度太低就会被舍弃，最后根据能见度和渲染的RGB，把所有可见的NeRF得到的图像融合成为target view的RGB图

在这里插入图片描述和原本NeRF的区别：左下角加上了曝光和外观编码，这样让MLP去学到输入图像的光照条件，从而让建模过程不受光照变化的影响

缺点：对NeRF本身没有多少改进，仍然会收到NeRF重建缺陷的制约，比如需要很多训练数据，不能实时，还需要手工设置这些MLP的位置，不能自适应调整去扩展

Switch-NeRF

实现了一个端到端的用基于学习的场景分解方法的大规模场景NeRF重建
在这里插入图片描述
对于Switch-NeRF来说，MoE是这样实现的：
从左下角生成了一个3d采样点，把这个采样点的位置进行编码得到PE(x),PE(x)的值经过一个门控网络得知它应该被送往专家2去重建
因为专家2是负责这个PE(x)位置重建的，就是一个MLP
专家2的输出结果再接一个head去预测得到RGB和体密度
也就是对于大规模场景的重建，Switch-NeRF把地图划分为很多个MLP来储存，为了把这些MLP组织起来，搭建了这个MoE系统，让每个专家负责一个MLP，通过训练过程学习该怎么给各个专家分配任务，同时也培养了每个专家的重建能力，最终协作实现重建
在这里插入图片描述

SceneRF

借助NeRF来实现单目重建的方法，具有新视角合成和新深度合成

在这里插入图片描述
从输入图像里面提取特征体积，划定重建范围，然后在这个范围内沿着一条假想的路径去生成多个新视角，对每个新视角合成一个新深度，用这些深度去估计一个三位重建的结果，从而去和ground truth求loss来优化
作者设计了一个概率射线采样策略，把沿着每条射线的连续密度通过MLP转换为一个一维高斯混合，通过学习能够让这些高斯混合的比较大的值接近真实的表面位置，这样就能显著减少采样点
这里的监督就来自NeRF对颜色和深度的预测，作者实现每条线仅用64个点，就能完成100米射线上的采样
NeRF的渲染是被设定在一定体积内的，也就是场景里面的特征体积，为了跳出这个限定的特征体积，作者提出了带有球形解码器的U-Net用来放大视场，生成原图像视场之外的图像和深度
具有一定的泛化能力

Behind the Scenes

从输入的图像里去预测一个隐式密度场来描述当前视角下的平截头体范围内的体密度分布，这个密度场里不储存颜色信息，在渲染新视角时，像素的颜色是从输入图像里变换过来的
这篇论文的工作：在生成隐式密度场的编解码器上
在这里插入图片描述

大规模与自动驾驶场景重建:3D高斯

3D高斯工作的辛苦整理 github仓库
近期工作有：
VastGaussian：用来重建大规模场景
Street Gaussian ：建模动态的城市场景
DrivingGaussian：重建动态的自动驾驶场景
Periodic Vibration Gaussian：动态城市场景重建和实时渲染
都是基于3D GS的大规模室外场景重建方法，后3篇是针对自动驾驶场景做的重建(动态内容)
在这里插入图片描述

VastGaussian

第一个基于3D GS的高质量的，并且能够实时渲染的大规模场景重建方法
对标的是Mega-NeRF和Switch-NeRF，属于NeRF时代的大规模场景重建方法
利用分区域的逐步构建辐射场的方法来减少计算压力
用解耦的外观模型来去除光照对建模的影响
在这里插入图片描述
直接在3d gs模型里渲染出来的图，它不考虑光照，所以和GT图像之间是有误差的，即便建模很准确，光照也会造成误差(漂浮的光斑)
解决方法是把模型和光照解耦，模型渲染出来之后的内容用CNN添加光照信息，做外观修正之后就能和GT图像保持一致
这时候求误差就不会受到光照变化的干扰，这样模型就能够专注地去学习几何，以及一个光照比较平均的外观

在这里插入图片描述

Periodic Vibration Gaussian（复旦大学）

自动驾驶下的场景重建，但是多了动态物体和视角的限制
主打的是动态的城市街景重建
对于高斯点来说，均值是它所在的位置，PVG这样的建模能偶控制它的移动，建模它在不同时刻出现在不同的位置
不透明度可以看作是它是否可见，也让它与时间建立关联
PVG思路是让时间参与建模，相当于建模每一时刻的场景，但并不是作用在整个场景上的，并不是每个时刻都建一个模型出来，而是精确地作用在每个高斯点上，作用在表示位置的均值和表示可见性的不透明度上
在这里插入图片描述
前景的动态物体就可以用短生命周期的PVG来建模
静态的背景物体就可以用长生命周期的PVG来表示

具体流程是这样的：
先查询t-▲t时刻的状态，在这个时刻下去计算一个速度v，蓝色箭头就是v的方向
v乘以▲t就是点该移动的距离，用这个v来预测t时刻下的PVG点的位置，拿这个位置来做渲染
把渲染结果和t时刻的GT数据求误差
并不是直接拿t时刻的PVG点来做渲染，而是用▲t之前的点去预测t时刻的状态，再拿预测的t时刻的点做t时刻下的训练的监督，相当于动态过程参与训练，从而对运动有更好的学习效果
在这里插入图片描述

文章目录

自动驾驶中的NeRF

[4]CLONeR：

Urban Radiance Fields

[6]S-NERF

Block-NeRF

Switch-NeRF

SceneRF

Behind the Scenes

大规模与自动驾驶场景重建:3D高斯

VastGaussian

Periodic Vibration Gaussian（复旦大学）

DrivingGaussian

相关文章：