当前位置：首页 > article >正文

论文阅读笔记——ReconDreamer

article 2026/2/18 11:59:22

ReconDreamer 论文

在 DriveDreamer4D 的基础上，通过渐进式数据更新，解决大范围机动（多车道连续变道、紧急避障）的问题。同时 DriveDreamer4D生成轨迹后直接渲染，而 ReconDreamer 会实时通过 DriveRestorer 检测渲染结果与物理规则的冲突，并反向调整高斯参数。

在这里插入图片描述

总结来看，ReconDreamer 是 DriveDreamer4D 的增强版，核心创新在于将「静态世界模型调用」升级为「动态渐进式知识融合」，从而解决大机动场景的渲染难题。

DriveRestorer
先利用原始数据训练一遍重建模型，然后沿原始轨迹生成渲染视频 $\hat{V_{ori}}=\mathcal{G}(\tau_{ori})$ 。
由于重建模型的欠拟合，会产生重影伪影，从不同训练阶段采样渲染视频，构成数据集 $\{\hat{V}_{ori}^k,V_{ori}\}$ 其中 $\hat{V}_{ori}^k$ 表示第 k 训练阶段采样的渲染视频。（模仿 DriveDreamer4D）对 $\hat{V}_{ori}^k$ 施加 mask，重点修复远景和天空等易失真的区域，通过 $\epsilon(\hat{V}_{mask})=\epsilon(\hat{V}_ori\bigodot M)$ 基于扩散模型的渐进式优化：
$\mathcal{L}_{\mathcal{R}}=\mathbb{E}_{\boldsymbol{z},\epsilon\sim\mathcal{N}(0,1),t}\left[\left\|\epsilon_t-\epsilon_\theta\left(\boldsymbol{z}_t,t,\boldsymbol{c}\right)\right\|_2^2\right]$
控制条件 c 为 $\hat{V}_{mask}$ ，3D 边界框与高清地图。
推理时，冻住 DriveRestorer 参数用于新轨迹渲染修复：
$V_{\mathrm{novel}}=\mathcal{R}(\hat{V}_{\mathrm{novel}},\mathcal{P}(s,\mathcal{T}_{\mathrm{novel}}^k)),$
其中 s 为 3D 边界框和高清地图， $\mathcal{P}(·)$ 表示将 s 对齐到 $\tau_{novel}^k$ 的投影变换。’
在这里插入图片描述

轨迹扩展：第k次更新时，新轨迹 $\tau_{novel}$ 扩展 $y=k\Delta y$ 米（ $\Delta y$ 为预设值，从 1.5m 开始，逐步生成 3m，6m）

数据生成：通过重建模型 $\mathcal{G}$ 渲染扩展轨迹视频 $\hat{V}_{novel}$ ，经 DriveRestorer 修复得 $V_{novel}$
加权更新：按采样概率 $w=\frac{k}{\sum_{j=1}^kj}$ 更新数据集：高伪影区域：70%修复数据+30%原始数据；低伪影区域：30%修复数据+70%原始数据。通过 KL 散度监控，保证数据分布不发生漂移。 $D_{\mathrm{novel}}=(1-w)\cdot D_{\mathrm{novel}}\cup w\cdot V_{\mathrm{novel}}$
原始数据： $\mathcal{L}_{\mathrm{ori}}(\phi)=\lambda_{1}\mathcal{L}_{\mathrm{ori}}^{\mathrm{RGB}}+\lambda_{2}\mathcal{L}_{\mathrm{ori}}^{\mathrm{Depth}}+\lambda_{3}\mathcal{L}_{\mathrm{ori}}^{\mathrm{SSIM}}$
新数据： $\mathcal{L}_{\mathrm{novel}}(\phi)=\lambda_1\mathcal{L}_{\mathrm{novel}}^{\mathrm{RGB}}+\lambda_3\mathcal{L}_{\mathrm{novel}}^{\mathrm{SSIM}}$
联合训练： $\mathcal{L}(\phi)=\mathcal{L}_{\mathrm{ori}}+\mathcal{L}_{\mathrm{novel}}.$

论文阅读笔记——ReconDreamer

相关文章：

论文阅读笔记——ReconDreamer

鸿蒙harmonyOS：笔记正则表达式

计算机网络——传输层(TCP)

英伟达与通用汽车深化合作，澳特证券am broker助力科技投资

Visual Studio 2022静态库与动态库创建及使用完全指南

C++中常见符合RAII思想的设计有哪些

CUDA Memory Fence 函数的功能与硬件实现细节

CSS学习笔记5——渐变属性+盒子模型阶段案例

[Java微服务架构]4_服务通信之客户端负载均衡

基于SpringBoot实现的高校实验室管理平台功能四

吴恩达深度学习复盘（1）神经网络与深度学习的发展

用Python实现资本资产定价模型（CAPM）

Linux进程管理之子进程的创建(fork函数)、子进程与线程的区别、fork函数的简单使用例子、子进程的典型应用场景、父进程等待子进程结束后自己再结束

妙用《甄嬛传》中的选妃来记忆概率论中的乘法公式

虚幻基础：UI

【MySQL篇】事务管理，事务的特性及深入理解隔离级别

项目实战-角色列表

fetch`的语法规则及常见用法

如何排查java程序的宕机和oom？如何解决宕机和oom？

26_ajax

代理模式（Proxy Pattern）实现与对比

MySQL - 数据库基础操作

Spring Boot热部署插件

pip install cryptacular卡住，卡在downloading阶段

AI大模型从0到1记录学习 day09

【FW】ADB指令分类速查清单

Kafka中的消息是如何存储的？

Altium Designer——同时更改多个元素的属性（名称、网络标签、字符串标识）

当模板方法模式遇上工厂模式：一道优雅的烹饪架构设计

c++位运算总结