当前位置：首页 > news >正文

51c自动驾驶~合集46

news 2026/2/10 7:29:02

我自己的原文哦~ https://blog.51cto.com/whaosoft/13050104

#世界模型会是L3自动驾驶的唯一解吗

三维空间占有率（3D Occupancy）预测的目的是预测三维空间中的每个体素是否被占有，如果被占有，则对应的体素将被标记。3D Semantic Occupancy是在三维空间内同时编码占用状态和语义信息，成为描述自动驾驶 3D 场景的一种极具吸引力的表示方式。而自动驾驶世界模型（World Model）具备对真实物理世界的理解能力，基于一些历史信息/状态，能够预测未来时刻的场景变化甚至agents的状态变化。因此将OCC和世界模型结合，除了可以实现当前时刻的OCC预测，还可以预测未来时刻的OCC演变，可以直接影响到自动驾驶的规划/决策，也是这两年自动驾驶研究的一个重点方向，预计2025年会有更多的工作问世,和大家一起复盘2024年OCC和世界模型相关的工作，并在文末总结未来的趋势~

Scene as Occupancy

paper: https://arxiv.org/abs/2306.02851
code:https://github.com/OpenDriveLab/OccNet

虽然OccNet不属于世界模型+OCC的范畴，但是有必要简单介绍一个这个工作，有助于理解后续介绍的方法。

人类驾驶员能够通过视觉系统轻松描述复杂的交通场景。这种精确感知的能力对于驾驶员的规划至关重要。为了实现这一点，一种将物理三维场景量化为具有每个单元语义标签的结构化网格地图的几何感知表示形式，即三维占用表示，将是理想的。与边界框的形式相比，占用表示的关键见解在于它能够捕捉场景中关键障碍物的细粒度细节，从而促进后续任务。先前或同时期的文献主要集中在单个场景补全任务上，我们可能会认为这种占用表示形式的潜力可能会产生更广泛的影响。在本文中，我们提出了 OccNet，这是一种以多视图为中心的管道，具有级联和时间体素解码器来重建三维占用。OccNet 的核心是一个通用的占用嵌入来表示三维物理世界。这种描述符可以应用于广泛的驾驶任务，包括检测、分割和规划。为了验证这种新表示形式的有效性和我们提出的算法，针对该算法，我们提出了 OpenOcc，这是首个基于 nuScenes 构建的高密度高质量 3D 占有率基准。实证实验表明，在多个任务中均有显著的性能提升，例如，运动规划的碰撞率可降低 15% - 58%，这证明了我们方法的优越性。

OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving

paper: https://arxiv.org/pdf/2311.16038
code: https://github.com/wzzheng/OccWorld

理解三维场景如何演变对于自动驾驶中的决策至关重要。大多数现有的方法通过预测物体检测框的运动来实现这一点，但无法捕捉到更精细的场景信息。在本文中，我们探索了一种新的框架，即在三维占用空间中学习世界模型，名为OccWorld，以同时预测自动驾驶汽车的运动和周围场景的演变。我们提出基于三维占用而非三维边界框和分割图来学习世界模型，原因有三：1）表达能力：三维占用能够描述场景更精细的三维结构；2）效率：三维占用率更易于获取（例如，从稀疏的激光雷达点中获取）。3）通用性：三维占用率能够适应视觉和激光雷达。为了便于对世界演变进行建模，我们在三维占用率上学习了一种基于重建的场景tokenizer，以获取离散的场景tokens来描述周围场景。然后，我们采用类似 GPT 的时空生成转换器来生成后续场景和ego tokens，以解码未来的占用率和自车轨迹。在广泛使用的 nuScenes 基准上进行的大量实验表明，OccWorld 能够有效地对驾驶场景的演变进行建模。OccWorld 还在不使用实例和地图监督的情况下产生了具有竞争力的规划结果。

OccWorld是两阶段模型：

VQ-VAE 的训练极大地阻碍了效率，并为第二阶段引入了性能瓶颈。为场景tokenizer找到合适的超参数在平衡重建和预测性能方面仍然具有挑战性
完全依赖于自回归方式的隐式特征。它要么忽略了相邻场景中显式的结构一致性，要么忽略了图像中容易获取的纹理信息。这些都阻碍了模型充分捕捉环境动态的能力

RenderWorld: World Model with Self-Supervised 3D Label

paper: https://arxiv.org/abs/2409.11356

仅基于视觉的端到端自动驾驶不仅比激光雷达与视觉融合的方法更具成本效益，而且比传统方法更可靠。为了实现经济且鲁棒的纯视觉自动驾驶系统，我们提出了 RenderWorld，这是一种仅基于视觉的端到端自动驾驶框架，它使用基于自监督高斯的 Img2Occ 模块生成 3D 占有率标签，然后通过 AM-VAE 对标签进行编码，并使用世界模型进行预测和规划。RenderWorld 采用高斯点阵来表示 3D 场景并渲染 2D 图像，与基于 NeRF 的方法相比，这极大地提高了分割精度并减少了 GPU 内存消耗。通过应用 AM-VAE 分别对air和non-air进行编码，RenderWorld 实现了更精细的场景元素表示，在自回归世界模型的 4D 占有率预测和运动规划方面均达到了最先进的性能。

两阶段训练范式。

OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving

paper: https://arxiv.org/abs/2409.03272

多模态大型语言模型（MLLMs）的兴起推动了其在自动驾驶中的应用。近期基于 MLLM 的方法通过学习从感知到动作的直接映射来执行动作，忽略了世界的动态以及行为与世界动态之间的关系。相比之下，人类拥有世界模型，能够基于三维内部视觉表征模拟未来状态，并据此规划行为。为此，我们提出了 OccLLaMA，这是一种占用-语言-动作生成式世界模型，它采用语义占用作为通用视觉表示，并通过自回归模型统一了视觉-语言-动作（VLA）模态。具体而言，我们引入了一种类似 VQVAE 的场景tokenizer，以高效地离散化和重建语义占用场景，同时考虑到其稀疏性和类别不平衡的问题。然后，我们为视觉、语言和动作构建了一个统一的多模态词汇表。此外，我们增强了大型语言模型（LLM），特别是 LLaMA，使其能够在统一的词汇表上进行下一token/场景预测，以完成自动驾驶中的多项任务。大量实验表明，OccLLaMA 在包括 4D 占用预测、运动规划和视觉问答在内的多项任务中均取得了具有竞争力的性能，展示了其作为自动驾驶基础模型的潜力。

两阶段训练范式。

An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training

paper: https://arxiv.org/abs/2412.13772

自动驾驶领域对世界模型的兴趣日益浓厚，这类模型旨在基于历史观测预测潜在的未来场景。在本文中，我们介绍了 DFIT-OccWorld，这是一种高效的 3D 占有世界模型，它利用了解耦动态流和图像辅助训练策略，显著提升了 4D 场景预测性能。为了简化训练过程，我们摒弃了之前的两阶段训练策略，并创新性地将占有预测问题重新表述为解耦的体素变形过程。我们的模型通过使用体素流对现有观测进行变形来预测未来的动态体素，而静态体素则通过姿态变换轻松获得。此外，我们的方法还引入了图像辅助训练范式以增强预测的可靠性。具体而言，采用可微体积渲染通过预测的未来体积生成渲染深度图，并将其用于基于渲染的光度一致性。实验表明了我们方法的有效性，在 nuScenes 和 OpenScene 基准测试中展示了其在 4D 占有预测方面的先进性能。该模型实现了精准预测、端到端运动规划和点云预测。具体而言，与现有的 3D 世界模型相比，它达到了最先进的性能，同时计算成本大幅降低。

效率和性能都比之前的两阶段模型好。

Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving

paper:https://arxiv.org/abs/2408.14197
project page: https://drive-occworld.github.io/

世界模型基于各种ego行为设想潜在的未来状态。它们嵌入了关于驾驶环境的大量知识，有助于实现安全且可扩展的自动驾驶。大多数现有的方法主要侧重于数据生成或世界模型的预训练范式。与上述先前的工作不同，我们提出了 Drive-OccWorld，它将以视觉为中心的 4D 预测世界模型适应于自动驾驶的端到端规划。具体而言，我们首先在内存模块中引入语义和运动条件归一化，该模块从历史 BEV 嵌入中积累语义和动态信息。然后，这些 BEV 特征被传递到世界解码器，用于未来占用和流预测，同时考虑几何和时空建模。此外，我们提出将灵活的动作条件（如速度、转向角、轨迹和指令）注入世界模型，以实现可控生成，并促进更广泛的下游应用。此外，我们还探索了将 4D 世界模型的生成能力与端到端规划相结合，从而能够利用基于占用率的成本函数连续预测未来状态并选择最优轨迹。在 nuScenes 数据集上进行的大量实验表明，我们的方法能够生成合理且可控的 4D 占用率，为驾驶世界生成和端到端规划开辟了新的途径。

OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving

paper: https://arxiv.org/abs/2405.20337
code: https://github.com/wzzheng/OccSora

理解 3D 场景的演变对于实现有效的自动驾驶至关重要。虽然传统方法通过单个实例的运动来建模场景的发展，但世界模型作为一种生成框架，能够描述一般的场景动态。然而，大多数现有的方法采用自回归框架来进行下一个token预测，这在对长期时间演变进行建模时效率低下。为了解决这个问题，我们提出了一种基于扩散的 4D 占有率生成模型 OccSora，用于模拟自动驾驶中的 3D 世界的发展。我们采用 4D 场景tokenizer来获取 4D 占有率输入的紧凑离散时空表示，并实现对长序列占有率视频的高质量重建。然后，我们在时空表示上学习扩散Transformer，并根据轨迹提示生成 4D 占有率。我们在广泛使用的 nuScenes 数据集上进行了大量实验，该数据集带有 Occ3D 占有率注释。OccSora 能够生成具有真实 3D 布局和时间一致性的 16 秒视频，这表明它能够理解驾驶场景的空间和时间分布。凭借轨迹感知的 4D 生成能力，OccSora 有可能成为自动驾驶决策的世界模拟器。

DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model

paper: https://arxiv.org/abs/2410.10429
project page: https://gusongen.github.io/DOME

我们提出了一种基于扩散的世界模型 DOME，它能够根据过去的占用情况预测未来的占用帧。这种世界模型捕捉环境演变的能力对于自动驾驶中的规划至关重要。与基于 2D 视频的世界模型相比，占用世界模型利用了原生的 3D 表示，具有易于获取的标注且不受模态限制。这种灵活性有可能促进更先进世界模型的发展。现有的占用世界模型要么因离散tokens而损失细节，要么依赖于简单的扩散架构，导致预测未来占用情况时效率低下且难以实现可控性。我们的 DOME 具有两个关键特性：（1）高保真度和长时生成。我们采用时空扩散Transformer，基于历史上下文预测未来的占用帧。这种架构能够高效地捕捉时空信息，从而实现高保真度的细节，并具备长时间生成预测的能力。（2）细粒度可控性。我们通过引入一种轨迹重采样方法来应对预测中的可控性挑战，这显著增强了模型生成可控预测的能力。在广泛使用的 nuScenes 数据集上进行的大量实验表明，我们的方法在定性和定量评估中均超越了现有的基准，在 nuScenes 上建立了新的最先进性能。具体而言，在占用重建方面，我们的方法在 mIoU 上比基准高出 10.5%，在 IoU 上高出 21.2%；在 4D 占用预测方面，在 mIoU 上高出 36.0%，在 IoU 上高出 24.6%。

GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction

paper: https://arxiv.org/abs/2412.10373
code: https://github.com/zuosc19/GaussianWorld

3D 占有率预测对于自动驾驶至关重要，因为它能全面感知周围环境。为了融合序列输入，大多数现有方法将先前帧的表示融合起来以推断当前的 3D 占有率。然而，它们未能考虑驾驶场景的连续性，并且忽略了 3D 场景演变所提供的强大先验信息（例如，只有动态物体在移动）。在本文中，我们提出了一种基于世界模型的框架，以利用场景演变进行感知。我们将 3D 占有率预测重新表述为一个基于当前传感器输入的 4D 占有率预测问题。我们将场景演变分解为三个因素：1）静态场景的自身运动对齐；2）动态物体的局部移动；3）新观察到场景的补全。然后，我们采用高斯世界模型（GaussianWorld）来明确利用这些先验信息，并在考虑当前 RGB 观测的情况下，在 3D 高斯空间中推断场景演变。我们在广泛使用的 nuScenes 数据集上评估了我们框架的有效性。我们的GaussianWorld在不增加额外计算量的情况下，将单帧对应模型的 mIoU 性能提高了 2% 以上。

Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving

paper: https://arxiv.org/abs/2407.21126

环境预测框架对于自动驾驶汽车（AV）在动态环境中的安全导航至关重要。激光雷达生成的占用网格地图（L-OGM）为场景表示提供了可靠的鸟瞰视角，能够实现自监督的联合场景预测，同时对部分可观测性和感知检测失败具有较强的鲁棒性。先前的方法主要集中在网格单元空间内的确定性 L-OGM 预测架构上。尽管这些方法取得了一定的成功，但它们经常产生不切实际的预测，并且无法捕捉环境的随机性。此外，它们还不能有效地整合自动驾驶汽车中现有的其他传感器模态。我们提出的框架在生成架构的潜在空间中进行随机 L-OGM 预测，并允许基于 RGB 相机、地图和规划轨迹进行条件设置。我们使用单步解码器来解码预测，该解码器能够实时提供高质量的预测，或者使用基于扩散的批处理解码器，该解码器可以进一步优化解码帧，以解决时间一致性问题并减少压缩损失。我们在 nuScenes 和 Waymo Open 数据集上进行的实验表明，我们方法的所有变体在定性和定量方面都优于先前的方法。

DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving

paper: https://arxiv.org/abs/2405.04390

以视觉为中心的自动驾驶由于成本较低，近来受到了广泛关注。预训练对于提取通用表示至关重要。然而，当前以视觉为中心的预训练通常依赖于 2D 或 3D 的预训练任务，忽略了自动驾驶作为 4D 场景理解任务的时间特性。在本文中，我们通过引入一个基于世界模型的自动驾驶 4D 表示学习框架来解决这一挑战，该框架被称为DriveWorld，能够从多摄像头驾驶视频中以时空方式预训练。具体而言，我们提出了一种用于时空建模的记忆状态空间模型，它由一个动态记忆库模块组成，用于学习具有时间感知的潜在动态以预测未来变化，以及一个静态场景传播模块，用于学习具有空间感知的潜在静态以提供全面的场景上下文。我们还引入了一个任务提示，以解耦适用于各种下游任务的任务感知特征。实验表明，DriveWorld 在各种自动驾驶任务中取得了令人鼓舞的结果。在使用 OpenScene 数据集进行预训练时，DriveWorld 在 3D 物体检测方面实现了 7.5% 的 mAP 提升，在在线地图绘制方面实现了 3.0% 的 IoU 提升，在多目标跟踪方面实现了 5.0% 的 AMOTA 提升，在运动预测方面实现了 0.1 米的 minADE 降低，在占用预测方面实现了 3.0% 的 IoU 提升，在规划方面实现了平均 L2 误差 0.34 米的减少。

MUVO: A Multimodal World Model with Spatial Representations for Autonomous Driving

paper: https://arxiv.org/abs/2311.11762
code: https://github.com/fzi-forschungszentrum-informatik/muvo

为自动驾驶学习无监督世界模型有可能极大地提升当今系统的推理能力。然而，大多数工作都忽略了世界的物理属性，仅关注传感器数据。我们提出了 MUVO，一种具有空间体素表示的多模态世界模型，以应对这一挑战。我们利用原始的摄像头和激光雷达数据来学习一种与传感器无关的世界几何表示。我们展示了多模态的未来预测，并表明我们的空间表示提高了摄像头图像和激光雷达点云的预测质量。

总结

OCC+世界模型的范式具有很大的潜力，相信接下来会有更多的相关工作；
使用diffusion-base的世界模型生成未来时刻的数据这个过程比较耗时，同时多帧以及多传感器的融合策略也可能会影响实时性；
OCC的演变本身依赖于世界模型的生成能力，但是目前训练一个精确理解物理世界演变的世界模型非常困难，因此一定程度上会影响这类模型的性能；
Gaussian的强大表达能力有助于提高帧间的一致性，而且相比NeRF,占用更少的资源，有待进一步探索。

#EnerVerse

智元机器人最新！首个机器人4D世界模型来了！

EnerVerse 主要科研成员来自智元机器人研究院具身算法团队。论文共同一作黄思渊是上海交通大学与上海人工智能实验室的联培博士生，师从 CUHK-MMLab 的李鸿升教授。博士期间的研究课题为基于多模态大模型的具身智能以及高效智能体的研究。在 CoRL、MM、 IROS、ECCV 等顶级会议上，以第一作者或共同第一作者身份发表多篇论文。另一位共同一作陈立梁是智元机器人的具身算法专家，主要负责具身空间智能与世界模型的研究。

如何让机器人在任务指引和实时观测的基础上规划未来动作，一直是具身智能领域的核心科学问题。然而，这一目标的实现受两大关键挑战制约：

模态对齐：需要在语言、视觉和动作等多模态空间之间建立精确的对齐策略。

数据稀缺：缺乏大规模、多模态且带有动作标签的数据集。

针对上述难题，智元机器人团队提出了 EnerVerse 架构，通过自回归扩散模型（autoregressive diffusion），在生成未来具身空间的同时引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型，EnerVerse 深度结合具身任务需求，创新性地引入稀疏记忆机制（Sparse Memory）与自由锚定视角（Free Anchor View, FAV），在提升 4D 生成能力的同时，实现了动作规划性能的显著突破。实验结果表明，EnerVerse 不仅具备卓越的未来空间生成能力，更在机器人动作规划任务中实现了当前最优（SOTA）表现。

项目主页与论文已上线，模型与相关数据集即将开源：

欢迎访问

主页地址：

https://sites.google.com/view/enerverse/home

论文地址：

https://arxiv.org/abs/2501.01895

如何让未来空间生成赋能机器人动作规划？

机器人动作规划的核心在于基于实时观测和任务指令，预测并完成一系列复杂的未来操作。然而，现有方法在应对复杂具身任务时存在如下局限：

通用模型局限性：当前通用视频生成模型缺乏对具身场景的针对性优化，无法适应具身任务中的特殊需求。
视觉记忆泛化能力不足：现有方法依赖稠密连续的视觉记忆，容易导致生成长程任务序列时逻辑不连贯，动作预测性能下降。

为此，EnerVerse 通过逐块生成的自回归扩散框架，结合创新的稀疏记忆机制与自由锚定视角（FAV）方法，解决了上述瓶颈问题。

技术方案解析

逐块扩散生成：Next Chunk Diffusion

EnerVerse 采用逐块生成的自回归扩散模型，通过逐步生成未来具身空间来引导机器人动作规划。其关键设计包括：

扩散模型架构：基于结合时空注意力的 UNet 结构，每个空间块内部通过卷积与双向注意力建模；块与块之间通过单向因果逻辑（causal logic）保持时间一致性，从而确保生成序列的逻辑合理性。
稀疏记忆机制：借鉴大语言模型（LLM）的上下文记忆，EnerVerse 在训练阶段对历史帧进行高比例随机掩码（mask），推理阶段以较大时间间隔更新记忆队列，有效降低计算开销，同时显著提升长程任务的生成能力。
任务结束逻辑：通过特殊的结束帧（EOS frame），实现对任务结束时机的精准监督，确保生成过程在合适节点终止。

灵活的4D生成：Free Anchor View (FAV)

针对具身操作中复杂遮挡环境和多视角需求，EnerVerse 提出了自由锚定视角（FAV）方法，以灵活表达 4D 空间。其核心优势包括：

自由设定视角：FAV 支持动态调整锚定视角，克服固定多视角（fixed multi-anchor view）在狭窄场景中的局限性。例如，在厨房等场景中，FAV 可轻松适应动态遮挡关系。
跨视角空间一致性：基于光线投射原理（ray casting），EnerVerse 通过视线方向图（ray direction map）作为视角控制条件，并将 2D 空间注意力扩展为跨视角的 3D 空间注意力（cross-view spatial attention），确保生成视频的几何一致性。
Sim2Real 适配：通过在仿真数据上训练的 4D 生成模型（EnerVerse-D）与 4D 高斯泼溅 (4D Gaussian Splatting) 交替迭代，EnerVerse 构建了一个数据飞轮，为真实场景下的 FAV 生成提供伪真值支持。

高效动作规划：Policy Head

EnerVerse 通过在生成网络下游集成 Diffusion 策略头（Diffusion Policy Head），打通未来空间生成与机器人动作规划的全链条。其关键设计包括：

高效动作预测：生成网络在逆扩散的第一步即可输出未来动作序列，无需等待完整的空间生成过程，确保动作预测的实时性。
稀疏记忆支持：在动作预测推理中，稀疏记忆队列存储真实或重建的 FAV 观测结果，有效提升长程任务规划能力。

实验结果

1. 视频生成性能

在短程与长程任务视频生成中，EnerVerse 均展现出卓越的性能：

在短程生成任务中，EnerVerse 表现优于现有微调视频生成模型，如基于 DynamiCrafter 与 FreeNoise 的扩散模型。
在长程生成任务中，EnerVerse 展现出更强的逻辑一致性与连续生成能力，这是现有模型无法实现的。

此外，EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证。

2. 动作规划能力

在LIBERO基准测试中，EnerVerse在机器人动作规划任务中取得了显著优势：

• 单视角（one FAV）模型在LIBERO四类任务中的平均成功率已超过现有最佳方法。

• 多视角（three FAV）设定进一步提升任务成功率，在每一类任务上均超越现有方法。

3. 消融与训练策略分析

• 稀疏记忆机制：消融实验表明，稀疏记忆对长程序列生成的合理性及长程动作预测精度至关重要。

• 二阶段训练策略：先进行未来空间生成训练，再进行特定场景动作预测训练的二阶段策略，可显著提升动作规划性能。

4. 注意力可视化

通过可视化 Diffusion 策略头中的交叉注意力模块，研究发现 EnerVerse 生成的未来空间与预测的动作空间具有较强的时序一致性。这直观体现了 EnerVerse 在未来空间生成与动作规划任务中的相关性与优势。

智元机器人通过 EnerVerse 架构开创了未来具身智能的新方向。通过未来空间生成引导动作规划，EnerVerse 不仅突破了机器人任务规划的技术瓶颈，还为多模态、长程任务的研究提供了全新范式。

#nuscenesSOTA

东北大学4D时空Lidar分割网络4D-CS

LiDAR点云的语义分割对于自动驾驶和移动机器人系统具有重大意义。大多数方法通过探索多扫描的时间信息来识别每个点的类别和运动状态。然而，这些方法常常忽略了空间和时间上的一致性分割，可能导致同一物体内的点被预测为不同的类别。为了解决这个问题，我们的核心思想是生成跨多个帧的聚类标签，这些标签可以反映物体的完整空间结构和时间信息。这些标签作为显式指导用于我们的双分支网络4D-CS，该网络结合了基于点和基于聚类的分支，以实现更一致的分割。具体来说，在基于点的分支中，我们利用历史知识通过多视图的时间融合来丰富当前特征。在基于聚类的分支中，我们提出了一种新策略来生成前景物体的聚类标签，并将其应用于收集点特征以派生聚类特征。然后，我们合并多个扫描中的相邻聚类以恢复由于遮挡而缺失的特征。最后，在点-聚类融合阶段，我们自适应地融合来自两个分支的信息以优化分割结果。广泛的实验验证了我们所提方法的有效性，并且在SemanticKITTI和nuScenes数据集的多扫描语义和移动物体分割上取得了最先进的结果。
代码地址 ：https://github.com/NEU-REAL/4D-CS.git

I. INTRODUCTION

LiDAR点云的语义分割是自动驾驶和移动机器人系统中的一项关键任务，它涉及识别每个点的类别。这对于下游任务，包括语义映射和长期自主导航，具有重要意义。

近年来，一些方法尝试对单个LiDAR帧进行语义分割。然而，这些逐帧分割算法忽略了一些有用的时间知识，特别是过去时刻对物体的不同且互补的观察，这使得处理遮挡和稀疏点的情况变得困难。此外，由于独立分离每一帧，这些方法无法区分LiDAR序列中物体的运动状态，导致在映射过程中出现幽灵效应。

为了克服上述限制，一些方法采用多扫描LiDAR点来恢复物体的完整外观，或利用时空特征来提高场景感知能力。此外，它们还探索了从LiDAR序列中提取潜在运动信息的潜力，以识别物体的运动状态。例如，Memory-Seg通过循环更新记忆特征来补偿当前帧由于遮挡造成的信息丢失。SVQNet通过聚合相邻历史点的信息进行局部特征编码，并选择时间上下文来完成不可见的几何形状，从而取得了有希望的结果。

然而，即使考虑了这种时间信息，有时对实例级信息的适当考虑不足，可能导致属于同一物体的点被归类到不同的语义类别。具体来说，如图1(a)所示，大型车辆的分割结果容易出现截断，因为网络通常关注点分类而忽略了实例级别的理解。然后，如图1(b)所示，尽管在某一时刻可以准确预测物体的运动状态，但模型仍然难以确保相邻时间中分割的一致性。因此，如何在时空空间中实现一致的结果呢？一种可能的方法是聚类。对于具有稀疏分布前景物体的室外场景，像DBSCAN这样的聚类方法可以提供完整的物体外观（见图1(e)和(f)），这适用于指导网络生成满足时空一致性的分割结果。

方法论

A. 概述

在本节中，我们提出了一种基于聚类的方法，称为4D-CS，它提高了同一对象所属点的分割结果的一致性。如图2所示，我们的方法包括基于点的分支、基于聚类的分支和点-聚类融合。对于图2(a)中的基于点的分支，我们首先使用自我运动将多帧点云对齐到当前点的坐标系中，并将它们输入骨干网络以提取特征。为了利用过去的知识，我们使用多视角时间融合（MTF）模块来合并多个视图上的时间特征，从而得到增强特征。对于图2(b)中的基于聚类的分支，我们根据历史预测生成聚类标签，并利用它们从点特征中聚合初始实例特征。然后，提出了一个时间聚类增强（TCE）模块来整合时间聚类特征，这些特征随后被分配给前景点以创建精细的实例特征。最后，在图2(c)中的点-聚类融合阶段，我们采用来自两个分支的特征来预测分割结果，然后在自适应预测融合（APF）模块中自适应地优化每个点的语义类别和运动状态。

B. 基于点的分支

如图2所示，我们使用姿态变换矩阵将过去的扫描转换到当前点的坐标系中。通过堆叠它们，我们可以得到密集点云，其中每个点包含3D坐标和距离激光雷达传感器原点的距离d。在点特征提取过程中，我们采用WaffleIron[14]作为我们的骨干网络，它首先结合K最近邻（KNN）和多层感知器（MLP）为每个点获取粗略的局部特征。此后，将这些点映射到不同视图的2D平面上以提取特征，避免了直接处理大量点云的计算负担。具体来说，我们将点特征沿z轴投影到x-y平面上，并利用2D卷积提取语义信息。然后，我们将2D特征反投影到点云上，并再次沿y轴和x轴映射到其他平面上。通过重复上述过程，我们可以实现高效的特征提取并生成点特征，其中是下采样点的数量。

多视角时间融合：为了充分利用时间信息，我们使用MTF模块将历史信息与当前特征相结合。最初，投影矩阵被应用于将历史特征转换到当前帧的坐标系中。然后，如图3(a)所示，我们依次将转换后的特征和输入对应于x-y、x-z和y-z平面的2D融合块中进行时间融合。2D融合的过程如图3(b)所示。首先，将点特征输入沿特定坐标轴投影到2D网格中。然后，我们在同一网格内平均点特征，得到大小为的2D特征。接下来，它们沿通道维度组合，并使用1x1卷积执行特征融合。然后将2D特征反投影到相应的3D点上，替换原始特征。最后，通过在不同视图上执行上述步骤，我们可以嵌入历史知识并获得增强特征，从而减少由于遮挡造成的信息丢失。

C. 基于聚类的分支

大多数语义分割网络[10],[13]通常缺乏实例级感知，这将导致属于同一对象的点的语义预测不一致（图1(a)和(b)）。为了解决这个问题，我们旨在利用多扫描的聚类结果作为额外信息来增强语义分割中的时空一致性。

聚类标签生成：由于点云序列的连续性，我们可以采用自我运动将过去的扫描与当前点对齐，并将历史预测分配给当前帧。然后，对于被归类为前景的点，我们可以使用DBSCAN将它们分割成多个聚类并获得聚类标签（图1(e)和(f)）。

具体来说，如图4(a)所示，我们通过以下步骤将历史语义预测转移到当前点：(1) 标签初始化：由于关注前景分割的一致性，我们将历史预测映射到背景、前景和道路状。同时，t帧中的所有点都初始化为“未标记”。(2) 非地面标签分配：首先，我们通过变换矩阵将历史非地面点转换到t帧的坐标系中。接下来，我们将3D空间分割成多个大小为的体素，并将历史点输入相应的体素中。通过最多投票操作，基于其点中最常见的类别分配体类。然后，我们根据坐标关系将体类分配给当前帧。(3) 地面标签分配：如果两帧之间存在平移，则当前帧中的地面点可能没有来自历史帧的附近对应点，导致许多地面点在小体素步骤(2)中仍然未标记。因此，我们使用更大更平的体素为“未标记”的点分配道路状标签。

为了获得包含时空信息的前景聚类结果，我们对多帧的堆叠点云进行聚类（图4(b)）。然而，由于前景对象可能在移动，一些邻居Missing or unrecognized delimiter for \left\tilde{C}t={c_i}{i=1}^{N_c}，其中N_c$是中的第j个点，L表示预测的类别。

实例特征聚合：这部分旨在根据聚类标签收集基于点的分支的所有点特征以产生实例信息。一种简单而有效的方法是将同一聚类中的所有点特征聚集起来$$\left{u_i\in R^D\right}{i=1}^{N_c}。同时，点的坐标也被平均以产生聚类中心G_t=\left{g_i\in R^3\right}{i=1}^{N_c}$。然而，由于点云的稀疏性或遮挡，DBSCAN可能会将同一对象的点分割成多个聚类，导致聚类不能很好地反映实例信息。因此，我们提出了一个时间聚类增强（TCE）模块，通过与多帧相邻聚类的组合来补充聚类特征，并提高聚类信息的完整性。

在TCE中，我们通过变换矩阵将历史聚类中心投影到当前坐标系中，并将其与当前聚类组合以获得新的聚类中心和相应的特征密集点，这是多帧如图所示的。然后，我们保留被归类为前景聚类的点，我们使用线性层o查询。并且特征的uisters 被投影到$$和值向量。之后，我们将的通道分成h组，并使用分组向量注意力[16]来聚合靠近的聚类特征，表示为：

其中是位置编码函数，是不同邻居的所有的集合。表示可学习的分组权重编码。同时，增强的聚类特征表示为。最后，我们将聚类特征分配给相应的前景点。对于剩余的点，我们用零填充它们的特征，并得到与大小相同的最终点级聚类特征。

D. 点-聚类融合

为了结合两个分支的语义特征和实例信息，并获得时空一致的分割结果，我们提出了一个自适应预测融合（APF）模块，在点-聚类融合阶段自适应地合并两个分支的预测结果。如图5所示，对于来自不同分支的特征，我们采用特定的头部分别估计每个点的语义类别和运动状态，获得语义逻辑分数和运动逻辑分数。然后，为了对两个分支的预测逻辑分数进行加权，我们将点特征沿通道维度连接起来，并通过两个不共享权重的MLP计算置信度分数，其值范围从0到1。

之后，置信度分数用于合并t的预测逻辑分数可以表示为以下公式：

E. 损失函数

在训练过程中，给定地面真实标签，我们采用每个点的预测语义逻辑分数和运动逻辑分数来计算损失，如下所示：

其中和分别是语义和运动预测的交叉熵损失。和是语义和运动结果的多项式软最大损失[27]。该损失函数作为一个可微分的替代品，旨在优化用于衡量分割质量的交并比（IoU），从而补偿交叉熵损失在优化目标中的不足。

IV. 实验

A. 数据集

SemanticKITTI[31] 是一个广泛使用的室外场景语义理解数据集。它利用64束激光雷达收集点云，并包含22个激光雷达序列，其中序列00至10为训练集（序列08为验证集），序列11至21为测试集。语义分割任务分为单次扫描（19个类别）和多次扫描（25个类别），前者仅区分对象类别，后者还需识别前景对象的运动状态。此外，SemanticKITTI-MOS是另一个基准，仅确定点的动态和静态状态。另外，nuScenes[32] 由32束激光雷达传感器收集的1000个驾驶场景组成，提供16个语义类别。然后，按照[29],[30]的方法，我们使用真实的3D边界框创建额外的8个移动类别。

B. 评估指标

我们采用交并比（IoU）来评估不同方法。IoU定义为，其中TP、FP和FN分别表示真阳性、假阳性和假阴性。由于我们采用了两个分支，我们采用mIoU作为评估指标，它表示所有类别的IoU平均值。对于MOS基准，我们使用移动对象的IoU作为评估指标。

C. 实现细节

在训练和测试过程中，我们使用SemanticKITTI数据集的三连续帧点云作为输入。对于nuScenes数据集，激光雷达以20Hz的频率运行，我们选择时间步长为2的三帧以更好地捕捉对象运动。我们采用WaffleIron[14]（6层）作为骨干网络。与[14]类似，我们通过保留每个10厘米体素中的一个点来下采样点云。对于WaffleIron的超参数，我们在SemanticKITTI上使用和40厘米的网格分辨率，在nuScenes上使用和60厘米的网格。对于聚类标签生成，非地面分配的体素大小设置为，地面分配的体素大小为。此外，我们在没有历史特征的情况下训练网络45个周期，使用两块NVIDIA RTX 4090 GPU。之后，冻结骨干网络，并对剩余模块额外训练45个周期。我们采用AdamW[33]优化网络，权重衰减为0.003，批量大小为6。此外，我们的数据增强策略包括随机翻转、旋转、缩放以及与polarmix[14]结合的实例cutmix。

D. 评估结果

定量结果：如表I和表II所示，我们将我们的算法与其他方法在SemanticKITTI和nuScenes的多扫描语义分割任务上进行比较。结果表明，所提出的4D-CS在mIoU方面达到了最先进的性能。与基线[14]相比，我们在大型前景对象上取得了显著改进，卡车提高了22.5%，其他车辆提高了17.0%，动态卡车提高了26.2%，移动的其他车辆提高了14.7%。在表II中，我们的方法在大多数前景对象上也实现了IoU的提升，特别是对于大型对象，如卡车和公共汽车。这表明显式的聚类先验可以帮助网络关注对象的完整空间信息，而不是依赖于其他算法从有限感受野获得的局部特征，从而获得更好的前景对象分割结果。此外，我们在SemanticKITTI的MOS基准测试集上的表现也进行了比较。我们的方法在测试集上超越了最先进的工作MF-MOS[24]，IoUM提高了6.8%。这验证了在点和实例级别传输历史特征不仅可以提高分割的完整性，还可以增强模型识别对象运动状态的能力。

定性比较：语义定性结果如图6所示。它显示了基线网络在大对象上的分割结果容易因缺乏实例感知能力而出现截断。相比之下，我们的方法在引入聚类信息后可以实现一致的分割结果。此外，对于图7中显示的移动对象定性结果，基线模型仍然难以完全分割移动对象，而我们的方法成功实现了这一点。总体而言，我们的方法在准确一致地识别前景对象的类别和运动状态方面具有更强的能力。

E. 消融研究

在本节中，我们在SemanticKITTI数据集的验证集上进行了全面的消融实验。

F. 运行时间和内存

在本节中，我们使用NVIDIA RTX 4090 GPU来测量SemanticKITTI数据集上多扫描语义分割的推理时间。使用三帧点云，我们的基线方法（WaffleIron）需要117毫秒，并占用8.2 GB的内存。相比之下，我们提出的算法需要151毫秒的网络处理时间和5毫秒的聚类标签生成时间，使用9.9 GB的内存。

结论

文章的主要贡献如下：

● 一个使用显式聚类信息来解决同一前景物体内点类别不一致的双分支分割网络。

● 一种获取聚类标签的新策略，伴随着三个模块：多视图时间融合、时间聚类增强和自适应预测融合，旨在通过利用实例信息和整合时间特征来改进分割。

● 在SemanticKITTI和nuScenes数据集的多扫描语义和移动物体分割上取得了最先进的性能。我们的代码将很快发布。

文章名字：4D-CS: Exploiting Cluster Prior for 4D
Spatio-Temporal LiDAR Semantic Segmentation

#DrivingWorld

一次搞定自驾场景的可控生成和长时序生成？科大和地平线提出：基于视频GPT构建自动驾驶世界模型

本文介绍了港科大和地平线联合提出的DrivingWorld模型，该模型基于视频GPT构建，能够实现自动驾驶场景的可控生成和长时序生成，通过创新的空间-时间解耦机制和高效的编码解码模块，显著提升了视频生成的质量和长度，为自动驾驶技术的发展提供了新的支持。

DrivingWorld的主要作者是来自香港科技大学和地平线公司的研究团队，他们专注于世界模型和自动驾驶技术的研究，力求在这两个领域做出更多的贡献。

论文地址：https://arxiv.org/abs/2412.19505

代码地址：https://github.com/YvanYin/DrivingWorld

1. 背景介绍：

世界模型（World Model）是一种可以模拟世界动态的模型，能够基于过去的观测实现对未来状态的预测，因此被视为实现AGI的关键途径。世界模型在自动驾驶领域展现了巨大的潜力，不仅具备对环境和驾驶状态的深刻理解，还为未来轨迹预测与自动驾驶决策提供了重要支持。然而，要通过World Model实现高逼真度的驾驶场景生成并非易事。香港科技大学与地平线联合推出的基于自回归架构的DrivingWorld模型，为构建精准的自动驾驶世界模型带来了全新突破。

2. 为什么世界模型要采用自回归模型？

同样是输出未来的视频，为什么不采用扩散生成模型（Diffusion Model），而是采用自回归模型？为了回答这个问题，小编向GPT-4o询问了这个问题。

3. 如何实现这一步呢？

美国知名公司Wayve率先展示了针对自动驾驶的世界模型GAIA-1。该模型采用了自回归路线，但是由于其采用的传统GPT框架缺乏空间与时间动态建模能力，其生成视频质量与时间都有很大提升空间。

，时长00:11

为解决这个问题，DrivingWorld创新性地引入空间-时间先解耦后融合的机制，提出了一种基于Next-State自回归式框架的方法，用于实现超长时序视频预测和可控的视频生成。尽管相关领域已有一些研究，但是DrivingWorld在视频生成长度方面仍然取得了明显突破。

高效的视频可量化的编码和解码模块：首次提出视频可量化编码解码器，相比于单张图压缩方案，在降低视频抖动和提升连续性方面取得了明显改进，FID指标上相对于SOTA提升了17%；
解耦时序信息和多模态信息实现可控预测和超长时序预测：DrivingWorld能够生成未来>40s的video，相较于当前的SOTA方法（最长15s）在时序长度上有了显著提升；
高效的自回归模型设计以实现并行化预测：DrivingWorld采用了空间-时间先解耦后融合的设计，采用next-state prediction的自回归策略，有效降低了token预测的时间复杂度，在复杂视频生成任务中展现了良好的性能表现。

4. 实验结果：4.1 长时序生成

以下展示了一个长时序视频生成的示例。DrivingWorld在不同帧之间能够捕捉到连贯的3D场景结构。

4.2 解决Drift问题

在生成长序列时，模型经常会因为误差积累导致显著的drift问题。DrivingWorld引入了一种有效的mask token策略，可以缓解drift的影响，从而提升生成质量。

4.3 生成质量评估

DrivingWorld与现有的SOTA方法在NuScenes验证集上进行了性能比较。其中，蓝色表示 NuScenes数据被包含在模型的训练集中，橙色则代表zero-shot测试结果。“w/o P”指未使用私有数据进行训练的情况。具体对比结果如下：

从结果可以看出，DrivingWorld 模型不仅能够生成更长的视频序列（最长达40s / 400帧），同时在FID和FVD上也展现出了较强的竞争力。

4.4 更多Demos展示

4.4.1 可控生成

，时长00:18

，时长00:20

，时长00:29

4.4.2 长时序生成demo

，时长00:51

，时长01:02

5. 未来工作：

展望未来，DrivingWorld 还有很大的发展潜力。DrivingWorld 的研究团队计划进一步融入更多模态信息，如车辆传感器数据、地图信息等，并整合多视图输入，如不同角度的摄像头画面。通过全方位融合多模态和多视角数据，有望进一步提升模型在复杂驾驶环境下的理解能力、动作控制精度以及视频生成的准确性，从而推动自动驾驶系统整体性能和可靠性迈向新的高度，为自动驾驶技术的广泛应用奠定坚实基础。

#自动驾驶决策规划 - 基于模型的预测方法

1. 预测系统概述

通过已有的感知信息及常识，推理出目标一段时间后的行为，来决定自己当前的动作。

自动驾驶系统架构

1.1 预测系统的必要性

Cut In 场景

对于隔壁车道目标 cut in 场景，如何平衡召回率（Recall）和准确率（Accuracy），对决策规划分别有何影响？

如果recall过低，隔壁车辆切入，会存在误检，存在碰撞风险。
如果Accuracy过低，可能存在误识别隔壁车切入，存在误制动问题。

召回率（Recall）和准确率（Accuracy）

召回率（Recall）和准确率（Accuracy）都是用于评估分类模型性能的重要指标，但它们侧重点不同，适用于不同的场景。

召回率（Recall）

召回率主要衡量的是模型能够识别出多少实际存在的目标（正样本）。它的核心关注点是减少漏报，即确保尽可能多的目标被正确识别，特别是在自动驾驶场景中，涉及检测行人、车辆、障碍物等时尤为关键。

其中，TP（True Positive）：正确预测为目标的数量，FN（False Negative）：漏掉的实际目标的数量。
召回率高意味着系统漏掉的目标较少，减少了碰撞或事故的风险，但它可能会增加误报的风险。

准确率（Accuracy）

准确率衡量的是所有预测中，模型预测正确的比例。它包括正确的正样本（TP）和负样本（TN）。

其中，TN（True Negative）：正确预测的负样本，FP（False Positive）：误报的负样本。
准确率高并不总是意味着模型好，特别是在数据不平衡的情况下。

预测结果的的多模态性、不确定性。

意图多模态，预测不可能百分百准确。预测系统主要考虑一下几个问题：

如何基于环境信息进行建模？
模型应该输出哪些信息？
对于长时间的预测应该怎么做？

预测结果多模态、不确定

1.2 预测系统的架构

输入表征：agent feature、map、其他辅助信息.

输出表征：trajectory\intention、object、scenarios.

预测系统架构

轨迹预测的输入输出

1.3 预测系统的发展

预测系统的发展

2. 定速度预测

一维匀速运动模型：感知信息不确定，道路结构缺失等情况，适用CV 模型。

目标做匀速直线运动，加速度为0。现实中速度会有轻微扰动变化，可视为具有高斯分布的噪声。

一维运动：仅沿着 x 轴或 y 轴方向运动，因此状态向量只需要描述位置和速度。

一维状态向量：

局限：与感知耦合密切, 目标的yaw 与 velocity会影响预测的轨迹。感知系统存在的误差，会直接影响到预测。

二维匀速运动模型

二维模型：在 x-y 平面上运动，状态向量需要同时描述 x 和 y 两个方向的位置和速度。

二维连续模型

二维离散模型

3.定曲率预测

目标车过去按照某一曲率运动，假设会继续按照该曲率运动。

定曲率意味着物体的运动轨迹具有恒定的曲率，即轨迹为一个圆弧或圆的一部分。
在物体运动时，转向角速度（yaw rate）保持不变，因此物体会沿着一个固定半径的圆弧运动。

定曲率预测模型

缺点：曲率估计不准确时，误差会比较大。

定曲率预测的bad case

共同局限：长时间区间会失准！

定速度、定曲率预测对比

4. 短时预测与长时预测

预测不确定性随着预测时间变长显著增大。

短期预测：基于运动学模型或者预测网络，完成短时推演，一般为 3s。
长期预测：结合意图预测，稳定长时预测，避免远端发散，符合道路结构一般为 8s+。

如何解决预测时间越长，预测越不准确的问题？引入意图预测。

5. 基于手工特征的意图预测

意图：预先定义的车流行为，如变道，左右转等。意图一般会绑定到车道、路口两个信息上。
分类：基于车辆的行为特征，对车辆的意图进行分类。意图转变为分类问题。

常见预测场景

5.1基于SVM的意图分类

支持向量机Support Vector Machine（SVM）

支持向量机Support Vector Machine

以预测目标车是否会变道为例，二分类问题。

手工特征标记：距离目标车道的横向距离、距离目标车道的横向速度、道路实线、虚线、目标车与前车的距离或者速度等等。

特征如何选取？选择哪些维度？拓展特征维度有什么意义？
变道前一段时间，预测出其变道行为，需要提前多久？（超参，变道趋势不一样。如果较早，缓慢变道与Lane keep不易区分，较晚，较低预测性能）

预测目标车是否会变道

SVM 输入输出案例

5.2 基于神经网络的意图预测

将原始信息进行编码，使用高维向量进行输入，通过多层感知机预测障碍车会选择哪一条车道行驶，输出每个车道线的概率。DNN + Rule兜底。

Apollo 5.0

5.3 其他的输出建模方法

将路口进行扇区划分进行交通路口的变道意图预测

输入：障碍物自身运动历史，路口车道信息，周围其他障碍物信息。
模型：以障碍物车朝向为参考方向，划分为12个扇形区域；记录每个扇形区域内是否有离开该路口的车道；将问题转化为12元分类问题。
输出：每一个扇形区域行驶的概率，然后对扇形区域内的所有lane segment赋上概率。

Apollo 5.0 对路口的处理

5.4 其他的输入建模方法

人工构造的输入特征有天然局限性

输入：语义地图渲染的方式，将障碍车的历史运动状态、车道的形状与连接关系，以及其他车的运动状态和历史，都转化为图像信息。（看图说话，根据图像信息，预测目标轨迹）

Multimodal Trajectory Predictions for Autonomous Driving using Deep Convolutional Networks

5.5 其他的分类模型建模

基于隐马尔可夫模型的意图估计

马尔可夫模型

6.基于模型的轨迹预测

6.1 如何将短时轨迹结合长时意图，生成长时轨迹？

长时轨迹生成 -> 轻量化的planner

通过意图估计得到目标车要驶入某个车道，并根据运动趋势等得到短时的运动轨迹，如何构造出长时预测轨迹？

优化目标：贴合短时轨迹、符合常识意图

约束条件：满足运动学约束、与地图等信息匹配

寻找一个规划器，得到未来的轨迹点，并且要做到轻量化。

Planner 三把斧：搜索、采样、优化，对该问题，不适用。使用现有的轨迹生成方式，如贝塞尔曲线、样条曲线等。

曲线生成方式

控制点的生成策略 --> 决定曲线的生成。意图预测判断出车道后，可以灵活基于地图抽取控制点。

Bezier曲线基本原理

Bezier曲线基本原理

Bezier曲线的数学方法

基于Bezier曲线的长时轨迹生成过程

意图预测 --> 根据意图查询地图，得到车道信息等 --> 长时控制点
短时预测轨迹 --> 短时控制点
长时控制点+短时控制点 --> 短时控制点与长时控制点衔接、插值去重拟合 --> 长时轨迹

基于Bezier曲线的长时轨迹生成过程

6.2 EPSILON: Intention Prediction Network

arxiv.org/pdf/2108.07993.pdf

Intention Prediction Network Pipline

Agent历史轨迹 --> 特征抽取 --> 坐标转换/编码 --> 拼接/解码/归一化 --> 候选路径及概率

思考：全局归一化是否合适？

Intention Prediction Network Structure

Intention Prediction Network Application

意图到轨迹：使用前向仿真,forward simulation，对于交互更加友好些，完成长时轨迹推演。

#图森未来创始人陈默终结了造车项目

我的造车创业画上句号了，以后也不会再涉足。”

图森未来的创始人之一陈默，这样告诉我们。

智能车参考刚刚获悉，图森转型AIGC并改名CreateAI后，掌舵人陈默决定不再投入造车，之前创立的氢燃料重卡公司Hydron准备出售。

Hydron曾有个中文名图灵智卡，是为了配合图森自动驾驶业务而生的卡车新势力。

曾在创办第一年以10亿美金（70亿RMB）估值一鸣惊人，但现在也随着图森自动驾驶业务的谢幕，走向结局。

70亿造车独角兽，要卖了

图森未来的北京总部办公室现在已经挂上了“CreateAI”的牌子。董事长陈默的办公室大门上，赫然写着新Title：首席制作人。

办公室的陈设充满戏剧性对立：桌子上还摆放着重卡发动机模型，陈默说是当年合作造车的车企送的；而黑板上张贴的则是金庸群侠传的游戏项目资料。

一边是未尽的过去，另一边是还未开始的未来。

就在这间办公室中，陈默向智能车参考透露了最终决定：终止造车项目Hydron，寻找买家接手。

并且悉数清盘，不做任何保留。这也是陈默目前与汽车、自动驾驶相关的最后一批“硬”资产。

它们包括一辆车长5米7，轴距3米4的全尺寸SUV MARK X：

非承载车身，7座。搭载200度磷酸铁锂电池，分双电机和四电机版本，续航均超过700公里。

一辆车长5米1，轴距3米1的中大型SUV MARK Y：

承载式车身，5座。搭载112度磷酸铁锂电池，有双电机四驱和单电机后驱两个版本，续航分别对应520和550公里。

以及一辆车长5米9，轴距3米7的全尺寸皮卡 MARK T：

底盘形式，动力、续航参数和7座全尺寸SUV相同。

三款车都搭载博世的辅助驾驶功能，包括最基本的L2全家桶：

每款车也有对应的右舵版本。

这两款SUV和一款皮卡车，就是Hydron 3年造车的全部成果和最有价值资产。

陈默强调，三款车不是PPT，而是高度完成状态的准量产车。

从汽车正向研发流程来看，Hydron已经完成了最重要的前三个阶段：

1）概念设计阶段的总体布局、造型设计、油泥模型。
2）工程设计阶段的布局、造型验证，动力总成、白车身、底盘、内外饰、电气架构设计。
3）样车试制阶段风洞、场地、道路等等实验。

甚至在决定停止投入之前，已经确定了部分供应链，走到了量产前夜。

对于愿意接手的买家来说，“Hydron是到手就能直接量产的优质资产”。

并且要价还不高，陈默自述在这场交易中只寻求偿还股东投资。

Hydron公开的融资总额是8000万美元，约合5.8亿人民币，也是Hydron的全部融资。

而如今寻求出售，陈默直言：

只要价格合理都能接受，可以不要求8000万美元。

多少钱算合理？国内设计款车至少一个多亿人民币，同时还能节省两年设计时间…

至于股东层面，陈默说一开始就不存在什么对赌协议，而且投资人对Hydron的进展、成果也都认可，“尽量偿还投资，是达成的一致共识”。

不过有一个明显问题：

之前Hydron以卡车新势力身份亮相，并且明确和图森自动驾驶落地相互配合，这也是投资人认可入局的核心因素。但造车3年后，成果却是电动SUV。

为什么发生这样的重大转变？投资人又为什么会认可？

和图森经历的一系列风波，有直接关系吗？

Hydron从何而起，又为什么要卖

陈默向我们梳理了Hydron的时间线。

图森未来在北美最早合作的卡车厂名叫Navistar，陈默回忆当时因为Navistar规模小、业务弱，希望借图森的技术“翻身”，所以在合作中图森话语权较高，能更好贯彻自动驾驶公司的追求和理想。

但2021年大众收购了Navistar，合作中的话语权也转向以车厂为主。

图森判断以自己为运营主体的合作形式可能生变（后面也被证实）。所以在2021年中，Hydron被提上日程，一开始是作为技术落地的车辆储备，随后不久就被确认为全力配合图森的L4量产计划。

当时，包括侯晓迪在内的董事会一致通过了相关决议，由陈默牵头去做Hydron，并且留下了相关会议记录。

陈默着重强调的是，侯晓迪自始至终都知晓Hydron的存在，而这也成为后来董事会发难、开除侯晓迪的导火索之一。

Hydron造氢能卡车的过程中（已有几台样车上路测试），实际已经和图森的业务产生了协作。比如陈默透露，侯晓迪曾经就传感器的类型位置等等向Hydron提出过要求。

2022年，图森高层先后发生了几次重大变动。首先是3月，陈默辞任图森董事长，6月又退出了图森董事会，本人的说法是“专心经营Hydron”，也避免给图森带来监管层面的额外麻烦。

随后图森的事件走向失控。

先是6月侯晓迪提出“二选一”，于是陈默出面“劝退”吕程，让侯晓迪将董事长、CEO、CTO三权集于一身。

随后“以白人为主”的图森董事会发起了对在任的侯晓迪、以及离任的陈默的一系列调查，认为图森和Hydron存在不合规的技术转移，并且在10月罢免了侯晓迪的一切职务。

陈默说自己对其中的细节不甚知情，因为他本人当时在国内忙Hydron相关的事：“实在不明白大权在握的侯晓迪，怎么就这么轻易被解除职务了”。

但陈默提到，当时侯晓迪在面对董事会，以及后续监管调查中撒了慌，“说对Hydron毫不知情”。

陈默同样表示不理解侯晓迪为何做出这样的表态，不过他推测，这样的行为可能是董事会将他赶出公司的原因之一。

后面的故事我们详细追踪过。11月，陈默回归，与侯晓迪联合行使超级投票权清理了旧董事会，随即由唯一董事侯晓迪重新任命吕程为CEO、陈默为董事长。

侯、陈、吕重新形成同盟，但分歧也越来越严重。

陈默、吕程的观点是，因为地缘政治等等不可抗因素，图森在北美落地自动驾驶几乎无望，所以主张卖掉北美业务，转战中国、澳洲、日本等等市场。

但陈默说侯晓迪“坚决不同意，一定要在北美做自动驾驶，并且在22年底秘密启动了全新的L4级自动驾驶卡车项目”，也就是2023年公布的Bot Auto。

此时，图森落地北美无望，其他海外市场表态又模棱两可，于是陈默开始考虑Hydron业务的转型，并且最终选择了北美和国内市场都处于空白的全尺寸新能源SUV，以及衍生的电动皮卡品类。

时间快进到2024年3月，图森最终和北美监管达成“和解”，但也彻底失去了自动驾驶落地的机遇，海外市场大门紧闭，核心技术人才持续流失。

2024年底图森决定转型AIGC赛道，专注动漫影视。

因自动驾驶梦想而诞生的Hydron，最终也被决定清盘出售。

主导Hydron 3年，陈默怎么评价

Hydron之所以走到今天这一步，与图森遭遇的地缘政治挫折有很大关系。

最后和北美监管达成的所谓和解协议，图森在书面承认唯一的“过错”，就是转岗了几个员工到Hydron，既无利益输送，更谈不上耸人听闻的“安全因素”，否则双方也不会以“和解”告终。

对于侯晓迪和管理层之间的分歧，陈默评价为“科学家的追求”和“商人特性”的天然冲突，谈不上谁对谁错。

不过正是这样的分歧，让图森和Hydron在CIFUS禁令发出前，错失了最后闪转腾挪的窗口。

至于Hydron本身的业务，陈默给予相当高的评价，认为它相对国内海外，都是优质资产。

首先产品本身属于市场稀缺品类，完成度还很高，到手即可量产。

其次，资金利用率高，8000万美金完成3款新能源量产车，没有额外负债。

第三，没浪费投资人的钱，没有对赌协议，没有股权纠纷，而且Hydron没欠员工一分钱。

如短期无人愿意接盘，陈默也做了长期打算：目前Hydron团队已经收缩到最小（大约10人左右），可以用极低成本维持，继续寻找买家。

但无论最终Hydron是否成功出手，对于陈默而言，自动驾驶、造车的生涯都要画上句号，以后不会再涉足了。

“做AIGC的成本可控，只有自动驾驶的1/5甚至更低，2026年图森就能开始赚钱”，动漫和游戏也是陈默个人爱好所在。

2024年12月底的图森股东大会，结果是包括陈默在内的6名董事全员保留，说明股东同样认可支持图森的转型规划。

“如果当年从未参与过图森的任何事务，我会比现在快乐得多”——CreateAI 的首席制作人陈默，这样感叹和总结自己的图森生涯。

#地极华理魔元舟远博歌

智驾2024的10个第一

2024年，智驾市场竞争已经进入白热化阶段，头部企业已经展现出了先发优势。我们汇总了10个行业第一，记录2024年的智驾市场。

Momenta

城市NOA市占率第一

最近，佐思汽研公布了一项研究数据，在2023年1月至2024年10月期间，Momenta城市NOA的市场份额达到60%，位列第三方智驾公司市场第一。

目前城市NOA规模量产上车的国内第三方智驾供应商主要有5家：Momenta、华为Hi模式、Bosch+WeRide、百度和元戎启行。也就是说在与华为，博世，百度等大公司PK的过程中，Momenta拔得头筹。

Momenta能够突围绕不开3个因素：首先是成立时间早，Momenta成立于2016年，是最早一批智驾公司；第二个就是战略选择，当时大部分自动驾驶公司都押宝L4自动驾驶，Momenta是为数不多坚持渐进式路线的玩家。这也让它获得了一众车企的青睐，赢得了不少战略投资，包括丰田，上汽，奔驰都是Momenta的股东，这也奠定了双方在后期的合作基础。

最后一个就是技术实力，这个其实和前两个有一定的因果关系，因为出发得早，且路线坚定，所以技术积累深。按照官方的宣发口径来看，Momenta和元戎是目前唯二实现一段式端到端量产上车的第三方智驾供应商，还有一个是主机厂理想。

Momenta CEO曹旭东一直有一个观点，将来独立第三方智驾玩家不会超过3个，而且是721的市场配比，Momenta会是其中一家。至少在今天看来， Momenta的可能性还是很大的。

地平线

计算平台出货量最多的

国内智驾公司

2024年可以说是地平线持续攀升的一年。征程家族累计出货量突破700万，2024年4月发布的征程6目前累计已经拿下20+合作伙伴。预计2025年出货量将突破千万。

此外，蔚来第三品牌萤火虫已经官宣采用地平线方案。至此，新势力蔚小理三强，地平线已经拿下其二。显然已经成为国内智驾上最具潜力的独角兽公司。

值得注意的是，不止计算平台，在智驾算法上，地平线也在努力引领行业标杆，其集合全部优势资源打造的城市领航高阶智驾功能SuperDrive在2024年已经准备就绪，并且计划在2025年上半年量产。地平线创始人余凯将其称之为捅破天的智驾技术。和单纯聚焦软件算法的公司不一样，地平线软硬结合的能力无疑让智驾能力拥有更多可能性。

极氪

首个自研智驾交卷的传统车企

2024年，极氪智驾实现了1年2次提速，2024年初计划城市领航在2025年初上线，但是8月份直接提升到2024年底，然而到了10月，极氪直接宣布智驾城市领航功能公测用户推送。速度之快甚至让很多新势力都望尘莫及。

刚刚结束的CES 2025展会上，极氪再放大招，宣布基于英伟达Thor芯片自研了智驾域控，通过低成本、高性能，多接口的优势，提升极氪在智驾上的平台化能力。

一个值得注意的事情是，虽然大部分传统车企目前都在采用第三方智驾公司的方案，但也没有丢下自研路线。每家车企基本都有自己的嫡系部队，有的是单独的子公司，比如长城毫末，奇瑞大卓等；有的是集团的智驾部门，比亚迪研究院，上汽研究院，吉利研究院等。

在所有转型的车企中，极氪无疑是最值得研究的一个样本。它是第一个交卷的企业。甚至从某种程度来说，极氪智驾的成败会直接影响所有传统车企对智驾自研的重新评估。因为不管牵头人还是资源供给，极氪都堪称传统自研派最豪华的阵容，如果极氪都搞不成，其他传统自研车企的可能性也不会太大。

理想

智驾成长最快OEM

2024年应该是理想对外阐述智驾理念最多的一年。这一年理想在智驾项目上急下猛药，连续实现了两段式端到端到一段式端到端的跨越，并且还在预研更新的VLA系统。根本原因在于理想认为智驾已经成了用户购车的首要因素。理想自己内部数据显示，其AD MAX车型销售比例从上半年的20%上升到了下半年的50%。

从“端到端+VLM”，从智能汽车到硅基家人，李想甚至“魔怔”地把公司定位都改了，并不是一家汽车公司，而是一家人工智能公司。2024年，理想无疑是智驾上成长最快的公司，但智驾除了先进的算法还有工程落地的苦活累活，欲速则不达。希望理想能够走得快更要走得稳。

轻舟智航

第一家高阶智驾交付

突破50万的智驾公司

2024年底，轻舟智航宣布其「轻舟乘风」NOA智驾方案累计上车量突破50万，并且成为第1家达成50万级量产交付的中高阶智驾方案商。这里的高阶智驾主要指的是高速NOA功能。

此外，轻舟智航还获得了业内首个基于征程6M的量产新定点。

轻舟智航在智驾圈一直是一个非常励志的存在。它并不是最早一批成立的智驾公司，同期成立的很多企业要么倒闭，要么目前处境艰难，只有轻舟上升势头正猛。2024年连续获得2轮融资，高阶方案上车量不断突破，并且获得新定点。

这得益于轻舟对市场和技术的敏感度。2021年之前，轻舟主要聚焦L4无人小巴。2021年以后，随着辅助驾驶量产上车，轻舟开启双线并行战略。不管L4还是L2，轻舟始终以商业落地作为第一驱动要素。L4聚焦更容易落地的无人小巴，L2先发更容易落地的高速NOA。这使得即便在市场艰难时期，轻舟也具备一定的造血能力。

博世

第一个智驾交卷的国际Tier1

汽车圈新势力不只是主机厂，还包括供应商。相较于地平线，Momenta等新科技公司，博世在汽车供应商里也算是妥妥地老牌大厂。

外界喜欢说大象难转身，但这些对博世并不存在。博世中国仅用了18个月就完成了高阶智能驾驶的量产，成为全球首个量产高阶智驾的国际Tier1，涵盖城市领航，智能泊车等功能。目前已经在奇瑞星途星际元上车，并且完成了5次重大OTA。

按照计划，博世的两段式端到端无图智驾方案也将在近期推送上车，并且计划在2025年年中推出一段式端到端。而基于地平线J6E/M平台开发的博世中阶智驾，也计划在2025年年中本土量产交付。

面对来势汹汹的打擂者，博世在用实际行动捍卫国际大厂的威严。

文远知行

全球Robotaxi第一股

2024年10月，文远知行在纳斯达克上市，成为全球通用自动驾驶第一股。

我一直觉得在所有自动驾驶公司里，文远是一个比较另类的存在。有两个点值得注意：首先是商业化能力，自动驾驶很难，但文远知行似乎却似乎一直游离在艰难之外，在商业化上总能找到见缝插针的机会。文远的L4无人环卫和无人小巴已经获得了规模化运营，拥有持续造血能力；

第二，文远也是全球所有自动驾驶公司中布局最广的企业，涵盖自动驾驶出租车、自动驾驶小巴、自动驾驶货运车、自动驾驶环卫车、高阶智能驾驶五大板块。由于商业化问题，其他自动驾驶公司一直在收缩，聚焦，但文远始终坚持多线并行。

2024年以来，随着技术突破，自动驾驶也在持续迎来利好，文远前期的布局最多，一旦自动驾驶开花结果，收获也就最多。

华为

智驾系统上车最多

2024年，华为是国内智驾系统上车车型最多的品牌，智选车+HI模式差不多10+车型。包括问界，享界，智界，尊界共6款车型，HI模型长安系阿维塔和深蓝，岚图，极狐，埃安等8款左右，总计超过10＋车型。上车数量越多就意味着更多的数据积累，更好的用户反馈来推动系统迭代。

华为在智驾圈一直有极高的影响力，但是很多人并不理解到底强在哪。如果单纯把某一项拿出来对比，华为都不算是最强的。智驾算法目前上车一段式端到端的有Momenta，元戎和理想，华为要到今年上半年才能上车一段式端到端。激光雷达最强的是禾赛和速腾，芯片最强的是英伟达。

华为的强项主要在两点。一个是智驾的体系能力。华为拥有全套智驾解决方案，包括算法软件，数据处理算法，激光雷达，芯片，域控等硬件，包括再上层的云计算中心，系统能力保证了华为的全局掌控力。

另一个是强大的工程能力。在智驾完全实现AI数据驱动之前，智驾依然是个堆人力的工作，需要大量的人力资源去干更多的脏活累活，比如在开城泛化方面，有的企业10城为一个网格，广州深圳珠海汕头等，只要在深圳调试完成之后，这个网格里的所有城市全部推送，这就导致不同城市的智驾差异性非常大；而有些企业开城的网格划分非常细，可能5个城市，甚至2个城市一个网格，每个网格派专门的人员去做开城测试。人力越多，意味着开城的网格划分越细，体验也就越好。

朗歌科技

CVPR 2024

国际自动驾驶挑战赛最佳选手

自从2023年余承东，何小鹏公开抨击高精地图之后，高精地图在智驾领域的声音每况愈下。车企们甚至将“无图”宣传作为技术强弱的判定标准。（这里“无图”主要指的是没有高精地图）

2024年，朗歌科技的一条重磅信息将智驾地图重新拉回舞台中央。当年6月5日，CVPR 2024 国际自动驾驶挑战赛（Autonomous Grand Challenge）落下帷幕，朗歌科技在无图驾驶（Mapless）上斩获全球冠军与创新奖。其核心是以HD自动化和轻地图全自动的周天多模态地图大模型为基础，利用标精地图提供的道路拓扑先验，引入辅助深度监督，并提出了一种混合时序融合模块，获得了最好的道路拓扑结构认知性能。从而大幅提升智驾在复杂场景下的能力。

智驾的泛化要求确实让高精地图的生存受到了挑战，但朗歌等新贵们也在用实际行动告诉主机厂，智驾地图不可或缺。

元戎启行

智驾供应商最大单笔融资

2024年以后3年，智驾公司将会迎来最后的鏖战阶段。大家都很难再拿到外部融资，基本都拼的是自造血能力。在这样的市场大背景下，元戎启行拿到了长城汽车的一亿美元融资，这是智驾供应商2024年的最大一笔融资。（这里默认华为属于主机厂阵营）

元戎的突围很大程度上得益于其在技术上的激进策略。元戎身上带着创始人周光很深的激进主义色彩。按照周光的说法，从前融合到无图NOA，再到端到端方案，元戎都是最早提出这些理念的选手。

有主机厂的人透露，其实在2023年中旬元戎就搞出来端到端架构，并且邀请主机厂的人测试。

元戎智驾之路并非一帆风顺，之前聚焦L4和城市快运，后来转型L2聚焦城市领航，端到端到来之后，元戎希望通过一套系统实现城市领航和Robotaxi两个场景的覆盖。好在大决战前夕，元戎拿到了充足的弹药。并且建立了深度合作关系。

以上就是2024年智驾行业的10个第一，在接下来3年是自动驾驶大规模量产的3年，也是竞争最激烈的3年，以上选手未必每个都能留在牌桌上，但胜者大概率会从他们中产生。拭目以待。

#世界模型与自动驾驶场景生成

框架

mmagic：https://github.com/open-mmlab/mmagic

综述

World Models for Autonomous Driving: An Initial Survey

The JEPA model aims to construct mapping relationships between different inputs in the encoding space by minimizing input information and prediction errors.

Towards Knowledge-driven Autonomous Driving

Embodied AI is a facet of intelligence emphasizing the direct interaction between an intelligent system and its environment, involving perception, understanding, and action.

扩散模型

Diffusion model

扩散模型 - Diffusion Model【李宏毅2023】_哔哩哔哩_bilibili

Diffusion扩散模型大白话讲解，看完还不懂？不可能！

多模态预训练CLIP

Diffusion论文：Denoising Diffusion Probabilistic Models

StableDiffusion论文：High-Resolution Image Synthesis with Latent Diffusion Models

Diffusers

stable-diffusion-v1-5权重地址：runwayml/stable-diffusion-v1-5 at main

pytorch手写Diffusion Model：The Annotated Diffusion Model

Stable Diffusion with Diffusers

手写扩散模型-diffuers介绍_哔哩哔哩_bilibili

世界模型

GAIA-1（2023.9.29）

MAGICDRIVE（2024.1.26）

论文地址：MAGICDRIVE: STREET VIEW GENERATION WITHDIVERSE 3D GEOMETRY CONTROL

github：https://github.com/cure-lab/MagicDrive

Drive WM（2023.11.29）

https://github.com/BraveGroup/Drive-WM?tab=readme-ov-file

MUVO（2023.11.23）

多模态生成

DriveDreamer（2023.11.27）

https://github.com/JeffWang987/DriveDreamer

https://drivedreamer.github.io/

DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation（2024.3.11）

多视角视频生成

WorldDreamer

https://world-dreamer.github.io/

OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving

Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in CARLA-v2)

Driving with LLMs

DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models（2024.2.25）

DriveVLM集成了场景描述、场景分析和分层规划的思维链（CoT）模块

VLM计算量大，提出DriveVLM Dual，将DriveVLM的优势与传统自动驾驶流水线协同混合

据说可以部署在orin芯片上，但猜测只是在orin上跑通，还没有大规模部署到车上

DriveVLM识别了一个倒塌的树木，并给出了稍微向右偏移的驾驶决策

Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving

论文地址：Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving

github：https://github.com/wayveai/Driving-with-LLMs

ADriver-I: A General World Model for Autonomous Driving

GAN（图生图）

CYCLEGAN

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

mmgeneration：https://github.com/open-mmlab/mmgeneration?tab=readme-ov-file

Lidar GAN

GAN-Based LiDAR Translation between Sunny and Adverse Weather for Autonomous Driving and Driving Simulation

#LargeAD

用于自动驾驶的大规模跨传感器数据预训练

论文链接：https://arxiv.org/pdf/2501.04005
项目主页：https://ldkong.com/LargeAD

摘要

本文介绍了LargeAD：用于自动驾驶的大规模跨传感器数据预训练。视觉基础模型（VFMs）的最新进展彻底改变了2D视觉感知，但是它们在3D场景理解方面的潜力（特别是在自动驾驶应用中）仍然没有得到充分探索。本文引入了LargeAD，这是一种专门为跨不同现实世界驾驶数据集的大规模3D预训练而设计的多功能、可扩展框架。本文框架利用VFMs从2D图像中提取语义丰富的superpixels，它们与激光雷达点云对齐以生成高质量的对比样本。这种对齐有助于跨模态表示学习，增强2D和3D数据之间的语义一致性。本文引入了若干项关键创新：i）VFM驱动的superpixel生成，用于详细的语义表示；ii）VFM辅助的对比学习策略，用于对齐多模态特征；iii）superpoint时间一致性，以保持跨时间的稳定表示；iv）多源数据预训练，以在各种激光雷达配置上泛化。与最先进的方法相比，本文方法在基于激光雷达的分割和目标检测的线性探测和微调任务中均实现了显著的性能提升。在11个大规模多模态数据集上进行的大量实验突出了本文方法的卓越性能，证明了在现实世界自动驾驶场景中的适应性、效率和鲁棒性。

总结

本文引入了LargeAD，这是一种可扩展且可泛化的框架，专门为各种激光雷达数据集上的大规模预训练而设计。本文方法利用视觉基础模型（VFMs）来生成语义丰富的superpixels，将2D图像特征与激光雷达点云对齐以改进表示学习。通过结合VFM辅助的对比学习、superpoint时间一致性和多源数据预训练，本文框架在多项3D场景理解任务中实现了最先进的性能，包括基于激光雷达的语义分割和3D目标检测。在11个不同数据集上进行的大量实验突出了本文框架在域内和域外场景中的有效性。本文框架不仅在下游泛化方面表现出色，还在分布外条件下展现出更优的鲁棒性。消融研究进一步验证了本文设计选择的重要性，展现了在预训练阶段加入多个数据集的重要影响以及本文框架的每个单独组件的优势。研究结果突出了LargeAD推进现实世界自动驾驶应用的潜力，它提供了能够适应各种传感器配置和驾驶环境的更通用、更具适应性的模型。在未来工作中，本文旨在将该方法扩展，以加入额外的传感器模态（例如雷达和热成像），并且进一步扩大自动驾驶系统的跨模态预训练范围。

#海量数据的挑战下，如何进行高效场景测试与性能安全评估？

01 前言

随着自动驾驶技术的快速发展，庞大的测试数据和复杂的场景需求为性能与安全评估带来了巨大挑战。如何高效管理海量数据、挖掘关键场景，并满足以Euro NCAP（European New Car Assessment Programme，欧洲新车安全评鉴协会）为代表的严格评估标准，已成为行业亟待解决的核心问题。

这不仅关乎技术研发的效率与精度，更是智能驾驶车辆进入市场、提升竞争力的关键前提。本文我们将围绕如何应对海量数据所带来的挑战进行探讨，分享提高场景测试与性能安全评估的见解。

02 场景测试与性能评估的挑战

在自动驾驶技术的研发与测试过程中，“场景”是一个核心概念，也是验证自动驾驶系统性能和安全性的关键手段之一。无论是行业专家还是普通关注者，谈及自动驾驶测试时，都会提到“场景”以及“基于场景的测试”。

图 1 自动驾驶场景概念图

场景通常由静态要素（道路、交通标志、建筑物等）、动态目标（车辆、行人等）、环境条件（天气、光照等）、行为模式（变道、急刹车等）组成，旨在描述车辆可能面临的各种复杂情况。由于内容极为丰富，国际标准ISO 34501通过四层抽象分级模型对其进行分类，即功能场景、抽象场景、逻辑场景和具体场景，后两者便是当下关注的重点。

图 2 四层抽象分级模型与场景测试挑战

对于测试而言，除了在各个场景下的性能表现，通常还得满足一些法规或者评估标准。例如，对于车辆的安全性而言，最广为人知的便是Euro NCAP的评级。

Euro NCAP的评级结果不仅会为消费者选购车辆提供重要参考，也是诸多汽车制造商和技术开发者研发过程中明确的安全目标。无论是传统燃油车还是智能驾驶车辆，获得Euro NCAP的高评分都是进入欧洲市场、提升市场竞争力的重要前提。

然而，随着自动驾驶技术的高速发展，测试需求与标准的日益复杂化，自动驾驶研发与测试中所产生的数据日益增加，对逻辑场景与具体场景的需求也逐步攀升，这也就为场景测试带来了诸多挑战：

海量的测试数据与场景

自动驾驶测试需要处理极其庞大的场景库和测试数据，如何高效地管理和利用这些数据成为一大难题。

指标分析与数据管理的难度

随着测试指标的逐渐增加，如何对测试结果进行全面、准确的分析，以及如何高效地管理测试数据，都是亟待解决的问题。

性能与安全评估方法的效率

自动驾驶系统的性能和安全性评估需要高效快捷的方法，以应对大规模测试的需求。

真实场景向仿真场景的转换

为了实现重复测试，需要将真实场景高效地转化为仿真场景，即LogSim到WorldSim的转化。

高昂的测试成本

应对上述种种挑战需要投入大量的资源，包括人力、时间和资金。

面对这些挑战，我们尝试在云端搭建一个模块化的数据管理与场景挖掘平台，并集成Euro NCAP 道路稳健性协议（包括速度辅助系统、车道支持系统和辅助驾驶），进而实现了高效场景测试与性能安全评估。

图 3 数据管理与场景挖掘概览

03 数据管理与高效分析方法

在自动驾驶测试中，海量的驾驶数据与复杂的场景构建是基础，同时也是挑战。如何高效地管理这些数据，并从中提取出有意义的场景，成为验证自动驾驶系统性能与安全性的关键环节。3、4章节将从数据管理、聚合分析、场景提取与评估技术以及场景导出四个方面，详细探讨如何高效处理海量数据并挖掘关键场景。

数据管理技术：高效处理海量信息

对于场景测试或者以Euro NCAP为代表的性能评估而言，通常会产生大量的驾驶数据，例如Euro NCAP 2026年新版安全驾驶汽车辅助协议（Safe Driving Vehicle Assistance）就明确提出部分功能的评估需要满足至少2000公里的测试。

面对海量的驾驶记录与复杂的场景需求，数据管理需要兼顾高效性、灵活性与协作性。对此，我们尝试基于云搭建模块化的数据管理平台，旨在实现驾驶数据的高效处理、评估与检查。

a. 驾驶数据摘要与高级查询

通过鼠标单击查看驾驶记录的摘要信息，获取清晰的驾驶数据概览，并采用事件（Event）、操作设计域（ODD）或场景（Scenario）三类标签，以组合的方式快速查询需要的驾驶记录。

图 4 快速摘要与高级查询

b. 可视化界面与团队协作

基于相机视角、感知还原、GPS轨迹、车辆速度等多维度创建可视化界面，对场景进行深入分析。同时，采取URL分享的方式，实现团队成员之间的高效协作与共同分析数据。

图 5 自定义可视化界面

聚合分析技术：从海量数据中洞察规律

除了单一场景的快速查询与分析，针对海量驾驶数据的整体规律分析同样至关重要。为此，我们使用聚合分析的方法，通过多级指标（Metrics）对驾驶数据进行整理、分类和聚类分析，加速发现数据中的潜在规律。

图 6 聚合分析

a. 多级指标的灵活分析

通过采取感知、行为、舒适度等多级指标进行分析。例如，当想要了解“自动驾驶系统开启状态”、“特定速度区间”、“白天”的违规率，就可以设定对应指标，构建指标矩阵与直方图，随着指标的增加，矩阵与直方图会产生动态变化，得以快速掌握概况以及各个指标下统计出的违规率。

b. 一键聚类与场景跳转

聚合分析技术能够基于指标矩阵对驾驶记录进行自动聚类，并支持关键场景的快速跳转。单击矩阵中的特定数值即可直接查看对应的场景列表，并快速跳转到可视化界面，查看场景细节，进行深入分析。

04 场景挖掘、评估与OpenX场景导出

为了在大量驾驶数据的挑战下提高场景测试与评估的效率，我们基于感知算法从原始驾驶数据中提取出场景，将原有的大量里程与时间浓缩为了一系列特定场景，并结合了自定义标准与Euro NCAP标准建立了多种预设评估方式，保障效率与准确性的同时尽可能节省时间与精力。

场景提取与评估：挖掘关键场景与性能见解

如何从大量的驾驶数据中提取有意义的场景并进行性能评估，是自动驾驶测试的重要环节。我们通过对激光雷达、相机、GPS等原始传感器输入的数据进行感知，从真实或仿真数据中高效挖掘场景，提供多维度的性能与安全见解。

图 7 场景挖掘流程示意图

a. 自动清除空驶里程

驾驶数据中通常存在大量没有特殊事件发生的空驶里程，占据了大量存储空间但对测试无意义。我们通过设定场景提取的条件，例如自车速度、障碍物速度、自车与障碍物纵向距离等，自动剔除这些“空驶里程”，准确提取出常用场景（如SOTIF、ISO 26262、Euro NCAP等标准规定的场景），进而节省时间成本。

b. 性能与安全评估

提取的场景可以基于预设的Euro NCAP或自定义标准进行性能评估。例如，设定最大速度或碰撞时间（TTC）等指标，就可以快速筛选出不符合预期的场景，并通过可视化界面查看详细信息。对于失败的场景，一键点击跳转到数据管理与分析平台，查看感知还原的场景、相机视频、速度等细节进行深度分析。

图 8 自定义标准与Euro NCAP标准的场景评估

场景导出器：从LogSim到WorldSim的转换

为了推动仿真测试的便捷化，我们基于相机图像、激光雷达点云、GPS定位信息等原始驾驶数据，通过内部的感知算法将其转化为仿真场景，完成了从LogSim到WorldSim的高效转换。转化后的仿真场景能够被导出为仿真所需的ASAM标准文件格式（OpenSCENARIO与OpenDrive），实现数字孪生。

图 9 场景导出器：一键导出与自定义导出

数据输入支持多种数据格式（如RosBag、LCM、ADTF等），并可以根据需求自定义导出场景的时间范围（最长30秒），导出的场景文件可以直接导入支持标准OpenX格式文件的仿真器（如aiSim5），根据需要进行修改后运行仿真测试。

图 10 联动aiSim仿真器的场景仿真示例

05 集成式Euro NCAP道路评估器

为了更快速且可靠地对驾驶系统性能安全进行评估，并帮助在未来Euro NCAP的安全辅助评估中拿到高评分，数据管理与分析平台（DAP）内将集成Euro NCAP道路评估器（On-road Evaluator），获得基于海量驾驶数据的深刻见解。

基于Euro NCAP协议的三大评估板块

通过在数据管理与分析平台中集成Euro NCAP道路评估器，可以支持对道路ADAS性能快速提供评估结果，减少评估时间和成本，同时确保严格遵守既定的标准，帮助在评定中获得更高的星级。

图 11 道路评估器三大评估板块

Euro NCAP道路评估器主要针对Euro NCAP 2026协议归纳出三大板块进行评估：

SAS（Speed Assist System，速度辅助系统）
LSS（Lane Support System，车道支持系统）
AD（Assisted Driving，辅助驾驶）

这些板块进一步被细分为多个功能模块，例如AEB（自动紧急制动）、LKA（车道保持辅助）、SLIF（速度限制信息功能）等，覆盖了智能驾驶车辆在不同场景下的关键安全功能。

Euro NCAP道路评估器工作流及特点

通过道路评估器可以快速测试ADAS功能，例如SLIF与LKA，并快速评估Euro NCAP KPI，自动生成反馈报告，使得直击问题根源与优化系统性能变为可能，进而在最终评定中得以获得更高的星级。

图 12 Euro NCAP道路评估器工作流程

道路评估器的工作流分为以下几个步骤：

基于参考传感器硬件设备采集驾驶数据
使用 Euro NCAP On-Road Evaluator 进行数据处理
基于 ODD 的 Euro NCAP 道路 KPI 评估
快速得到 KPI 计算和评分的反馈

通过上述工作流，Euro NCAP道路评估器便能够做到在完全遵循Euro NCAP中关于SAS、LSS、AD的要求的前提下，基于操作设计域（ODD）对车辆进行快速评估，节省大量时间和资源。

图 13 速度限制信息功能示意图（SLIF）

结合DAP的基础功能模块，道路评估器可以实现数据可视化、相机视图、数据管理的定制化功能，如图13所示，便于深入研究特定的失败事件或异常场景。在此基础上，通过精确的评估算法，道路评估器能够避免代价高昂的返工，最大限度上节省该方面的成本。

06 结语

在自动驾驶技术的研发与测试中，场景测试是验证系统性能与安全性的核心手段。康谋IVEX方案通过高效的数据管理、场景挖掘与性能评估技术，解决了海量数据处理、复杂场景构建、高昂测试成本等难题，并深度耦合Euro NCAP相关协议，推动基于真实世界场景的安全评估标准化。

通过数据驱动的方式，IVEX方案不仅提升了系统的测试效率，还能够助力智能驾驶车辆在Euro NCAP评定中获得更高评分，加速自动驾驶技术的研发与落地，为行业发展提供重要支撑。

#DiffusionDrive论文解读

原文：DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

作者单位：华中科技大学 & 地平线

发表时间：2024.11

项目地址：GitHub - hustvl/DiffusionDrive: Truncated Diffusion Model for Real-Time End-to-End Autonomous Driving

Disclamer

这篇总结仅仅列出了论文中的精华部分：作者的动机，发现的问题，以及如何解决这些问题。其中有一些个人的理解一般会放在括号或者引用字体中，如有错误还望和大家一起讨论更正!

简介

本文将diffusion的网络结构的思想引入到端到端自动驾驶的任务中，并着重解决了

<1> 多步降噪带来的计算量问题

<2>模态坍缩的问题

方案亮点：

加入了prior multi-mode anchors来减少diffusion中的计算量，让模型能够从anchored Gaussian Distribution里面学习到denoising从而得到最终的多模态轨迹规划。

解读：这里的改进实际上是把random Gaussian noise改成了基于“预先设计好的多条可能的轨迹线”（也就是文中多次提到的anchors）来采样gaussian noise。相当于从源头上输出上就缩小了模型的搜索空间。

级联(cascade)的diffusion decoder，加强模型与场景上下文的互动

效果：

在降噪阶段有10倍的速度提升，只需要2步去噪
在planning-oriented NAVSIM数据集上，达到88.1PDMS
在4090显卡上的推理速度为45 FPS

Introduction：

之前的一些work(Transfuser, UniAD, VAD)直接去回归一条确定的自车轨迹，没有考虑到驾驶行为的不确定性和多模态性。直到VADv2中，把连续的动作空间离散化成一系列固定的anchor轨迹（4096个anchors），然后在预测出的置信度上去采样这些anchors，来得到多模态的轨迹预测。然而这样做的缺点是，“预先定义好的anchor轨迹”这本身就限制了预测轨迹的数量和质量——简而言之，无法覆盖全部场景。

与之相比，diffusion模型可以通过去噪过程，基于高斯分布在连续的动作空间来采样多模态的驾驶动作。

一些早期的尝试：直接在Transfuser的模型基础上，把单模态轨迹回归的方式替换成了简单的diffusion策略，（确定的mlp-regression替换成conditional diffusion model）但是发现了两个问题：(1) 20步的去噪步骤带来了极大的计算量（延时从0.2ms --> 6.5ms） (2) 从高斯噪声采样得来的轨迹之间有非常严重的overlap，甚至坍缩成了单模态输出。

由此引出了改进点：将高斯分布分割成多个以prior anchors为中心的sub-Gaussian distributions——叫做anchored Gaussian distribution。利用truncated diffusion policy，把去噪的步骤从20降低到了2

为了加强conditional scene context，使用了基于transformer的diffusion decoder，会与感知模块的structured queries，BEV，PV features一起交互，通过一个sparse deformable attention机制。另外，作者引入了一个cascade的机制来在每一步去噪步骤对轨迹重建进行refine。

主要贡献点：

第一次在端到端自动驾驶领域引入了diffusion模型，并提出了一个truncated diffusion策略来解决原始diffusion模型中的“模态坍缩”和大计算量的问题。
设计了一个高效的diffusion decoder与conditional information进行交互，达到了更好的重建效果。
在NAVSIM数据集上达到了88.1 PDMS的跑分，在4090显卡上的推理速度为45 FPS
展示了DiffusionDrive可以生成多模态且可行的轨迹

Method3.1 Diffusion简介

Conditional diffusion model

一种forward diffusion的过程，慢慢地在data sample中加入噪声：

3.2 Vanilla Diffusion Policy存在的问题3.2.1 将Transfuser变成conditional diffusion model

将模型中的MLP回归层替换成基于UNet架构的[1]。在评估过程中，采样了一个随机噪声，然后逐步进行refine（20步），相比于原始的Transfuser，这个改动给planning跑分带来了小幅度的提升（PDMS↑ +0.6）。但同时带来了两个巨大的问题：

问题1：模态坍缩

作者从高斯分布中随机选取了20个噪声作为初始状态，并用20步对其进行去噪过程。如下图所示，20步之后所有不同的输出模态都坍缩成了几乎是同一条轨迹。

问题2：计算量大

20步的去噪过程来将随机噪声变成一个可执行的轨迹，计算量太大，将原本的FPS从60降低到了7.

3.3 解决方案 - Truncated Diffusion

因为人类驾驶员是有固定的驾驶模式的，所以决定不再从标准的高斯分布中随机初始化，而是设计了一个anchored Gaussian distribution。

Anchored Gaussian Distribution

一、训练阶段

二、推理阶段

输入的初始状态还是从anchored Gaussion distribution中采样得到“噪声轨迹”
在每一步的去噪过程中，上一步得到的预估轨迹会传递到下一步，最终预测出条轨迹和其对应的置信度
更新规则：在每次得到了当前timestep的预测之后，作者使用了DDIM[2]的更新规则来为下一个timestep去采样轨迹
优点：训练时使用的预测轨迹数不会影响到推理时的预测轨迹数。也就是,可以是任意数字，可以根据不同部署平台的计算资源任意调整。

3.4 模型结构

Diffusion Decoder

输入从anchored Gaussian distribution采样来的噪声轨迹
使用deformable spatial cross-attention来与BEV或者PV特征进行交互，这个交互是基于轨迹坐标系的（想必是根据轨迹的坐标点进行reference point的选择）
在轨迹features和agent/map信息之间做cross attention，然后接上一个FFN
Timestep Modulation layer，用来对diffusion timestep信息进行编码，而后接上一个MLP来预测置信度以及offset(相对于初始的噪声轨迹坐标）
当前层的diffusion decoder layer的输出，会作为下一层decoder的输入
在推理时使用这些cascade diffusion decoder来逐步对轨迹进行去噪，并且在不同的denoising timestep使用的参数是共享的。
最终选择置信度最高的轨迹作为输出。

实现细节

网络结构

backbone：ResNet34
Diffusion Decoder Layer:

spatial cross-attention只和BEV features做交互（和Transfuser保持一致）
只和agent做cross-attention
使用2层decoder layers
使用20个聚类得到的anchor轨迹

推理时仅使用2个denoising steps，并选择top1置信度对应的轨迹作为最终输出

输入：

使用了3个前向摄像头的图像信息（剪裁并下采样），concat在一起形成1024x256的输入尺寸
栅格化的BEV LiDAR

训练：

在navtrain数据集上，从头开始训练100个epochs
优化器 = AdamW
8张Nvidia 4090显卡
batch size = 512/8 = 64
学习率 = 6

评估

没有使用test-time augmentation