当前位置：首页 > article >正文

51c自动驾驶~合集57

article 2026/5/19 10:07:20

我自己的原文哦~ https://blog.51cto.com/whaosoft/13960249#端到端自动驾驶算法实现原理1从传感器数据到控制策略的端到端方法端到端自动驾驶基本流程：（1）子任务模型被更大规模的神经网络模型取代，最终即为端到端神经网络模型；（2）由数据驱动的方式来解决长尾问题，取代rule-based的结构。优点：（1）直接输出控车指令，避免信息损失；（2）具备零样本学习能力，更好解决OOD问题；（3）数据驱动方式解决自动驾驶长尾问题；（4）避免上下游模块误差的过度传导；（5）模型集成统一，提升计算效率。2完全端到端是怎么做的评估指标●开环指标○L2误差○碰撞率●闭环仿真○路线完成率（RC）路线完成的百分比○违规分数（IS）衡量触发的违规行为○驾驶分数（DS）表示驾驶进度和安全性3端到端的一些主流方法3.1 UniAD算法详解算法动机●跨模块信息丢失、错误积累和特征misalignment●负向传输●安全保障和可解释性方面●考虑模块较少开创性思路●第一项全面研究自动驾驶领域包括感知、预测和规划在内的多种任务的联合合作的工作●以查询方式链接各模块的灵活设计●一种以决策为导向的端到端框架主体结构该模型包括特征提取，特征转换，感知模块（目标检测+多目标跟踪+建图部分，TrackFormer、MapFormer），预测模块（MotionFormer、OccFormer），规划模块（指令导航、Occ矫正轨迹）性能对比消融实验证明各个模块都是不可或缺的，然后再去对比单个模块的性能。各个模块的对比这里不再展开。3.2 VAD算法详解算法动机●栅格化表示计算量大，并且缺少关键的实例级结构信息●矢量化表示，计算方面效率高主体结构该模型包括特征提取、特征转换、矢量化场景学习、规划模块。性能对比3.3 UAD算法详解算法动机●现存方法的标注和计算开销过大，所以本篇没有人工标注的需求●感知模块的标注不是提升规划性能的关键，扩大数据量才是关键。只对数据量扩大但不增加标注成本。开创性思路●无监督代理任务●自监督方向感知策略主体结构整体结构包括两部分的内容，分别是●无监督的代理任务输入是一个环视的图像，通过GroundingDINO（开集检测器，在训练集中10个类别的数据，但是验证集中有多出来的其他类别也要要求能检测出来），然后得到BEV特征，经过Dreaming Decoder得到预测结果与刚才说获取的标签去计算一个loss（二分类交叉loss）用于对物体预测的Dreaming decoder的整体结构是：初始化K个角度的Query，BEV特征被分成了K个区域跟Query一一对应，经过GRU模块（用t-1时刻的Query和当前时刻t的特征F去计算当前时刻t的Query），用t时刻的特征和t时刻的Query做一个CrossAttention得到下一时刻的特征。即自回归的一种方式。Query之间对平均值和方差进行一个DreamingLoss，让其分布尽量相似。●利用方向感知的规划模块该模块包括三部分的内容（1）PlanningHead规划头（通过模仿学习来计算未来轨迹，对BEV特征进行旋转，过规划头得到响应的预测轨迹，然后GT也要旋转，两者得到一个模仿学习的loss。）（2）Directional Augmentation方向增强（先对轨迹沿着车辆行驶方向划分为直行、左转、右转，然后通过这个预测头做一个三分类）（3）Directional Consistency方向一致性（旋转后的特征得到的轨迹再旋转回去之后，跟之前的对比得到loss。）性能对比3.4 SparseDrive算法详解算法动机●认为传统方法中BEV特征计算成本高●忽略了自车对周围代理的影响●场景信息是在agent周围提取，忽略了自车●运动预测和规划都是多模态问题，应该输出多种轨迹开创性思路●探索了端到端自动驾驶的稀疏场景表示，并提出了一种以稀疏为中心的范式●修改了运动预测和规划之间的巨大相似性，提出了一种分层规划选择策略主体结构输入环视的6幅图像，输出是其他agent的预测和规划结果。中途处理过程包括：特征提取、对称稀疏感知、平行运动规划三大模块。在对称稀疏感知模块中，主要包含：稀疏检测、稀疏跟踪、稀疏在线建图任务，我们来具体看一下。在平行运动规划器模块中：作者认为其他agent的轨迹预测和自车的轨迹预测应该是一个任务，并且是互相影响的。性能对比3.5 ReasonNet算法详解这是一个时序+多模态的方案，这篇论文对一些特殊的场景进行了考虑。算法动机●应该对驾驶场景的未来发展做出高保真的预测；●处理长尾分布中罕见不利事件，遮挡区域中未被发现但相关的物体。开创性思路●提出一种新型的时间和全局推理网络，增加历史的场景推理，提高全局情景的感知性能；●提出一种新基准，由城市驾驶中各种遮挡场景所组成，用于系统性地评估遮挡事件。主体结构这篇文章是多模态的，所以其输入是图像输入和雷达点云的输入所组成的，输出是waypoints。主体结构分为三个模块：●感知模块：从Lidar和RGB数据中提取BEV特征；●时间推理模块：处理时间信息并维护存储历史特征的存储库；S用于计算存在Memory Bank中的历史特征和当前特征的相似度●全局推理模块：捕获物体与环境之间的交互关系，以检测不利事件（如遮挡）并提高感知性能。性能对比基于本文提出的新的benchmark叫做DOS benchmark：四种场景分别包含25种不同的情况，包括车辆和行人的遮挡，有间歇性遮挡和持续遮挡但有交互线索。3.6 FusionAD算法详解这是一篇多模态的方案，是在UniAD的基础上加入了点云数据，改造成了多模态的方案。算法动机●传统的模块化方法没办法支持梯度反传，会造成信息的丢失。●UniAD只支持图像输入，不支持激光雷达信息。开创性思路●第一个统一的基于BEV多模态、多任务的端到端学习框架，重点关注自动驾驶的预测和规划任务；●探索融合特征增强预测和规划任务，提出一个融合辅助模态感知预测和状态感知规划模块，称为FMSPnP。主体结构该模型的主体结构包括特征融合模块、预测模块、规划模块。性能对比3.7 Hydra-MDP算法详解CVPR 2024端到端自动驾驶挑战赛冠军+多模态方案，具备多个目标的多头蒸馏。算法动机本文作者提出的新的范式，就是规划模块是多模的输出，同时，目标也是多样性的，即不仅是GT的轨迹也同时引入了更多的正样本，由不同的专家给出的。此外，将后处理的模块变成了可微分的用于训练的神经网络的模块，从而消除了第二种范式中由于不可微分而带来的信息损失的情况。开创性思路●引入了更多的正样本，由不同专家给出；●感知真值引入规划模块用于训练。主体结构第一部分是感知的信息处理融合和提取，第二个模块是用前面得到的特征去解码出轨迹，最后一个模块是多目标学习范式部分。感知模块用的Transfuser的baseline轨迹解码器：计算不同的预测轨迹与GT轨迹的距离，这里用的是L2，用这个距离做softmax，然后去产生不同轨迹的得分情况，从而去监督得分。多目标多头蒸馏模块：我们看到轨迹模仿学习之后的轨迹还过了其他的MLP，这就是其他头，它的目标也是不一样的，第一个是跟碰撞相关的，第二个是跟行驶区域相关的，第三个是跟舒适度相关的，也就是说不同的评判指标都有一个teacher，之前的模仿学习就是人类的teacher，那么这些teacher是怎么来的呢？怎么通过这些teacher来蒸馏的呢？我们看下作者是怎么去做的，首先我们得到规划词表Planning Vocabulary之后，对规划词表进行了一个模拟（用感知模块的GT进行训练的），有了这两个之后，我们就能算出来这些评估指标，从而计算每条轨迹的得分。总结一下就是对整个训练数据集的规划词汇进行离线模拟，在训练过程中引入每条轨迹的模拟分数的监督。性能对比....#xxx....#xxx....#xxx....#MindVLA-U1理想最新的工作 MindVLA-U1，再一次升级......今年以来，理想在自动驾驶上的技术叙事越来越清晰。在 GTC 2026 上，理想公开了下一代自动驾驶基础模型 MindVLA-o1，把视觉、语言、动作统一建模作为新一代智驾架构的核心方向。随后，新一代理想 L9 发布，理想进一步公开了自研马赫 M100 芯片的量产信息，官方披露单颗算力 1280TOPS、双芯总算力 2560TOPS。从去年开始，理想给我们的感觉，就是在做全栈的AI系统，当然目前主要是围绕车来做，后续会扩展到具身上。然后，今天理想发布了最新的 MindVLA-U1，所以xxx第一时间为大家解读一下。这篇工作最核心的判断是：自动驾驶 VLA 跑不过 VA，不一定是「语言理解」拖累了驾驶控制，也有可能是接口设计出了问题。自动驾驶需要厘米级的连续控制，也需要开放语义理解，还需要长期时序记忆与实时推理。此前很多 VLA 把动作离散化成语言 token，或者把 VLM 当成特征编码器再外挂动作头，这种方式并没有把语义、时序、控制合在一个可执行系统里。MindVLA-U1 尝试解决的，就是这个问题。论文标题：MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving论文链接：https://arxiv.org/abs/2605.12624VLA真正难的，是能不能稳定控制自驾VLA和具身VLA都有一个共同问题：语言很强，但动作很脆。对车来说，这个问题更敏感。因为驾驶不是离散指令执行，而是高频、连续、带安全边界的物理控制。一个模型可以准确描述「前方有施工区域，需要减速绕行」，但真正落到轨迹上，还要生成连续、平滑、可执行的未来轨迹。这里的误差不是文字表达不准确，而是可能直接变成横向偏移、制动时机、让行策略和舒适性问题。过去的自动驾驶 VLA，大致有几类接口问题。一类是把轨迹当成离散 token 解码。这样做对语言模型友好，但对控制不友好。语言模型可以描述位置，却很难承担厘米级轨迹回归，token 化可能会导致精度下降。一类是 VLM 后面外挂动作专家。这样保留了连续动作，但动作 token 没有真正进入 VLM 的自注意力计算，VLM 更像一个感知特征提取器，动作生成仍然偏 VA。还有一类问题是时序建模。很多方法用固定视频片段和固定 action chunk 做输入输出，容易在 chunk 边界出现不连续，也会让多视角视频 token 大量冗余，给车端实时推理带来负担。MindVLA-U1 的出发点是：自动驾驶 VLA 不应该继承语言模型的接口，而要从驾驶任务本身倒推接口设计。动作保持连续，语言保持显式，时序按真实驾驶流式推进，推理按场景复杂度区分快慢系统。这个想法还是比较第一性原理的。MindVLA-U1 怎么做MindVLA-U1 的第一层设计，是统一共享骨干。在一个VLM主干里，同时处理多视角视觉 token、自车状态、语言 token、记忆 token 和带噪动作 token。语言仍然用自回归方式生成，动作则用 flow matching 生成连续轨迹。这样做的点在于，语言和动作保留各自最自然的输出形式，但共享同一套场景表征。对于单帧输入，模型包含多视角视觉 token、自车状态历史、语言问题、语言答案 token，以及长度为的带噪动作 token。语言部分用标准自回归损失：$$\mathcal{L}*{AR}=-\sum*{l=1}^{L}\log p_{\theta}(a_l \mid I,e,q,a_{l}) $$=""动作部分使用 flow matching。给定真实轨迹和高斯噪声，带噪动作 token 写成：动作头预测速度场，对应损失为：总训练目标就是：从技术的角度看，这个设计的意义在于，语言损失和动作损失虽然共享骨干参数，但它们作用在不同输出位置，通过不同 readout head 读出结果。语言负责显式理解，动作负责连续控制，二者共享场景特征，又避免把轨迹硬塞进语言 token。这也是 MindVLA-U1 和其他 VLA 算法不同的地方。它没有牺牲动作连续性，也没有把语言能力停留在「有一个语言头」的形式上。Intent-CFG：让语言真正进入动作生成MindVLA-U1 还有一个设计，是 Intent-CFG。自动驾驶里，语言理解要产生价值，不能只是模型能回答「当前是什么场景」。更关键的是，语言侧的判断能否改变动作侧的轨迹生成。MindVLA-U1 用「驾驶意图」作为这个桥梁。模型先通过语言头预测当前场景的 intent token，例如左转、右转、直行等，再把这个 intent embedding 加入动作 MLP 的时间嵌入中，引导 flow matching 生成轨迹。在推理时，模型分别计算有条件和无条件的速度场，再用 CFG 进行混合：这里的是预测出的驾驶意图，是无条件 token，是 guidance scale。这个设计第一次比较清楚地把「语言侧状态」变成了「动作侧控制信号」。MindVLA-U1的实验结果是，No-intent baseline 的 RFS 是 7.83，使用 NTP-predicted Intent-CFG 后提升到 7.92；同时在可视化中，给同一场景输入不同 intent，轨迹会朝不同语义方向展开，说明 intent token 成了一个可寻址的多模态控制轴。Streaming Memory：驾驶不是视频片段，而是连续时间流MindVLA-U1 的第二个核心，是流式架构。驾驶天然是流式任务。车辆每一帧都在运动，周围交通参与者也在变化。过去很多方法用固定长度视频片段建模，再输出固定 action chunk，这种方式在学术评测上可行，但和真实车端运行仍有距离。MindVLA-U1 改成 framewise streaming。每一帧只处理当前多视角图像，同时从 FIFO memory channel 中读取过去压缩后的记忆 token。历史上下文不再通过重复输入多帧视频来堆 token，而是通过紧凑记忆向前传播。图 4 里可以看到，这个 memory bank 会根据当前 ego pose 做 motion-align，再由 Q-Former 风格的传播模块更新记忆。这个设计解决了两个问题。一是计算效率。多视角驾驶视频相邻帧高度冗余，让 VLM 直接吃多帧视频，很容易把算力浪费在重复视觉 token 上。二是轨迹连续性。固定 chunk 输出天然容易在边界产生不连续，而流式 memory 可以让规划轨迹随着帧持续演化。消融实验也说明了这个点。chunk-wise single frame 的 RFS 是 7.69，streaming training no memory 提升到 7.73，加入 streaming memory 后达到 7.83。直接把 4 帧图像序列喂给 VLM 的 DeepStack 方案反而降到 7.61，说明把时序压力直接交给通用 VLM，并不一定更适合驾驶规划。这个设计对量产也有不少启发。时序信息不可能完全依赖大窗口视频 token，更现实的方向，是把长期上下文压缩成可训练、可对齐、可持续更新的 memory state。快慢系统和MoT继承了理想一贯的思路。MindVLA-U1 把快慢系统做成同一个架构内的 attention mask 管理。论文里给了几种模式：vqa_first、action_first、action_only 等。慢路径可以先做语言理解和推理，再把答案作为动作生成条件；快路径可以直接走 action_only，跳过语言解码，减少推理时延。进一步，MindVLA-U1 还引入了 sparse MoT。MoT 把 token 分成 context group 和 action group，前者服务视觉与语言，后者服务 memory、自车状态和动作 token。二者共享 attention 的 K/V pool，但 FFN 专家分开。这样既保留跨模态融合，又给动作侧留下更轻的实时路径。从实验看，1B 规模下 MindVLA-U1 fast 配置可以达到 15.55 FPS，接近 RAP-DINO 的 17.68 FPS；在 Qwen3-VL-2B 上，慢路径因为自回归 VQA 解码只有 0.39 FPS，而 action_only 可以达到 9.70 FPS，template QA 1-step 可以达到 15.92 FPS。基本上可以满足实车的需求，我们在之前的分享里也强调过，快慢思考这件事是更工程可落地的。NVIDIA和理想都在践行这件事。实验结果结语理想今年的路子，应该主要是延续 MindVLA 做改进了。上周我们分享了 ReflectDrive-2，结合今年其他的技术动作来看，我们还是比较认可他们做算法和落地的态度和成果。还有一点，今年不少公司都开始关注技术侧。在自动驾驶的下半场，我们希望有更多的人参与进来。....#GuideFlow轻舟智航最新！GuideFlow：端到端轨迹规划新方案，超越一众SOTA......今年学术界和工业界很大的精力都投入在Action的建模上，也就是自车轨迹的输出。先前的MLP只能输出单模的轨迹，实际使用中无法满足下游不确定性的需求。所以从去年开始，我们看到了生成式的很多算法问世。经过这一年的发展，生成式的算法进一步收敛到Diffusion和Flow matching两个方向上。xxx了解到上半年有不少公司都在尝试将这两种方法落地量产，期间坎坷无需多言。今天为大家分享的是一篇北交轻舟智航等团队最新的工作，提出一种基于Constrained Flow Matching的新型规划框架GuideFlow，整体效果还不错。具体而言，GuideFlow显式建模流匹配过程，该过程本质上可缓解模态坍塌的问题，并能灵活融合多种条件信号的引导。本文的核心贡献在于，将显式约束直接嵌入流匹配生成过程，而非依赖隐式约束编码。关键创新点在于，GuideFlow将流匹配与Energy-Based模型的训练相统一，增强模型自主优化能力，以满足物理约束。其次，GuideFlow将驾驶激进度参数化为生成过程中的控制信号，实现对轨迹风格的精准调控。在主流驾驶基准数据集（Bench2Drive、NuScenes、NavSim和ADV-NuScenes）上的大量实验验证了GuideFlow的有效性。值得注意的是，在NavSim测试集的高难度子集（Navhard）上，GuideFlow取得了当前最优（SOTA）性能，其扩展PMD分数（EPDMS）达到43.0。论文标题：GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving论文链接： https://arxiv.org/abs/2511.18729一、背景回顾近年来，端到端自动驾驶（E2E-AD）已成为传统模块化流水线的一种极具吸引力的替代方案。与单独优化感知、预测和规划模块不同，端到端自动驾驶将整个驾驶过程构建为一个可微分的统一系统，能够通过数据进行整体训练。以UniAD为代表的框架便是该方向的典型范例，其将空间感知、在线建图、运动预测和控制决策等功能耦合在一个连贯的架构中。这种联合范式支持跨任务推理，有效减轻了分阶段设计中常见的级联误差问题。其中，规划模块的核心作用是预测可行的、面向目标的轨迹，最终决定车辆的行驶行为。近年来，端到端自动驾驶规划技术已从单模态轨迹生成向多模态轨迹生成演进，以更好地反映真实驾驶场景中的固有不确定性。在许多场景中，往往存在多种合理的驾驶意图，但单模态端到端自动驾驶规划器仅能输出一条确定性路径，限制了系统的鲁棒性。相比之下，多模态端到端自动驾驶规划方法会预测多条候选轨迹，提供更丰富的意图表达。然而，如图1所示，这些方法大多仍基于模仿学习（IL）进行训练。由于每个驾驶场景仅提供一条真实轨迹（GT），模型学习到的多模态输出往往会向单一主导模式收敛——尽管名义上具备多样性，但最终预测结果高度相似。这种现象被称为模式崩溃。为缓解模式崩溃问题，近期研究探索将生成式建模用于轨迹规划。生成式方法（流匹配和扩散模型）旨在表征可行未来轨迹的完整分布，通过迭代采样自然实现多样化的轨迹假设。尽管生成式方法提升了多模态轨迹预测性能，但采样过程中固有的随机性和高方差，给保证生成轨迹满足严格安全约束带来了根本性挑战。当前方法极少探索在生成过程中融入显式的风格引导和安全引导以确保约束满足，这给系统的可靠部署带来了难题。为解决上述问题，本文提出GuideFlow框架——一种基于流匹配架构、生成过程受显式监督的规划模型。GuideFlow从随机采样出发，通过多样化的条件信号引导生成过程，从而缓解模式崩溃问题。其核心创新在于将安全约束直接嵌入生成过程的策略：（1）速度场约束（CVF）：采用预定义的、满足约束的速度场，主动修正模型预测的速度场，引导结果满足约束；（2）流状态约束（CF）：对偏离约束的流路径进行修正，使流路径朝向满足约束的生成终点演进；（3）EBM流优化（RFE）：通过统一流匹配架构与能量基模型（EBM），赋予模型在数据流形内自主探索的能力，使其能够“发现”满足约束的结果。本文的贡献如下：提出一种基于流匹配的多模态轨迹规划器GuideFlow，有效缓解模式崩溃问题。其核心创新在于在流匹配过程中施加显式硬约束，并结合EBM提升轨迹的可行性；GuideFlow将环境奖励作为条件信号，在推理阶段支持激进驾驶与保守驾驶风格的灵活切换；在自动驾驶数据集（NuScenes、ADV-NuScenes、NavSim和Bench2Drive）上的大量实验验证了其优异性能。值得注意的是，在NavSim测试集的高难度子集（Navhard）上，GuideFlow取得当前最优结果，EPDMS分数达43.0。二、预备知识Flow Policy and Rectified Flow：本文首先将规划问题建模为基于流的轨迹生成问题，该方法通过学习一个向量场，将简单的高斯先验分布映射到目标轨迹分布。设沿概率路径遵循如下常微分方程（ODE）演化：其中是可学习的向量场。该模型的一种常见实现形式是修正流（Rectified Flow, RF）。修正流在先验分布与目标分布之间构建线性概率路径，即样本满足。在此设定下，流匹配的学习目标定义为：该目标函数能高效学习朝向数据流形的直线映射。在推理阶段，通过数值积分生成轨迹，且需满足：这种形式可实现快速稳定的采样，但直线映射路径本质上具有“模式趋同”特性，往往会收敛到主导性的驾驶模式。能量匹配：近期提出的“能量匹配”（Energy Matching）方法引入能量函数，使流模型能够恢复多个可行模式。其动力学公式的最优条件满足：在数据流形附近，映射项消失（因），此时式(4)可简化为终端分布满足玻尔兹曼形式：其中，能量权重调度函数控制系统从纯流映射过渡到能量引导的流形优化，具体定义为：由此，将数据流形塑造为多个低能量“盆地”，每个盆地对应一种独特的可行模式（如“让行”“合流”）。在采样阶段，离散化更新需引入离散调度器：实际上，在$0t1$阶段，流项将样本高效映射至轨迹流形；而当$t ≥\tau^{*}$时，能量项激活，引导样本进入不同的低能量模式。这为guideflow优化过程中确保多模态多样性提供了理论基础。="" p=""三、GuideFlow算法详解本文提出的GuideFlow框架如图2所示，其本质是一种基于流的轨迹生成器，可生成可行且安全的未来运动规划。该模型包含三个核心模块：(i) 感知条件速度场生成器；(ii) 无分类器引导（在采样阶段注入驾驶意图与风格）；(iii) 安全约束采样过程（通过截断与基于能量的动力学在数据流形附近运行，具体包括“速度场约束（CVF）”“流状态约束（CF）”和“EBM流优化（RFE）”三种策略）。感知条件流生成器如图2所示，GuideFlow首先解码理想速度场，并采样可行的未来轨迹，具体流程如下：感知到场景令牌的映射：给定多视角图像，先提取图像特征，并将其提升为鸟瞰图（BEV）表示。感知模块通过查询该BEV特征，生成两组结构化令牌：(1) 智能体令牌（编码动态智能体间的交互关系）；(2) 地图令牌（嵌入道路与车道拓扑结构）。流状态与条件建模：将时刻的轨迹表示为流状态（见式(2)），其中为预测时域。为使速度场适应场景条件，需将映射为latent表示（为正弦时序嵌入），随后执行序列交叉注意力操作：最终，通过解码速度场采样未来驾驶轨迹：Classifier-free Intent与奖励引导GuideFlow通过将轨迹生成过程与多个表达意图和风格的动态元素关联，实现高层驾驶行为建模。具体而言，模型考虑四种动态条件信号：(1) 规划锚点；(2) 目标点；(3) 驾驶指令；(4) 塑造轨迹偏好的奖励（详见4.4节）。需注意：驾驶引导信号、、在语义上存在重叠，因此不会同时使用。实现细节:规划锚点构建：通过对训练集执行最远点采样，构建规模为的轨迹词汇表。训练阶段，选择与真实轨迹（GT）最接近的规划锚点作为；采样阶段，GuideFlow通过对中每个锚点施加条件，生成条轨迹，从而获得多样化的候选运动。目标点生成：目标点由选定的规划锚点推导得出，训练与推理阶段均采用与规划锚点一致的处理策略。驾驶指令编码：将驾驶指令编码为独热向量（one-hot vector）以进行后续处理。Classifier-free Intent引导训练:采用无分类器引导训练框架，对条件输入以概率进行掩码（记为）：其中表示交叉注意力融合模块。随后预测条件速度场：。在采样阶段，通过引入引导尺度，控制条件信号对运动的影响强度。约束生成尽管感知条件与意图引导共同实现了多样化且目标一致的运动假设，但二者本身无法保证轨迹的物理可行性与安全性。结合式(3)和式(8)的采样过程可知，每条轨迹的更新同时依赖于：(1) 速度场；(2) 前一流状态；(3) 优化阶段（）的能量项。基于这一洞察，本文提出以下三种互补约束机制（如图3所示）。速度场约束（CVF）:首先，引导预测运动方向与满足约束的参考方向对齐。根据物理或安全约束，从轨迹锚点集中手动选择可行轨迹，或采用预训练评分器（如GTRS）选择约束满足概率最高的轨迹。该轨迹对应的速度场为（即与间的线性速度场）。尽管这种方向设定可能并非最优，但能确保流终点满足约束。为平衡约束合规性与运动合理性，构建修正后速度场：其中设置为0.1，（为简化表述）。式(14)的核心目标是在最小化对速度大小影响的前提下，调整的方向。相关证明详见附录。流状态约束（CF）:速度场修正虽能对齐整体运动方向，但在积分过程中，流轨迹仍可能偏离约束流形。设从到的连续流为，根据离散时序将其离散化为序列：其中设置为100。若生成轨迹无法满足约束，可认为偏离了理想流。一种直接的修正方式是在每个时序步手动调整以满足约束，但这种方法会严重干扰采样过程且效率低下。为此，GuideFlow采用类截断策略：直接用满足约束的锚点替换接近目标真实轨迹的离散变量，并从该点继续采样，即（实际中设置为50）。与DiffusionDrive在训练阶段使用截断策略不同，GuideFlow仅在推理阶段激活该机制，以保留模型在测试时的适应性。这种后期修正可确保轨迹终止于可行区域，同时不破坏已学习的映射动力学。EBM流优化（RFE）:为进一步将约束执行融入生成过程，本文将其直接嵌入能量图景。基于式(8)，将时的流匹配模型解释为能量基模型（EBM），该模型既鼓励样本收敛到低能量区域，又确保其满足约束。据此，定义能量代理函数：其中表示式(3)中的采样算子，参考的方法评估约束满足度（如道路合规性、碰撞惩罚）。上述为可行轨迹分配较低能量，为违反约束的轨迹分配较高能量，从而使速度场在训练过程中隐式学习约束感知能力。遵循EBM训练范式，定义训练目标（表示模型在时生成的终点，为目标真实轨迹）：该目标函数的核心作用是提升违反约束样本的能量，同时降低满足约束样本的能量，从而引导速度场向约束满足概率更高的区域优化。奖励作为风格条件为在推理阶段动态调整轨迹激进度，本文基于NavSim数据集引入激进度评分（EP）——定义为单位时间内沿车道中心线行驶的距离，取值范围为[0,1]。该评分针对每条真实轨迹（GT）在线计算，并作为条件输入融入模型。通过调节EP值，可直接控制生成轨迹的激进度：实际中，当推理阶段将EP设置为接近1时，模型会生成更具激进性的驾驶行为。实验结果分析实验设置数据集与评价指标：开环测试：在NuScenes（简称NuS）和ADV-NuScenes（简称ADV-NuS）两个数据集上对GuideFlow进行评估。其中，NuScenes数据集包含1000个驾驶序列，每个数据样本涵盖6张图像和点云数据，可提供360°视野；本研究仅将图像数据作为模型输入。ADV-NuScenes数据集包含150个物理可行的对抗性驾驶场景，共6115个样本，涵盖多种激进驾驶行为。对于NuS和ADV-NuScenes数据集，研究用碰撞率（Collision Rate）替代L2距离作为唯一评价指标。闭环测试：在NavSim和Bench2Drive两个数据集上评估GuideFlow。Bench2Drive是基于CARLA排行榜2.0的端到端自动驾驶闭环评估协议，提供官方训练集（本研究使用基础集的1000个片段，以确保与其他基线模型的公平对比），评估采用官方提供的220条路线。NavSim是基于OpenScene构建的规划基准数据集，整合了多视角相机和激光雷达（LiDAR）数据以实现360°感知，标注频率为2Hz，包含高清地图（HD maps）和目标边界框；该数据集采用无反应仿真（non-reactive simulation）和闭环评估方式，可对规划性能进行全面评估。对于Bench2Drive，研究遵循其数据集设置，采用驾驶分数（Driving Score, DS）和成功率（Success Rate, SR，单位：%）作为评价指标；对于NavSim，采用其提出的扩展PMD分数（Extended PMD Scores, EPDMS）——一种加权组合型指标——作为评价标准。实现细节：研究在四个不同基准数据集上验证了GuideFlow的性能，通过统一训练协议和基线模型确保对比公平性，具体设置如下：NavSim数据集：以TransFuser为基线模型，在NavTrain子集上训练100轮（学习率LR：）；采用GTRS-Dense（基于v2-99 backbone）评分模型选择多模态轨迹。NuScenes数据集：基于SparseDrive（700个训练场景）实现，遵循其两阶段训练协议；GuideFlow以第一阶段的感知模型为初始模型，微调8轮（学习率LR：）。需特别说明：ADV-NuScenes数据集仅用于域外（OOD）评估，不参与任何训练过程。Bench2Drive数据集

51c自动驾驶~合集57

相关文章：

51c自动驾驶~合集57

长期使用Taotoken聚合API在服务稳定性方面的体验分享

PTA天梯赛L2-007家庭房产题解：用C++并查集+结构体搞定复杂家庭关系统计（附完整代码）

深入理解LZFSE核心技术：Lempel-Ziv与FSE编码的完美结合

别再手动改文献了！手把手教你定制Mendeley的GB/T 7714-2005引用格式（附常见问题修复）

WordPress Playground部署实战：从开发到生产的完整流程指南

抖音视频收藏革命：从水印困扰到纯净收藏的完美蜕变

CLI-Anything与MCP服务器：打造强大后端的实战教程

Few-shot vid2vid自定义数据集训练指南：从标签图到真实视频的转换

Jupyter Notebook 云GPU配置全解析（含实操+选型指南）

国产多模态大模型：产业协同全景与实战指南

智慧树自动刷课插件终极指南：如何3分钟实现免手动学习

vscode-mssql架构设计器：无代码可视化建模数据库架构的终极工具

如何在 5 分钟内集成 human-panic：为你的 Rust CLI 应用添加专业级错误处理

掌握视频时间：如何用3个步骤将视频学习效率提升300%

JetBrains IDE试用期重置终极指南：三步实现无限开发体验

语义搜索失效？NotebookLM这4类文档结构陷阱正悄悄拖垮你的研究效率，立即排查！

高效AI专著生成：20万字专著一键搞定，AI写专著工具实测推荐！

终极 Node.js 路径管理神器：module-alias 完全指南

CVPR2021明星算法LoFTR实战：在Ubuntu 20.04上从零搭建Python 3.7+Pytorch 1.6.0环境，跑通第一个图像匹配Demo

AB3DMOT性能优化技巧：10个提升跟踪精度的关键参数

给项目选YOLO模型别再纠结了：从参数量、训练曲线到mAP，手把手教你根据数据集做决策

CANopen设备配置不求人：手把手教你用Python-canopen库读写EDS/DCF文件

状态机——枚举实现简单状态机

Cling实时编码音乐应用：探索编程与艺术的跨界融合

软件测试的“隐形赛道”：性能测试如何年入50w

乡村智慧民宿系统｜提质增收！巨有科技打造乡村旅居新模式

别再为前后端AES加解密头疼了！手把手教你用CryptoJS和Java 8实现无缝对接

如何彻底解决C盘空间不足问题：Windows Cleaner开源工具终极指南

重新定义开源协作：GitHub中文界面如何突破语言认知边界