当前位置：首页 > news >正文

自动驾驶---不依赖地图的大模型轨迹预测

news 2026/2/9 4:14:15

1 前言

早期传统自动驾驶方案通常依赖高精地图（HD Map）提供道路结构、车道线、交通规则等信息，可参考博客《自动驾驶---方案从有图迈进无图》，本质上还是存在问题：

数据依赖性高：地图构建成本昂贵，且跨区域泛化能力受限。
动态场景局限性：地图无法实时反映临时障碍物或施工区域。
计算复杂度：地图的复杂拓扑结构需要额外编码模块处理。

在之前的博客中，笔者分别介绍过华为《自动驾驶---行泊一体（车位到车位功能）》ADS3.0智驾方案中，RCR网络（Road Cognition & Reasoning，道路拓扑推理网络）：结合普通导航地图来与现实进行匹配和印证，再实时通过传感器来拓补绘制一幅可用的行车地图。通过RCR网络便摆脱了高精地图，实现绝大多数场景下的无图就能开。

小米智驾同样也有一套系统《自动驾驶---小米汽车智驾进展》，道路大模型：小米道路大模型，实时生成道路拓扑，效果媲美高精地图，实现全国都能用的城市领航。

小米和华为类似，都是通过模型来建立车道信息，尽量不高度依赖高精地图。

最近介绍的博客《自动驾驶---LSTM模型用于轨迹预测》，仅依赖于动态车辆的历史轨迹，有其局限性，以及《自动驾驶---基于深度学习模型的轨迹预测》中介绍通过深度学习模型进行轨迹预测，基于此轨迹预测的深度学习模型，后期是可以用于自车轨迹生成的端到端大模型。

目前特斯拉的端到端大模型的输入应该是包括地图数据的，但国内量产端到端大模型的公司目前做到这一点的几乎没有。

2 轨迹预测

目前，很多公司的端到端整体方案如下所示，地图信息作为模型的输入（以特斯拉为代表），或者干脆就不包括（国内的模块化大模型）。

MFTP（Map-Free Trajectory Prediction），这是一种无需地图的轨迹预测方法（如下图所示），它在训练期间通过知识蒸馏从高清地图中获益，而在推理期间则不需要高清地图。论文中提出了一种新颖的层次编码器，有效地提取时空智能体特征，并将它们聚合成多个轨迹查询。此外，引入了一个迭代解码器，顺序解码轨迹查询以生成最终预测。在Argoverse数据集下的无地图设置中，该方法实现了最先进的性能。

2.1 方法论

（1）知识蒸馏

前段时间也是Deepseek带火了知识蒸馏这一概念。知识蒸馏（Knowledge Distillation） 其实是一种机器学习技术，旨在将复杂模型（通常称为“教师模型”）的知识迁移到更简单、更高效的模型（“学生模型”）中，从而实现模型压缩、性能提升或部署优化。其核心思想是让学生模型模仿教师模型的输出或中间特征，而不仅仅依赖原始训练数据的标签。

知识蒸馏的大概过程：
- 训练教师模型：在目标任务上训练一个高性能的大模型。
- 生成软标签：用教师模型对训练数据推理，得到概率分布（软标签）。
- 训练学生模型：学生模型同时拟合硬标签（原始标签）和软标签（教师输出），损失函数通常为：，其中衡量学生与教师输出的差异，为权重系数。
套用到 MFTP（Map-Free Trajectory Prediction）中的大概过程如下：
- 教师模型：使用高精地图的轨迹预测模型。
- 学生模型：无地图的轨迹预测模型。
- 蒸馏内容：将教师模型对地图拓扑的理解（如车道连接、交通规则）迁移到学生模型中，使其隐式学习道路结构约束，而无需显式地图输入。

（2）MFTP架构

整体框架：MFTP包括一个预训练的基于地图的教师网络和一个无需地图的学生网络。教师网络利用高清地图和其它智能体的历史轨迹作为输入，而学生网络则不依赖地图信息。
层次编码器：提出了一种新颖的层次编码器，用于提取智能体的多层次时空特征，并将它们聚合成多个轨迹查询。
- 输入表示：在采用向量表示的情况下，智能体的历史轨迹和地图折线被表示为二维或三维空间中的一组点。我们没有使用智能体轨迹和地图点的绝对位置，而是选择相对运动向量作为输入。
- 上下文建模：轨迹预测本质上是一项序列性且涉及交互的任务，在其中，一个智能体过去的行为以及周围环境都起着至关重要的作用。为了提取智能体的时空特征，我们按顺序对地图与地图之间、智能体与地图之间以及智能体与智能体之间的交互进行建模。首先，我们利用中提出的带有注意力机制的地图与地图注意力模块，对地图结构和车道交互进行建模，将其视为地图先验知识，随后再接入一个前馈神经网络（FFN）。
- 分层特征聚合与融合：利用特征聚合（FA）模块对智能体的时空特征进行聚合，以生成多个轨迹查询。这些查询起到了桥梁的作用，连接着编码器和解码器，并且代表着潜在的多模态未来轨迹。
迭代解码器：使用迭代解码器顺序解码轨迹queries，以生成最终的预测。

整体的框架如下图所示，多模态融合轨迹预测（MFTP）有一个基于地图的预训练教师模型和一个无地图的学生模型。除了与地图相关的模块之外，学生模型与教师模型具有相同的架构。在编码器中，通过特征聚合（FA）模块在进行智能体间的时间和空间注意力计算后，分层的智能体特征会被逐步提取出来，然后这些特征被融合，形成 K 个轨迹查询，对应着 K 条多模态的未来轨迹。在教师网络中，智能体在编码器阶段通过智能体 - 地图注意力模块学习地图先验知识，并在解码器阶段通过查询 - 地图注意力模块学习相关知识。通过对中间特征进行知识蒸馏，我们将地图先验知识融入到无地图的学生网络中。

2.2 验证

关于轨迹预测具体的评测指标在之前的博客中多次介绍过，这里就不赘述了。通过数据对比，MFTP方法在某些方面还是存在优势的。

数据集和评估：在Argoverse数据集上进行了广泛的实验，证明了MFTP在无需地图的情况下实现了最先进的性能。
定量结果：与现有的无需地图的方法相比，MFTP在所有指标上均优于其他非蒸馏的无需地图方法，并在应用知识蒸馏后进一步提高了性能。

在 Argoverse 验证集上的定性结果。（a）展示了无地图模型在交叉路口场景中的性能表现，该场景存在各种驾驶行为（例如，直行、左转、大角度左转以及从左至右的右转），且该模型未利用地图先验知识。（b）表明，在知识蒸馏（KD）的帮助下，无地图模型能够预测出与真实轨迹更为接近的未来轨迹。（a）和（b）使用相同的图例。建议以彩色模式并放大查看效果最佳。

3 总结

本篇博客通过一篇论文的介绍以及笔者自身的理解来看，MFTP为自动驾驶轨迹预测领域提供了一种新的视角，即在不依赖高清地图的情况下，通过知识蒸馏和层次编码来实现有效的轨迹预测，避免在整个模型中带入“比较重”的地图模块。

在未来模型压缩和轻量化中，这种方法有望在自动驾驶技术的发展中发挥重要作用，并为未来相关研究提供了新的思路。

4 参考文献

《Map-Free Trajectory Prediction with Map Distillation and Hierarchical Encoding》

自动驾驶---不依赖地图的大模型轨迹预测

1 前言

2 轨迹预测

2.1 方法论

（1）知识蒸馏

（2）MFTP架构

2.2 验证

3 总结

4 参考文献

相关文章：

自动驾驶---不依赖地图的大模型轨迹预测

【五.LangChain技术与应用】【8.LangChain提示词模板基础：从入门到精通】

【AGI】智谱开源2025：一场AI技术民主化的革命正在到来

Markdown HTML 图像语法

DeepSeek 角色设定与风格控制

国产化替换案例：CACTER邮件网关为Groupwise系统加固邮件安全防线

Element UI-Select选择器结合树形控件终极版

《底层逻辑》总结书摘

【Linux】【网络】UDP打洞--＞不同子网下的客户端和服务器通信（未成功版）

【微信小程序】每日心情笔记

PMP项目管理—沟通管理篇—3.监督沟通

在Linux中开发OpenGL——检查开发环境对OpenGL ES的支持

低空经济-飞行数据平台搭建可行方案

python量化交易——金融数据管理最佳实践——使用qteasy大批量自动拉取金融数据

为AI聊天工具添加一个知识系统之136 详细设计之77 通用编程语言之7

【CSRF实践】DVWA靶场之CSRF实践

数据库设计方面如何进行PostgreSQL 17的性能调优？

[场景题]如何实现购物车

Rust 并发编程：Futures、Tasks 和 Threads 的结合使用

常见的网络协议介绍

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

docker详细操作--未完待续

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

相机Camera日志实例分析之二：相机Camx【专业模式开启直方图拍照】单帧流程日志详解

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具

学习STC51单片机31（芯片为STC89C52RCRC）OLED显示屏1

《基于Apache Flink的流处理》笔记

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪宝可梦GO游戏自组网系统

初学 pytest 记录

基于TurtleBot3在Gazebo地图实现机器人远程控制