自动驾驶---不依赖地图的大模型轨迹预测
1 前言
早期传统自动驾驶方案通常依赖高精地图(HD Map)提供道路结构、车道线、交通规则等信息,可参考博客《自动驾驶---方案从有图迈进无图》,本质上还是存在问题:
- 数据依赖性高:地图构建成本昂贵,且跨区域泛化能力受限。
- 动态场景局限性:地图无法实时反映临时障碍物或施工区域。
- 计算复杂度:地图的复杂拓扑结构需要额外编码模块处理。
在之前的博客中,笔者分别介绍过华为《自动驾驶---行泊一体(车位到车位功能)》ADS3.0智驾方案中,RCR网络(Road Cognition & Reasoning,道路拓扑推理网络):结合普通导航地图来与现实进行匹配和印证,再实时通过传感器来拓补绘制一幅可用的行车地图。通过RCR网络便摆脱了高精地图,实现绝大多数场景下的无图就能开。
小米智驾同样也有一套系统《自动驾驶---小米汽车智驾进展》,道路大模型:小米道路大模型,实时生成道路拓扑,效果媲美高精地图,实现全国都能用的城市领航。
小米和华为类似,都是通过模型来建立车道信息,尽量不高度依赖高精地图。
最近介绍的博客《自动驾驶---LSTM模型用于轨迹预测》,仅依赖于动态车辆的历史轨迹,有其局限性,以及《自动驾驶---基于深度学习模型的轨迹预测》中介绍通过深度学习模型进行轨迹预测,基于此轨迹预测的深度学习模型,后期是可以用于自车轨迹生成的端到端大模型。
目前特斯拉的端到端大模型的输入应该是包括地图数据的,但国内量产端到端大模型的公司目前做到这一点的几乎没有。
2 轨迹预测
目前,很多公司的端到端整体方案如下所示,地图信息作为模型的输入(以特斯拉为代表),或者干脆就不包括(国内的模块化大模型)。


MFTP(Map-Free Trajectory Prediction),这是一种无需地图的轨迹预测方法(如下图所示),它在训练期间通过知识蒸馏从高清地图中获益,而在推理期间则不需要高清地图。论文中提出了一种新颖的层次编码器,有效地提取时空智能体特征,并将它们聚合成多个轨迹查询。此外,引入了一个迭代解码器,顺序解码轨迹查询以生成最终预测。在Argoverse数据集下的无地图设置中,该方法实现了最先进的性能。

2.1 方法论
(1)知识蒸馏
前段时间也是Deepseek带火了知识蒸馏这一概念。知识蒸馏(Knowledge Distillation) 其实是一种机器学习技术,旨在将复杂模型(通常称为“教师模型”)的知识迁移到更简单、更高效的模型(“学生模型”)中,从而实现模型压缩、性能提升或部署优化。其核心思想是让学生模型模仿教师模型的输出或中间特征,而不仅仅依赖原始训练数据的标签。
- 知识蒸馏的大概过程:
- 训练教师模型:在目标任务上训练一个高性能的大模型。
- 生成软标签:用教师模型对训练数据推理,得到概率分布(软标签)。
- 训练学生模型:学生模型同时拟合硬标签(原始标签)和软标签(教师输出),损失函数通常为:
,其中
衡量学生与教师输出的差异,
为权重系数。
- 套用到 MFTP(Map-Free Trajectory Prediction)中的大概过程如下:
- 教师模型:使用高精地图的轨迹预测模型。
- 学生模型:无地图的轨迹预测模型。
- 蒸馏内容:将教师模型对地图拓扑的理解(如车道连接、交通规则)迁移到学生模型中,使其隐式学习道路结构约束,而无需显式地图输入。
(2)MFTP架构
- 整体框架:MFTP包括一个预训练的基于地图的教师网络和一个无需地图的学生网络。教师网络利用高清地图和其它智能体的历史轨迹作为输入,而学生网络则不依赖地图信息。
- 层次编码器:提出了一种新颖的层次编码器,用于提取智能体的多层次时空特征,并将它们聚合成多个轨迹查询。
-
输入表示:在采用向量表示的情况下,智能体的历史轨迹和地图折线被表示为二维或三维空间中的一组点。我们没有使用智能体轨迹和地图点的绝对位置,而是选择相对运动向量作为输入。
-
上下文建模:轨迹预测本质上是一项序列性且涉及交互的任务,在其中,一个智能体过去的行为以及周围环境都起着至关重要的作用。为了提取智能体的时空特征,我们按顺序对地图与地图之间、智能体与地图之间以及智能体与智能体之间的交互进行建模。首先,我们利用中提出的带有注意力机制的地图与地图注意力模块,对地图结构和车道交互进行建模,将其视为地图先验知识,随后再接入一个前馈神经网络(FFN)。
-
分层特征聚合与融合:利用特征聚合(FA)模块对智能体的时空特征进行聚合,以生成多个轨迹查询。这些查询起到了桥梁的作用,连接着编码器和解码器,并且代表着潜在的多模态未来轨迹。
-
- 迭代解码器:使用迭代解码器顺序解码轨迹queries,以生成最终的预测。
整体的框架如下图所示,多模态融合轨迹预测(MFTP)有一个基于地图的预训练教师模型和一个无地图的学生模型。除了与地图相关的模块之外,学生模型与教师模型具有相同的架构。在编码器中,通过特征聚合(FA)模块在进行智能体间的时间和空间注意力计算后,分层的智能体特征会被逐步提取出来,然后这些特征被融合,形成 K 个轨迹查询,对应着 K 条多模态的未来轨迹。在教师网络中,智能体在编码器阶段通过智能体 - 地图注意力模块学习地图先验知识,并在解码器阶段通过查询 - 地图注意力模块学习相关知识。通过对中间特征进行知识蒸馏,我们将地图先验知识融入到无地图的学生网络中。

2.2 验证
关于轨迹预测具体的评测指标在之前的博客中多次介绍过,这里就不赘述了。通过数据对比,MFTP方法在某些方面还是存在优势的。
- 数据集和评估:在Argoverse数据集上进行了广泛的实验,证明了MFTP在无需地图的情况下实现了最先进的性能。
- 定量结果:与现有的无需地图的方法相比,MFTP在所有指标上均优于其他非蒸馏的无需地图方法,并在应用知识蒸馏后进一步提高了性能。

在 Argoverse 验证集上的定性结果。(a)展示了无地图模型在交叉路口场景中的性能表现,该场景存在各种驾驶行为(例如,直行、左转、大角度左转以及从左至右的右转),且该模型未利用地图先验知识。(b)表明,在知识蒸馏(KD)的帮助下,无地图模型能够预测出与真实轨迹更为接近的未来轨迹。(a)和(b)使用相同的图例。建议以彩色模式并放大查看效果最佳。
3 总结
本篇博客通过一篇论文的介绍以及笔者自身的理解来看,MFTP为自动驾驶轨迹预测领域提供了一种新的视角,即在不依赖高清地图的情况下,通过知识蒸馏和层次编码来实现有效的轨迹预测,避免在整个模型中带入“比较重”的地图模块。
在未来模型压缩和轻量化中,这种方法有望在自动驾驶技术的发展中发挥重要作用,并为未来相关研究提供了新的思路。
4 参考文献
《Map-Free Trajectory Prediction with Map Distillation and Hierarchical Encoding》
相关文章:
自动驾驶---不依赖地图的大模型轨迹预测
1 前言 早期传统自动驾驶方案通常依赖高精地图(HD Map)提供道路结构、车道线、交通规则等信息,可参考博客《自动驾驶---方案从有图迈进无图》,本质上还是存在问题: 数据依赖性高:地图构建成本昂贵…...
【五.LangChain技术与应用】【8.LangChain提示词模板基础:从入门到精通】
早上八点,你端着咖啡打开IDE,老板刚甩来需求:“做个能自动生成产品描述的AI工具”。你自信满满地打开ChatGPT的API文档,结果半小时后对着满屏的"输出结果不稳定"、"格式总出错"抓耳挠腮——这时候你真需要好好认识下LangChain里的提示词模板了。 一、…...
【AGI】智谱开源2025:一场AI技术民主化的革命正在到来
智谱开源2025:一场AI技术民主化的革命正在到来 引言:开源,一场技术平权的革命一、CogView4:中文AI生成的里程碑1. 破解汉字生成的“AI魔咒”2. 开源协议与生态赋能 二、AutoGLM:人机交互的范式跃迁1. 自然语言驱动的跨…...
Markdown HTML 图像语法
插入图片 Markdown 一般来说,直接复制粘贴过来就行了,部分网页/应用可以拖拽,没人会真敲图片的链接吧…… 示例图片: 总架构师,15年工作经验,精通Java编…...
国产化替换案例:CACTER邮件网关为Groupwise系统加固邮件安全防线
电子邮件作为企业信息流转的命脉,承载着商业机密与客户数据。然而,网络攻击手段日益复杂,钓鱼邮件等威胁正快速侵蚀企业安全防线。据《2024年第四季度企业邮箱安全性研究报告》显示,2024年Q4企业邮箱用户遭遇的钓鱼邮件数量激增至…...
Element UI-Select选择器结合树形控件终极版
Element UI Select选择器控件结合树形控件实现单选和多选,并且通过v-model的方式实现节点的双向绑定,封装成vue组件,文件名为electricity-meter-tree.vue,其代码如下: <template><div><el-select:valu…...
《底层逻辑》总结书摘
《底层逻辑》由张羽所著,聚焦于职场与个人发展,深入阐述了定位、结果、学习等十大底层逻辑,旨在帮助读者掌握思考和解决问题的有效方法,提升职场竞争力与个人成就。 核心观点:思维和行动决定命运,格局与价值…...
【Linux】【网络】UDP打洞-->不同子网下的客户端和服务器通信(未成功版)
【Linux】【网络】UDP打洞–>不同子网下的客户端和服务器通信(未成功版) 上次说基于UDP的打洞程序改了五版一直没有成功,要写一下问题所在,但是我后续又查询了一些资料,成功实现了,这次先写一下未成功的…...
【微信小程序】每日心情笔记
个人团队的比赛项目,仅供学习交流使用 一、项目基本介绍 1. 项目简介 一款基于微信小程序的轻量化笔记工具,旨在帮助用户通过记录每日心情和事件,更好地管理情绪和生活。用户可以根据日期和心情分类(如开心、平静、难过等&#…...
PMP项目管理—沟通管理篇—3.监督沟通
文章目录 基本信息4W1HITTO输入工具与技术输出 工作绩效信息和变更请求 基本信息 4W1H what: 确保满足项目及其相关方的信息需求的过程。why: 通过监督沟通过程,来确定规划的沟通工作和沟通活动是否如预期,提高或保持了相关方对项目可交付成果与预计结…...
在Linux中开发OpenGL——检查开发环境对OpenGL ES的支持
由于移动端GPU规模有限,厂商并没有实现完整的OpenGL特性,而是实现了它的子集——OpenGL ES。因此如果需要开发的程序要支持移动端平台,最好使用OpenGL ES开发。 1、 下载支持库、OpenGL ES Demo 1.1、下载PowerVRSDK支持库作为准备ÿ…...
低空经济-飞行数据平台 搭建可行方案
搭建一个飞行数据平台是低空经济中至关重要的一环,它能够实现对飞行器的实时监控、数据分析、路径优化以及安全管理。以下是搭建飞行数据平台的详细步骤和技术方案: 一、平台的核心功能 实时监控: 实时获取飞行器的位置、速度、高度、电池状态等数据。提供可视化界面,展示飞…...
python量化交易——金融数据管理最佳实践——使用qteasy大批量自动拉取金融数据
文章目录 使用数据获取渠道自动填充数据QTEASY数据拉取功能数据拉取接口refill_data_source()数据拉取API的功能特性多渠道拉取数据实现下载流量控制实现错误重试日志记录其他功能 qteasy是一个功能全面且易用的量化交易策略框架, Github地址在这里。使用它&#x…...
为AI聊天工具添加一个知识系统 之136 详细设计之77 通用编程语言 之7
问题 Q1492、针对前面您给出的“AI聊天工具知识系统设计文档”,请就您后面所述“智能进化:认知演进路由驱动知识库持续优化”进行更深入的实现讨论 Q1493、感觉不够完整。下面我们针对您前面给出的“知识系统三层架构详述”逐层给出详细地实现方案。 …...
【CSRF实践】DVWA靶场之CSRF实践
CSRF介绍 CSRF(Cross-site request forgery),中文名叫做“跨站请求伪造”,也被称作“one click attack/session riding”,缩写为“CSRF/XSRF”。在场景中,攻击者会伪造一个请求(通常是一个链接)࿰…...
数据库设计方面如何进行PostgreSQL 17的性能调优?
在数据库设计方面,PostgreSQL 17 的性能调优可以从以下几个方面入手: 表结构设计 选择合适的数据类型:根据数据的实际范围和业务需求,选择占用空间小、查询效率高的数据类型。对于固定长度的字符串,如性别字段&#…...
[场景题]如何实现购物车
1. 基于Session的购物车(适合小型单体应用) 核心思路:将购物车数据存储在用户会话(Session)中,适用于无需持久化的临时购物车。 实现步骤: 数据结构:使用Map<商品ID, 商品数量&g…...
Rust 并发编程:Futures、Tasks 和 Threads 的结合使用
一、线程(Threads)与异步(Async)的对比 1.1. 线程的优势与限制 线程是一种广泛使用的并发模型,几乎所有现代操作系统都支持。Rust 的标准库提供了 std::thread API,使得线程编程变得直观。然而࿰…...
常见的网络协议介绍
一、什么是网络协议 指的是通信双方的数据发送和接收顺序,数据的封装规则。 通俗解释:描述双方发送和接收的每个字节是按照什么规则。 二、TCP/IP体系的常用协议 (一)应用层 HTTP:超文本协议;指的是用来传输文本网页的协议&#…...
idea大量爆红问题解决
问题描述 在学习和工作中,idea是程序员不可缺少的一个工具,但是突然在有些时候就会出现大量爆红的问题,发现无法跳转,无论是关机重启或者是替换root都无法解决 就是如上所展示的问题,但是程序依然可以启动。 问题解决…...
使用VSCode开发Django指南
使用VSCode开发Django指南 一、概述 Django 是一个高级 Python 框架,专为快速、安全和可扩展的 Web 开发而设计。Django 包含对 URL 路由、页面模板和数据处理的丰富支持。 本文将创建一个简单的 Django 应用,其中包含三个使用通用基本模板的页面。在此…...
椭圆曲线密码学(ECC)
一、ECC算法概述 椭圆曲线密码学(Elliptic Curve Cryptography)是基于椭圆曲线数学理论的公钥密码系统,由Neal Koblitz和Victor Miller在1985年独立提出。相比RSA,ECC在相同安全强度下密钥更短(256位ECC ≈ 3072位RSA…...
Day131 | 灵神 | 回溯算法 | 子集型 子集
Day131 | 灵神 | 回溯算法 | 子集型 子集 78.子集 78. 子集 - 力扣(LeetCode) 思路: 笔者写过很多次这道题了,不想写题解了,大家看灵神讲解吧 回溯算法套路①子集型回溯【基础算法精讲 14】_哔哩哔哩_bilibili 完…...
vscode(仍待补充)
写于2025 6.9 主包将加入vscode这个更权威的圈子 vscode的基本使用 侧边栏 vscode还能连接ssh? debug时使用的launch文件 1.task.json {"tasks": [{"type": "cppbuild","label": "C/C: gcc.exe 生成活动文件"…...
MMaDA: Multimodal Large Diffusion Language Models
CODE : https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA,它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构…...
反射获取方法和属性
Java反射获取方法 在Java中,反射(Reflection)是一种强大的机制,允许程序在运行时访问和操作类的内部属性和方法。通过反射,可以动态地创建对象、调用方法、改变属性值,这在很多Java框架中如Spring和Hiberna…...
涂鸦T5AI手搓语音、emoji、otto机器人从入门到实战
“🤖手搓TuyaAI语音指令 😍秒变表情包大师,让萌系Otto机器人🔥玩出智能新花样!开整!” 🤖 Otto机器人 → 直接点明主体 手搓TuyaAI语音 → 强调 自主编程/自定义 语音控制(TuyaAI…...
算法岗面试经验分享-大模型篇
文章目录 A 基础语言模型A.1 TransformerA.2 Bert B 大语言模型结构B.1 GPTB.2 LLamaB.3 ChatGLMB.4 Qwen C 大语言模型微调C.1 Fine-tuningC.2 Adapter-tuningC.3 Prefix-tuningC.4 P-tuningC.5 LoRA A 基础语言模型 A.1 Transformer (1)资源 论文&a…...
保姆级教程:在无网络无显卡的Windows电脑的vscode本地部署deepseek
文章目录 1 前言2 部署流程2.1 准备工作2.2 Ollama2.2.1 使用有网络的电脑下载Ollama2.2.2 安装Ollama(有网络的电脑)2.2.3 安装Ollama(无网络的电脑)2.2.4 安装验证2.2.5 修改大模型安装位置2.2.6 下载Deepseek模型 2.3 将deepse…...
