当前位置: 首页 > news >正文

自动驾驶---不依赖地图的大模型轨迹预测

1 前言

        早期传统自动驾驶方案通常依赖高精地图(HD Map)提供道路结构、车道线、交通规则等信息,可参考博客《自动驾驶---方案从有图迈进无图》,本质上还是存在问题:

  • 数据依赖性高:地图构建成本昂贵,且跨区域泛化能力受限。
  • 动态场景局限性:地图无法实时反映临时障碍物或施工区域。
  • 计算复杂度:地图的复杂拓扑结构需要额外编码模块处理。

        在之前的博客中,笔者分别介绍过华为《自动驾驶---行泊一体(车位到车位功能)》ADS3.0智驾方案中,RCR网络(Road Cognition & Reasoning,道路拓扑推理网络):结合普通导航地图来与现实进行匹配和印证,再实时通过传感器来拓补绘制一幅可用的行车地图。通过RCR网络便摆脱了高精地图,实现绝大多数场景下的无图就能开。

        小米智驾同样也有一套系统《自动驾驶---小米汽车智驾进展》,道路大模型:小米道路大模型,实时生成道路拓扑,效果媲美高精地图,实现全国都能用的城市领航。

        小米和华为类似,都是通过模型来建立车道信息,尽量不高度依赖高精地图。

        最近介绍的博客《自动驾驶---LSTM模型用于轨迹预测》,仅依赖于动态车辆的历史轨迹,有其局限性,以及《自动驾驶---基于深度学习模型的轨迹预测》中介绍通过深度学习模型进行轨迹预测,基于此轨迹预测的深度学习模型,后期是可以用于自车轨迹生成的端到端大模型。

        目前特斯拉的端到端大模型的输入应该是包括地图数据的,但国内量产端到端大模型的公司目前做到这一点的几乎没有。

    2 轨迹预测

            目前,很多公司的端到端整体方案如下所示,地图信息作为模型的输入(以特斯拉为代表),或者干脆就不包括(国内的模块化大模型)。

           MFTP(Map-Free Trajectory Prediction),这是一种无需地图的轨迹预测方法(如下图所示),它在训练期间通过知识蒸馏从高清地图中获益,而在推理期间则不需要高清地图。论文中提出了一种新颖的层次编码器,有效地提取时空智能体特征,并将它们聚合成多个轨迹查询。此外,引入了一个迭代解码器,顺序解码轨迹查询以生成最终预测。在Argoverse数据集下的无地图设置中,该方法实现了最先进的性能。

    2.1 方法论

    (1)知识蒸馏

            前段时间也是Deepseek带火了知识蒸馏这一概念。知识蒸馏(Knowledge Distillation) 其实是一种机器学习技术,旨在将复杂模型(通常称为“教师模型”)的知识迁移到更简单、更高效的模型(“学生模型”)中,从而实现模型压缩、性能提升或部署优化。其核心思想是让学生模型模仿教师模型的输出或中间特征,而不仅仅依赖原始训练数据的标签。

    • 知识蒸馏的大概过程:
      • 训练教师模型:在目标任务上训练一个高性能的大模型。
      • 生成软标签:用教师模型对训练数据推理,得到概率分布(软标签)。
      • 训练学生模型:学生模型同时拟合硬标签(原始标签)和软标签(教师输出),损失函数通常为:  ,其中  衡量学生与教师输出的差异, 为权重系数。
    • 套用到 MFTP(Map-Free Trajectory Prediction)中的大概过程如下:
      • 教师模型:使用高精地图的轨迹预测模型。
      • 学生模型:无地图的轨迹预测模型。
      • 蒸馏内容:将教师模型对地图拓扑的理解(如车道连接、交通规则)迁移到学生模型中,使其隐式学习道路结构约束,而无需显式地图输入。

    (2)MFTP架构

    • 整体框架:MFTP包括一个预训练的基于地图的教师网络和一个无需地图的学生网络。教师网络利用高清地图和其它智能体的历史轨迹作为输入,而学生网络则不依赖地图信息。
    • 层次编码器:提出了一种新颖的层次编码器,用于提取智能体的多层次时空特征,并将它们聚合成多个轨迹查询。
      • 输入表示:在采用向量表示的情况下,智能体的历史轨迹和地图折线被表示为二维或三维空间中的一组点。我们没有使用智能体轨迹和地图点的绝对位置,而是选择相对运动向量作为输入。

      • 上下文建模:轨迹预测本质上是一项序列性且涉及交互的任务,在其中,一个智能体过去的行为以及周围环境都起着至关重要的作用。为了提取智能体的时空特征,我们按顺序对地图与地图之间、智能体与地图之间以及智能体与智能体之间的交互进行建模。首先,我们利用中提出的带有注意力机制的地图与地图注意力模块,对地图结构和车道交互进行建模,将其视为地图先验知识,随后再接入一个前馈神经网络(FFN)。

      • 分层特征聚合与融合:利用特征聚合(FA)模块对智能体的时空特征进行聚合,以生成多个轨迹查询。这些查询起到了桥梁的作用,连接着编码器和解码器,并且代表着潜在的多模态未来轨迹。

    • 迭代解码器:使用迭代解码器顺序解码轨迹queries,以生成最终的预测。

            整体的框架如下图所示,多模态融合轨迹预测(MFTP)有一个基于地图的预训练教师模型和一个无地图的学生模型。除了与地图相关的模块之外,学生模型与教师模型具有相同的架构。在编码器中,通过特征聚合(FA)模块在进行智能体间的时间和空间注意力计算后,分层的智能体特征会被逐步提取出来,然后这些特征被融合,形成 K 个轨迹查询,对应着 K 条多模态的未来轨迹。在教师网络中,智能体在编码器阶段通过智能体 - 地图注意力模块学习地图先验知识,并在解码器阶段通过查询 - 地图注意力模块学习相关知识。通过对中间特征进行知识蒸馏,我们将地图先验知识融入到无地图的学生网络中。

    2.2 验证

            关于轨迹预测具体的评测指标在之前的博客中多次介绍过,这里就不赘述了。通过数据对比,MFTP方法在某些方面还是存在优势的。

    • 数据集和评估:在Argoverse数据集上进行了广泛的实验,证明了MFTP在无需地图的情况下实现了最先进的性能。
    • 定量结果:与现有的无需地图的方法相比,MFTP在所有指标上均优于其他非蒸馏的无需地图方法,并在应用知识蒸馏后进一步提高了性能。

            在 Argoverse 验证集上的定性结果。(a)展示了无地图模型在交叉路口场景中的性能表现,该场景存在各种驾驶行为(例如,直行、左转、大角度左转以及从左至右的右转),且该模型未利用地图先验知识。(b)表明,在知识蒸馏(KD)的帮助下,无地图模型能够预测出与真实轨迹更为接近的未来轨迹。(a)和(b)使用相同的图例。建议以彩色模式并放大查看效果最佳。

    3 总结

            本篇博客通过一篇论文的介绍以及笔者自身的理解来看,MFTP为自动驾驶轨迹预测领域提供了一种新的视角,即在不依赖高清地图的情况下,通过知识蒸馏和层次编码来实现有效的轨迹预测,避免在整个模型中带入“比较重”的地图模块。

            在未来模型压缩和轻量化中,这种方法有望在自动驾驶技术的发展中发挥重要作用,并为未来相关研究提供了新的思路。

     

    4 参考文献

    《Map-Free Trajectory Prediction with Map Distillation and Hierarchical Encoding》

     

    相关文章:

    自动驾驶---不依赖地图的大模型轨迹预测

    1 前言 早期传统自动驾驶方案通常依赖高精地图(HD Map)提供道路结构、车道线、交通规则等信息,可参考博客《自动驾驶---方案从有图迈进无图》,本质上还是存在问题: 数据依赖性高:地图构建成本昂贵&#xf…...

    【五.LangChain技术与应用】【8.LangChain提示词模板基础:从入门到精通】

    早上八点,你端着咖啡打开IDE,老板刚甩来需求:“做个能自动生成产品描述的AI工具”。你自信满满地打开ChatGPT的API文档,结果半小时后对着满屏的"输出结果不稳定"、"格式总出错"抓耳挠腮——这时候你真需要好好认识下LangChain里的提示词模板了。 一、…...

    【AGI】智谱开源2025:一场AI技术民主化的革命正在到来

    智谱开源2025:一场AI技术民主化的革命正在到来 引言:开源,一场技术平权的革命一、CogView4:中文AI生成的里程碑1. 破解汉字生成的“AI魔咒”2. 开源协议与生态赋能 二、AutoGLM:人机交互的范式跃迁1. 自然语言驱动的跨…...

    Markdown HTML 图像语法

    插入图片 Markdown ![图片描述](图片链接)一般来说,直接复制粘贴过来就行了,部分网页/应用可以拖拽,没人会真敲图片的链接吧…… 示例图片: ![Creeper?](https://i-blog.csdnimg.cn/direct/f5031c8c4f15421c9882d7eb23540b8…...

    DeepSeek 角色设定与风格控制

    🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…...

    国产化替换案例:CACTER邮件网关为Groupwise系统加固邮件安全防线

    电子邮件作为企业信息流转的命脉,承载着商业机密与客户数据。然而,网络攻击手段日益复杂,钓鱼邮件等威胁正快速侵蚀企业安全防线。据《2024年第四季度企业邮箱安全性研究报告》显示,2024年Q4企业邮箱用户遭遇的钓鱼邮件数量激增至…...

    Element UI-Select选择器结合树形控件终极版

    Element UI Select选择器控件结合树形控件实现单选和多选&#xff0c;并且通过v-model的方式实现节点的双向绑定&#xff0c;封装成vue组件&#xff0c;文件名为electricity-meter-tree.vue&#xff0c;其代码如下&#xff1a; <template><div><el-select:valu…...

    《底层逻辑》总结书摘

    《底层逻辑》由张羽所著&#xff0c;聚焦于职场与个人发展&#xff0c;深入阐述了定位、结果、学习等十大底层逻辑&#xff0c;旨在帮助读者掌握思考和解决问题的有效方法&#xff0c;提升职场竞争力与个人成就。 核心观点&#xff1a;思维和行动决定命运&#xff0c;格局与价值…...

    【Linux】【网络】UDP打洞-->不同子网下的客户端和服务器通信(未成功版)

    【Linux】【网络】UDP打洞–>不同子网下的客户端和服务器通信&#xff08;未成功版&#xff09; 上次说基于UDP的打洞程序改了五版一直没有成功&#xff0c;要写一下问题所在&#xff0c;但是我后续又查询了一些资料&#xff0c;成功实现了&#xff0c;这次先写一下未成功的…...

    【微信小程序】每日心情笔记

    个人团队的比赛项目&#xff0c;仅供学习交流使用 一、项目基本介绍 1. 项目简介 一款基于微信小程序的轻量化笔记工具&#xff0c;旨在帮助用户通过记录每日心情和事件&#xff0c;更好地管理情绪和生活。用户可以根据日期和心情分类&#xff08;如开心、平静、难过等&#…...

    PMP项目管理—沟通管理篇—3.监督沟通

    文章目录 基本信息4W1HITTO输入工具与技术输出 工作绩效信息和变更请求 基本信息 4W1H what: 确保满足项目及其相关方的信息需求的过程。why: 通过监督沟通过程&#xff0c;来确定规划的沟通工作和沟通活动是否如预期&#xff0c;提高或保持了相关方对项目可交付成果与预计结…...

    在Linux中开发OpenGL——检查开发环境对OpenGL ES的支持

    由于移动端GPU规模有限&#xff0c;厂商并没有实现完整的OpenGL特性&#xff0c;而是实现了它的子集——OpenGL ES。因此如果需要开发的程序要支持移动端平台&#xff0c;最好使用OpenGL ES开发。 1、 下载支持库、OpenGL ES Demo 1.1、下载PowerVRSDK支持库作为准备&#xff…...

    低空经济-飞行数据平台 搭建可行方案

    搭建一个飞行数据平台是低空经济中至关重要的一环,它能够实现对飞行器的实时监控、数据分析、路径优化以及安全管理。以下是搭建飞行数据平台的详细步骤和技术方案: 一、平台的核心功能 实时监控: 实时获取飞行器的位置、速度、高度、电池状态等数据。提供可视化界面,展示飞…...

    python量化交易——金融数据管理最佳实践——使用qteasy大批量自动拉取金融数据

    文章目录 使用数据获取渠道自动填充数据QTEASY数据拉取功能数据拉取接口refill_data_source()数据拉取API的功能特性多渠道拉取数据实现下载流量控制实现错误重试日志记录其他功能 qteasy是一个功能全面且易用的量化交易策略框架&#xff0c; Github地址在这里。使用它&#x…...

    为AI聊天工具添加一个知识系统 之136 详细设计之77 通用编程语言 之7

    问题 Q1492、针对前面您给出的“AI聊天工具知识系统设计文档”&#xff0c;请就您后面所述“智能进化&#xff1a;认知演进路由驱动知识库持续优化”进行更深入的实现讨论 Q1493、感觉不够完整。下面我们针对您前面给出的“知识系统三层架构详述”逐层给出详细地实现方案。 …...

    【CSRF实践】DVWA靶场之CSRF实践

    CSRF介绍 CSRF(Cross-site request forgery)&#xff0c;中文名叫做“跨站请求伪造”&#xff0c;也被称作“one click attack/session riding”&#xff0c;缩写为“CSRF/XSRF”。在场景中&#xff0c;攻击者会伪造一个请求&#xff08;通常是一个链接&#xff09;&#xff0…...

    数据库设计方面如何进行PostgreSQL 17的性能调优?

    在数据库设计方面&#xff0c;PostgreSQL 17 的性能调优可以从以下几个方面入手&#xff1a; 表结构设计 选择合适的数据类型&#xff1a;根据数据的实际范围和业务需求&#xff0c;选择占用空间小、查询效率高的数据类型。对于固定长度的字符串&#xff0c;如性别字段&#…...

    [场景题]如何实现购物车

    1. 基于Session的购物车&#xff08;适合小型单体应用&#xff09; 核心思路&#xff1a;将购物车数据存储在用户会话&#xff08;Session&#xff09;中&#xff0c;适用于无需持久化的临时购物车。 实现步骤&#xff1a; 数据结构&#xff1a;使用Map<商品ID, 商品数量&g…...

    Rust 并发编程:Futures、Tasks 和 Threads 的结合使用

    一、线程&#xff08;Threads&#xff09;与异步&#xff08;Async&#xff09;的对比 1.1. 线程的优势与限制 线程是一种广泛使用的并发模型&#xff0c;几乎所有现代操作系统都支持。Rust 的标准库提供了 std::thread API&#xff0c;使得线程编程变得直观。然而&#xff0…...

    常见的网络协议介绍

    一、什么是网络协议 指的是通信双方的数据发送和接收顺序&#xff0c;数据的封装规则。 通俗解释&#xff1a;描述双方发送和接收的每个字节是按照什么规则。 二、TCP/IP体系的常用协议 (一)应用层 HTTP&#xff1a;超文本协议&#xff1b;指的是用来传输文本网页的协议&#…...

    【架构实战】架构师成长路线图

    一、架构师的核心能力 架构师不是只会画图的技术人&#xff0c;而是能在技术、业务、团队之间找到平衡点的综合型人才。 技术深度 精通至少一个技术领域理解底层原理&#xff0c;不浮于表面持续跟踪新技术趋势 系统思维 全局视角看问题懂得权衡&#xff08;Trade-off&#xff0…...

    新手零门槛入门:用快马生成你的第一个jiyutrainer式Python练习脚本

    作为一个刚接触Python的新手&#xff0c;想要练习编程却常常被各种环境配置和工具安装搞得晕头转向。最近我发现了一个特别适合新手入门的方法——使用InsCode(快马)平台来生成自己的第一个Python练习脚本。下面我就来分享一下这个零门槛的入门体验。 为什么选择jiyutrainer式练…...

    Onekey:Steam游戏清单管理的自动化解决方案 | 玩家与开发者必备工具

    Onekey&#xff1a;Steam游戏清单管理的自动化解决方案 | 玩家与开发者必备工具 【免费下载链接】Onekey Onekey Steam Depot Manifest Downloader 项目地址: https://gitcode.com/gh_mirrors/one/Onekey 当独立游戏开发者小林第三次因为手动复制Steam App ID出错而导致…...

    Bedtools:基因组数据分析的高效工具集

    Bedtools&#xff1a;基因组数据分析的高效工具集 【免费下载链接】bedtools A powerful toolset for genome arithmetic. 项目地址: https://gitcode.com/gh_mirrors/be/bedtools 项目价值与应用场景 Bedtools作为一款专注于基因组算术操作的工具集&#xff0c;在生物…...

    Midscene.js终极指南:3步让AI帮你自动操作任何界面

    Midscene.js终极指南&#xff1a;3步让AI帮你自动操作任何界面 【免费下载链接】midscene Let AI be your browser operator. 项目地址: https://gitcode.com/GitHub_Trending/mid/midscene Midscene.js是一个AI驱动的跨平台自动化工具&#xff0c;让你用自然语言就能控…...

    Windows下MySQL 8.0数据库存储路径迁移实战:释放C盘空间

    Windows下MySQL 8.0存储路径迁移全指南&#xff1a;彻底解放C盘空间 对于长期在本地开发环境中使用MySQL的开发者来说&#xff0c;系统盘空间被数据库文件逐渐蚕食是常见痛点。默认安装的MySQL 8.0会将数据目录存放在C盘的隐蔽位置&#xff0c;随着业务数据增长&#xff0c;不仅…...

    脑波货币化:公司用我的焦虑情绪炒期货

    一、软件测试工程师&#xff1a;焦虑的“完美生产者”在持续集成、敏捷交付的现代开发流程中&#xff0c;软件测试从业者长期处于多重压力夹击之下&#xff1a;精确性高压&#xff1a;对缺陷零容忍的行业标准&#xff0c;使每一次测试执行如同走钢丝技术迭代焦虑&#xff1a;AI…...

    MXNet多语言生态:Python到Java/C++的跨平台部署

    MXNet多语言生态&#xff1a;Python到Java/C的跨平台部署 文章详细介绍了MXNet深度学习框架的多语言支持能力&#xff0c;重点阐述了从Python训练环境到Java/C生产环境的完整部署流程。内容涵盖Python API的深度使用指南&#xff0c;包括NDArray高效张量计算、Symbolic编程的计…...

    当分包时,主包里有未被引用的文件,小程序预览【代码质量】显示包体积过大,不影响发布

    1.项目加入分包后预览时显示主包体积超出&#xff1f;排查分包没问题&#xff0c;外部库方法也不会占很多空间2.代码依赖分析【显示 - 主包体积正常】主包实际体积&#xff08;768KB&#xff09;明明远小于 2MB 上限&#xff0c;但工具却提示「主包尺寸应小于 1.5M」且未通过。…...

    React篇——第一章 React的基础知识(上篇)

    目录 1. React简介 1.1 什么是React 1.2 React的核心优势 组件化开发 虚拟DOM 丰富的生态系统 跨平台支持 1.3 React的市场地位 2. 开发环境搭建 2.1 使用create-react-app创建项目 2.2 其他创建React项目的方式 3. JSX基础 3.1 什么是JSX 3.2 JSX的优势 3.3 JS…...