论文阅读:LLM4Drive: A Survey of Large Language Models for Autonomous Driving
地址:LLM4Drive: A Survey of Large Language Models for Autonomous Driving
摘要翻译
自动驾驶技术作为推动交通和城市出行变革的催化剂,正从基于规则的系统向数据驱动策略转变。传统的模块化系统受限于级联模块间的累积误差和缺乏灵活性的预设规则。相比之下,端到端自动驾驶系统因其完全数据驱动的训练过程有望避免误差累积,但其 “黑箱” 特性往往导致透明度不足,使得决策的验证和追溯复杂化。最近,大型语言模型(LLMs)已展现出上下文理解、逻辑推理和生成答案等能力。一个自然的想法是利用这些能力为自动驾驶赋能。通过将 LLM 与基础视觉模型相结合,有望实现当前自动驾驶系统所缺乏的开放世界理解、推理和小样本学习能力。本文系统综述了用于自动驾驶的(视觉)大型语言模型((V) LLM4Drive)的研究路线,评估了当前的技术进展状态,明确概述了该领域的主要挑战和未来方向。为了方便学术界和工业界的研究人员,我们通过指定链接(GitHub - Thinklab-SJTU/Awesome-LLM4AD)提供该领域最新进展的实时更新以及相关开源资源。
总结
1. 背景
- 传统模块化系统:由感知、预测、规划等独立模块组成,虽在多种场景中提供可靠性和安全性,但存在信息丢失、计算冗余和模块间误差累积等问题。
- 端到端系统:通过消除模块间的集成误差和减少冗余计算,增强了视觉和感官信息的表达,但决策过程缺乏透明度(“黑箱” 问题),解释和验证困难。
- LLMs 的潜力:凭借强大的上下文理解、推理和生成能力,结合多模态模型(如图像、文本、点云等),可提升系统的泛化能力,支持零 / 小样本学习,有望解决自动驾驶的长尾问题并提供决策解释。
2. 动机
- 数据与仿真的局限性:传统方法依赖大量数据和仿真,但仿真与现实存在差距(sim2real gap),且离线数据难以覆盖自动驾驶的长尾场景。
- LLMs 的补充作用:利用 LLMs 内置的常识知识,可缩小数据缺口,提升系统在复杂场景下的推理能力,推动自动驾驶向人类专家水平靠近。
3. 应用场景
- 规划与控制
- 微调预训练模型:如 MTDGPT 将多任务决策转化为序列建模问题;DriveGPT4 基于多模态 LLM 生成控制信号并解释决策。
- 提示工程:如 DiLu 通过记忆模块和 LLM 推理实现闭环驾驶;SurrealDriver 利用人类驾驶行为描述作为提示开发 “教练代理”。
- 感知:LLMs 通过跨模态特征融合(如 PromptTrack 的语言提示与 3D 检测结合)或提示推理(如 HiLM-D 的风险目标定位)提升感知能力,尤其在数据稀缺场景下表现突出。
- 问答(QA):涵盖传统 QA(如 Tang 等人的领域知识蒸馏)和视觉 QA(如 DriveLM 的图结构推理),支持实时场景理解和用户交互。
- 生成:利用扩散模型(如 DriveDreamer、DrivingDiffusion)生成驾驶视频、交通场景或轨迹,用于数据增强和场景仿真,降低数据收集成本。
4. 数据集与评估基准
- 数据集:如 BDD-X、NuScenes-QA、LingoQA 等,提供多模态标注(文本描述、QA 对、3D 边界框等),支持 LLMs 在自动驾驶中的训练和评估。
- 评估基准:包括 LangAuto(CARLA-based)、LingoQA、DriveSim 等,覆盖场景理解、决策逻辑、安全性等多维度评估。
5. 挑战与未来方向
- 挑战:计算效率(LLMs 推理时间长)、实时性要求、可解释性不足、数据质量(标注成本高)、安全性(对抗攻击)和伦理问题(隐私、偏见)。
- 未来方向:轻量级 LLMs 优化、多模态融合(视觉 - 语言 - 传感器)、边缘计算部署、标准化评估指标、安全对齐(如形式化验证)和伦理框架建设。
一、相关技术方法
1. 规划与控制方法
- 微调预训练模型
- 核心思路:在预训练 LLMs 基础上,针对驾驶场景(如无信号交叉口决策、轨迹预测)进行微调,将驾驶任务转化为序列建模或语言生成问题。
- 代表方法:MTDGPT 通过混合多任务数据集训练处理复杂决策;Agent-Driver 引入工具库和认知记忆增强推理;RAG-Driver 结合检索增强上下文学习,实现可解释的端到端驾驶。
- 提示工程
- 核心思路:通过设计特定提示(如 “思维链”、安全准则)激活 LLMs 的推理能力,无需大规模训练。
- 代表方法:DiLu 利用记忆模块记录经验,通过多轮 QA 实现推理和反思;TrafficGPT 融合 ChatGPT 与交通基础模型,处理复杂交通问题;LanguageMPC 将 LLMs 与低级控制器结合,通过参数矩阵适应优化控制。
2. 感知方法
- 跨模态融合:如 PromptTrack 将语言提示作为语义线索,融合到 3D 检测和跟踪任务中;LC-LLM 利用 LLMs 理解复杂场景,提升车道变更预测的可解释性。
- 提示推理:如 HiLM-D 将高分辨率视觉信息输入多模态 LLMs,实现风险目标定位和意图预测;Context-aware Motion Prediction 结合 GPT-4V 的场景描述与传统模型,增强运动预测准确性。
3. 问答与生成方法
- 问答
- 传统 QA:通过 “聊天” 与 LLMs 构建领域知识本体(如 Tang 等人的交通规则蒸馏),支持实时交互和干预。
- 视觉 QA:如 DriveMLM 利用多视图图像和点云生成高层决策命令;EM-VLM4AD 设计轻量级多帧视觉语言模型,提升问答效率。
- 生成
- 扩散模型:如 DriveDreamer 基于文本、图像和 HD 地图生成驾驶视频;CTG++ 通过 LLMs 将用户查询转化为损失函数,驱动扩散模型生成可控交通场景。
- 场景仿真:ChatScene 利用 LLMs 生成安全关键场景,提升自动驾驶系统的鲁棒性;GenAD 利用网络数据和时间推理块,实现零样本场景泛化。
4. 评估与基准
- 仿真环境:如 CARLA、nuPlan、HighwayEnv,用于测试 LLMs 在闭环驾驶中的性能(如碰撞率、轨迹拟合度)。
- 指标体系:涵盖传统指标(如 L2 误差、mAP)和语言评估指标(如 BLEU-4、ChatGPT 评分),但缺乏统一标准,需进一步标准化。
二、评价指标
1. 传统指标
- 规划与控制:轨迹跟踪误差(RMSE)、碰撞率、速度方差(SV)、时间效率(TE)。
- 感知:mAP(平均精度均值)、3D检测准确率、目标定位误差(L2误差)。
2. 语言与多模态指标
- 问答:BLEU-4、METEOR、CIDEr、SPICE(用于评估生成文本的语义准确性)。
- 生成:FID(Fréchet Inception Distance)、CLIP分数(用于评估生成图像/视频的质量)。
3. 综合指标
- 实时性:推理速度(如LLM-MPC在Jetson Orin上5.52秒/次)、控制频率(如MPC保持20Hz)。
- 安全性:碰撞时间(TTC)、违规处罚(IP)、形式化验证通过率。
三、数据集
四、亟待解决的核心问题
1. 计算效率与实时性瓶颈
- 挑战:LLM推理延迟高(如GPT-4V在复杂场景中需数秒),难以满足自动驾驶20Hz以上的控制频率需求。
- 解决方案:
- 异步架构:如AsyncDriver将LLM推理与实时规划解耦,通过低频率高层决策指导高频控制。
- 模型压缩:结合量化(如INT8量化)和知识蒸馏(如CoT-Drive),在保持性能的同时减少计算量。
2. 多模态融合的动态适应性
- 挑战:静态融合方法无法应对数据分布变化(如传感器故障、极端天气),导致性能下降。
- 解决方案:
- 动态融合机制:如DynMM通过门控函数动态选择模态组合,QMF利用不确定性估计实现质量感知融合。
- 跨模态对齐:如3D MLLM架构通过稀疏查询统一视觉与语言的3D表示,提升场景理解一致性。
3. 数据质量问题
- 挑战:合成数据的真实性不足(如纹理、物理特性差异),导致模型在真实场景中泛化能力弱。
- 解决方案:
- 生成式仿真优化:如ChatSim结合神经渲染与扩散模型,提升场景的视觉和物理真实性。
- 域适应技术:通过对抗训练(如CycleGAN)或元学习,缩小合成数据与真实数据的分布差异。
4. 可解释性与安全验证
- 挑战:LLM的“黑箱”特性导致决策逻辑难以追溯,且存在幻觉问题(如错误识别障碍物)。
- 解决方案:
- 可解释性增强:如DriveGPT4通过自然语言生成决策依据,GenFollower结合思维链(CoT)提示输出显式推理过程。
- 形式化验证:如Hybrid Reasoning框架将LLM决策与传统控制器结合,通过逻辑推理验证安全性。
5. 伦理与社会接受度
- 挑战:自动驾驶系统的决策可能引发伦理争议(如紧急避险时的优先级选择),且用户对AI驾驶的信任度不足。
- 解决方案:
- 伦理框架设计:建立多利益相关方参与的评估体系,如SurrealDriver通过人类用户实验评估驾驶行为的人性化程度。
- 透明交互界面:如Tang等人的领域知识蒸馏系统,通过实时问答增强用户对系统的理解与控制。
相关文章:

论文阅读:LLM4Drive: A Survey of Large Language Models for Autonomous Driving
地址:LLM4Drive: A Survey of Large Language Models for Autonomous Driving 摘要翻译 自动驾驶技术作为推动交通和城市出行变革的催化剂,正从基于规则的系统向数据驱动策略转变。传统的模块化系统受限于级联模块间的累积误差和缺乏灵活性的预设规则。…...

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement
Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement 1. LAB环境2. L2公告策略2.1 部署Death Star2.2 访问服务2.3 部署L2公告策略2.4 服务宣告 3. 可视化 ARP 流量3.1 部署新服务3.2 准备可视化3.3 再次请求 4. 自动IPAM4.1 IPAM Pool4.2 …...

数学建模-滑翔伞伞翼面积的设计,运动状态计算和优化 !
我们考虑滑翔伞的伞翼面积设计问题以及运动状态描述。滑翔伞的性能主要取决于伞翼面积、气动特性以及飞行员的重量。我们的目标是建立数学模型来描述滑翔伞的运动状态,并优化伞翼面积的设计。 一、问题分析 滑翔伞在飞行过程中受到重力、升力和阻力的作用。升力和阻力与伞翼面…...

tauri项目,如何在rust端读取电脑环境变量
如果想在前端通过调用来获取环境变量的值,可以通过标准的依赖: std::env::var(name).ok() 想在前端通过调用来获取,可以写一个command函数: #[tauri::command] pub fn get_env_var(name: String) -> Result<String, Stri…...

MyBatis中关于缓存的理解
MyBatis缓存 MyBatis系统当中默认定义两级缓存:一级缓存、二级缓存 默认情况下,只有一级缓存开启(sqlSession级别的缓存)二级缓存需要手动开启配置,需要局域namespace级别的缓存 一级缓存(本地缓存&#…...
学习一下用鸿蒙DevEco Studio HarmonyOS5实现百度地图
在鸿蒙(HarmonyOS5)中集成百度地图,可以通过以下步骤和技术方案实现。结合鸿蒙的分布式能力和百度地图的API,可以构建跨设备的定位、导航和地图展示功能。 1. 鸿蒙环境准备 开发工具:下载安装 De…...

【Linux手册】探秘系统世界:从用户交互到硬件底层的全链路工作之旅
目录 前言 操作系统与驱动程序 是什么,为什么 怎么做 system call 用户操作接口 总结 前言 日常生活中,我们在使用电子设备时,我们所输入执行的每一条指令最终大多都会作用到硬件上,比如下载一款软件最终会下载到硬盘上&am…...
Python 训练营打卡 Day 47
注意力热力图可视化 在day 46代码的基础上,对比不同卷积层热力图可视化的结果 import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader import matplotlib.pypl…...

通过MicroSip配置自己的freeswitch服务器进行调试记录
之前用docker安装的freeswitch的,启动是正常的, 但用下面的Microsip连接不上 主要原因有可能一下几个 1、通过下面命令可以看 [rootlocalhost default]# docker exec -it freeswitch fs_cli -x "sofia status profile internal"Name …...

【C++】纯虚函数类外可以写实现吗?
1. 答案 先说答案,可以。 2.代码测试 .h头文件 #include <iostream> #include <string>// 抽象基类 class AbstractBase { public:AbstractBase() default;virtual ~AbstractBase() default; // 默认析构函数public:virtual int PureVirtualFunct…...

springboot 日志类切面,接口成功记录日志,失败不记录
springboot 日志类切面,接口成功记录日志,失败不记录 自定义一个注解方法 import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; import java.lang.annotation.Target;/***…...
uniapp 实现腾讯云IM群文件上传下载功能
UniApp 集成腾讯云IM实现群文件上传下载功能全攻略 一、功能背景与技术选型 在团队协作场景中,群文件共享是核心需求之一。本文将介绍如何基于腾讯云IMCOS,在uniapp中实现: 群内文件上传/下载文件元数据管理下载进度追踪跨平台文件预览 二…...

Linux部署私有文件管理系统MinIO
最近需要用到一个文件管理服务,但是又不想花钱,所以就想着自己搭建一个,刚好我们用的一个开源框架已经集成了MinIO,所以就选了这个 我这边对文件服务性能要求不是太高,单机版就可以 安装非常简单,几个命令就…...
Leetcode33( 搜索旋转排序数组)
题目表述 整数数组 nums 按升序排列,数组中的值 互不相同 。 在传递给函数之前,nums 在预先未知的某个下标 k(0 < k < nums.length)上进行了 旋转,使数组变为 [nums[k], nums[k1], …, nums[n-1], nums[0], nu…...

Ubuntu系统复制(U盘-电脑硬盘)
所需环境 电脑自带硬盘:1块 (1T) U盘1:Ubuntu系统引导盘(用于“U盘2”复制到“电脑自带硬盘”) U盘2:Ubuntu系统盘(1T,用于被复制) !!!建议“电脑…...

认识CMake并使用CMake构建自己的第一个项目
1.CMake的作用和优势 跨平台支持:CMake支持多种操作系统和编译器,使用同一份构建配置可以在不同的环境中使用 简化配置:通过CMakeLists.txt文件,用户可以定义项目结构、依赖项、编译选项等,无需手动编写复杂的构建脚本…...
LCTF液晶可调谐滤波器在多光谱相机捕捉无人机目标检测中的作用
中达瑞和自2005年成立以来,一直在光谱成像领域深度钻研和发展,始终致力于研发高性能、高可靠性的光谱成像相机,为科研院校提供更优的产品和服务。在《低空背景下无人机目标的光谱特征研究及目标检测应用》这篇论文中提到中达瑞和 LCTF 作为多…...
Vue 模板语句的数据来源
🧩 Vue 模板语句的数据来源:全方位解析 Vue 模板(<template> 部分)中的表达式、指令绑定(如 v-bind, v-on)和插值({{ }})都在一个特定的作用域内求值。这个作用域由当前 组件…...
Spring Security 认证流程——补充
一、认证流程概述 Spring Security 的认证流程基于 过滤器链(Filter Chain),核心组件包括 UsernamePasswordAuthenticationFilter、AuthenticationManager、UserDetailsService 等。整个流程可分为以下步骤: 用户提交登录请求拦…...
git: early EOF
macOS报错: Initialized empty Git repository in /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core/.git/ remote: Enumerating objects: 2691797, done. remote: Counting objects: 100% (1760/1760), done. remote: Compressing objects: 100% (636/636…...
HTML前端开发:JavaScript 获取元素方法详解
作为前端开发者,高效获取 DOM 元素是必备技能。以下是 JS 中核心的获取元素方法,分为两大系列: 一、getElementBy... 系列 传统方法,直接通过 DOM 接口访问,返回动态集合(元素变化会实时更新)。…...
HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散
前言 如上一篇文章《dexcap升级版之DexWild》中的前言部分所说,在叠衣服的过程中,我会带着团队对比各种模型、方法、策略,毕竟针对各个场景始终寻找更优的解决方案,是我个人和我司「七月在线」的职责之一 且个人认为,…...
uniapp 集成腾讯云 IM 富媒体消息(地理位置/文件)
UniApp 集成腾讯云 IM 富媒体消息全攻略(地理位置/文件) 一、功能实现原理 腾讯云 IM 通过 消息扩展机制 支持富媒体类型,核心实现方式: 标准消息类型:直接使用 SDK 内置类型(文件、图片等)自…...

协议转换利器,profinet转ethercat网关的两大派系,各有千秋
随着工业以太网的发展,其高效、便捷、协议开放、易于冗余等诸多优点,被越来越多的工业现场所采用。西门子SIMATIC S7-1200/1500系列PLC集成有Profinet接口,具有实时性、开放性,使用TCP/IP和IT标准,符合基于工业以太网的…...

9-Oracle 23 ai Vector Search 特性 知识准备
很多小伙伴是不是参加了 免费认证课程(限时至2025/5/15) Oracle AI Vector Search 1Z0-184-25考试,都顺利拿到certified了没。 各行各业的AI 大模型的到来,传统的数据库中的SQL还能不能打,结构化和非结构的话数据如何和…...
十九、【用户管理与权限 - 篇一】后端基础:用户列表与角色模型的初步构建
【用户管理与权限 - 篇一】后端基础:用户列表与角色模型的初步构建 前言准备工作第一部分:回顾 Django 内置的 `User` 模型第二部分:设计并创建 `Role` 和 `UserProfile` 模型第三部分:创建 Serializers第四部分:创建 ViewSets第五部分:注册 API 路由第六部分:后端初步测…...
离线语音识别方案分析
随着人工智能技术的不断发展,语音识别技术也得到了广泛的应用,从智能家居到车载系统,语音识别正在改变我们与设备的交互方式。尤其是离线语音识别,由于其在没有网络连接的情况下仍然能提供稳定、准确的语音处理能力,广…...
SQL Server 触发器调用存储过程实现发送 HTTP 请求
文章目录 需求分析解决第 1 步:前置条件,启用 OLE 自动化方式 1:使用 SQL 实现启用 OLE 自动化方式 2:Sql Server 2005启动OLE自动化方式 3:Sql Server 2008启动OLE自动化第 2 步:创建存储过程第 3 步:创建触发器扩展 - 如何调试?第 1 步:登录 SQL Server 2008第 2 步…...

mac:大模型系列测试
0 MAC 前几天经过学生优惠以及国补17K入手了mac studio,然后这两天亲自测试其模型行运用能力如何,是否支持微调、推理速度等能力。下面进入正文。 1 mac 与 unsloth 按照下面的进行安装以及测试,是可以跑通文章里面的代码。训练速度也是很快的。 注意…...

DBLP数据库是什么?
DBLP(Digital Bibliography & Library Project)Computer Science Bibliography是全球著名的计算机科学出版物的开放书目数据库。DBLP所收录的期刊和会议论文质量较高,数据库文献更新速度很快,很好地反映了国际计算机科学学术研…...