当前位置: 首页 > article >正文

【自动驾驶 VLA 技术解析】视觉-语言-动作模型的架构与实践

文章目录自动驾驶 VLA 技术解析视觉-语言-动作模型的架构与实践一、引言二、为什么需要 VLA2.1 三代范式演进2.2 VLA 相对 VLM 的核心升级三、VLA 核心架构拆解3.1 三模块统一框架3.2 两大架构范式3.3 动作输出的三种形式四、代表性架构深度解析4.1 OpenDriveVLA慕尼黑工业大学2025.034.2 理想汽车 MindVLA量产落地4.3 前沿研究架构五、VLA 四次浪潮演进六、核心挑战与关键指标6.1 三大工程挑战6.2 主流 Benchmark 评测七、总结自动驾驶 VLA 技术解析视觉-语言-动作模型的架构与实践一、引言亲爱的朋友们创作不容易若对您有帮助的话请点赞收藏加关注哦您的关注是我持续创作的动力谢谢大家有问题请私信或联系邮箱jasonai.fngmail.com2025 年是自动驾驶 VLAVision-Language-Action技术从学术研究走向量产落地的关键年。VLA 模型的核心思路是将视觉感知、语言推理、驾驶动作统一进同一个端到端框架彻底解决传统模块化流水线和早期端到端模型都无法回避的两个痛点长尾场景泛化与复杂语义推理。VLA 最初由 DeepMind 于 2023 年在机器人领域提出汽车行业随即跟进。麦吉尔大学、清华大学与小米联合发布了首个自动驾驶 VLA 综述2025.06理想汽车 MindVLA 量产落地慕尼黑工业大学推出 OpenDriveVLA……这些信号共同指向VLA 正成为 L3/L4 自动驾驶的下一个核心范式。二、为什么需要 VLA2.1 三代范式演进范式代表方案核心局限模块化流水线传统感知-预测-规划-控制模块间误差级联接口脆弱长尾场景易崩端到端E2ETesla FSD V12、UniAD黑箱特性缺乏语义推理无法理解语言指令VLA 统一框架MindVLA、OpenDriveVLA推理成本高大规模标注数据稀缺当前挑战2.2 VLA 相对 VLM 的核心升级VLM视觉语言模型只能看和说缺乏输出连续控制动作的能力。VLA 在 VLM 基础上增加了动作解码器用驾驶轨迹数据进一步训练实现了从理解世界到驾驶车辆的关键跨越。能力维度传统 E2EVLMVLA视觉感知✓✓✓语义理解✗✓✓复杂场景推理有限✓✓语言指令响应✗✓仅文本✓驾驶轨迹生成✓✗✓行为可解释性✗部分✓文本输出决策理由三、VLA 核心架构拆解3.1 三模块统一框架所有主流 VLA4AD 架构均遵循同一基础结构视觉编码器 → 语言处理器 → 动作解码器三者共享统一语义空间。模块职责代表技术选型视觉编码器将相机/LiDAR/雷达原始数据转化为潜在表征DINOv2、CLIP、BEV 投影、点云编码器语言处理器理解驾驶指令和场景语义进行链式推理LLaMA 2、Qwen 2.5、GPT 系列LoRA 微调动作解码器将语言模型输出转换为可执行驾驶轨迹自回归 Token、扩散模型头、GRU 动力学适配器3.2 两大架构范式架构范式代表工作机制适用场景端到端 VLAOpenDriveVLA、SAMoE-VLA感知-推理-规划一体化单模型全覆盖学术前沿追求极致泛化双系统 VLA理想 DriveVLM / MindVLAVLM慢系统负责推理E2E快系统负责执行工业量产安全与性能平衡双系统设计借鉴了人类驾驶的认知模式System 1快速反应处理日常行驶System 2慢速推理介入复杂场景二者分工协作。3.3 动作输出的三种形式输出形式技术实现优势局限自回归 TokenLLM 逐 Token 生成轨迹坐标与 LLM 自然统一推理延迟高扩散模型头条件扩散过程生成轨迹分布多模态输出覆盖不确定性计算密集GRU 动力学适配器GRU 自行车动力学约束物理合规推理轻量需先验动力学知识四、代表性架构深度解析4.1 OpenDriveVLA慕尼黑工业大学2025.03OpenDriveVLA 是学术界最具代表性的端到端 VLA 架构以开源预训练 VLM 为基础融合 2D 和 3D 结构化视觉特征。三类特征 Token 设计Token 类型信息来源编码内容Scene Token多视角摄像头全局 2D 环境上下文Agent Token3D 目标检测结果周边交通参与者位置、速度、意图Map Token高精地图车道拓扑、道路边界、可行驶区域三类 Token 经分层视觉-语言对齐投影至统一语义空间后驱动 Qwen 2.5-Instruct 进行自回归轨迹生成。对比实验表明在窄路超车、复杂路口等场景中OpenDriveVLA 轨迹平滑性显著优于 UniAD后者存在对障碍物反应过激的问题。4.2 理想汽车 MindVLA量产落地MindVLA 是目前工业界最成熟的 VLA 量产方案其三层架构设计如下层级组件功能V视觉空间智能3D Tokenizer 环视摄像头全向空间感知将物理世界体素化L语言语义智能MindGPT自研 LLM融合空间标记与语义信息进行场景推理A动作执行智能集合动作生成器 扩散模型轨迹头输出未来 10–30 秒驾驶轨迹 决策文本解释MindVLA 的工业化差异点维度OpenDriveVLA理想 MindVLA语言模型Qwen 2.5开源微调MindGPT从零全量训练专家系统单一模型MoE 混合专家系统轨迹生成自回归 Token扩散模型覆盖不确定性分布落地状态学术开源量产车型搭载4.3 前沿研究架构架构机构/来源核心创新SAMoE-VLA2025基于 BEV 特征的场景自适应专家选择引入条件跨模态因果注意力DynVLA2025动力学链式思维Dynamics CoT先预测世界动力学再生成动作LinkVLA2025语言-动作 Token 统一离散码本粗到细两阶段生成推理时间降低 86%VLA-MPPMC 2025BEV 多模态感知 GRU 自行车动力学约束物理合规轨迹生成五、VLA 四次浪潮演进根据麦吉尔/清华/小米联合综述2025.06VLA4AD 经历了四次演进浪潮浪潮代表工作核心特征Pre-VLA ExplainersCLIP4AD、BDD-X用语言解释驾驶行为无动作输出Modular VLA4ADDriveGPT4、DriveLMVLM 作为规划模块的上层决策器保留模块化结构End-to-End VLA4ADOpenDriveVLA、MindVLAVLA 直接输出轨迹感知-推理-执行完全统一Reasoning-Augmented VLA4ADDynVLA、CoT-Drive链式思维CoT增强先推理后行动六、核心挑战与关键指标6.1 三大工程挑战挑战具体问题当前应对方向实时性底盘电控执行需 100HzLLM 推理通常 10Hz轻量动作头GRU/扩散 双系统分离数据稀缺带语言标注的驾驶数据集规模不足CoVLAWACV 2025等多模态数据集构建可验证性VLA 决策难以形式化验证监管合规挑战显式文本解释输出 注意力可视化6.2 主流 Benchmark 评测基准测试重点VLA 代表成绩nuScenes城市场景 3D 检测与轨迹规划SAMoE-VLA SOTALangAuto语言指令跟随驾驶SAMoE-VLA SOTACARLA仿真环境闭环驾驶DynVLA 优于 E2E 基线七、总结维度传统 E2EVLA架构范式黑箱神经网络感知-语言-动作统一闭环长尾场景易失效语言推理能力弥补数据稀缺可解释性几乎无实时输出文字决策理由泛化能力依赖数据覆盖借助 LLM 常识知识迁移工程成本低高LLM 推理 训练开销产业成熟度高Tesla FSD 量产快速成熟理想 MindVLA 已落地VLA 并非要取代端到端而是为端到端插上语义推理的翅膀。当 LLM 理解施工绕行、应急车道让行等复杂语义当扩散模型输出带不确定性分布的轨迹当文本解释让事故溯源成为可能——自动驾驶才真正具备了迈向 L4 的系统性能力基础。参考资料Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future — arXiv:2512.16760A Survey on VLA Models for Autonomous Driving — ICCV 2025 Workshop详解 OpenDriveVLA 端到端自动驾驶大模型兼谈理想 MindVLA — 知乎全球首个自动驾驶 VLA 综述重磅发布 — 知乎自动驾驶三大技术路线端到端、VLA、世界模型 — CSDNVLA-MP Framework — PMC/MDPI 2025ICCV 自动驾驶新范式统一世界模型 VLA — 量子位

相关文章:

【自动驾驶 VLA 技术解析】视觉-语言-动作模型的架构与实践

文章目录自动驾驶 VLA 技术解析:视觉-语言-动作模型的架构与实践一、引言二、为什么需要 VLA2.1 三代范式演进2.2 VLA 相对 VLM 的核心升级三、VLA 核心架构拆解3.1 三模块统一框架3.2 两大架构范式3.3 动作输出的三种形式四、代表性架构深度解析4.1 OpenDriveVLA&a…...

【 自动驾驶技术解析】端到端架构与感知规控演进全景(2025–2026)

文章目录自动驾驶技术解析:端到端架构与感知规控演进全景(2025–2026)一、引言二、自动驾驶分级与现状2.1 SAE 分级体系2.2 当前格局速览三、核心感知技术演进3.1 从 SLAM 到 BEV Transformer3.2 BEVFormer 架构解析3.3 3D 占用网络&#xff…...

实战应用:基于快马ai快速开发集成多款iic传感器的物联网环境监测站

今天想和大家分享一个物联网环境监测站的实战项目开发经验。这个项目用到了ESP32开发板和几种常见的I2C传感器,通过快马平台快速实现了从硬件连接到数据上传的全流程开发。 项目背景与硬件选型 这个环境监测站的核心是ESP32开发板,它内置WiFi功能&…...

避坑指南:用JDK21运行Jenkins时编译JDK8项目的5个关键配置

混合JDK环境下的Jenkins实战:从JDK21运行到JDK8项目编译的全链路配置 当现代CI/CD系统遇上遗留代码库,技术债的偿还往往从构建环节开始。最近在将团队Jenkins升级到JDK21环境时,我们遭遇了典型的多版本JDK兼容性问题:新部署的Jenk…...

PointPillars的‘伪图像’到底是怎么来的?从点云到BEV特征图的完整转换逻辑拆解

PointPillars的"伪图像"生成机制:从点云到BEV特征图的完整技术解析 当激光雷达扫描周围环境时,会产生数以万计的三维点云数据。这些离散的点如何转化为适合卷积神经网络处理的规整格式?PointPillars提出的"伪图像"概念给…...

3分钟上手的智能工具:如何解放蚂蚁森林能量收取的重复操作?

3分钟上手的智能工具:如何解放蚂蚁森林能量收取的重复操作? 【免费下载链接】alipay_autojs 最最最简单的蚂蚁森林自动收能量脚本 项目地址: https://gitcode.com/gh_mirrors/al/alipay_autojs 你是否也曾经历过这样的场景:忙碌一天后…...

4步解决Windows系统苹果设备驱动适配问题

4步解决Windows系统苹果设备驱动适配问题 【免费下载链接】Apple-Mobile-Drivers-Installer Powershell script to easily install Apple USB and Mobile Device Ethernet (USB Tethering) drivers on Windows! 项目地址: https://gitcode.com/gh_mirrors/ap/Apple-Mobile-Dr…...

Amlogic设备启动失败解决方案:从兼容性诊断到系统部署的全流程方法论

Amlogic设备启动失败解决方案:从兼容性诊断到系统部署的全流程方法论 【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, s905w, s905, s…...

【从零到一:在STM32F103上构建FreeRTOS与micro-ROS的实时机器人节点】

1. 为什么选择STM32F103FreeRTOSmicro-ROS组合 在机器人控制领域,实时性和可靠性是核心诉求。STM32F103RCT6作为经典的Cortex-M3内核MCU,具有丰富的外设资源和成熟的生态支持,特别适合作为轻量级机器人控制器的核心。而FreeRTOS作为市场占有率…...

新手入门指南:在快马平台用AI生成你的第一个龙虾部署实践项目

今天想和大家分享一个特别适合新手的实践项目——用Docker部署一个简单的Python Flask应用。这个项目是我在InsCode(快马)平台上完成的,整个过程对初学者非常友好,连我这种刚接触容器化的小白都能轻松上手。 为什么选择FlaskDocker组合 Flask是Python最轻…...

OpenClaw自动化测试:用Phi-3-mini-128k-instruct实现CI/CD流程增强

OpenClaw自动化测试:用Phi-3-mini-128k-instruct实现CI/CD流程增强 1. 为什么选择OpenClawPhi-3做测试增强? 去年参与一个开源项目时,我经历了测试环节的典型困境:每次PR提交后,需要手动检查数百行日志,用…...

OFA图像描述系统实战案例:为旅游照片自动生成精彩描述

OFA图像描述系统实战案例:为旅游照片自动生成精彩描述 1. 项目概述与核心价值 想象一下,你刚从一次难忘的旅行回来,手机里存满了精彩的照片。现在需要为这些照片配上文字描述,分享到社交媒体或制作旅行相册。手动为每张照片写描…...

猫抓cat-catch终极文件命名指南:高效自动化资源管理方案

猫抓cat-catch终极文件命名指南:高效自动化资源管理方案 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓cat-catch作为一款专业的浏…...

梦幻动漫魔法工坊快速上手:无需复杂配置,直接生成动漫图片

梦幻动漫魔法工坊快速上手:无需复杂配置,直接生成动漫图片 1. 开篇:让想象变成二次元世界 你是否曾经幻想过,只要输入一段文字描述,就能立刻看到自己想象中的动漫角色跃然纸上?梦幻动漫魔法工坊正是这样一…...

从LAS/LAZ点云数据到智能分析:处理、可视化与目标检测实战

1. 初识LAS/LAZ点云数据:从文件结构到实战解析 第一次接触激光雷达点云数据时,我被那些密密麻麻的坐标点震撼到了。想象一下,无人机或激光雷达设备扫描一片区域后,会生成包含数百万甚至上亿个空间点的数据集,每个点都精…...

快速原型实践:利用快马AI一键生成正版软件9.1自动化安装脚本

快速原型实践:利用快马AI一键生成正版软件9.1自动化安装脚本 最近在帮朋友部署一个数据分析环境,需要批量安装正版软件9.1版本。手动安装不仅耗时,还容易出错。于是我开始研究如何用Python写一个自动化安装脚本,没想到在InsCode(…...

TranslucentTB启动错误0x80070490深度解决方案:从问题定位到长效优化

TranslucentTB启动错误0x80070490深度解决方案:从问题定位到长效优化 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 问题定位…...

准比例谐振控制器:从理想模型到工程实践的带宽调优

1. 准比例谐振控制器的核心原理 准比例谐振控制器(Quasi-Proportional Resonant Controller)是电力电子领域广泛使用的一种控制策略,特别适用于并网逆变器、有源滤波器等需要精确跟踪特定频率信号的场景。它的核心思想是在目标频率点&#xf…...

Labelme标注完别急着训练!手把手教你批量把JSON转成YOLO能吃的TXT格式

Labelme标注数据转YOLO格式实战指南:从原理到批量处理 当你用Labelme完成数百张图片的标注,满心欢喜准备开始YOLO模型训练时,却发现训练脚本报错——原来YOLO无法直接读取Labelme生成的JSON文件。这不是代码问题,而是格式不匹配的…...

终极指南:如何用QtAdb图形化工具轻松管理Android设备

终极指南:如何用QtAdb图形化工具轻松管理Android设备 【免费下载链接】QtAdb 项目地址: https://gitcode.com/gh_mirrors/qt/QtAdb 如果你曾经为复杂的adb命令头疼,或者厌倦了在终端中反复输入同样的调试指令,那么QtAdb就是为你量身定…...

OpCore-Simplify:从8小时到30分钟,智能OpenCore EFI配置的终极指南

OpCore-Simplify:从8小时到30分钟,智能OpenCore EFI配置的终极指南 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 在开源系统…...

AI编程新范式:用Nomic-Embed-Text-V2-MoE生成代码语义描述与检索

AI编程新范式:用Nomic-Embed-Text-V2-MoE生成代码语义描述与检索 1. 引言 你有没有过这样的经历?面对一个庞大的代码库,想找一个“处理用户登录验证”的函数,却记不清它具体叫什么名字,只能靠模糊的记忆在文件间来回…...

Adobe Illustrator效率脚本:10个自动化工具让设计师工作效率提升300%

Adobe Illustrator效率脚本:10个自动化工具让设计师工作效率提升300% 【免费下载链接】illustrator-scripts Adobe Illustrator scripts 项目地址: https://gitcode.com/gh_mirrors/il/illustrator-scripts 为什么设计师总在重复相同的操作?调整画…...

SecGPT-14B模型量化部署:为OpenClaw节省50%显存占用

SecGPT-14B模型量化部署:为OpenClaw节省50%显存占用 1. 为什么需要量化SecGPT-14B 当我第一次尝试在本地部署SecGPT-14B模型来驱动OpenClaw时,显存不足的问题立刻给了我当头一棒。我的RTX 3090显卡24GB显存,在加载完整模型后几乎被占满&…...

OpenFBX:5分钟快速掌握轻量级FBX文件解析方案

OpenFBX:5分钟快速掌握轻量级FBX文件解析方案 【免费下载链接】OpenFBX Lightweight open source FBX importer 项目地址: https://gitcode.com/gh_mirrors/op/OpenFBX OpenFBX是一款轻量级开源FBX导入工具,能够高效解析FBX格式文件,支…...

终极实战:vant-weapp组件库从0.x到最新版深度迁移指南

终极实战:vant-weapp组件库从0.x到最新版深度迁移指南 【免费下载链接】vant-weapp 轻量、可靠的小程序 UI 组件库 项目地址: https://gitcode.com/gh_mirrors/va/vant-weapp Vant Weapp作为轻量、可靠的小程序UI组件库,经历了从0.x到最新版的重大…...

vant-weapp版本升级技术指南:从0.x到最新版的平滑迁移方案

vant-weapp版本升级技术指南:从0.x到最新版的平滑迁移方案 【免费下载链接】vant-weapp 轻量、可靠的小程序 UI 组件库 项目地址: https://gitcode.com/gh_mirrors/va/vant-weapp 引言 在小程序开发过程中,组件库的版本升级是一项常见但具有挑战…...

天际特别版模组管理:从冲突诊断到性能优化的全流程解决方案

天际特别版模组管理:从冲突诊断到性能优化的全流程解决方案 【免费下载链接】skyrimse The TES V: Skyrim Special Edition masterlist. 项目地址: https://gitcode.com/gh_mirrors/sk/skyrimse 在《上古卷轴V:天际 特别版》的模组化游戏体验中&a…...

WindowResizer完整指南:如何突破Windows窗口限制自由调整大小

WindowResizer完整指南:如何突破Windows窗口限制自由调整大小 【免费下载链接】WindowResizer 一个可以强制调整应用程序窗口大小的工具 项目地址: https://gitcode.com/gh_mirrors/wi/WindowResizer 你是否曾经遇到过某些应用程序窗口无法调整大小的困扰&am…...

Mirage Flow智能代码补全:提升VS Code开发效率300%

Mirage Flow智能代码补全:提升VS Code开发效率300% 作为一名在代码世界里摸爬滚打了十多年的老程序员,我经历过从记事本写代码到现代IDE的完整进化史。这些年,我试用过无数号称能“提升效率”的工具,但真正让我感到惊艳、甚至改变…...