Impromptu VLA:用于驾驶视觉-语言-动作模型的开放权重和开放数据
25年5月来自清华和博世的论文“Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models”。
用于自动驾驶的“视觉-语言-动作” (VLA) 模型前景光明,但在非结构化极端场景下却表现不佳,这主要是由于缺乏有针对性的基准测试。为了解决这个问题, Impromptu VLA。其核心贡献是 Impromptu VLA 数据集:超过 8 万个精心挑选的视频片段,是从 8 个开源大型数据集的超过 200 万个源片段中提炼出来的。该数据集基于四大非结构化类别分类法构建,并具有丰富的、面向规划的问答标注和动作轨迹。至关重要的是,实验表明,使用数据集训练的 VLA 在既定基准上实现显著的性能提升——提高闭环 NeuroNCAP 得分和碰撞率,并在开环 nuScenes 轨迹预测中达到接近最先进的 L2 精度。此外,问答套件可作为有效的诊断工具,揭示 VLM 在感知、预测和规划方面的显著改进。
自动驾驶已经取得了显著进展,在城市中心和高速公路等结构化环境中,清晰的车道线和可预测的交通流量是常态,其导航能力日益提升 [23, 29, 58]。然而,实现无处不在的自动驾驶的终极目标,迫使大家将目光投向这些人迹罕至的道路之外,转向错综复杂且往往难以预测的非结构化道路领域。这些非结构化场景——涵盖从乡村小路、动态施工区域到标识模糊的区域或自然灾害后恢复的区域——代表着下一个重要的前沿领域。目前的自动驾驶系统往往面临着最严峻的考验,而突破对于充分发挥无所不能的自动驾驶能力的潜力至关重要 [74]。
专业数据的严重匮乏严重阻碍成功探索这一领域。虽然众多驾驶数据集为当前的研究进展奠定基础,但它们主要捕捉的是常见的结构化交通状况 [7, 8, 21, 42, 43, 55, 59, 68]。这留下一个显著的盲点,即非结构化环境所带来的多样性和独特挑战,例如道路边界不清晰、出现非常规动态障碍物、遵守临时交通规则或应对危险的路面。如果没有能够具体反映这些复杂条件的大规模、精细标注的数据集 [70, 47],训练稳健的人工智能驾驶员并严格评估其在此类场景下的适应性的能力仍然受到严重制约。
为了弥补这一数据空白,本文推出 Impromptu VLA 数据集。这是一个大规模基准数据集,专门用于推动非结构化道路上自动驾驶的研究,如图所示。Impromptu VLA 数据集从八个不同的公共来源 [7, 8, 21, 42, 43, 55, 59, 68] 的 200 多万个初始素材库中提炼而出,包含约 8 万个经过精心挑选和验证的素材。这些素材被分为四类具有挑战性的非结构化场景——边界不清晰的道路、临时交通规则变化、非常规动态障碍物和挑战性路况——并包含大量的多任务注释和规划轨迹。该数据集采用先进的流程构建,利用视觉语言模型 (VLM) 和思维链推理 [39, 2, 12] 进行细致理解,然后进行全面的人工验证,以确保高质量、可靠的标签。
概述
目前,研究界缺乏足够多的大规模、多样化且标注精细的非结构化场景数据集。为了弥补这一关键缺口,Impromptu VLA 数据集,旨在促进非结构化道路自动驾驶的发展。Impromptu VLA 数据集最初汇集来自八个著名公共数据集 [7, 8, 21, 42, 43, 55, 59, 68] 的超过 200 万个片段(占用超过 10T 的存储空间),经过筛选机制提炼,最终精简为一个高度集中的约 80,000 个片段的集合,如图所示。最终的数据集能够精准捕捉各种具有挑战性的场景,包括边界不清晰的道路、存在非常规动态障碍物以及存在临时或非标准交通规则的路段(详细统计数据见下表)。
定义非结构化驾驶场景的分类法
创建 Impromptu VLA 数据集的主要目标是突破对非结构化单一且模糊的理解,并更细致地理解这些环境所带来的具体挑战。为了实现这一目标,并将数据集聚焦于真正考验当前自动驾驶系统极限的场景,初步尝试采用数据驱动的流程,定义一个简洁而全面的非结构化道路场景分类法。
定义这些类别的方法始于对收集的数据进行广泛、客观的探索。首先,从聚合且标准化的多源数据集中定期抽取约 10% 的片段,创建一个具有代表性的子集。然后,利用强大的视觉语言模型 Qwen2.5-VL 72B [3] 对该子集进行开放式描述性分析。没有查询模型以按照预定义的标签协议回答问题,而是利用 VLM 的高级图像理解功能,促使其为每个场景生成详细的文本描述。
后续阶段涉及一个多阶段、高度自动化的过程,将这些描述提炼为有意义的非结构化挑战类别。首先,为了以编程方式识别并过滤掉常规驾驶场景,采用另一个基于 VLM 的分类步骤。使用精心设计的提示对 Qwen2.5-VL 生成的每个初始、丰富的场景描述进行评估,该提示指示 VLM 充当场景分类器,判断标题是否属于非常规情况。为了确保此基于 VLM 的过滤提示的可靠性和有效性,对提示进行迭代细化过程。该过程在约 1000 个场景描述的验证子集上进行测试,这些场景描述也由两位人工注释者手动且独立地标记为“常规”或“非常规”。将 VLM 的分类结果与人类共识进行比较,并不断迭代调整提示,直至达到高度一致。
对于从全集中筛选出的非常规场景,进行语义级分析,以识别重复出现的模式,并将语义相似的非结构化场景分组。这种聚类方法自下而上地催生出潜在的子类别,例如“道路边缘不清晰”、“临时道路施工”、“道路上的动物”或“因雪导致能见度低”。通过迭代改进、合并这些机器生成的聚类,以及基于在这些组中识别出的驾驶复杂性主要来源进行抽象,最终归纳出以下四个突出的高级类别:
- 边界不清晰的道路:可通行路径模糊或未定义的场景,例如乡村土路、越野小径或标线褪色/缺失的道路。这些场景对车道检测和可行驶区域分割等感知任务提出严峻挑战。
- 临时交通规则变更:标准交通规则因施工区域、人工交通管制员或临时标识而临时改变的动态情况,要求自动驾驶汽车适应异常指令和道路布局。
- 非常规动态障碍物:指在典型的城市驾驶中不常见的动态行为体或障碍物,需要专门的交互策略。例如,大型或不规则移动的车辆、意外位置的弱势道路使用者或与动物的碰撞,所有这些都构成突发危险。
- 复杂路况:指恶劣路面(例如,坑洼、泥泞、积雪、冰面)或环境条件(例如,雾、暴雨、弱光、眩光)严重影响能见度或影响车辆动态,使危险感知和安全导航变得复杂化的场景。
数据处理与注释
根据非结构化场景分类法的定义,整理后的数据经过多个处理和注释阶段,如上图所示。
关键片段选择和稳定性过滤。所有收集到的序列首先被标准化为 2 Hz 的统一时间频率,以解决来自不同来源的不一致问题。将片段配置与 NAVSIM [14] 进行对齐,保留过去 1.5 秒和未来 5 秒的片段,并从每个包中选择中心关键片段进行注释。为了最大限度地减少瞬态关键片段级别预测的误报,采用时间稳定性打包机制。具体而言,相邻片段被打包成(如果可能的话)15 秒的“局部过滤包”。片段的场景特征(在关键片段级别初步识别)只有当其在该包中持续存在最少数量的片段(例如,出现多次)时,才被认为是稳定的,并传播到后续注释阶段。需要注意的是,这些“局部过滤包”仅用于稳定性检查和选择过程;最终数据集主要由单独注释的关键片段组成。
通过思维链 (CoT) 提示进行场景分类和结构化信息提取。使用 Qwen2.5-VL 72B [3] 和思维链 (CoT) 提示 [65] 对选定的关键片段进行分类,以提取除简单字幕之外的丰富结构化信息。此分层推理过程分析整体场景上下文(R1:描述)、静态道路特征(R2)、可移动目标(R3),并最终将结果合理地分配到四个非结构化场景类别之一。结构化 CoT 输出不仅提供场景类别,还为后续任务注释提供丰富的上下文信息。
多任务注释生成。利用场景类别和在 CoT 过程中提取的结构化信息,借鉴 Senna [28] 等综合注释框架,用一组多样化的任务特定注释进一步丰富每个关键片段。这种多任务注释是通过结合基于规则和基于 LLM 的方法实现的。具体来说,为每个选定的关键片段生成以下注释。
- 场景描述:通过对 VLM 的定向查询,生成涵盖整体环境背景、时间、天气和交通状况的综合描述。
- 交通信号检测:通过进一步的 VLM 查询,识别活动交通信号的存在状态和类型。
- 弱势道路使用者 (VRU) 识别:关于 VRU 的信息,包括它们的存在、类型(例如行人、骑自行车的人)以及与自车的距离,均来自真值数据。
- 运动意图预测:为了捕捉动态方面,VLM 生成了场景中关键参与者的预测运动意图。
- 元动作规划:通常通过基于场景上下文的 VLM 提示,制定自车的高级规划(例如,左加速、保持直行)。
- 规划解释:VLM 生成文本解释,用于合理化自车响应场景的潜在或实际操作。
- 端到端轨迹预测:通过构建车辆历史状态和地面实况中对应的未来目标轨迹,整理支持此任务的数据。
全面的人工验证。所有生成的注释——包括主要的非结构化场景类别和后续的多任务标签——都经过细致的人工验证。注释员审查每个关键片段及其相关标签,提供二元判断(接受/拒绝)或在必要时进行细微的校正编辑。这确保整个数据集的高保真度。在进行广泛的人工审核之前,为了定量评估 VLM 在定义的非结构化类别中场景分类性能,基于从 nuScenes 数据集中间隔采样的 200 幅图像子集对其进行评估。将 VLM 分类与专家手动标签进行比较,发现多个类别的 F1 得分较高:“临时交通规则变更”为 0.90,“非常规动态障碍物”为 0.81,“复杂路况”为 0.91。“边界不清晰的道路”类别在特定的 nuScenes 子集中过于稀少,无法进行有意义的 F1 得分计算。这些验证结果为基于 VLM 的注释流程阶段提供了信心。
数据集统计
最终的 Impromptu VLA 数据集包含大量带注释的片段,这些片段专门针对其非结构化道路特征进行整理。如图展示了从每个源数据集派生出的片段总数,并展示这些片段在四个非结构化场景类别中的总体分布。图中还报告了轨迹分布的覆盖范围。
为了最大限度地利用该数据集训练和评估感知与规划模型,为每个片段生成的丰富的多任务注释被构建为面向规划的问答 (Q&A) 对。这种格式受到 DriveVLM [58] 或 EMMA [25] 等框架的启发,将视觉输入、文本输出和动作轨迹预测直接关联到 LLM 的序列空间中。为了进行标准化评估,将涵盖所有四个非结构化类别的整个精选片段数据集按 80:20 的比例划分为训练集和验证集。每个类别内都进行这种分层,以确保验证集保持所有定义的非结构化道路挑战的代表性分布。
基础模型是 Qwen2.5VL 3B [3]。第一个流程,在下表 NeuroNCAP 结果中,称之为“Base + Impromptu + nuScenes”,首先在 Impromptu VLA 数据集的训练样本上对基础 VLM 进行微调,然后在 nuScenes 训练集上进一步微调这个调整后的模型。第二个流程“Base + nuScenes”直接在 nuScenes 训练集上对基础 VLM 进行微调,无需使用 Impromptu VLA。然后,这两个模型都会在 NeuroNCAP 基准上进行评估。
相关文章:

Impromptu VLA:用于驾驶视觉-语言-动作模型的开放权重和开放数据
25年5月来自清华和博世的论文“Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models”。 用于自动驾驶的“视觉-语言-动作” (VLA) 模型前景光明,但在非结构化极端场景下却表现不佳,这主要是由于缺乏有针对性的基准测…...

AI智能体,为美业后端供应链注入“智慧因子”(4/6)
摘要:本文深入剖析美业后端供应链现状,其产品具有多样性、更新换代快等特点,原料供应和生产环节也面临诸多挑战。AI 智能体的登场为美业后端供应链带来变革,包括精准需求预测、智能化库存管理、优化生产计划排程、升级供应商管理等…...

跨平台资源下载工具:res-downloader 的使用体验
一款基于 Go Wails 的跨平台资源下载工具,简洁易用,支持多种资源嗅探与下载。res-downloader 一款开源免费的下载软件(开源无毒、放心使用)!支持Win10、Win11、Mac系统.支持视频、音频、图片、m3u8等网络资源下载.支持视频号、小程序、抖音、…...
ps蒙版介绍
一、蒙版的类型 Photoshop中有多种蒙版类型,每种适用于不同的场景: 图层蒙版(Layer Mask) 作用:控制图层的可见性,黑色隐藏、白色显示、灰色半透明。特点:可随时编辑,适合精细调整。…...

数据湖是什么?数据湖和数据仓库的区别是什么?
目录 一、数据湖是什么 (一)数据湖的定义 (二)数据湖的特点 二、数据仓库是什么 (一)数据仓库的定义 (二)数据仓库的特点 三、数据湖和数据仓库的区别 (一&#…...
用Ai学习wxWidgets笔记——在 VS Code 中使用 CMake 搭建 wxWidgets 开发工程
声明:本文整理筛选Ai工具生成的内容辅助写作,仅供参考 >> 在 VS Code 中使用 CMake 搭建 wxWidgets 开发工程 下面是一步步指导如何在 VS Code 中配置 wxWidgets 开发环境,包括跨平台设置(Windows 和 Linux)。…...

【深度学习新浪潮】如何入门三维重建?
入门三维重建算法技术需要结合数学基础、计算机视觉理论、编程实践和项目经验,以下是系统的学习路径和建议: 一、基础知识储备 1. 数学基础 线性代数:矩阵运算、向量空间、特征分解(用于相机矩阵、变换矩阵推导)。几何基础:三维几何(点、线、面的表示)、射影几何(单…...
Android实现点击Notification通知栏,跳转指定activity页面
效果 1、点击通知栏通知,假如app正在运行,则直接跳转到指定activity显示具体内容,在指定activity中按返回键返回其上一级页面。 2、点击通知栏通知,假如app已经退出,先从SplashActivity进入,显示app启动界…...

Codeforces Round 1025 (Div. 2) B. Slice to Survive
Codeforces Round 1025 (Div. 2) B. Slice to Survive 题目 Duelists Mouf and Fouad enter the arena, which is an n m n \times m nm grid! Fouad’s monster starts at cell ( a , b ) (a, b) (a,b), where rows are numbered 1 1 1 to n n n and columns 1 1 1 t…...

ubuntu中使用docker
上一篇我已经下载了一个ubuntu:20.04的镜像; 1. 查看所有镜像 sudo docker images 2. 基于本地存在的ubuntu:20.04镜像创建一个容器,容器的名为cppubuntu-1。创建的时候就会启动容器。 sudo docker run -itd --name cppubuntu-1 ubuntu:20.04 结果出…...
复制与图片文件同名的标签文件到目标路径
引言:在数据集构建中,我们经常需要挑选一些特殊类型的图片(如:零件中有特殊脏污背景的图片,写论文的时候想单独对这类情况进行热力图验证)。我们把挑选出来的图片放到一个文件夹下,这时候我想快…...
【深度学习-Day 24】过拟合与欠拟合:深入解析模型泛化能力的核心挑战
Langchain系列文章目录 01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南 02-玩转 LangChain Memory 模块:四种记忆类型详解及应用场景全覆盖 03-全面掌握 LangChain:从核心链条构建到动态任务分配的实战指南 04-玩转 LangChai…...

[ElasticSearch] DSL查询
🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…...

iview中的table组件点击一行中的任意一点选中本行
<Table border ref"selection" size"small" on-row-click"onClickRow"></Table>// table组件点击一行任意位置选中onClickRow(row, index) {this.$refs.selection.toggleSelect(index)}写上toggleSelect(index)方法即可,…...

《探秘跨网段局域网IP广播:解锁网络通信的新姿势》
一、从基础出发:广播与跨网段 在计算机网络的世界中,广播域是一个至关重要的概念。简单来说,广播域是指网络中能接收任一台主机发出的广播帧的所有主机集合。当一台主机在广播域内发出一个广播帧时,同一广播域内的所有其他主机都可以收到该广播帧。在没有路由器或 VLAN 分割…...
Kafka 单机部署启动教程(适用于 Spark + Hadoop 环境)
🧭 Kafka 单机部署启动教程(适用于 Spark Hadoop 环境) 📦 一、Kafka 版本选择 推荐使用 Kafka 2.13-2.8.1(Scala 2.13,稳定适配 Spark 3.1.2 和 Hadoop 3.1.1) 下载地址(Apache 官…...

maven微服务${revision}依赖打包无法识别
1、场景描述 我现在又一个微服务项目,父pom的版本,使用<properties>定义好,如下所示: <name>ypsx-finance-center</name> <artifactId>ypsx-finance</artifactId> <packaging>pom</pack…...

2025年06月07日Github流行趋势
项目名称:netbird 项目地址url:https://github.com/netbirdio/netbird项目语言:Go历史star数:14824今日star数:320项目维护者:mlsmaycon, braginini, pascal-fischer, lixmal, pappz项目简介:使…...

WPS中将在线链接转为图片
WPS中将在线链接转为图片 文章目录 WPS中将在线链接转为图片一:解决方案1、下载图片,精确匹配(会员功能)2、将在线链接直接转为图片 一:解决方案 1、下载图片,精确匹配(会员功能) …...

实战二:开发网页端界面完成黑白视频转为彩色视频
一、需求描述 设计一个简单的视频上色应用,用户可以通过网页界面上传黑白视频,系统会自动将其转换为彩色视频。整个过程对用户来说非常简单直观,不需要了解技术细节。 效果图 二、实现思路 总体思路: 用户通过Gradio界面上…...
二元函数可微 切平面逼近 线性函数逼近
二元函数 f ( x , y ) f(x, y) f(x,y) 在某点可微 的含义,可以从几何直观、严格数学定义、与一阶偏导数的关系三个层面来理解: 🔹1. 几何直观上的含义(最易理解) 二元函数 f ( x , y ) f(x, y) f(x,y) 在点 ( x 0 …...

vue生成二维码图片+文字说明
需求:点击下载图片,上方是二维码,下方显示该二维码的相关内容,并且居中显示,支持换行 解决方案步骤: 1. 使用qrcode生成二维码的DataURL。 2. 创建canvas,将二维码图片绘制到canvas的上半部分…...

机器学习监督学习实战五:六种算法对声呐回波信号进行分类
本项目基于UCI的声呐目标识别数据集(Sonar, Mines vs. Rocks),通过10种机器学习算法比较,发现集成学习方法表现最优。研究首先对60个声呐能量特征进行可视化分析(分布直方图、相关性矩阵),对比了…...

React Hooks 的闭包陷阱问题
这是主包在面试中遇到的一道题目,面试官的问题是:"这个页面初次展示出来时Count和step的值是什么,我点击按钮count和step的值有什么变化?“ 这个题目主包回答的不好,所以想做一个总结。 题目 import React, { …...

力扣面试150题--克隆图
Day 61 题目描述 思路 /* // Definition for a Node. class Node {public int val;public List<Node> neighbors;public Node() {val 0;neighbors new ArrayList<Node>();}public Node(int _val) {val _val;neighbors new ArrayList<Node>();}public N…...
【HarmonyOS 5】运动健康开发实践介绍以及详细案例
以下是 HarmonyOS 5 运动健康功能的简洁介绍,聚焦核心体验与技术亮点: 一、AI 驱动的全场景健康管理 智能运动私教:运动前推送热身指导,运动中实时纠正动作,运动后生成个性化报告与改进建议。AI 融合用户多设备数…...
STM32开发中,线程启动异常问题排查简述
1. 参数传递问题 错误类型:线程属性错误地使用。影响:线程属性(如堆栈大小、优先级)不匹配可能导致线程创建失败或行为异常。验证方法:检查 线程创建的返回值,若为 NULL 则表示线程创建失败。 2. 系统资源…...
SQL进阶之旅 Day 18:数据分区与查询性能
【SQL进阶之旅 Day 18】数据分区与查询性能 文章简述 在现代数据库系统中,随着数据量的快速增长,如何高效地管理和查询大规模数据成为开发人员和数据分析师面临的重要挑战。本文深入探讨了数据分区的概念及其对查询性能的提升作用,结合理论…...

鸿蒙PC,有什么缺点?
点击上方关注 “终端研发部” 设为“星标”,和你一起掌握更多数据库知识 价格太高,二是部分管理员权限首先,三对于开发者不太友好举个例子:VSCode的兼容性对程序员至关重要。若能支持VSCode,这台电脑将成为大多数开发者…...
前端工具:Webpack、Babel、Git与工程化流程
1. Webpack:资源打包优化工具 案例1:多入口文件打包 假设项目有多个页面(如首页index.js和登录页login.js),需要分别打包: ● 配置webpack.config.js: module.exports {entry: {index: ./sr…...