当前位置: 首页 > article >正文

交大复旦 Bench2Drive-Speed:速度可控的自动驾驶评测基准

点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | Yuqian Shao 等编辑 | 自动驾驶之心本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球导语端到端自动驾驶E2E-AD在闭环评测和复杂交通场景中已取得显著进展但“按照用户期望的速度行驶”这一关键能力仍缺乏统一且可量化的评测框架。为此Bench2Drive-Speed应运而生该基准在闭环环境中引入目标速度与超车/跟车指令配套提供数据集、可控性指标及基线模型并与现有 Bench2Drive 生态兼容实现速度、交通安全与舒适性等多维度的可量化的联合评测。实验显示通过对常规驾驶轨迹进行重标注生成的虚拟目标速度其训练效果可接近专家模型超参数下的表现同时研究也指出交互式超车行为仍然是端到端模型的一大挑战。图1Bench2Drive-Speed 引入目标速度指令与超车/跟车指令建立期望速度约束下的自动驾驶闭环基准。我们从速度跟踪、交互策略、舒适性与交通合规等维度量化模型的可控性。论文链接https://arxiv.org/abs/2603.25672v1项目链接https://thinklab-sjtu.github.io/Bench2Drive-Speed/问题缘起一个被忽视但很实用的问题自动驾驶能按你想要的速度开吗近年来端到端自动驾驶E2E-AD取得了显著进展模型已经能够在复杂路况下完成路线规划、遵守交通规则并保持较高的安全性。但在实际使用中一个非常直接、也很高频的需求却长期被忽略按用户期望的速度行驶例如“保持 60 km/h 巡航”超车或跟车例如“赶时间尽量超车”或“保守一点保持跟随”乍看之下这似乎只需要在模型输入中增加一个速度数值即可但在端到端学习策略中这远没有那么简单。主要挑战包括缺少明确监督信号。常规自动驾驶数据收集过程中通常没有“目标速度”标注模型学到的往往是数据分布下的平均速度而非可供用户显式调节的接口。安全与规则约束的权衡。追求用户指定速度时不能违反安全边界。模型需要判断何时可以遵从用户偏好何时必须让渡以保证安全与规则合规。长时序交互规划的复杂性。实现目标速度通常需要多步决策和交互规划例如变道或超车。这类行为在闭环中容易引发风险而且误差会随时间累积放大。舒适性与响应性的权衡。提高对用户命令的响应能力可能导致模型的频繁加减速或变道从而降低乘客舒适度。相比之下传统规划-控制PnC方法可以通过优化明确约束来强制遵守速度要求但这种保证并不自然地延伸到现代端到端模型中因为速度行为是从数据驱动策略中学习而来的。然而在此方面仍缺乏一个任务定义清晰、指标可量化、闭环可复现的评测框架。Bench2Drive-Speed来自交大和复旦的研究团队提出Bench2Drive-Speed面向“目标速度target speed超车/跟车overtake/follow”的端到端自动驾驶闭环基准并配套发布闭环评测框架核心技能指标训练数据集基线模型框架与现有Bench2Drive生态保持兼容可联合报告传统自动驾驶指标安全、完成率、舒适程度等。图2Bench2Drive-Speed 的整体设计指令化任务设定、2,100 场景数据集、可控性评测指标以及基线模型并保持与 Bench2Drive 生态兼容以联合分析多维度表现。明确的任务设置把“速度偏好”变成显式指令Bench2Drive-Speed 将用户的速度偏好和超车策略转化为端到端策略可理解的显式指令。具体包括两类高层命令目标速度指令Target Speed沿路线分段设定目标速度每段路可以不同实现动态速度控制。超车/跟车指令Overtake/Follow当遇到前方慢车时策略需选择“超车”或“保持跟车”使行为更符合用户意图。为了更精准诊断模型能力Bench2Drive-Speed 将场景按照难度分层Easy简单无干扰车辆主要考察速度跟踪能力。Medium中等存在行驶在前方的慢速车辆若要遵循目标速度需要策略进行交互动作如变道或超车。Hard困难复杂事件来自 CARLA Leaderboard v2 的 corner cases叠加交互要求全面考验自动驾驶策略在安全、效率与指令执行间的权衡能力。图3难度分层从 Easy 到 Hard目标速度遵从的难度逐步增加超车与跟车遵从仅在 Medium/Hard 场景中评测。指标设计首次系统化量化“可控性”有了显式指令就可以回答一开始的问题模型真的在按指令开吗为此Bench2Drive-Speed 提出两类可量化的核心指标同时保留传统 AD 评价维度实现可控性与安全、舒适的联合分析Speed-Adherence Score速度遵从测量闭环轨迹中实际速度与目标速度的贴合度。采用行驶距离加权方法避免停滞或采样不均造成偏差特殊地在跟车受前车速度限制时会合理地软化惩罚。Overtake Score超车/跟车遵从对每条路线中的超车或跟车场景进行成功率统计。未触发场景也计为失败防止模型通过规避难点刷分。此外Bench2Drive-Speed 还保留传统指标如安全性、交通规则遵守、路线完成率和乘客舒适度用于分析可控性与安全/舒适之间的trade-off。训练数据采集大规模带速度指令数据集为了训练和评估速度条件策略Bench2Drive-Speed 构建了Customized Speed Dataset2,100 个场景片段特点包括基于 CARLA 收集涵盖多城镇、多天气、多类复杂场景跨越不同难度等级及超车/跟车指令组合路线内指令可变化同一路段可能有不同目标速度和行为要求提高学习难度更贴近真实驾驶需求。这一数据集为研究速度可控策略提供了丰富、多样化、可复现的训练和测试资源。图4Customized Speed Dataset 的数据结构示意。数据包含视觉输入、车辆状态与标注信息并携带超车/跟车指令与目标速度指令。图5Customized Speed Dataset 中目标速度分布左与困难场景分布右来源 CARLA Leaderboard v2。现实中可scale up的数据标注方式虚拟目标速度Virtual Target Speed在使用模拟器中专家模型进行数据采集时可以很方便地获得专家模型超参中的 Cruising Speed 来用于训练。然而这些参数在真实世界数据中通常不可获得限制了速度可控策略的规模化训练。Bench2Drive-Speed 提出了Virtual Target Speed虚拟目标速度重标注方法可在常规轨迹数据上生成可用的速度监督信号从常规驾驶轨迹中提取短期未来的单调趋势速度tendency speed通过随机外推与裁剪生成更接近“目标”的速度信号同时降低信息泄露风险提供Short / Long两种外推策略便于系统研究稳定性与可控性实验证明使用虚拟目标速度训练的模型其速度遵循性能可接近基于专家系统的监督方法这意味着在大规模真实世界数据上训练速度可控策略是完全可行的。图6目标速度标注策略对比。专家示范监督精确但依赖内部超参现实中不可得重标注通过估算目标速度构造监督信号以支持规模化训练。基线模型TCP-Speed为了给社区一个明确参考Bench2Drive-Speed 提供了TCP-Speed基线模型将目标速度和超车/跟车指令作为额外输入引导轨迹生成和控制分支速度相关设计model-agnostic可迁移到其他端到端架构在闭环评测中展示了基本的速度遵循能力同时也揭示了交互式超车行为的挑战这一基线为研究者提供了可复现的实验框架同时为后续速度可控策略的改进和评估提供参考。图7TCP-Speed 基线概览。将目标速度与超车/跟车指令作为额外输入引导轨迹生成与控制。核心发现基于 Bench2Drive-Speed 的系统化实验有三点关键发现目标速度遵从可以被较好地学习。带有目标速度指令target speed的模型其闭环轨迹对用户指定速度的贴合程度明显高于未使用速度指令的模型说明速度可控性是可学习的。重要虚拟目标速度的监督效果接近专家水平。使用 Virtual Target Speed 重标注训练的模型其速度遵从表现与基于专家内部参数的监督相近表明速度控制监督可以在无需额外昂贵数据采集的情况下规模化地应用于训练。超车指令仍具挑战。尽管模型在“超车/跟车”指令上能表现出差异化行为但在复杂场景下稳定执行超车仍较困难这揭示了未来研究需要关注的交互决策与安全权衡问题。图8在同一路线上变更目标速度设定TCP-Speed 在该任务下展示出了良好的速度遵从能力。图9超车与跟车行为示例。上图为超车成功案例通过慢车并持续领先下图为跟车成功案例在指令约束下保持跟车并完成路线。图10Speed-Adherence Score 与 Overtake Score 在 48 条评测路线上的对比结果。可以发现在速度遵从方面专家参数(Expert)和虚拟重标注(Virtual)的监督效果相差无几。另外从传统的 Bench2Drive220 闭环指标中可以发现引入速度与交互式效率指令后模型的安全与任务完成能力并没有受到显著影响。图11在 Bench2Drive 的 220 条闭环评测路线上的传统规划表现Driving Score、Success Rate、Efficiency、Comfortness。可以发现相比原版 TCP同样数据集训练的 TCP-Speed 的传统闭环指标并没有下降。开源与使用Bench2Drive-Speed 的代码、数据集、评测框架及基线模型已全部开源https://github.com/Thinklab-SJTU/Bench2Drive-Speed社区可在该框架下测试速度遵从Speed Adherence与超车遵从Overtake Score等可控性指标接入更先进的端到端模型或交互策略推动“可控效率偏好自动驾驶”的进一步发展。为更直观地理解 Bench2Drive-Speed 的设计动机与训练细节我们公众号此前已特邀本文第一作者做客直播间进行深度拆解图文视频对照阅读帮助读者朋友们更快抓住技术重点。总结Bench2Drive-Speed 提供了完整的端到端速度可控驾驶研究体系包括闭环评测框架、可量化的速度与超车指标、2,100 条带指令的数据以及使用多种策略训练的基线模型。它将“开多快、要不要超车”转化为可训练、可闭环量化的任务并通过虚拟目标速度重标注使速度监督具备规模化应用的潜力。自动驾驶之心求点赞求分享求喜欢

相关文章:

交大复旦 Bench2Drive-Speed:速度可控的自动驾驶评测基准

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线作者 | Yuqian Shao 等编辑 | 自动驾驶之心本文只做学术分享,如有侵权,联系删文>>自动驾驶前沿信息获取→自动驾驶之心知识星球导语端到端自动驾驶&a…...

[具身智能-509]:全局混乱下的局部有序:不要用战术的勤奋掩盖战略的懒惰

“在一个全局混乱的系统中,局部的有序是奢望。”很多初创团队容易陷入一种“伪忙碌”的状态:产品每天都在迭代新功能,销售每天都在疯狂打陌生电话,代码写得飞快,办公室灯火通明。但这往往是“全局混乱”的体现——因为…...

基于stm32ARM库函数的IIR二阶巴特沃斯低通滤波器--附完整代码

在嵌入式系统中使用ARM CMSIS-DSP库实现高效IIR低通滤波器 🎯 引言:嵌入式系统中的实时信号处理挑战 在嵌入式系统开发中,信号处理往往面临双重挑战:既要保证实时性,又要在资源受限的环境下运行。今天,我…...

DHT11温湿度传感器核心技术解析

DHT11是一款数字式温湿度复合传感器,通过单总线协议与微控制器通信。其核心工作原理基于电阻式湿敏元件和NTC热敏电阻,内部集成了8位微处理器,负责将模拟信号转换为数字信号并校准输出。 1. 传感器特性与技术参数对比 特性DHT11备注温度测量…...

【无标题】滴滴答答滴滴答答滴滴答答滴滴答答滴滴答答

委屈委屈委屈恶趣味企鹅21...

阿里云百炼微调完整实战:从数据到部署

阿里云百炼微调完整实战:从数据到部署 目录 什么是模型微调微调 vs RAG:如何选择环境准备训练数据准备创建微调任务超参数配置详解模型部署LangChain 调用微调模型模型评测常见问题总结 一、什么是模型微调 模型微调(Supervised Fine-Tun…...

工业数据转发实战:用NModbus4在WinForm中构建一个带UI的Modbus Slave服务器

工业数据转发实战:用NModbus4在WinForm中构建带UI的Modbus从站服务器 在工业自动化领域,数据采集与转发是连接现场设备与上层信息系统的关键环节。想象一下这样的场景:车间里的PLC控制器实时生成生产数据,而办公室的管理系统需要这…...

为什么特定场景只重试幂等请求,不重试非幂等请求?(幂等性Idempotence)因为重复非幂等请求会对系统产生重复的副作用

重试:仅幂等请求(GET)重试,最多 2 次,退避间隔 100ms 文章目录什么是幂等性?为什么只重试幂等请求?1. **避免重复副作用**2. **HTTP方法的幂等性分类**3. **实际风险示例**4. **安全重试机制**仅…...

终极指南:3分钟实现Adobe Illustrator到Photoshop的无损图层转换

终极指南:3分钟实现Adobe Illustrator到Photoshop的无损图层转换 【免费下载链接】ai-to-psd A script for prepare export of vector objects from Adobe Illustrator to Photoshop 项目地址: https://gitcode.com/gh_mirrors/ai/ai-to-psd 还在为AI文件转P…...

别再让ChatGLM说车轱辘话了!手把手教你用Hugging Face的LogitsProcessor解决LLM重复生成

彻底根治大模型复读机:Hugging Face LogitsProcessor实战指南 看着屏幕上不断重复的"这个问题很重要这个问题很重要这个问题很重要",我第17次按下了终止键。作为某金融科技公司的AI产品经理,我们上线ChatGLM-6B后的用户投诉中&…...

对比使用Taotoken前后在模型选型与切换上的效率提升

使用 Taotoken 简化模型选型与切换的技术实践 1. 传统模型接入的痛点 在 Taotoken 平台出现之前,开发者接入不同大模型厂商的 API 需要面对一系列繁琐流程。每个厂商都有独立的注册流程、API Key 申请方式和文档体系。以常见的三个模型为例,开发者需要…...

Windows Server 2019上为Tesla T4配置CUDA 11.0和CUDNN 8.0.5的完整避坑指南

Windows Server 2019深度学习环境配置全攻略:Tesla T4CUDA 11.0实战指南 在企业级AI应用部署中,服务器环境配置往往是工程师面临的第一个挑战。不同于个人电脑的即插即用,Windows Server 2019特有的安全策略与系统架构,使得从驱动…...

Spark NLP:工业级分布式自然语言处理框架实战指南

1. 项目概述:当Spark遇上NLP,一个工业级文本处理框架的诞生如果你在数据科学或机器学习领域工作过一段时间,尤其是处理过海量文本数据,那你一定对两个词深有体会:一个是“慢”,另一个是“复杂”。传统的自然…...

springboot+vue3的旅游民宿预定管理系统的设计与实现

目录同行可拿货,招校园代理 ,本人源头供货商功能模块分析技术实现要点扩展功能建议项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作同行可拿货,招校园代理 ,本人源头供货商 功能模块分析 用户端功能 用户注册与登录&#xff…...

ScienceDecrypting:终极CAJ文档解密指南,3步实现科学文库文档永久保存

ScienceDecrypting:终极CAJ文档解密指南,3步实现科学文库文档永久保存 【免费下载链接】ScienceDecrypting 破解CAJViewer带有效期的文档,支持破解科学文库、标准全文数据库下载的文档。无损破解,保留文字和目录,解除有…...

内存带宽吃紧?GC风暴频发?R 4.5并行计算效率断崖式下降的5个反直觉元凶,今夜必须修复

更多请点击: https://intelliparadigm.com 第一章:R 4.5并行计算性能断崖的系统性归因 R 4.5版本在引入future与parallel包深度集成的同时,意外暴露了底层线程调度与内存管理的结构性矛盾。性能断崖并非单一缺陷所致,而是运行时环…...

springboot+vue3的婚礼场景规划系统设计与实现

目录同行可拿货,招校园代理 ,本人源头供货商功能模块分析技术实现要点扩展功能设计安全与兼容性项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作同行可拿货,招校园代理 ,本人源头供货商 功能模块分析 用户管理模块 注册与登录…...

3大核心方案:彻底解决DouyinLiveRecorder中PandaTV录制失败的终极指南

3大核心方案:彻底解决DouyinLiveRecorder中PandaTV录制失败的终极指南 【免费下载链接】DouyinLiveRecorder 可循环值守和多人录制的直播录制软件,支持抖音、TikTok、Youtube、快手、虎牙、斗鱼、B站、小红书、pandatv、sooplive、flextv、popkontv、twi…...

别再手动指定模型了!用Hugging Face的AutoModel和AutoProcessor,一行代码搞定BERT/GPT加载

一行代码解放生产力:Hugging Face AutoClass全解析 第一次接触Hugging Face Transformers库时,面对琳琅满目的模型类名——BertForSequenceClassification、RobertaTokenizer、GPT2LMHeadModel...你是否感到头晕目眩?每个项目开始前都要翻阅…...

Scala 方法与函数

Scala 方法与函数 引言 Scala 是一门多范式编程语言,它结合了面向对象和函数式编程的特性。在 Scala 中,方法和函数是构建程序的基本单元。本文将深入探讨 Scala 中的方法和函数,包括它们的定义、使用以及在实际编程中的应用。 方法与函数的定义 在 Scala 中,方法和函数…...

PaddlePaddle数据加载进阶:除了MNIST,你更应该掌握这几种内置数据集和高效采样技巧

PaddlePaddle数据加载进阶:除了MNIST,你更应该掌握这几种内置数据集和高效采样技巧 当你的深度学习模型在MNIST上轻松达到99%准确率时,是否曾思考过:数据加载环节可能正在成为整个训练流程的瓶颈?在真实工业场景中&…...

PCB原型制造质量对电子产品开发的关键影响

1. PCB原型制造质量的核心价值在电子产品开发流程中,PCB原型阶段常被误解为"简单打样",但实际它承载着远超表面价值的关键使命。我经历过数十个硬件项目后发现,原型板质量直接决定了后续开发60%以上的问题排查效率。当设计团队拿到…...

航空电子模块RAR15-XMC:多协议集成与SWaP优化

1. 航空电子模块的技术革新与RAR15-XMC核心价值在军用航空和商用航空领域,航电系统的设计始终面临一个核心矛盾:日益增长的功能需求与严格的空间/重量/功耗(SWaP)限制。传统解决方案往往采用多板卡堆叠的方式实现不同协议支持,这不仅增加了系…...

Cadence Allegro出Gerber别只发.art!给制板厂和焊接厂的完整文件清单(含.ASM/.CAM/.SMD)

Cadence Allegro出Gerber:制板厂与焊接厂文件交付全指南 刚完成PCB设计的工程师们常陷入一个尴尬境地——设计软件里点下"生成Gerber"后,面对几十个文件手足无措。上周就有位朋友把.art文件打包发给工厂后,接到电话质问&#xff1a…...

Sign in with Apple配置避坑指南:Service ID、回调地址和Key那些事儿

Sign in with Apple配置避坑指南:Service ID、回调地址和Key那些事儿 第一次接触Sign in with Apple的开发者,往往会被Apple开发者后台的各种ID和配置项搞得晕头转向。Service ID和App ID有什么区别?为什么我的回调地址总是报错?生…...

宏基因组病毒鉴定工具大乱斗:geNomad、VirSorter2等6款工具实战对比与结果整合脚本分享

宏基因组病毒鉴定工具横向评测:6款工具实战对比与智能整合方案 宏基因组数据分析中,病毒序列的准确鉴定一直是研究者面临的挑战。面对市场上众多工具,如何选择最适合自己项目的方案?更关键的是,当不同工具给出差异结果…...

自动恢复骚扰信息——硅基接待过滤(6)—东方仙盟

在硅基智能全面普及的交互时代,该模块可自动完成日常接待甄别、垃圾广告与恶意骚扰信息过滤,实时接管违规对话并闭环应答,减少无效干扰与人工消耗,为 AI 智能体、线上私信及数字化社交构建轻量化、全天候的信息防护屏障一、项目核…...

NoFences:免费开源桌面分区工具终极指南

NoFences:免费开源桌面分区工具终极指南 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences 还在为Windows桌面上杂乱无章的图标而烦恼吗?NoFences是一款完…...

思维链(CoT)大模型必会技巧:让AI先思考再回答,准确率飙升!

思维链(CoT)是一种让大模型在输出答案前先展示推理过程的技术,能显著提升复杂问题的解决准确率。通过在提示中加入“让我们一步一步思考”等短语或提供带推理过程的示例,模型能更有效地处理数学计算、代码分析、法律合同判断等任务…...

【紧急预警】Tidyverse 2.0.0–2.0.3版本中purrr::map_dfr静默失败漏洞(附已验证patch及CRAN临时降级方案)

更多请点击: https://intelliparadigm.com 第一章:【紧急预警】Tidyverse 2.0.0–2.0.3版本中purrr::map_dfr静默失败漏洞(附已验证patch及CRAN临时降级方案) purrr::map_dfr 在 Tidyverse 2.0.0 至 2.0.3 版本中存在一个高危静…...