大模型+自动驾驶
论文:https://arxiv.org/pdf/2401.08045.pdf
大型基础模型的兴起,它们基于广泛的数据集进行训练,正在彻底改变人工智能领域的面貌。例如SAM、DALL-E2和GPT-4这样的模型通过提取复杂的模式,并在不同任务中有效地执行,从而作为广泛AI应用的强大构建块。自动驾驶,作为AI应用的一个活跃前沿,仍然面临着缺乏专门的视觉基础模型(Vision Foundation Models,VFMs)的挑战。全面训练数据的稀缺、多传感器集成的需求和多样的任务特定架构对该领域VFMs的发展构成了重大障碍。本文深入探讨了为自动驾驶量身定制VFMs的关键挑战,并概述了未来的发展方向。通过对250多篇论文的系统分析,我们剖析了VFM开发的基本技术,包括数据准备、预训练策略和下游任务适应。此外,我们还探索了如NeRF、扩散模型、3D高斯喷溅和世界模型等关键进展,为未来研究提供了全面的路线图。为了赋能研究者,我们建立并维护了Forge VFM4AD,一个开放获取的存储库,不断更新自动驾驶VFMs锻造的最新进展。
自动驾驶(AD)技术的迅速发展正在重塑交通运输领域,开启了一个由AI驱动的未来。传统的自动驾驾驶感知系统依赖于模块化架构,使用专门的算法来处理特定任务,例如对象检测 Lang et al. (2019);Mao, Xue, et al. (2021),语义分割 Y. Guo, Liu, Georgiou, 和 Lew (2018);X. Yan et al. (2022),以及深度估计 Ming, Meng, Fan, 和 Yu (2021)。每个任务通常由一个单独的模型解决,这些模型通常是在特定任务标签上训练的深度神经网络。然而,这些分隔的组件在提升单个任务性能的同时牺牲了更广泛的上下文理解和数据关系。这种方法通常导致输出不一致,并限制了系统处理长尾案例的能力。
大规模基础模型,尤其是自然语言处理(NLP)领域的 Brown et al. (2020);OpenAI (2023),已成为人工智能领域的强大力量。这些模型在训练时使用了广泛多样的数据集,并经常利用自监着学习技术。一旦训练完成,它们可以通过微调来适应广泛的特定任务。像GPT-3/4 Brown et al. (2020);OpenAI (2023)这样的数十亿参数模型在零/少次射击学习中的成功尤其值得注意。它们在少次射击学习方面的卓越能力使它们能够有效地处理分布外的AD数据情景,例如遇到未知对象。此外,它们在推理方面的内在能力使它们非常适合需要逻辑处理和明智决策的任务。
尽管大型基础模型确实在各个领域产生了革命性的影响,但它们对AD的影响尚未达到预期。将现有的在2D数据或其他领域的文本模态上训练的视觉基础模型(VFMs)直接应用于AD任务已被证明是明显不足的。这些模型缺乏利用对AD感知任务至关重要的丰富3D信息的能力,例如深度估计。此外,AD架构的内在异质性和多传感器融合的必要性给VFMs的直接适应带来了额外挑战。这一挑战由高效处理多样化传感器数据(例如激光雷达、相机、雷达)并无缝适应AD领域内各种下游任务的VFMs需求进一步加剧。
在自动驾驶发展的背景下,两个关键因素阻碍了视觉基础模型的进展:- 数据稀缺性:由于隐私问题、安全规定和捕捉真实世界驾驶场景的复杂性,AD数据本质上是有限的。此外,AD数据必须满足严格的要求,包括多传感器对齐(例如激光雷达、相机、雷达)和时间一致性。
-
任务异质性:自动驾驶呈现出一系列不同的任务,每个任务都需要不同的输入形式(例如相机、激光雷达、雷达)和输出格式(例如3D边界框、车道线、深度图)。这种异质性对VFMs构成了挑战,因为针对一个任务优化的架构在其他任务上的表现往往不令人满意。因此,开发一个能够高效处理多传感器数据并在各种不同下游任务中表现良好的单一通用架构和表示仍然是一个重大障碍。
尽管存在这些挑战,但有迹象表明,为自动驾驶开发大型视觉基础模型的前景正在逐渐显现。通过持续收集 Caesar et al. (2020);Mao, Niu, et al. (2021)和先进模拟技术的不断发展 X. Li et al. (2023);Z. Yang et al. (2023a)为解决数据稀缺问题提供了可能。此外,感知领域的最新进展,尤其是转向统一表示法,利用鸟瞰图(BEV) Z. Li, Wang, et al. (2022);Philion 和 Fidler (2020),和占用表示法 X. Tian, Jiang, et al. (2023),为缺乏通用表示法和架构的问题提供了潜在的解决方案。
本文深入探讨了为自动驾驶发展大型视觉基础模型的关键技术,如图1所示。我们的探索从在基础模型、现有框架和任务方面建立全面背景开始,以及发展表示法,概述我们的核心动机在第2节中。随后,我们在第3节深入研究现有数据集和数据模拟技术,强调了像生成对抗网络(GANs)、神经辐射场(NeRFs)、扩散模型和3D高斯喷溅(3DGS)等技术在解决自动驾驶固有数据稀缺性方面的关键作用。在这个基础上,第4节分析了有效训练VFMs在未标记真实世界数据上的自我训练技术。最后,为了弥合训练有素的VFMs和下游任务之间的差距,第5节探讨了将在其他领域发展的基础模型应用于AD领域。我们审视了所学到的宝贵经验和潜在适应性,以实现自动驾驶中多样化下游任务的有效性能。
与现有的综述论文 Firoozi et al. (2023);Y. Huang, Chen, 和 Li (2023);J. Sun et al. (2023);Z. Yang, Jia, Li, 和 Yan (2023)不同,这些论文囊括了在各个领域应用大型基础模型,本文通过专注于为自动驾驶挑战量身定制的大型视觉基础模型的发展提出了一种新的方法。这种独特的视角使我们能够更深入地探讨构建VFMs所需的基本原则和技术进步,以推动该领域的实质性进展。
本工作的主要贡献可以总结如下:
-
我们采用了一个统一的流程来发展自动驾驶的大型视觉基础模型(VFMs)。这个流程包括对数据准备、自监着学习和适应的全面审查。
-
我们系统地分类了提出框架内每个过程的现有工作,如图2所示。我们的分析提供了细致的分类、深入的比较,并在每个部分总结了洞见。
-
我们深入探讨了在为自动驾驶打造视觉基础模型(VFMs)时遇到的关键挑战。通过对超过250篇综述论文的洞察,我们总结了关键方面,并提出了未来研究的方向。
数据准备
在自动驾驶的背景下,鉴于确保人类安全所涉及的高风险,处理复杂驾驶场景的稳健性至关重要。自动驾驶系统必须有效地应对各种挑战,包括交通参与者、天气条件、照明以及道路状况。然而,收集涵盖所有可能场景的数据集(如意外的行人相关交通事故)是不切实际且效率低下的。此外,基于合成数据训练的模型可能难以有效地概括到现实世界场景,因为数据分布可能存在差异。因此,问题的关键在于生成逼真且可控制的数据。值得鼓舞的是,最近的进展,特别是在扩散模型和NeRF方面,已经产生了模糊了现实与机器生成界限的图像,为解决数据稀缺提供了有希望的技术支持。
本节不仅深入研究利用现有数据集,还探索了以成本效益和高效方式收集、合成或增强自动驾驶数据的多种方法。这包括生成对抗网络、扩散模型、神经辐射场和3D高斯喷溅等技术。表2提供了这些数据生成方法的概览。
自监着学习训练
在获取大量逼真数据后,有效的预训练范式对于从庞大数据集中提取一般信息和构建视觉基础模型至关重要。
自监着学习(self supervised learning),即在大量未标记数据上进行训练,已在多个领域显示出潜力,如自然语言处理和特定的图像处理应用。此外,它为自动驾驶的视觉基础模型(VFMs)的发展带来了新的前景。如表3所示,我们对构建自动驾驶VFMs的自监着学习范式进行了全面的综述,涵盖了所有自监着或无监督方式的努力。这些方法被归类为五个主要类型,包括基于对比的、基于重构的、基于蒸馏的、基于渲染的和基于世界模型的。
适配
虽然当前缺乏为自动驾驶量身定制的视觉基础模型(Vision Foundation Model)构成了挑战,但我们可以分析现有基础模型的应用,例如来自其他领域的视觉基础模型、多模态基础模型和大型语言模型(Large Language Models),以增强我们的理解。表5清晰地总结了一些著名模型。通过检查现有解决方案的局限性,我们已经提取了关键见解,并提出了专门为自动驾驶定制的视觉基础模型。
结论
基础模型的出现已根本性地改变了人工智能的格局,其在革新自动驾驶方面的潜力不可否认。本文深入探讨了为自动驾驶专门打造视觉基础模型(VFM)的核心问题,重点突出了数据生成、预训练和适应性等关键技术。然而,朝着稳健且适应性强的自动驾驶感知系统迈进的道路依然充满挑战。我们希望我们的调查和平台能够促进未来在安全关键的自动驾驶领域内视觉基础模型的研究。
相关文章:

大模型+自动驾驶
论文:https://arxiv.org/pdf/2401.08045.pdf 大型基础模型的兴起,它们基于广泛的数据集进行训练,正在彻底改变人工智能领域的面貌。例如SAM、DALL-E2和GPT-4这样的模型通过提取复杂的模式,并在不同任务中有效地执行,从…...

openssl3.2 - 测试程序的学习 - test\aesgcmtest.c
文章目录 openssl3.2 - 测试程序的学习 - test\aesgcmtest.c概述笔记能学到的流程性内容END openssl3.2 - 测试程序的学习 - test\aesgcmtest.c 概述 openssl3.2 - 测试程序的学习 aesgcmtest.c 工程搭建时, 发现没有提供 test_get_options(), cleanup_tests(), 需要自己补上…...

C语言——操作符详解2
目录 0.过渡0.1 不创建临时变量,交换两数0.2 求整数转成二进制后1的总数 1.单目表达式2. 逗号表达式3. 下标访问[ ]、函数调用( )3.1 下标访问[ ]3.2 函数调用( ) 4. 结构体成员访问操作符4.1 结构体4.1.1 结构体的申明4.1.2 结构体变量的定义和初始化 4.2 结构体成…...

(免费领源码)java#Springboot#mysql旅游景点订票系统68524-计算机毕业设计项目选题推荐
摘 要 科技进步的飞速发展引起人们日常生活的巨大变化,电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用。信息时代的到来已成为不可阻挡的时尚潮流,人类发展的历史正进入一个新时代。在现实运用中,应用软件的工作…...

帝国cms7.5 支付升级优化版文库范文自动生成word/PDF文档付费复制下载带支付系统会员中心整站模板源码sitemap百度推送+安装教程
帝国cms7.5 支付升级优化版文库范文自动生成word/PDF文档付费复制下载带支付系统会员中心整站模板源码sitemap百度推送+安装教程 (购买本专栏可免费下载栏目内所有资源不受限制,持续发布中,需要注意的是,本专栏为批量下载专用,并无法保证某款源码或者插件绝对可用,介意不…...
【node】关于npm、yarn、npx的区别与使用
文章目录 npm (Node Package Manager):安装依赖运行脚本 npx:执行项目依赖中的命令 yarn:安装依赖eg.使用npx yarn install 的作用 npm (Node Package Manager): 用途: npm 是 Node.js 官方提供的包管理工具,用于安装、管理和分享 JavaScript 代码包。安…...
力扣0099——恢复二叉搜索树
恢复二叉搜索树 难度:中等 题目描述 给你二叉搜索树的根节点 root ,该树中的 恰好 两个节点的值被错误地交换。请在不改变其结构的情况下,恢复这棵树 。 示例1 输入: root [1,3,null,null,2] 输出:[3,1,null,nul…...

机器学习核心算法
目录 逻辑回归 算法原理 决策树 决策树算法概述 树的组成 决策树的训练与测试 切分特征 衡量标准--熵 信息增益 决策树构造实例 连续值问题解决 预剪枝方法 分类与回归问题解决 决策树解决分类问题步骤 决策树解决回归问题步骤 决策树代码实例 集成算法 Baggi…...

libjsoncpp 的编译和交叉编译
😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…...

【Unity美术】如何用3DsMax做一个水桶模型
👨💻个人主页:元宇宙-秩沅 👨💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨💻 本文由 秩沅 原创 👨💻 收录于专栏:Uni…...

如何用一根网线和51单片机做简单门禁[带破解器]
仓库:https://github.com/MartinxMax/Simple_Door 支持原创是您给我的最大动力… 原理 -基础设备代码程序- -Arduino爆破器程序 or 51爆破器程序- 任意选一个都可以用… —Arduino带TFT屏幕——— —51带LCD1602——— 基础设备的最大密码长度是0x7F,因为有一位…...

在 VUE 项目中,使用 Axios 请求数据时,提示跨域,该怎么解决?
在 VUE 项目开发时,遇到个问题,正常设置使用 Axios 库请求数据时,报错提示跨域问题。 那在生产坏境下,该去怎么解决呢? 其可以通过以下几种方式去尝试解决: 1、设置允许跨域请求的响应头 1.1 在响应头中…...

1.【Vue3】前端开发引入、Vue 简介
1. 前端开发引入 1.1 前端开发前置知识 通过之前的学习,已经通过 SpringBoot 和一些三方技术完成了大事件项目的后端开发。接下来开始学习大事件项目的前端开发,前端部分借助两个框架实现: Vue3(一个 JS 框架)基于 …...
一起学习ETCD系列——运维操作之etcdctl使用
文章目录 概要一、命令二、实操2.1、基本操作2.2、watch2.3、租约2.4、分布式锁2.5、角色2.6、用户2.7、认证2.8、集群 概要 本文主要用来总结ETCD客户端ctcdctl的命令操作,在运维过程中可能常常用到的。 一、命令 etcd工具 etcdctl官方命令示例 [roottest etcd…...

Spring Security 存储密码之 JDBC
Spring Security的JdbcDaoImpl实现了UserDetailsService接口,通过使用JDBC提供支持基于用户名和密码的身份验证。 JdbcUserDetailsManager扩展了JdbcDaoImpl,通过UserDetailsManager接口提供UserDetails的管理功能。 当Spring Security配置为接受用户名/密码进行身份验证时,…...

第3章-python深度学习——(波斯美女)
第3章 神经网络入门 本章包括以下内容: 神经网络的核心组件 Keras 简介 建立深度学习工作站 使用神经网络解决基本的分类问题与回归问题 本章的目的是让你开始用神经网络来解决实际问题。你将进一步巩固在第 2 章第一个示例中学到的知识,还会将学到的…...

蓝桥杯备战——4.继电器/蜂鸣器
1.分析原理图 最好自己先去查查138以及ULN2003的使用方法,我这里直接讲思路。 由上图我们可以看到如果138输入ABC101,则输出Y50,此时若WR通过跳线帽接地则Y5C1 ,于是573(U9)处于输出跟随输入P0状态,此时若P061,则573输出Q71&am…...
Redis高级特性之地理空间索引
Redis的地理空间索引是一种功能强大的工具,用于存储和查询地理空间数据。这个特性主要通过Redis的地理空间数据类型 - GeoSet(地理集合)来实现。在这篇文章中,我们将探索Redis地理空间数据类型的使用和应用。 1. Redis GeoSet 简…...

R语言【taxlist】——as():将 taxlist 对象强制转换为 list 对象
Package taxlist version 0.2.4 Description 可以应用 S4 对象到 list 对象的强制转换来探索它们的内容,避免由它们的验证引起的错误。 Usage S4_to_list(x) Argument 参数【x】:一个 taxlist 类对象或任意 S4 类。 Details 将 taxlist 对象强制转换…...

使用POI生成word文档的table表格
文章目录 使用POI生成word文档的table表格1. 引入maven依赖2. 生成table的两种方式介绍2.1 生成一行一列的table2.2 生成固定行列的table2.3 table合并列2.4 创建多个table存在的问题 使用POI生成word文档的table表格 1. 引入maven依赖 <dependency><groupId>org.…...
Vue记事本应用实现教程
文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展:显示创建时间8. 功能扩展:记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...

Redis相关知识总结(缓存雪崩,缓存穿透,缓存击穿,Redis实现分布式锁,如何保持数据库和缓存一致)
文章目录 1.什么是Redis?2.为什么要使用redis作为mysql的缓存?3.什么是缓存雪崩、缓存穿透、缓存击穿?3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...

(转)什么是DockerCompose?它有什么作用?
一、什么是DockerCompose? DockerCompose可以基于Compose文件帮我们快速的部署分布式应用,而无需手动一个个创建和运行容器。 Compose文件是一个文本文件,通过指令定义集群中的每个容器如何运行。 DockerCompose就是把DockerFile转换成指令去运行。 …...
管理学院权限管理系统开发总结
文章目录 🎓 管理学院权限管理系统开发总结 - 现代化Web应用实践之路📝 项目概述🏗️ 技术架构设计后端技术栈前端技术栈 💡 核心功能特性1. 用户管理模块2. 权限管理系统3. 统计报表功能4. 用户体验优化 🗄️ 数据库设…...

NXP S32K146 T-Box 携手 SD NAND(贴片式TF卡):驱动汽车智能革新的黄金组合
在汽车智能化的汹涌浪潮中,车辆不再仅仅是传统的交通工具,而是逐步演变为高度智能的移动终端。这一转变的核心支撑,来自于车内关键技术的深度融合与协同创新。车载远程信息处理盒(T-Box)方案:NXP S32K146 与…...

【网络安全】开源系统getshell漏洞挖掘
审计过程: 在入口文件admin/index.php中: 用户可以通过m,c,a等参数控制加载的文件和方法,在app/system/entrance.php中存在重点代码: 当M_TYPE system并且M_MODULE include时,会设置常量PATH_OWN_FILE为PATH_APP.M_T…...

脑机新手指南(七):OpenBCI_GUI:从环境搭建到数据可视化(上)
一、OpenBCI_GUI 项目概述 (一)项目背景与目标 OpenBCI 是一个开源的脑电信号采集硬件平台,其配套的 OpenBCI_GUI 则是专为该硬件设计的图形化界面工具。对于研究人员、开发者和学生而言,首次接触 OpenBCI 设备时,往…...

c++第七天 继承与派生2
这一篇文章主要内容是 派生类构造函数与析构函数 在派生类中重写基类成员 以及多继承 第一部分:派生类构造函数与析构函数 当创建一个派生类对象时,基类成员是如何初始化的? 1.当派生类对象创建的时候,基类成员的初始化顺序 …...
【Elasticsearch】Elasticsearch 在大数据生态圈的地位 实践经验
Elasticsearch 在大数据生态圈的地位 & 实践经验 1.Elasticsearch 的优势1.1 Elasticsearch 解决的核心问题1.1.1 传统方案的短板1.1.2 Elasticsearch 的解决方案 1.2 与大数据组件的对比优势1.3 关键优势技术支撑1.4 Elasticsearch 的竞品1.4.1 全文搜索领域1.4.2 日志分析…...
微服务通信安全:深入解析mTLS的原理与实践
🔥「炎码工坊」技术弹药已装填! 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 一、引言:微服务时代的通信安全挑战 随着云原生和微服务架构的普及,服务间的通信安全成为系统设计的核心议题。传统的单体架构中&…...