大模型,重构自动驾驶
文|刘俊宏
编|王一粟
大模型如何重构自动驾驶?答案已经逐渐露出水面。
“在大数据、大模型为特征,以数据驱动为开发模式的自动驾驶3.0时代,自动驾驶大模型将在车端、云端上实现一个统一的端到端的平台管理。”毫末智行CEO顾维灏在近日的HAOMO AI DAY上表示。
大模型对自动驾驶的改变,下至感知、认知、数据标注等的底层技术框架,上至对之前技术方案的模型剪枝、蒸馏。自动驾驶在这个过程中,也变得“越来越懂”我们身处的真实世界。
当前,随着自动驾驶技术的进步,预计将来也会有越来越多的量产车得以落地。据工信部的数据,当前乘用车市场L2及以上智能驾驶渗透率已达42.4%,预计到2025年将达到70%,并普及到10~20万的主流车型上。

面对智能汽车产品端的放量和技术普及的需求,市场正在呼唤着,更具性价比的成熟智能驾驶方案。此前昂贵的智能驾驶产品,正在迎来一个全新的“千元级”机遇。
而这也意味着,拿到更多智能驾驶订单的玩家,将积累更多的车型行驶数据。进而转化成迭代速度更快的数据飞轮,反哺到场上的自动驾驶能力。
大模型,重塑了自动驾驶,也即将揭开自动驾驶降本大战的序幕。
大模型正在重构自动驾驶
“在自动驾驶3.0阶段,自动驾驶开发呈现以大数据、大模型、大算力为核心特征,以数据驱动为开发的模式。”对于大模型重塑后的智能驾驶,顾维灏如此解释道。
首先,在数据的训练上,自动驾驶原本的训练方式是使用人工标注的数据去训练,但引入大模型之后,已经可以使用自动化的标注技术来大规模、自动化地标注4D Clips(一段时间内,所有传感器接受的数据信息),并且将大模型的训练从有监督训练升级到了自监督训练。
不仅如此,大模型还可以利用生成式AI的能力,自动生成视频来加强训练。通过构建4D表征空间,使得CV Backbone(提取视觉输入图像信息)能够学到三维的几何结构、图片纹理、时序信息等全面的物理世界信息,相当于把整个世界装入到神经网络当中。
于是,大模型解决了之前人工智能最被人戏谑的“有多少人工就有多少智能”的问题,自动化的数据标注和训练,让自动驾驶成为了一台“永动机”。
接下来,在足够的数据驱动下,自动驾驶的开发模式也随之改变。
此前的自动驾驶研发主要由任务驱动。开发过程主要基于解决特定任务所采集的小数据,构建小模型来完成。一个具体需求,对应一个具体功能,表面上看似一个个功能开发迅速,汽车智驾的场景在一个个被“攻关”。但实际上这种开发模式只能以需求为导向,在特定问题的限制下,难以穷尽真实世界之广袤,于是各种corner case 无法解决,自动驾驶也就难以真正落地。
在技术框架上,自动驾驶3.0阶段利用云端实现感知和认知大模型能力进行突破。

原本在车端的各类小模型,逐步统一到感知和认知模型中,完成车端智驾系统整合到一个完整的大模型中去。同时在云端,大模型通过剪枝、蒸馏等方式逐步提升车端的感知能力。在通讯环境好的地方,大模型甚至可以通过车云协同的方式实现远程控车。最终实现,在车端和云端上端到端的自动驾驶大模型。
从技术框架层面,将大模型引入自动驾驶的效果,我们可以参考特斯拉的表现。2020年,特斯拉引入BEV+Transformer(BEVFormer),取代上一代2D+CNN算法。
在Transformer的注意力(Attention)机制下,特斯拉增强了模型对全局的理解能力,降低了来自不同传感器数据融合的难度。实现支持汽车生成BEV(鸟瞰图),让汽车了解周围环境就像是“开天眼”一般顺畅。
汽车能够更全面地看到世界,是感知大模型的功劳。
以毫末的方案为例。在对真实物理世界的学习中,毫末使用了NeRF(三维重建)技术整合,将真实世界建模到三维空间,再加上时序形成4D向量空间。
在此基础上,通过引入开源的图文多模态大模型,实现4D向量空间到语义空间的对齐。利用图文多模态大模型对画面的描述能力,自动驾驶获得了跟人类一样“识别万物”的能力。
在GPT-4V最新的测试中,将下面的图片直接输入给ChatGPT,就能像人类一样,精准的描述出图片环境中的驾驶策略。

接下来,汽车想要“动”起来,还需要认知大模型的能力,才能给出合适的指令。
在语义感知大模型构建的“识别万物”能力的基础上,毫末通过构建驾驶语言(Drive Language)来描述驾驶环境和驾驶意图,再结合导航引导信息以及自车历史动作,并借助外部大语言模型LLM的海量知识来辅助给出驾驶解释和驾驶建议。
大语言模型LLM的意义,在于将世界知识引入到驾驶策略中来。当自动驾驶认知决策获得了人类社会的常识和推理能力(世界知识),将大幅度提升自动驾驶策略的可解释性和泛化性。
如此一来,在通用认知大模型和通用感知大模型的帮助下,自动驾驶形成了“看得清”、“看得懂”,还“知道接下来怎么做”的能力。
在引入大模型两年后,2022年特斯拉在算法中引入时序网络,从而将BEV“全景地图”升级为占用网络(occupancy Network)。以BEV“看到”的道路上,不再分析路上“有什么”,以判断汽车能否通过的方式,从而决策汽车下一步“走还是停”。
直到2023年8月,特斯拉实现了依靠车载摄像头和神经网络识别道路和交通情况,端到端的自动驾驶系统(FSD Beta V12)。
但即使如此,大模型与自动驾驶的深度结合也才刚刚开始,在感知和认知的能力上依然有很大的提升空间。
三个能力升级:
纯视觉、更广、更小
在结合多模态大模型之后,实际的效果怎么样呢?
在测试的实验结果中,毫末在纯视觉泊车、城市NOH(等同于城市领航辅助驾驶)、和小目标障碍物检测上取得了明显的进展。
这意味着,在大模型加入后,自动驾驶在能力上,出现了质的提升。
首先是在泊车环境中,验证了纯视觉感知实现功能的可行性。
毫末采用了四个视野宽广的鱼眼摄像头作为其视觉BEV的感知基础,获取汽车周围360°的画面。然后对图像进行虚拟相机转换,通过backbone技术提取出画面的视觉特征,并映射到BEV空间。在BEV空间下,完成对障碍物的轮廓边界进行识别和测量。从而识别墙、柱子、车辆等各类型的边界轮廓,实现360°的全视野动态感知。15米内精度可以达到30cm,2米内精度可以高于10cm。

以当前的结果来看,纯视觉的感知方案已经可以替代之前USS(超声波雷达)来识别汽车周边障碍物的方案。在未来,毫末完全可能去掉当前配置的12个USS。
就像是特斯拉在新款Model 3上去掉所有雷达一样,进一步增强纯视觉感知的能力,从而节省一组USS大约150元的制造成本。
在城市NOH的进展上,毫末已经可以实现对各类交通标志、地面箭头、甚至井盖等交通场景的全要素覆盖。
例如在红绿灯的识别问题中,由于国内的红绿灯形态不尽相同,道路上横的、竖的、只显示读秒的、联排的,甚至因损坏而不停闪烁的都有。对于人类来说,识别这些红绿灯及其状态轻而易举,但对于之前的自动驾驶就需要对这些不同形状的红绿灯都进行学习训练。
在通用大模型加入后,自动驾驶展现出了万物识别的泛化能力。大模型在帮助自动驾驶积累大量相关场景的物体的同时,还帮助优化了车端感知模型,进而能够识别更多道路场景要素。
最后是小目标障碍物检测上,当前毫末城市NOH可以在城市道路场景中,在时速最高70公里的50米距离外,就能检测到大概高度为35cm的小目标障碍物,可以做到100%的成功绕障或刹停。
“毫末目前引入的大模型方法,本质上是在提升车端模型的泛化性”,毫末智行数据智能科学家贺翔解释道。
从上述的几项进展中可以清晰看到,在大模型的泛化能力引入后,自动驾驶开始展现出更强的数据理解能力、更精准的物体分类认识能力和更强的识别能力。
随后对于自动驾驶近期的发展上,贺翔判断:“我个人判断,可能今年到明年之间,是自动驾驶黎明之前的黑暗,我们可能会迎来一个巨大的爆发。”
大模型加入,智驾降本战打响
在新能源汽车时代下,由中国极限制造所影响的汽车供应链,正在将汽车消费引导至更着重考虑性价比的方向。
在智驾领域上,Tier1已经把成本从此前的几十万元断崖式压缩到了千元级别。
近日,毫末发布了三款千元级无图NOH产品。HP170、HP370和HP570,产品分别对应算力为5TOPS、32TOPS和72(或100)TOPS。分别对应智驾等级为包含行泊一体的高速无图 NOH、城市记忆行车和城市全场景无图 NOH,售价为3000、5000和8000元级。

在落地产品上,毫末的产品已经搭载至超过20款车型。其中包含长城汽车旗下的山海炮PHEV版和新摩卡Hi-4S等车型。
高性价比的智驾方案,破解了当下20万以上汽车才能搭配高阶智驾的局面。以毫末、大疆为首的汽车Tier1们,正在推动10万~20万元主导性价比的汽车产品中,展开智驾配置的竞争。
例如大疆在宝骏云朵灵犀版上配备了行泊一体智能驾驶方案,能够支持无图高速NOA和带有短途路线记忆功能。但这款汽车产品起售价仅为12.58万起。
另一边,相比于大疆、易航智能、纽劢等暂时仅有高速NOA的汽车Tier1们,在大模型加持下,拥有城市NOA能力的毫末,能够让合作的车厂们以更高的性价比,对技术先进的厂商开启竞争。
参考毫末的城市NOA方案,8000元级的定价虽不包含激光雷达,但也在价格上相对其他厂商拥有一定的优势。
据兴业证券测算,国内能够实现城市NOA功能的硬件成本预估为2.5-3万元。其中,传感器成本约为5000-10000元,单颗激光雷达价格约为3000-5000元,智驾域控制器成本约为1.5-2.5万元。
对比没有激光雷达的特斯拉方案,在其最新的HW4.0系统内,参考Greentheonly 的拆解推算成本。特斯拉HW4.0总计物料成本约为1500-2100美元。换算为人民币,特斯拉的方案硬件成本已然超过万元。
便宜可得的高阶智驾能力,让车厂能够在不同价格区间的产品拥有更高的智能化性价比。
在我们此前《自动驾驶攻城战,华为小鹏先亮剑》的研究中,大部分自主品牌车企对城市NOA的支持主要靠消费者在汽车配置上加价来实现。选购城市NOA功能需要的增配的加价幅度在2-6万元不等。其中,加价2万升级的小鹏G6是重点车型里加价最少的产品。

然而,当下的智能化性价比竞争中,9月25日小鹏在新款P5上砍掉了昂贵的激光雷达,将高速NOA支持车型下探至了15-20万区间。
而这也意味着,高阶辅助驾驶即将成为15-20万价格区间的标配。
消费者可以不用,但智能化的功能产品必须要有。某种意义上,智能汽车正在走向类似于手机“卷”芯片堆各种配置的老路。
而在大模型加持下自动驾驶,伴随着大模型在感知和认知能力的泛化,自动驾驶也将以越来越低的价格,配置到越来越多的车型上去。
当下的自动驾驶,距离爆发越来越近了。就像是那首《我们走在大路上》所唱,“我们走在大路上,意气风发斗志昂扬……”
相关文章:
大模型,重构自动驾驶
文|刘俊宏 编|王一粟 大模型如何重构自动驾驶?答案已经逐渐露出水面。 “在大数据、大模型为特征,以数据驱动为开发模式的自动驾驶3.0时代,自动驾驶大模型将在车端、云端上实现一个统一的端到端的平台管理。”毫末智…...
Jmeter执行接口自动化测试-如何初始化清空旧数据
需求分析: 每次执行完自动化测试,我们不会执行删除接口把数据删除,而需要留着手工测试,此时会导致下次执行测试有旧数据我们手工可能也会新增数据,导致下次执行自动化测试有旧数据 下面介绍两种清空数据的方法 一、通过…...
dashboard报错 错误:无法获取网络列表、dashboard报错 错误:无法获取云主机列表 解决流程
文章目录 错误说明dashboard上报错底层命令报错查看日志message日志httpd报错日志错误日志分析开始解决测试底层命令dashboard错误说明 dashboard上报错 首先,dashboard上无论是管理员还是其他项目,均无法获取云主机和网络信息,具体报错如下...
C语言中的3种注释方法
C语言中的3种注释方法 2021年8月28日星期六席锦 在用C语言编程时,常用的注释方式有如下几种: (1)单行注释 // … (2)多行注释 /* … */ (3)条件编译注释 #if 0…#endif (1)(2)在入门教程中比较常见。 对于(1) 【单行注释 // …】,注释只能显示…...
20款VS Code实用插件推荐
前言: VS Code是一个轻量级但功能强大的源代码编辑器,轻量级指的是下载下来的VS Code其实就是一个简单的编辑器,强大指的是支持多种语言的环境插件拓展,也正是因为这种支持插件式安装环境开发让VS Code成为了开发语言工具中的霸主…...
攻防世界web篇-robots
打开网址后,发现是一个空白页面的网页 但是,这个题目是robots,所以就联想到robots.txt这个目录,于是我就试了一下 注意:这里有个php的文件,这个应该就是一个目录文件 当输入后,直接回车&#…...
6 个可解锁部分 GPT-4 功能的 Chrome 扩展(无需支付 ChatGPT Plus 费用)
在过去的几个月里,我广泛探索了 ChatGPT 的所有可用插件。在此期间,我发现了一些令人惊叹的插件,它们改进了我使用 ChatGPT 的方式,但现在,我将透露一些您需要了解的内容。 借助 Chrome 扩展程序,所有 Chat…...
centos 7.9 安装sshpass
1.作用 sshpass是一个用于非交互式SSH密码验证的实用程序。它可以用于自动输入密码以进行SSH登录,从而简化了自动化脚本和批处理作业中的SSH连接过程。 sshpass命令可以与ssh命令一起使用,通过在命令行中提供密码参数来执行远程命令。以下是一个示例命…...
CompletableFuture多任务异步,获取返回值,汇总结果
线程池异步的基础知识 详情见:https://blog.csdn.net/sinat_32502451/article/details/133039624 线程池执行多任务,获取返回值 线程池的 submit()方法,可以提交任务,并返回 Future接口。 而 future.get(),可以获取…...
Linux上Qt和Opencv人脸识别项目学习路线(嵌入式/C++)
本文将介绍Linux人脸识别项目的开发流程, 只作简略介绍所需知识点及大致流程。 注:若需详细教程请联系作者(见文末)。 一、基本开发环境搭建 1.1 安装虚拟机Ubuntu 虚拟机采用的是VMware,需要下载VMware安装包、ubuntu系统镜像…...
spring 源码阅读之@Configuration解析
Configuration解析 Configuration注解用于标识一个类是配置类,用于声明和组织Bean定义,首先Configuration本身也是一个Component,在其注解定义上标有Component Target(ElementType.TYPE) Retention(RetentionPolicy.RUNTIME) Documented Co…...
Java Web 33道面试题汇总
更多面试合集在:https://javaxiaobear.cn 1、http 的长连接和短连接? HTTP 协议有 HTTP/1.0 版本和 HTTP/1.1 版本。HTTP1.1 默认保持长连接(HTTP persistent connection,也翻译为持久连接),数据传输完成了保持 TCP 连接不断开(不发 RST 包、不四次握手),等待在同域名…...
设计模式记录
设计模式 抽象工厂模式单例模式要实现一个单例,需要关注的点有下面几个: 抽象工厂模式 PHP工厂模式是一种可扩展、可维护和可重复使用的方法,旨在提供通用接口,用于创建对象。工厂模式的主要组成部分包括抽象工厂、具体工厂、抽象产品和具体产…...
Java设计模式之亨元模式(Flyweight Pattern)
亨元模式(Flyweight Pattern)是一种结构型设计模式,旨在通过共享对象来最大限度地减少内存使用和提高性能。该模式适用于需要创建大量相似对象的情况,其中许多对象具有相同的状态。通过共享相同的状态,亨元模式可以减少…...
正点原子嵌入式linux驱动开发——Linux中断
不管是单片机裸机实验还是Linux下的驱动实验,中断都是频繁使用的功能,在裸机中使用中断需要做一大堆的工作,比如配置寄存器,使能IRQ等等。但是Linux内核提供了完善的中断框架,只需要申请中断,然后注册中断处…...
基于Jaya优化算法的电力系统最优潮流研究(Matlab代码实现)
💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...
Write-Ahead Log(PostgreSQL 14 Internals翻译版)
日志 如果发生停电、操作系统错误或数据库服务器崩溃等故障,RAM中的所有内容都将丢失;只有写入磁盘的数据才会被保留。要在故障后启动服务器,必须恢复数据一致性。如果磁盘本身已损坏,则必须通过备份恢复来解决相同的问题。 理论…...
CUDA 学习记录
1.关于volatile: 对于文章中这个函数, __global__ void reduceUnrollWarps8 (int *g_idata, int *g_odata, unsigned int n) {// set thread IDunsigned int tid threadIdx.x;unsigned int idx blockIdx.x * blockDim.x * 8 threadIdx.x;// convert…...
【Java 进阶篇】深入了解 Bootstrap 按钮和图标
按钮和图标在网页设计中扮演着重要的角色,它们是用户与网站或应用程序交互的关键元素之一。Bootstrap 是一个流行的前端框架,提供了丰富的按钮样式和图标库,使开发者能够轻松创建吸引人的界面。在本文中,我们将深入探讨 Bootstrap…...
基于Java的人事管理系统设计与实现(源码+lw+部署文档+讲解等)
文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding) 代码参考数据库参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者&am…...
基于算法竞赛的c++编程(28)结构体的进阶应用
结构体的嵌套与复杂数据组织 在C中,结构体可以嵌套使用,形成更复杂的数据结构。例如,可以通过嵌套结构体描述多层级数据关系: struct Address {string city;string street;int zipCode; };struct Employee {string name;int id;…...
从WWDC看苹果产品发展的规律
WWDC 是苹果公司一年一度面向全球开发者的盛会,其主题演讲展现了苹果在产品设计、技术路线、用户体验和生态系统构建上的核心理念与演进脉络。我们借助 ChatGPT Deep Research 工具,对过去十年 WWDC 主题演讲内容进行了系统化分析,形成了这份…...
【论文笔记】若干矿井粉尘检测算法概述
总的来说,传统机器学习、传统机器学习与深度学习的结合、LSTM等算法所需要的数据集来源于矿井传感器测量的粉尘浓度,通过建立回归模型来预测未来矿井的粉尘浓度。传统机器学习算法性能易受数据中极端值的影响。YOLO等计算机视觉算法所需要的数据集来源于…...
[10-3]软件I2C读写MPU6050 江协科技学习笔记(16个知识点)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...
Python爬虫(一):爬虫伪装
一、网站防爬机制概述 在当今互联网环境中,具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。这些措施主要分为两大类: 身份验证机制:直接将未经授权的爬虫阻挡在外反爬技术体系:通过各种技术手段增加爬虫获取数据的难度…...
让AI看见世界:MCP协议与服务器的工作原理
让AI看见世界:MCP协议与服务器的工作原理 MCP(Model Context Protocol)是一种创新的通信协议,旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天,MCP正成为连接AI与现实世界的重要桥梁。…...
pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)
目录 一、SQL注入 二、insert注入 三、报错型注入 四、updatexml函数 五、源码审计 六、insert渗透实战 1、渗透准备 2、获取数据库名database 3、获取表名table 4、获取列名column 5、获取字段 本系列为通过《pikachu靶场通关笔记》的SQL注入关卡(共10关࿰…...
是否存在路径(FIFOBB算法)
题目描述 一个具有 n 个顶点e条边的无向图,该图顶点的编号依次为0到n-1且不存在顶点与自身相连的边。请使用FIFOBB算法编写程序,确定是否存在从顶点 source到顶点 destination的路径。 输入 第一行两个整数,分别表示n 和 e 的值(1…...
论文笔记——相干体技术在裂缝预测中的应用研究
目录 相关地震知识补充地震数据的认识地震几何属性 相干体算法定义基本原理第一代相干体技术:基于互相关的相干体技术(Correlation)第二代相干体技术:基于相似的相干体技术(Semblance)基于多道相似的相干体…...
在Mathematica中实现Newton-Raphson迭代的收敛时间算法(一般三次多项式)
考察一般的三次多项式,以r为参数: p[z_, r_] : z^3 (r - 1) z - r; roots[r_] : z /. Solve[p[z, r] 0, z]; 此多项式的根为: 尽管看起来这个多项式是特殊的,其实一般的三次多项式都是可以通过线性变换化为这个形式…...
