当前位置：首页 > news >正文

【占用网络】FlashOcc：快速、易部署的占用预测模型

news 2026/5/14 1:21:11

前言

FlashOcc是一个它只需2D卷积就能实现“占用预测模型”，具有快速、节约内存、易部署的特点。

它首先采用2D卷积提取图形信息，生成BEV特征。然后通过通道到高度变换，将BEV特征提升到3D空间特征。

对于常规的占用预测模型，将3D卷积改为2D卷积，将三维体素特征改为BEV特征。而且不用Transformer注意力算子。

论文地址：FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin

代码地址：https://github.com/Yzichen/FlashOCC

一、模型框架

体素特征表示，需要大量内存和计算资源，而且通常会使用一些复杂算子，比如：3D卷积、Deformable Attention、Transformer。

FlashOcc认为理想的框架，应该对不同的芯片进行部署友好，同时保持高精度。

采用了一种即插即用的范式，使用2D卷积层来提取特征，并通过一个通道到高度的转换来，提升BEV层的输出到3D空间。

FlashOcc首先采用2D卷积提取图形信息，生成BEV特征。然后通过通道到高度变换，将BEV特征提升到3D空间特征。
对于常规的占用预测模型，将3D卷积改为2D卷积，将三维体素特征改为BEV特征。而且不用Transformer注意力算子。
特点：快速、节约内存、易部署。

FlashOcc的模型框架如下图所示，核心步骤分为7步：

输入多视角图像数据，比如6个相机组成的，同时输入6张图像。
经过主干网络，提取图像信息，生成图像特征。
通过LSS（Lift-splat-shot）思路，将2D图像特征转为BEV特征，形成初步的BEV特征。
得到初步的BEV特征，可以选择是否使用“时序信息融合模块”。如果使用的，会融合历史的BEV特征信息。如果不用，进入直接下一步。
对BEV特征进一步编码，提取特征，形成BEV特征'。
BEV特征'经过占用头的处理，得到BEV特征''；接着，通过通道到高度变换，将BEV特征''提升到3D空间特征。
输出占用预测信息。

其中，通道到高度变换，是指将BEV特征（BxCxWxH），转为3D空间特征（BxC'xZxWxH）。

这里的B是指batch size，C是指BEV的特征通道数量，C'是指3D空间特征通道（类别数量）；C = C' x Z，对应通道到高度变换思想。

W，H，Z分别对应三维空间中x,y,z的维度。

它由5个关键模型组成：

2D图像编码器：这个模块的任务是从由多个摄像头捕获的图像中提取特征。这些特征可能包括物体的形状、大小、颜色等，对于理解图像内容至关重要。
视图转换模块：该模块负责将2D感知图像特征，转换到鸟瞰视图（BEV）空间表示。
BEV编码器：在完成视图转换后，BEV编码器处理鸟瞰视图中的特征信息。这一步进一步加工特征，使其适应于三维空间分析。
占用预测模块：这个模块的核心任务是预测每个体素（三维空间中的一个小立方体，类似于二维图像中的像素）是否被占用。这是通过分析前面模块提供的数据来完成的。
时间融合模块（可选）：这个模块不是必须的，但可以用来提高模型的性能。它通过融合历史信息（如之前的观察或预测）来提供更准确的占用预测。

二、细节信息

1、占用模型改进对比

细节展开，下图是常规的占用预测模型，使用3D体素特征表示，并用到3D卷积和Transformer等算子。

下图是FlashOcc模型，使用BEV特征表示，只用到2D卷积算子。

通过BEVDetOcc和UniOcc中组建替换为FlashOcc后，进行实验对比。

替换为FlashOcc后在速度、内存消耗和训练时间方面，都是更优的。

2、Efficient Sub-pixel Paradigm

子像素卷积技术： 这种技术首先在图像超分辨率中被提出，然后通道重排代替上采样来提高低分辨率数据的分辨率，与去卷积层相比，成本更低

基于这种方法，提出了通道到高度转换作为一种高效的占用预测方法，直接从平坦的BEV级特征通过通道到高度变换重塑占用空间特征。

在传统的图像超分辨率方法中，一个低分辨率图像会被上采样（即插值）到一个更高的分辨率。然而，这种插值通常是一种线性过程，可能会导致细节的丢失或模糊。子像素卷积采用一种不同的方法来解决这个问题。

在子像素卷积中，网络被训练来学习如何重新排列在低分辨率特征图中的信息，以生成高分辨率的输出。这是通过以下步骤完成的：

卷积层： 首先，使用卷积层来提取低分辨率图像的特征。
特征映射扩展： 接着，使用多个卷积滤波器来增加特征映射的数量。例如，如果目标是将图像的分辨率提高2倍，那么就会使用4倍（2x2）的特征映射数量。
像素重排： 然后，通过一个特殊的重排操作（也称为“像素洗牌”），将这些额外的特征映射转换为高分辨率图像的形式。这个过程实际上是在一个更细粒度的层面上重新排列特征映射，以形成高分辨率输出。

这种方法的优势在于其避免了传统上采样方法可能引入的模糊，同时允许网络学习更加复杂的上采样模式。

在自动驾驶系统中，子像素卷积技术可以用于提高感知模型的分辨率，从而允许车辆更准确地理解其周围的环境，包括路面状况、周围车辆和行人等。

子像素卷积技术被提议用于通过通道到高度变换来实现高效的占用预测，这是一种在BEV级别上工作的技术。

这种方法允许直接从BEV特征中推断出3D结构的高度信息，避免了计算上昂贵的3D卷积操作，从而提高了计算效率并减少了内存消耗。

3、View Transforme

View Transformer 将摄像头收集的2D图像数据，转换为BEV鸟瞰视图表示。

论文中默认使用LSS方案，它全称是Lift-Splat-Shoot，它先从车辆周围的多个摄像头拍摄到的图像进行特征提取，在特征图中估计出每个点的深度，然后把这些点“提升”到3D空间中。

接着，这些3D信息被放置到一个网格上，最后将这些信息“拍扁”到一个平面视图上，形成BEV特征图。

Lift，是提升的意思，2D到3D特征转换模块，将二维图像特征生成3D特征；即：对每个像素预测深度值，然后结合相机内外参，投影到3D空间中。
Splat，是展开的意思，3D到BEV特征编码模块，把3D特征“拍扁”得到BEV特征图；由于一个BEV网格可能对应多个3D点，需要进行融合得到该网格的特征。
Shooting，是指在BEV特征图上进行相关任务操作，比如检测、分割、轨迹预测等。

详细信息，看我这篇博客：【BEV感知 LSS方案】Lift-Splat-Shoot 论文精读与代码实现-CSDN博客

4、训练参数

数据情况

基准测试：实验使用了Occ3D-nuScenes数据集进行3D占用预测。这个数据集包含了700个训练场景和150个验证场景。
数据集：数据集覆盖了-40m到40m沿X和Y轴的空间范围，以及-1m到5.4m沿Z轴的空间范围。占用标签是使用尺寸为0.4m x 0.4m x 0.4m的体素为17个类别定义的。
数据收集：场景包含了20秒的注释感知数据，以2Hz的频率采集。数据收集车辆装备了一个激光雷达、五个雷达和六个摄像头，使得能够全面地观察车辆的周围环境。
评估指标：评估指标为平均交并比（mIoU）。

训练细节

设计：FlashOcc的设计为即插即用方式，并注重于泛化性和效率。
比较：实验中将FlashOcc与其他主流基于体素的占用预测方法进行了比较，如BEVDetOcc和UniOcc。
训练细节：所有模型都使用AdamW优化器进行训练，并应用了梯度裁剪，学习率为1e-4，总批量大小为64，分布在8个GPU上。
训练周期：BEVDetOcc和UniOcc的总训练周期设置为24，而FBOcc只训练了20个周期。
样本平衡：在所有实验中，没有使用类平衡的分组和采样。

下面表格展示了训练细节信息：

“R50*”表示使用了ResNet-50主干网络，“R101”是指ResNet-101，“SwinB”是指Swin Transformer。
“FL”是FPN LSS的缩写。
“MC”代表多卷积头。
MSO指的是指多尺度占用预测头。
F-VTM和B-VTM分别表示前向投影和深度感知的后向投影。
Stereo4D指的是使用立体声体积来增强LSS的深度预测，而不包括来自上一帧的BEV特征。
Mono-align-concat表示使用单目深度预测用于LSS，其中历史帧的bev特征被对齐并沿通道连接。

三、设计背景

这不是不是重点，放在后面。占用预测，能解决3D感知中的三个问题：复杂形状缺失、长尾缺陷、无限类别。

复杂形状缺失: 有些物体的形状很复杂，无法描述细节和几何形状。比如，一辆挖掘机，由机械臂和车身组成，用3D目标检测只能框出这是一个矩形体，无法知道那部分是机械臂。
长尾缺陷问题: 在现实世界中，某些物体出现得很少，而另一些则很常见。比如，在路上，普通汽车和卡车很多，但冰淇淋车或救护车就比较少，识别那些不常见的物体就比较难。
无限类别问题：在真实世界中，存在数以万计的不同物体，常规训练任务中，只能识别的有限数量的类别。实际场景中会遇到预定义类之外的目标。

占用预测: 判断周围空间中哪些部分被物体占据，哪些是空的。

为了进行占用预测，一种常见的方法是使用三维体素来表示物体和环境。这种方法可以提供非常详细的三维信息，但问题在于它需要大量的内存和计算资源。

因为体素是以三维网格的形式存在的，所以当细节级别增加时，所需处理的数据量会呈指数级增长。

同时当前大多占用预测模型使用Transformer注意力等复杂算子，阻碍了占用预测部署。

四、实验测试与效果

在Occ3D-nuScenes评估数据集上，进行的3D占用预测性能测试。使用ResNet-101和Swin Transformer-Base两种不同的基础网络进行了评估。

FlashOcc在BEVDetOcc和UniOcc框架上进行了评估，并与MonoScene、TPVFormer、OccFormer、CTF-Occ、RenderOcc和PanoOcc等流行方法进行了性能比较。
表格中最后两行，将BEVDetOcc和UniOcc中组建替换为FlashOcc后，FlashOcc在BEVDetOcc上提高了1.3 mIoU，在UniOcc上提高了0.3 mIoU。
FlashOcc的实现超过了基于Transformer的PanoOcc方法1.1 mIoU，证明了该方法的性能。

星号（*）表示这些模型在训练前已经在FCOS3D模型上进行了预训练。
“FO”是FlashOcc的缩写，而“FO()”表示对应名为“”的模型进行插件替换。

在训练和部署期间，资源消耗分析。FPS是在单个RTX3090上通过tensorrt以fp16精度测试的。

“Train. Dur.”是训练持续时间的缩写。
“Enc.”、“Occ.”和“Feat”分别代表编码器、占用预测和特征。
“GPU·H”表示“1个GPU × 1小时”。

模型预测效果，如下图所示，展示了其精确捕捉复杂形状的能力。

特别是在对行人的体素描述上，比如突出在胸部的体素可以表示行人手持的移动设备，或行李箱部分。

分享完成~

【占用网络】FlashOcc：快速、易部署的占用预测模型

前言 FlashOcc是一个它只需2D卷积就能实现“占用预测模型”，具有快速、节约内存、易部署的特点。它首先采用2D卷积提取图形信息，生成BEV特征。然后通过通道到高度变换，将BEV特征提升到3D空间特征。对于常规的占用预测模型，将…...

编程日记 2024/1/15 5:50:01

239.【2023年华为OD机试真题（C卷）】求幸存者之和（模拟跳数-JavaPythonC++JS实现）

🚀点击这里可直接跳转到本专栏，可查阅顶置最新的华为OD机试宝典~ 本专栏所有题目均包含优质解题思路，高质量解题代码(Java&Python&C++&JS分别实现)，详细代码讲解，助你深入学习，深度掌握！文章目录一. 题目-求幸存数之和二.解题思路三.题解代码Python题解…...

编程日记 2024/1/15 5:49:00

Pytorch中的标准维度顺序

在PyTorch中，如果一个张量包括通道数（C）、宽度（W）、高度（H）和批量大小（N），那么它的标准维度顺序是 [N, C, H, W]，即： 第一个维度 N 是…...

编程日记 2024/1/15 5:47:59

Nginx的安装配置和使用

最近有好几个地方用到了nginx，但是一直还没时间记录下nginx的安装、配置和使用，这篇文章可以将这块内容整理出来，方便大家一起学习~ 安装安装是相对简单一些的，直接使用yum即可。 yum install -y nginx 默认安装位置在/usr/sb…...

编程日记 2024/1/15 5:45:57

P1643 完美数题解

完美数首先，介绍一下这篇题解的特邀嘉宾：ChatGPT4.0 传送门题目描述考古队员小星在一次考察中意外跌入深渊，穿越到了一个神秘的荒漠。这里有许多超越他认识的事物存在，例如许多漂浮在空中的建筑，例如各种奇怪的…...

编程日记 2024/1/15 5:44:56

docker一键安装

1.把docker_compose_install文件夹放在任意路径； 2.chmod -R 777 install.sh 3.执行./install.sh 兼容：CentOS7.6、麒麟V10服务器版、统信UOS等操作系统。下载地址（本人上传，免积分下载）：https://downlo…...

编程日记 2024/1/15 5:43:55

模板管理支持批量操作，DataEase开源数据可视化分析平台v2.2.0发布

2024年1月8日，DataEase开源数据可视化分析平台正式发布v2.2.0版本。这一版本的功能升级包括：在“模板管理”页面中，用户可以通过模板管理的批量操作功能，对已有模板进行快速重新分类、删除等维护操作；数据大屏中&…...

编程日记 2024/1/15 5:42:54

阿里云实时计算企业级状态存储引擎 Gemini 技术解读

本文整理自阿里云 Flink 存储引擎团队李晋忠，兰兆千，梅源关于阿里云实时计算企业级状态存储引擎 Gemini 的研究，内容主要分为以下五部分： 流计算状态访问的痛点企业级状态存储引擎GeminiGemini 性能评测&线上表现结语参考一、…...

编程日记 2024/1/15 5:40:52

web缓存之nginx缓存

一、nginx缓存知识网络缓存位于客户端和 "源服务器 "之间，保存着所有可见内容的副本。当客户端请求缓存中存储的内容时，它可以直接从缓存中检索内容，而无需与服务器通信。这样，网络缓存就 "接近 "了客户端&a…...

编程日记 2024/1/15 5:39:52

【用法总结】无障碍AccessibilityService

一、背景本文仅用于做学习总结，转换成自己的理解，方便需要时快速查阅，深入研究可以去官网了解更多：官网链接点这里之前对接AI语音功能时，发现有些按钮（或文本）在我没有主动注册唤醒词场景…...

编程日记 2024/1/15 5:38:51

AI绘画风格化实战

在社交软件和短视频平台上，我们时常能看到各种特色鲜明的视觉效果，比如卡通化的图片和中国风的视频剪辑。这些有趣的风格化效果其实都是图像风格化技术的应用成果。风格化效果举例 MidLibrary 这个网站提供了不同的图像风格，每一种都带有鲜…...

编程日记 2024/1/15 5:37:50

一、二进制方式安装部署K8S

目录一、操作系统初始化 1、关闭防火墙 2、关闭 SELinu 3、关闭 swap 4、添加hosts 5、同步系统时间二、集群搭建 —— 使用外部Etcd集群 1、自签证书 2、自签 Etcd SSL 证书 ① 创建 CA 配置文件：ca-config.json ② 创建 CA 证书签名请求文件&#xff…...

编程日记 2024/1/15 5:29:43

【simple-admin】FMS模块如何快速接入阿里云oss 腾讯云cos 服务实现快速上传文件功能落地

让我们一起支持群主维护simple-admin 社群吧！！！不能加入星球的朋友记得来点个Star！！ https://github.com/suyuan32/simple-admin-core 一、前提准备 1、goctls版本 goctls官方git：https://github.com/suyuan32/goctls 确保 goctls是最新版本 v1.6.19 goctls -v goct…...

编程日记 2024/1/15 5:27:41

数据结构.线性表（2）

一、模板例子： a: b: 二、基本操作的实现 （1）初始化 （2）销毁和清空 （3）求长度和判断是否为空 （4）取值 （5）查找 （6）插入 &…...

编程日记 2024/1/15 5:25:39

【计算机网络】TCP原理 | 可靠性机制分析（三）

个人主页：兜里有颗棉花糖欢迎点赞👍 收藏✨ 留言✉ 加关注💓本文由兜里有颗棉花糖原创收录于专栏【网络编程】【Java系列】本专栏旨在分享学习网络编程、计算机网络的一点学习心得，欢迎大家在评论区交流讨论💌 目…...

编程日记 2024/1/15 5:24:38

【昕宝爸爸小模块】线程的几种状态，状态之间怎样流转

➡️博客首页 https://blog.csdn.net/Java_Yangxiaoyuan 欢迎优秀的你👍点赞、🗂️收藏、加❤️关注哦。本文章CSDN首发，欢迎转载，要注明出处哦！ 先感谢优秀的你能认真的看完本文&…...

编程日记 2024/1/15 5:23:37

ChatGPT网站小蜜蜂AI更新了

ChatGPT网站小蜜蜂AI更新了前阶段郭震兄弟刚开发小蜜蜂AI网站的的时候，写了一篇关于ChatGPT的网站小蜜蜂AI的博文[https://blog.csdn.net/weixin_41905135/article/details/135297581?spm1001.2014.3001.5501]。今天听说小蜜蜂网站又增加了新的功能——在线生成思…...

编程日记 2024/1/15 5:22:36

瑞_Java开发手册_（二）异常日志

文章目录异常日志的意义(一) 错误码(二) 异常处理(三) 日志规约附：错误码列表 🙊前言：本文章为瑞_系列专栏之《Java开发手册》的异常日志篇，本篇章主要介绍异常日志的错误码、异常处理、日志规约。由于博主是从阿里的《Java开发手…...

编程日记 2024/1/15 5:19:34

Elasticsearch：Search tutorial - 使用 Python 进行搜索（四）

在本节中，你将了解另一种机器学习搜索方法，该方法利用 Elastic Learned Sparse EncodeR 模型或 ELSER，这是一种由 Elastic 训练来执行语义搜索的自然语言处理模型。这是继之前的文章 “Elasticsearch：Search tutorial - 使用 Pyth…...

编程日记 2024/1/15 5:18:32

信息时代个人知识管理：从碎片化信息到结构化洞察的实践指南

1. 信息海洋中的航行：从碎片到洞察我们正漂浮在一片前所未有的信息海洋里。每天，无数的邮件、通知、文章、帖子像潮水般涌来，我们则像一个个拾贝者，快乐地捡拾着那些零碎的趣闻和知识的金块。这种感觉很奇妙，不是吗&am…...

编程新知 2026/5/14 1:00:47

工作10年才明白，这些被忽略的编程基础，才是升职加薪的关键

文章目录前言一、代码规范：不是“处女座洁癖”，是AI时代的“保命符”二、函数式编程：你以为“写SpringBoot用不上”，其实AI Agent全靠它三、命令行与系统模块：别让“IDE一键运行”，毁了你的生产效率四、经典…...

编程新知 2026/5/14 0:55:33

从 N+1 到 joinedload：理解 SQLAlchemy 关系加载的核心机制

从 N1 到 joinedload：理解 SQLAlchemy 关系加载的核心机制文章摘要本文围绕 SQLAlchemy 一对多关系加载展开，重点解释 relationship、lazy loading、selectinload、joinedload、N1 问题以及 joinedload 加载集合关系时为什么需要unique()。前言&#xf…...

编程新知 2026/5/13 23:16:39

为你的Nodejs后端服务快速集成大模型能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度为你的Nodejs后端服务快速集成大模型能力当你的Node.js应用需要添加智能对话或内容生成功能时，直接对接各大模型厂商的…...

编程新知 2026/5/13 23:02:22

苹果将在培训应用中采用AI生成主播，解决传统培训规模化与个性化难题

苹果培训应用引入AI生成主播据9to5mac报道，Aaron Perris在X平台披露，苹果公司将很快在其内部培训应用“Apple Sales Coach”中采用AI生成主播，用于制作销售培训视频。该应用由苹果此前的“SEED”应用更新而来，旨在向全球苹果销售合…...

编程新知 2026/5/13 21:55:22

基于SendBird SDK的iOS即时通讯应用架构与最佳实践详解

1. 项目概述：一个iOS即时通讯的“样板间”如果你正在为你的iOS应用寻找一个功能完整、架构清晰的即时通讯（IM）功能实现参考，那么sendbird/sendbird-chat-sample-ios这个GitHub仓库绝对值得你花上半天时间好好研究。它不是一个简单…...

编程新知 2026/5/13 21:20:42

OmenSuperHub终极指南：5分钟掌握惠普游戏本风扇控制与性能解锁

OmenSuperHub终极指南：5分钟掌握惠普游戏本风扇控制与性能解锁【免费下载链接】OmenSuperHub 使用 WMI BIOS控制性能和风扇速度，自动解除DB功耗限制。项目地址: https://gitcode.com/gh_mirrors/om/OmenSuperHub OmenSuperHub是一款专为惠普OME…...

编程新知 2026/5/13 20:56:01

意义如何保持活性：一项基于岐金兰哲学体系的系统性阐释

意义如何保持活性：一项基于岐金兰哲学体系的系统性阐释导论：一座理论大厦的蓝图本文旨在对岐金兰哲学体系进行系统性阐释。这一体系围绕一个核心问题展开：意义如何在系统中保持活性，而非走向僵死？这一追问看似抽象&…...

编程新知 2026/5/13 20:51:45

使用Helm Chart在Kubernetes部署高可用authentik身份认证中心

1. 项目概述：为什么我们需要一个身份认证的“中央厨房”？在云原生和微服务架构大行其道的今天，一个典型的应用系统可能由几十甚至上百个独立的服务组成。每个服务都需要处理用户登录、权限验证、单点登录（SSO）这些基础…...

编程新知 2026/5/13 19:22:55

如何在3分钟内安装TrollStore？TrollInstallerX终极指南

如何在3分钟内安装TrollStore？TrollInstallerX终极指南【免费下载链接】TrollInstallerX A TrollStore installer for iOS 14.0 - 16.6.1 项目地址: https://gitcode.com/gh_mirrors/tr/TrollInstallerX 你是否曾想过在不越狱的情况下自由安装iOS应用&#…...

编程新知 2026/5/13 18:58:35

【占用网络】FlashOcc：快速、易部署的占用预测模型

前言

一、模型框架

二、细节信息

三、设计背景

四、实验测试与效果

相关文章：

【占用网络】FlashOcc：快速、易部署的占用预测模型

239.【2023年华为OD机试真题（C卷）】求幸存者之和（模拟跳数-JavaPythonC++JS实现）

Pytorch中的标准维度顺序

Nginx的安装配置和使用

P1643 完美数题解

docker一键安装

模板管理支持批量操作，DataEase开源数据可视化分析平台v2.2.0发布

阿里云实时计算企业级状态存储引擎 Gemini 技术解读

web缓存之nginx缓存

【用法总结】无障碍AccessibilityService

AI绘画风格化实战

008定点小数、奇偶校验码

一、二进制方式安装部署K8S

【simple-admin】FMS模块如何快速接入阿里云oss 腾讯云cos 服务实现快速上传文件功能落地

数据结构.线性表（2）

【计算机网络】TCP原理 | 可靠性机制分析（三）

【昕宝爸爸小模块】线程的几种状态，状态之间怎样流转

ChatGPT网站小蜜蜂AI更新了

瑞_Java开发手册_（二）异常日志

Elasticsearch：Search tutorial - 使用 Python 进行搜索（四）

信息时代个人知识管理：从碎片化信息到结构化洞察的实践指南

工作10年才明白，这些被忽略的编程基础，才是升职加薪的关键

从 N+1 到 joinedload：理解 SQLAlchemy 关系加载的核心机制

为你的Nodejs后端服务快速集成大模型能力

苹果将在培训应用中采用AI生成主播，解决传统培训规模化与个性化难题

基于SendBird SDK的iOS即时通讯应用架构与最佳实践详解

OmenSuperHub终极指南：5分钟掌握惠普游戏本风扇控制与性能解锁

意义如何保持活性：一项基于岐金兰哲学体系的系统性阐释

使用Helm Chart在Kubernetes部署高可用authentik身份认证中心

如何在3分钟内安装TrollStore？TrollInstallerX终极指南