当前位置: 首页 > news >正文

论文阅读《BEVFormer》

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

目录

  • 摘要
  • 1 介绍
  • 2 相关工作
    • 2.1 基于Transformer的2D感知

摘要

3D视觉感知任务对于自动驾驶系统至关重要,包括基于多相机图像的3D检测和地图分割。在这项工作中,我们提出了一个名为BEVFormer的新框架,它使用时空变换器学习统一的BEV表示,以支持多种自动驾驶感知任务。简而言之,BEVFormer通过预定义的网格状的BEV查询来进行时空交互,以此来利用时空信息。为了聚合空间信息,我们设计了空间交叉注意力,每个 BEV查询从跨相机视图的感兴趣区域中提取空间特征。对于时间信息,我们提出时间自我注意力来循环融合历史BEV信息。我们的方法在 nuScenes 测试集上的NDS指标方面达到了新的最佳水平56.9%,比之前的最佳技术高出9.0分,与基于LiDAR的基线的性能相当。我们进一步表明,BEVFormer显著提高了低能见度条件下速度估计的准确率和目标的召回。代码可以在https://github.com/zhiqi-li/BEVFormer上找到。

1 介绍

3D空间中的感知对于自动驾驶、机器人等各种应用至关重要。尽管基于LiDAR的方法取得了显著进展,但基于相机的方法近年来引起了广泛关注。除了部署成本低之外,与激光雷达相比,相机还具有检测远距离物体和识别基于视觉的道路元素(例如交通灯、停止线)的理想优势。

在这里插入图片描述
图1 我们提出了BEVFormer,这是一种自动驾驶范例,它应用Transformer和Temporal结构从多相机输入中生成鸟瞰图(BEV)特征。BEV-Former利用查询来查找时空,并聚合其信息,从而有利于感知任务的更强的表征。

自动驾驶中对周围场景的视觉感知有望根据多个相机给出的二维线索预测三维边界框或语义图。最直接的解决方案是基于单目框架和多相机后处理。该框架的缺点是,它分别处理不同的视图,无法跨相机捕获信息,导致性能和效率较低。

作为单目框架的替代,更统一的框架是从多相机图像中提取整体表示。鸟瞰图(BEV)是周围场景的常用表示形式,因为它可以清晰地呈现物体的位置和比例,适用于各种自动驾驶任务,例如感知和规划。尽管先前的地图分割方法证明了BEV的有效性,但基于BEV的方法在3D物体检测方面并未表现出比其他范式更显著的优势。根本原因是3D物体检测任务需要强大的BEV特征来支持准确的3D边界框预测,但从2D平面生成BEV是不适当的。一种流行的生成BEV特征的 BEV框架基于深度信息,但该范式对深度值或深度分布的准确性很敏感。因此,基于BEV的方法的检测性能容易受到复合误差的影响,不准确的BEV特征会严重损害最终性能。因此,我们的目标是设计一种不依赖深度信息并且可以自适应地学习BEV特征而不是严格依赖3D先验的BEV生成方法。Transformer使用注意力机制来动态聚合有价值的特征,从概念上满足了你的需求。

使用BEV特征执行感知任务的另一个动机是BEV是连接时间和空间的理想桥梁。对于人类的视觉感知系统来说,时间信息在推断物体的运动状态、识别被遮挡的物体等方面起着至关重要的作用,视觉领域的许多研究已经证明了利用视频数据的有效性。然而,现有的最先进的多相机3D检测方法很少利用时序信息。重大挑战在于自动驾驶对时间至关重要并且场景中的物体变化很快,因此简单地堆叠跨时间戳的BEV特征会带来额外的计算成本和干扰信息,这可能并不理想。受到循环神经网络(RNN)的启发,我们利用BEV特征来循环传递从过去到现在的时间信息,这与RNN模型的隐藏状态具有相同的精神。

为此,我们提出了一种基于Transformer的鸟瞰图(BEV)编码器,称为BEVFormer,它可以有效地聚合来自多视角相机的时空特征和历史BEV特征。BEVFormer生成的BEV特征可以同时支持多个3D感知任务,例如3D物体检测和地图分割,这对于自动驾驶系统非常有价值。如图1所示,我们的BEVFormer包含三个关键设计。其一,网格状BEV查询通过注意力机制灵活地融合空间和时间特征。其二,空间交叉注意模块,用于聚合来自多相机图像的空间特征。其三,时间自注意力模块从历史BEV特征中提取时间信息,这有利于运动物体的速度估计和严重遮挡物体的检测,同时带来可忽略不计的计算开销。借助BEVFormer生成的统一特征,该模型可以与不同任务特定头(如可变形DETR和掩模解码器)协作,实现端到端3D目标检测和地图分割。我们的主要贡献如下:

  • 我们提出了BEVFormer,这是一种时空变换器编码器,可将多相机和/或时间戳输入投射到BEV表示中。通过统一的BEV特征,我们的模型可以同时支持多项自动驾驶感知任务,包括3D检测和地图分割。
  • 我们设计了可学习的BEV查询以及空间交叉注意层和时间自注意层,分别从跨相机中查找空间特征和从历史BEV中查找时间特征,然后将它们聚合为统一的BEV特征。
  • 我们在多个具有挑战性的基准上对所提出的BEVFormer进行了评估,包括nuScenes和Waymo。与现有技术相比,我们的BEVFormer性能持续提升。例如,在可比较的参数和计算开销下,BEVFormer在nuScenes测试集上实现了56.9%的NDS,比之前的最佳检测方法DETR3D高出9.0分(56.9%对47.9%)。对于地图分割任务,我们也实现了最先进的性能,在最具挑战性的车道分割上比Lift-Splat高出5.0分以上。我们希望这个简单而强大的框架可以作为后续3D感知任务的新基础。

2 相关工作

2.1 基于Transformer的2D感知

最近,一种新的趋势是使用transformer来重新制定检测和分割任务。

相关文章:

论文阅读《BEVFormer》

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers 目录 摘要1 介绍2 相关工作2.1 基于Transformer的2D感知 摘要 3D视觉感知任务对于自动驾驶系统至关重要,包括基于多相机图像的3D检测和地图分割。…...

sql专题 之 sql的执行顺序

文章目录 sql的执行顺序sql语句的格式实际的执行顺序:虚拟表 vs 数据集虚拟表 结果集总结嵌套查询在sql查询中的执行顺序 前文我们了解了sql常用的语句,这次我们对于这些语句来个小思索 戳这里→ sql专题 之 常用命令 sql的执行顺序 SQL语句的执行顺序是…...

Vue3 -- 基于Vue3+TS+Vite项目【项目搭建及初始化】

兼容性注意: Vite 需要 Node.js 版本 18+ 或 20+。然而,有些模板需要依赖更高的 Node 版本才能正常运行,当你的包管理器发出警告时,请注意升级你的 Node 版本。【摘抄自vite官网】 这里我用的node版本是 v18.20.2 创建项目: 创建项目我们可以使用npm、yarn、pnpm、bun …...

CTF-RE: TEA系列解密脚本

// // Created by A5rZ on 2024/10/26. //#ifndef WORK_TEA_H #define WORK_TEA_H#endif //WORK_TEA_H#include <cstdint> #include <cstdio>// 定义TEA加密算法的轮次&#xff0c;一般建议为32轮 #define TEA_ROUNDS 32 #define DELTA 0x9e3779b9// TEA加密函数 v…...

信号量和线程池

1.信号量 POSIX信号量&#xff0c;用与同步操作&#xff0c;达到无冲突的访问共享资源目的&#xff0c;POSIX信号量可以用于线程间同步 初始化信号量 #include <semaphore.h> int sem_init(sem_t *sem, int pshared, unsigned int value); sem&#xff1a;指向sem_t类…...

【人工智能】10分钟解读-深入浅出大语言模型(LLM)——从ChatGPT到未来AI的演进

文章目录 一、前言二、GPT模型的发展历程2.1 自然语言处理的局限2.2 机器学习的崛起2.3 深度学习的兴起2.3.1 神经网络的训练2.3.2 神经网络面临的挑战 2.4 Transformer的革命性突破2.4.1 Transformer的核心组成2.4.2 Transformer的优势 2.5 GPT模型的诞生与发展2.5.1 GPT的核心…...

「QT」几何数据类 之 QPointF 浮点型点类

✨博客主页何曾参静谧的博客&#x1f4cc;文章专栏「QT」QT5程序设计&#x1f4da;全部专栏「VS」Visual Studio「C/C」C/C程序设计「UG/NX」BlockUI集合「Win」Windows程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「PK」Parasolid…...

可能是全网第一个MySQL Workbench插件编写技巧

引言 应公司要求&#xff0c;数据库的敏感数据在写入到数据库中要进行加密&#xff0c;但是在测试环境查询数据的时候要手动解密&#xff0c;很不方便&#xff0c;有的时候数据比较多&#xff0c;解密比较麻烦。遂研究了一下如何通过 MySQL Workbench 的插件来实现查询数据一键…...

D62【python 接口自动化学习】- python基础之数据库

day62 SQL 基础 学习日期&#xff1a;20241108 学习目标&#xff1a;MySQL数据库-- 131 SQL基础和DDL 学习笔记&#xff1a; SQL的概述 SQL语言的分类 SQL的语法特征 DDL - 库管理 DDL - 表管理 总结 SQL是结构化查询语言&#xff0c;用于操作数据库&#xff0c;通用于绝大…...

探索美赛:从准备到挑战的详细指南

前言 美国大学生数学建模竞赛&#xff08;MCM/ICM&#xff09;&#xff0c;简称“美赛”&#xff0c;是全球规模最大的数学建模竞赛之一。它鼓励参赛者通过数学建模来解决现实世界中的复杂问题&#xff0c;广受世界各地大学生的欢迎。本文将详细介绍美赛的全过程&#xff0c;从…...

IP地址查询——IP归属地离线库

自从网络监管部门将现实IP地址列入监管条例&#xff0c;IP地址的离线库变成网络企业发展业务的不可或缺的一部分&#xff0c;那么IP地址离线库是什么&#xff0c;又能够给我们带来什么呢&#xff1f; 什么是IP地址离线库&#xff1f; IP地址离线库是IP地址服务商将通过各种合…...

“倒时差”用英语怎么说?生活英语口语学习柯桥外语培训

“倒时差”用英语怎么说&#xff1f; “倒时差”&#xff0c;这个让无数旅人闻之色变的词汇&#xff0c;在英语中对应的正是“Jet Lag”。"Jet" 指的是喷气式飞机&#xff0c;而 "lag" 指的是落后或延迟。这个短语形象地描述了当人们乘坐喷气式飞机快速穿…...

Linux入门攻坚——37、Linux防火墙-iptables-3

私网地址访问公网地址的问题&#xff0c;请求时&#xff0c;目标地址是公网地址&#xff0c;可以在公网路由器中进行路由&#xff0c;但是响应报文的目的地址是私网地址&#xff0c;此时在公网路由器上就会出现问题。公网地址访问私网地址的问题&#xff0c;需要先访问一个公网…...

微服务架构面试内容整理-安全性-Spring Security

Spring Security 是 Spring 框架中用于实现认证和授权的安全模块,它提供了全面的安全解决方案,可以帮助开发者保护 Web 应用、微服务和 API 免受常见的安全攻击。以下是 Spring Security 的主要特点、工作原理和使用场景: 主要特点 1. 身份认证与授权: 提供多种认证方式,…...

新的服务器Centos7.6 安装基础的环境配置(新服务器可直接粘贴使用配置)

常见的基础服务器配置之Centos命令 正常来说都是安装一个docker基本上很多问题都可以解决了&#xff0c;我基本上都是通过docker去管理一些容器如&#xff1a;mysql、redis、mongoDB等之类的镜像&#xff0c;还有一些中间件如kafka。下面就安装一个 docker 和 nginx 的相关配置…...

深度学习:广播机制

广播机制&#xff08;Broadcasting&#xff09;是 PyTorch&#xff08;以及其他深度学习框架如 NumPy&#xff09;中的一种强大功能&#xff0c;它允许不同形状的张量进行逐元素操作&#xff0c;而不需要显式地扩展张量的维度。广播机制通过自动扩展较小的张量来匹配较大张量的…...

音视频入门基础:FLV专题(25)——通过FFprobe显示FLV文件每个packet的信息

音视频入门基础&#xff1a;FLV专题系列文章&#xff1a; 音视频入门基础&#xff1a;FLV专题&#xff08;1&#xff09;——FLV官方文档下载 音视频入门基础&#xff1a;FLV专题&#xff08;2&#xff09;——使用FFmpeg命令生成flv文件 音视频入门基础&#xff1a;FLV专题…...

Openstack7--安装消息队列服务RabbitMQ

只需要在控制节点安装 安装RabbitMQ yum -y install rabbitmq-server 启动RabbitMQ并设置开机自启 systemctl start rabbitmq-server;systemctl enable rabbitmq-server 创建 rabbitmq 用户 并设置密码为 000000 rabbitmqctl add_user rabbitmq 000000 如果你不慎创错了…...

day55 图论章节刷题Part07([53.寻宝]prim算法、kruskal算法)

前言&#xff1a;使用最小生成树的方法解决将所有节点连接起来所需的最小路径问题。 prim算法 Prim算法是一种贪心算法&#xff0c;从任意一个顶点开始构建最小生成树。每次选择当前已加入生成树的顶点中&#xff0c;距离最近的尚未加入生成树的顶点&#xff0c;直到所有顶点…...

LeetCode 93-复制 IP地址

题目链接&#xff1a;LeetCode93 欢迎留言交流&#xff0c;每天都会回消息。 class Solution {//定义结果集&#xff0c;返回最终结果List<String> rs new ArrayList<>();public List<String> restoreIpAddresses(String s) {//将字符串包装为可变长度的字…...

构建AI模型实时反馈回路:从概念漂移到持续进化

1. 项目概述&#xff1a;当AI模型不再“一锤定音”&#xff0c;而是持续呼吸、自我校准你有没有遇到过这样的情况&#xff1a;一个花了三个月调优的推荐模型&#xff0c;上线首周点击率提升12%&#xff0c;第二周开始缓慢下滑&#xff0c;到第四周几乎回到基线水平&#xff1f;…...

150块淘来的Nvidia Grid K2,如何在ESXi 6.7上稳定分配vGPU?我的翻车与修复实录

150元Nvidia Grid K2显卡的ESXi 6.7虚拟化实战&#xff1a;从硬件检测到vGPU稳定分配全指南 在虚拟化环境中部署专业显卡一直是技术爱好者和小型实验室的热门话题。当预算有限时&#xff0c;二手市场上的老款专业显卡如Nvidia Grid K2就成为了极具吸引力的选择。这款发布于2013…...

硬件性能突破:免费AMD处理器调试工具SMUDebugTool终极指南

硬件性能突破&#xff1a;免费AMD处理器调试工具SMUDebugTool终极指南 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https:…...

openpilot终极指南:如何在300+车型上快速部署开源自动驾驶系统

openpilot终极指南&#xff1a;如何在300车型上快速部署开源自动驾驶系统 【免费下载链接】openpilot openpilot is an operating system for robotics. Currently, it upgrades the driver assistance system on 300 supported cars. 项目地址: https://gitcode.com/GitHub_…...

ElevenLabs青少年语音TTS效果对比测试:12款竞品横评,仅2家通过COPPA 3.0儿童语音伦理认证

更多请点击&#xff1a; https://kaifayun.com 第一章&#xff1a;ElevenLabs青少年语音TTS的技术定位与伦理边界 ElevenLabs推出的青少年语音合成&#xff08;Teen Voice TTS&#xff09;并非简单的声音风格扩展&#xff0c;而是基于多说话人自监督表征学习与音色解耦建模的高…...

LangChain Memory 完全指南:InMemorySaver、SQLite、Redis Stack 实战与避坑

LangChain Memory 完全指南&#xff1a;从内存到 Redis&#xff0c;让你的 AI 真正"记住"对话 &#x1f4cb; 文章概览 解决什么问题&#xff1a; AI 对话没记忆&#xff1f;每次重启服务就失忆&#xff1f; 为什么值得读&#xff1a; 从踩坑到源码&#xff0c;3 种方…...

LimboAI:Godot 4原生行为树+黑板+状态机AI框架实战指南

1. 这不是又一个“AI插件”&#xff0c;而是Godot 4里真正能跑通行为树黑板状态机闭环的AI开发框架我第一次在Godot 4.2项目里把LimboAI的BTTaskMoveTo节点拖进行为树编辑器、连上BlackboardKey、再绑定到一个带NavigationAgent3D的NPC身上&#xff0c;按下F5运行——那个角色真…...

python的pyd本质:就是Windows平台下的DLL动态链接库

一、 拆解&#xff1a;Python 库的真实生态与 .pyd / .so 的底层逻辑1. Python 真的有百万个第三方 PIP 库吗&#xff1f;不准确。 截至2026年&#xff0c;PyPI&#xff08;Python Package Index&#xff09;官方注册的开源项目总量大约在 50万到60万个 之间。虽然达不到“百万…...

戴森球计划工厂蓝图库:3000+专业设计解决太空建造难题

戴森球计划工厂蓝图库&#xff1a;3000专业设计解决太空建造难题 【免费下载链接】FactoryBluePrints 游戏戴森球计划的**工厂**蓝图仓库 项目地址: https://gitcode.com/GitHub_Trending/fa/FactoryBluePrints FactoryBluePrints是戴森球计划游戏中规模最大的工厂蓝图开…...

catlass - 让算子开发像搭积木一样简单

昇腾CANN的算子开发&#xff0c;以前是个"体力活"——每个算子都要手写 C 代码&#xff0c;调内存、调流水、调同步&#xff0c;写对了算你厉害&#xff0c;写错了调试三天。 catlass 要解决的就是这个问题&#xff1a;把算子开发从"手写汇编"变成"搭…...