【3D目标检测】DSVT-2023CVPR
论文:https://arxiv.org/pdf/2301.06051.pdf
作者:北大,华为
代码:https://github.com/Haiyang-W/DSVT ( OpenPCDet 框架已集成)
讲解:实时部署!DSVT:3D动态稀疏体素Transformer主干(北大&华为) - 知乎
-
论文提出了动态稀疏窗口注意力,这是一种新的基于窗口的注意力策略,用于并行有效地处理稀疏三维体素;
-
论文提出了一种可学习的3D池化操作,它可以有效地对稀疏体素进行下采样,并更好地编码几何信息;
-
基于上述关键设计,论文介绍了一种高效但易于部署的Transformer 3D主干,无需任何定制CUDA操作。

-
稀疏窗口划分成subsets,每个subsets体素数量相同,以进行并行计算。这些子集的分区配置将根据x轴和y轴之间的旋转分区轴在连续的自关注层中进行更改。
-
Hybrid window partition:窗口内部特征融合,编码多尺度信息
-
3D sparse pooling operation:首先将稀疏下采样区域转换为密集下采样区域,并进行关注式3D池化操作,自动聚合局部空间特征。
网络结构
-
VFE模块:将input point clouds 划分成稀疏 voxel,每个voxel 视作token。考虑到感受野的限制,只采用单步下采样网络,该方法不会降低X/ y轴特征图的比例。
-
动态稀疏窗口attention:保证了每个window中的subsets内非空voxel数量相同。旋转集和混合窗口:并行计算,在保持高效计算的同时,引入窗内和窗间特征传播。
-
参数:x,y,z坐标,voxel 坐标,voxel id(根据x或y坐标排序可得到voxel ID)
-
非空、不重叠、相同数量的子集:首先计算每个window内的sub-sets的数量。windows设定12*12*1,windows内的非空voxel数量N。设定每个subsets内非空voxel 数量r(代码中为36个),计算每个windows内的subsets数量S,保证每个subsets中的voxels数量是一致的。

-
根据voxel id 将所有的voxel 划分到subsets 中。windows的数量由spares_shape得出,在每个windows内的subsets中完全并行计算attention。
a. 旋转集合注意力
由于在固定的windows内计算attention缺乏子集间的连接,使用旋转集合注意力方法,在连续的注意力层之间交替使用两种分区配置。DSVT块包含两个自注意力层。第一层采用X轴分区,其中体素ID根据其在X轴主序中的坐标排序。接下来的一层采用旋转分区配置,按Y轴主序排序。

非空体素越多,就会分配更多的子集和计算资源来处理该窗口,这是动态稀疏窗口注意力设计的关键。增加window 会减少sets数量降低计算量,但是对小目标效果不好。因此采用混合窗口分割来提供良好的性能-效率权衡。
b.混合窗口
参考swin-transformer的窗口移位技术来重新分割稀疏窗口,但它们的窗口大小是不同的。
-
基于注意力的3D池化:应用在DSVT中downsample_stride的下采样中。
-
然后将我们提出的DSVT提取的体素特征投影到鸟瞰(BEV)特征图中
-
Centerhead 预测头:
在补充材料中,首先阐述了§A中非重叠集划分的证明,然后提供了§B中网络架构、训练方案和消融基线的更多实现细节。最后,对§C中的超参数分析和§D中定量结果的可视化进行了进一步的研究。还讨论了§E中轴-注意的区别和§F中DSVT的局限性。
相关文章:
【3D目标检测】DSVT-2023CVPR
论文:https://arxiv.org/pdf/2301.06051.pdf 作者:北大,华为 代码:https://github.com/Haiyang-W/DSVT ( OpenPCDet 框架已集成) 讲解:实时部署!DSVT:3D动态稀疏体素Tr…...
我在VScode学Python(Python函数,Python模块导入)
我的个人博客主页:如果’真能转义1️⃣说1️⃣的博客主页 (1)关于Python基本语法学习---->可以参考我的这篇博客《我在VScode学Python》 (2)pip是必须的在我们学习python这门语言的过程中Python ---->&a…...
【目标跟踪】1、基础知识
文章目录 一、卡尔曼滤波二、匈牙利匹配 一、卡尔曼滤波 什么是卡尔曼滤波?——状态估计器 卡尔曼滤波用于在包含不确定信息的系统中做出预测,对系统下一步要做什么进行推测,且会结合推测值和观测值来得到修正后的最优值卡尔曼滤波就是利用…...
33. 搜索旋转排序数组
题目描述 整数数组 nums 按升序排列,数组中的值 互不相同 。 在传递给函数之前,nums 在预先未知的某个下标 k(0 < k < nums.length)上进行了 旋转,使数组变为 [nums[k], nums[k1], ..., nums[n-1], nums[0], n…...
接口自动化测试要做什么?8个步骤讲的明明白白(小白也能看懂系列)
先了解下接口测试流程: 1、需求分析 2、Api文档分析与评审 3、测试计划编写 4、用例设计与评审 5、环境搭建(工具) 6、执行用例 7、缺陷管理 8、测试报告 那"接口自动化测试"怎么弄?只需要在上篇文章的基础上再梳理下就…...
Flutter 自定义 虚线 分割线
学习使用Flutter 进行 虚线 自定义控件 练习 // 自定义虚线 (默认是垂直方向) class DashedLind extends StatelessWidget {final Axis axis; // 虚线方向final double dashedWidth; // 根据虚线的方向确定自己虚线的宽度final double dashedHeight; //…...
Java毕业设计—爱宠医院管理系统设计与实现
爱宠医院管理系统 获取数论文、代码、答辩PPT、安装包,可以查看文章底部 一、 如何安装及配置环境 要运行整个爱宠医院管理系统需要安装数据库:MySQL 5.5,开发工具:JDK 1.8,开发语开发平台:Eclipse&…...
AI时代带来的图片造假危机,该如何解决
一、前言 当今,图片造假问题非常泛滥,已经成为现代社会中一个严峻的问题。随着AI技术不断的发展,人们可以轻松地通过图像编辑和AI智能生成来篡改和伪造图片,使其看起来真实而难以辨别,之前就看到过一对硕士夫妻为了骗…...
【动态规划】简单多状态
文章目录 动态规划(简单多状态)1. 按摩师2. 打家劫舍 ||3. 删除并获得点数4. 粉刷房子5. 最佳买卖股票时机含冷冻期6. 买卖股票的最佳时机含手续费7. 买卖股票的最佳时机 |||8. 买卖股票的最佳时机 IV 动态规划(简单多状态) 1. 按…...
科技资讯|苹果计划本月推出Vision Pro头显开发套件,电池有重大更新
根据消息源 aaronp613 分享的信息,苹果计划本月底面向开发者,发布 Vision Pro 头显开发套件。消息源还指出苹果更新了 Vision Pro 头显电池组的代号,共有 A2781,A2988 和 A2697 三种不同的型号,目前尚不清楚三者之间的…...
k8s 将pod节点上的文件拷贝到本地
要将 Kubernetes(k8s)中 Pod 节点上的文件拷贝到本地,可以通过使用 kubectl cp 命令来实现。kubectl cp 命令允许你在本地系统和 Pod 之间复制文件和目录。 下面是使用 kubectl cp 命令的语法: kubectl cp <namespace>/&l…...
Git简介与工作原理:了解Git的基本概念、版本控制系统和分布式版本控制的工作原理
🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~ἳ…...
java篇 类的进阶0x02:方法重载
文章目录 方法重载 overload方法签名返回值不属于方法签名的原因: 重载的参数匹配规则 方法重载 overload 多个方法功能很相似,但不完全一样,可以考虑使用方法的重载。 同一个类中,方法可以重名,但是签名不可以重复。…...
Android11 相机拍照权限,以及解决resolveActivity返回null
一、配置拍照和读写权限 <uses-permission android:name"android.permission.CAMERA"/> <uses-feature android:name"android.hardware.camera" /><uses-permission android:name"android.permission.WRITE_EXTERNAL_STORAGE"/&…...
MAXENT模型的生物多样性教程
详情点击链接:基于MAXENT模型的生物多样性生境模拟与保护优先区甄选、自然保护区布局优化及未来气候变化下评估中的应用及论文写作 一:生物多样性保护格局与自然保护区格局优化 1.我国生物多样性格局与分布; 2.我国自然保护区格局与分布&…...
CISA学习笔记-第一章、信息系统审计过程
传统的审计三方关系理论指明,审计作为独立于会计记录之外的一项重要职能,是公司财务信息公允可靠的有力保障,制约着会计行为,制衡了会计权力。 1. IS审计和保障标准、指南、工具 职业道德规范 信息技术保证框架(ITAF&a…...
回调函数的使用:案例一:c语言简单信号与槽机制。
系列文章目录 文章目录 系列文章目录前言一、回调函数1.1 回调函数基本概念1.2 简单实现 二、代码案例1.代码示例 总结 前言 了解回调函数的基本概念,函数指针的使用、简单信号与槽的实现机制; 一、回调函数 1.1 回调函数基本概念 回调函数就是一个通…...
python matplotlib库 设置字体字号等
主要是记录字体、字号对应的参数。注意字符串类型的参数要加引号 1.字体: fontname 常见参数: # 常用 Times New Roman、Dejavu sans、TeX Gyre Schola中文字体 黑体:SimHei 微软雅黑:Microsoft YaHei 微软正黑体:M…...
【MySQL】SQL性能分析 (七)
🚗MySQL学习第七站~ 🚩本文已收录至专栏:MySQL通关路 ❤️文末附全文思维导图,感谢各位点赞收藏支持~ 假如我们需要对SQL进行优化,我们就必须对他足够的了解,比如 对哪一类SQL进行优化(增删改查…...
超越想象的GPT医疗 20230723
7月份读完了这本书,趁着周末写下读书笔记吧 这本书 作者:【美】彼得.李 Peter Lee 【美】凯丽.戈德伯格CareyGoldberg 著 【美】伊萨克.科恩Isaac Kohane 芦义 译 在AI风起云涌时代,在这刚刚过去的新冠三年,“超越想象的GPT医…...
Python金融数据工程:构建高可靠股票数据管道的3种架构方案
Python金融数据工程:构建高可靠股票数据管道的3种架构方案 【免费下载链接】mootdx 通达信数据读取的一个简便使用封装 项目地址: https://gitcode.com/GitHub_Trending/mo/mootdx 在量化投资和金融数据分析领域,获取稳定、实时的股票数据是每个技…...
Vortex模组管理器:从架构到实战的全方位技术指南
Vortex模组管理器:从架构到实战的全方位技术指南 【免费下载链接】Vortex Vortex: Nexus-Mods开发的游戏模组管理器,用于简化模组的安装和管理过程。 项目地址: https://gitcode.com/gh_mirrors/vor/Vortex 一、Vortex核心架构解析 模组管理的&q…...
从CVE-2023-3450看锐捷RG-BCR860路由器:一次网络诊断功能引发的命令注入实战剖析
1. 漏洞背景与设备介绍 锐捷RG-BCR860是面向中小型商业场景设计的云路由器,主打简单易用的中文Web管理界面。这款设备常见于连锁餐饮、快捷酒店等需要稳定网络环境的场所,最大支持150台终端同时接入。作为一款商用设备,它内置了安全审计模块和…...
清华团队发布机器人版“GPT时刻”:UniDex让机械手看懂世界,零样本操控万物!
80%成功率,碾压式超越现有方案,灵巧手操控迎来“GPT”时刻这篇论文用一种极其优雅且强大的方式,解决了机器人领域一个长期存在的根本性难题:如何让形态各异、复杂无比的灵巧手,像人类一样,看一眼就能学会使…...
5分钟精通网页内容转化:AnythingLLM浏览器扩展全攻略
5分钟精通网页内容转化:AnythingLLM浏览器扩展全攻略 【免费下载链接】anything-llm 这是一个全栈应用程序,可以将任何文档、资源(如网址链接、音频、视频)或内容片段转换为上下文,以便任何大语言模型(LLM&…...
FxSound高级功能开发:插件系统与第三方集成技术深度解析
FxSound高级功能开发:插件系统与第三方集成技术深度解析 【免费下载链接】fxsound-app FxSound application and DSP source code 项目地址: https://gitcode.com/gh_mirrors/fx/fxsound-app FxSound是一款专业的数字音频处理软件,其强大的插件系…...
Llama-3.2V-11B-cot企业级落地:保险定损图片自动归因与责任链推理
Llama-3.2V-11B-cot企业级落地:保险定损图片自动归因与责任链推理 想象一下,你是一名保险公司的定损员。每天,你的邮箱里塞满了上百张事故现场照片——撞瘪的车头、破碎的挡风玻璃、划痕累累的车门。你需要从这些照片里,像侦探一…...
Kook Zimage 真实幻想 Turbo 与ChatGPT结合:智能图像生成方案
Kook Zimage 真实幻想 Turbo 与ChatGPT结合:智能图像生成方案 1. 引言 你有没有遇到过这样的情况:脑子里有一个很棒的创意画面,但就是不知道该怎么用文字描述出来?或者写了一大段描述词,生成的图片却总是不尽如人意&…...
别再手动调顺序了!用Vue3+Element Plus+Sortable.js给你的表格加个拖拽编辑弹窗(附完整代码)
Vue3Element PlusSortable.js打造高交互表格编辑弹窗实战 后台管理系统开发中,表格数据的顺序调整和字段管理一直是高频痛点。传统方案往往需要反复点击"上移/下移"按钮或填写表单参数,操作繁琐且体验割裂。本文将带你实现一个弹窗内一站式拖…...
标签噪声鲁棒训练:从理论到实践,构建深度学习模型的抗噪防线
1. 标签噪声:深度学习中的隐形杀手 第一次用MNIST数据集跑分类模型时,我发现哪怕故意把20%的标签打乱,模型在测试集上依然能达到85%以上的准确率。这个结果让我误以为深度神经网络对标签噪声天然具有免疫力——直到后来在医疗影像分类项目里…...
