当前位置：首页 > news >正文

单目3D目标检测[基于深度辅助篇]

news 2025/7/12 8:12:11

基于深度辅助的方法

1. Pseudo-LiDAR

Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving
康奈尔大学
https://zhuanlan.zhihu.com/p/52803631
首先利用DRON或PSMNET从单目 (Monocular)或双目 (Stereo)图像获取对应的深度图像(depth map)，然后将原图像结合深度信息得到伪雷达点云 (pseudo-LiDAR)，最后用pseudo-LiDAR代替原始雷达点云，以3D point cloud和bird’s eye view的形式
图像对physically incoheren不友好；深度图对不同尺寸物体检测不友好：所以用伪点云
pseudo-Lidar > FV+depth map
- 1.Image-based 3D Perception方案较差的性能：主要是由于front view这种2D图形表示，而不是之前一直纠结的不准确的depth map
- 2.雷达的优势：在三维点云中(或BEV), 卷积和池化操作的区域都是physical nearby, 不同位置的不同物体并不会混为一谈；其次，物体的尺度具备深度不变性，保持了三维空间中最原始的尺度。
未来工作：融合LiDAR 和 pseudo-LiDAR可能更好
- 雷达点云虽然精确并有反射强度信息，但是非常稀疏
- pseudo-LiDAR虽然不是特别精确，但是比雷达点云要密集的多，且具备RGB颜色信息
  - 比传统融合Lidar和RGB（MV3D, AVOD）更好

2. PatchNet

Rethinking Pseudo-LiDAR Representation
商汤 ECCV2020
https://github.com/xinzhuma/patchnet.git
https://arxiv.org/pdf/2008.04582.pdf
https://blog.csdn.net/qq_16137569/article/details/123769737
PatchNet-vanilla
- Step1：深度估计给定一张单目图像或双目图像对，使用独立的模型预测每个像素( u , v ) (u,v)(u,v)对应的深度值d dd。
- Step2：2D检测使用另一个CNN生成2D目标的区域提议。
- Step3：3D数据生成根据Step2生成的区域提议将感兴趣区域从Step1生成的深度图中抠下来，然后利用相机内参将深度值转化为3D世界坐标( x , y , z ) (x,y,z)(x,y,z)。
- Step4：3D目标检测将Step3生成的伪点云视为激光信号，并使用PointNet预测结果。PointNet将点云视为无序点集，并通过一个集合函数f ff将点集映射到输出向量
PatchNet-vanilla
- 前三步和pseudo-LiDAR完全一样，第四步会有所差别。PatchNet-vanilla将M个3D点重构成N×N×3的图像块，作为PatchNet-vanilla的输入，然后可以使用一个1 × 1 1\times 11×1接收域的2D卷积层以及一个全局最大池化来实现
PatchNet-vanilla获得了和pseudo-LiDAR几乎一样的性能，这也证明了伪点云的数据表征形式不是必要的。
PatchNet-vanilla和PatchNet-AM3D，可以看到两种方法在替换数据表征方式后的性能都基本持平。说明数据表征不是影响3D检测性能的关键因素。
PatchNet：
- 首先训练两个CNN分别用于预测2D框和深度图，对于每个检测到的2D目标框，从深度图中抠出对应的区域，利用相机内参将深度值转换成3D空间坐标（得到Fig.3中的cropped patches）。紧接着用一个主干CNN提取这些ROI的深层特征，然后使用mask global pooling分离出前景目标特征，最后通过一个检测头来进行回归目标的3D框(x ,y ,z ,h ,w ,l ,θ )
- mask global pooling是论文提出了一种增强版global pooling方式，利用一个二值掩模（通过卡阈值的方式从深度图中获得）只对前景目标的特征进行global pooling操作，以获得更加鲁棒的特征。

3. MonoRCNN

4. D4LCN

5. CaDDN

6. DD3D

在这里插入图片描述

DD3D
a. 对于DD3D，以DLA-34作为backbone，按照论文中提出的实验流程训练(coco pretrain->DDAD15M pretrain->3D detection)，在KITTI-3D验证集上测试得到的Car-BEV-AP分别是33.5(Easy)，26.0(Mod)，22.6(Hard)
PL
a. DDAD15M pretrain->KITTI-Depth finetune->pseudo-lidar based 3D detection)

7. DD3Dv2

在这里插入图片描述

单目3D目标检测[基于深度辅助篇]

基于深度辅助的方法 1. Pseudo-LiDAR Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving康奈尔大学https://zhuanlan.zhihu.com/p/52803631 首先利用DRON或PSMNET从单目 (Monocular)或双目 (Stereo)图像获取对应的…...

编程日记 2023/10/26 14:23:08

Ubuntu20.04下安装MySQL8环境

Ubuntu20.04下安装MySQL8环境 1.下载MySQL客户端和服务器2.配置MySQL3.测试MySQL4.设置MySQL服务开机自启动5.修改root密码MySQL数据库基本使用启动MySQL数据库服务重启MySQL数据库服务停止MySQL数据库服务查看MySQL运行状态设置MySQL服务开机自启动停止MySQL服务开机自启动MyS…...

编程日记 2023/10/26 14:22:07

html鼠标悬停图片放大

要在HTML中实现鼠标悬停时图片放大的效果，你可以使用CSS和JavaScript来完成。下面是一个简单的示例： 首先，创建一个HTML文档，包含一张图片和相应的CSS和JavaScript代码。 <!DOCTYPE html> <html lang"en">…...

编程日记 2023/10/26 14:21:06

基于hugging face的autogptq量化实践

1.量化并保存到本地的 #导入库： from transformers import AutoModelForCausalLM, AutoTokenizer, GPTQConfig model_id "facebook/opt-125m"quantization_config GPTQConfig(bits4,group_size128,dataset"c4",desc_actFalse, )tokenizer A…...

编程日记 2023/10/26 14:20:06

MySQL2：MySQL中一条查询SQL是如何执行的？

MySQL2：MySQL中一条查询SQL是如何执行的？ MySQL中一条查询SQL是如何执行的？1.连接怎么查看MySQL当前有多少个连接？思考：为什么连接数是查看线程？客户端的连接和服务端的线程有什么关系？MySQL参数…...

编程日记 2023/10/26 14:19:05

C++入门01—从hello word！开始

1.第一个C程序 1.1 创建项目第一次使用Visual Studio时： 1.2 创建文件 1.3 编写代码编写第一个代码： #include<iostream> using namespace std; int main() {cout << "hello word!" << endl;system("pause"…...

编程日记 2023/10/26 14:18:03

Mingw下载---运行vscodeC++文件

下载下载网址： https://sourceforge.net/projects/mingw-w64/files/mingw-w64/mingw-w64-release/ 翻到最下面，选择win64的安装： 下载完，解压到没有空格和中文字符的路径。不然在vscode中运行不了C代码。...

编程日记 2023/10/26 14:17:02

数据安全与PostgreSQL：最佳保护策略

在当今数字化时代，数据安全成为了企业不可或缺的一环。特别是对于使用数据库管理系统（DBMS）的组织来说，确保数据的完整性、保密性和可用性至关重要。在众多DBMS中，PostgreSQL作为一个强大而灵活的开源数据库系统&#…...

编程日记 2023/10/26 14:14:59

火山引擎实时、低延时拥塞控制算法的优化实践

摘要火山引擎智能拥塞控制算法 VICC（Volcano Intelligent Congestion Control）是一种自适应的拥塞控制算法，旨在解决全球不同网络环境下，不同音视频应用对带宽利用率和延时的差异化要求。它结合了传统拥塞控制算法（如…...

编程日记 2023/10/26 14:13:58

adb设备调试常用命令

自从工作越来越忙后，越来越懒得写文章了，趁着1024程序员节，仪式性地写篇文章，分享一下最近调试设备经常用到的adb指令~ 1.查看应用内存占用 1.1 dumpsys meminfo package dumpsys是查看系统服务信息的一个常用指令，可…...

编程日记 2023/10/26 14:12:57

ubuntu下Docker的简单使用并利用主机显示

首先分享一个docker镜像的网站：https://hub.docker.com/search?q 这个网站里面有很多配置好的镜像，可以直接拉取。下面介绍一下docker的安装和使用。 1、docker得到安装： sudo apt-get install docker 2、docker拉取一个镜像到本地,这里我…...

编程日记 2023/10/26 14:11:56

第12章 PyTorch图像分割代码框架-1

从本章开始，本书将会进行深度学习图像分割的实战阶段。PyTorch作为目前最为流行的一款深度学习计算框架，在计算机视觉和图像分割任务中已经广泛使用。本章将介绍基于PyTorch的深度学习图像分割代码框架，在总体框架的基础上，基于PA…...

编程日记 2023/10/26 14:10:55

2023CSPJ 旅游巴士 —— dijkstra

This way 题意： 给你一个有向图，1号点为起点，n为终点。你可以在k的倍数的时间点在起点开始，每条边的边长为1，同时，每条边有一个限定时间ai，表示你必须在大于等于ai的时间点才能走这条边。 …...

编程日记 2023/10/26 14:09:53

数据结构之栈的讲解（源代码+图解+习题）

我们在学习过顺序表和链表之后，了解了使用数组存储数据，使用结构体来存储数据和有关的指针，这些都是底层的东西，链表是靠指针的链接，顺序表是靠数组的下标才能得以实现增删查改。众多数据结构其实底层都离不开数组&…...

编程日记 2023/10/26 14:07:50

内网渗透-内网信息收集

内网信息收集前言当我们进行外网信息收集，漏洞探测以及漏洞利用后，获得了主机的权限后，我们需要扩大渗透的战果时，这是我们就要进行内网的渗透了，内网渗透最重要的还是前期的信息收集的操作了，就是我们的…...

编程日记 2023/10/26 14:06:49

LeetCode解法汇总2520. 统计能整除数字的位数

目录链接： 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目： https://github.com/September26/java-algorithms 原题链接：力扣（LeetCode）官网 - 全球极客挚爱的技术成长平台描述： 给你一个整…...

编程日记 2023/10/26 14:05:48

Lua语言编写爬虫程序

以下是一个使用luasocket-http库和Lua语言编写的爬虫程序。此程序使用了https://www.duoip.cn/get_proxy的代码。 -- 引入所需的库 local http require("socket.http") local ltn12 require("ltn12") local json require("json") -- 获取…...

编程日记 2023/10/26 14:04:46

安防监控项目---概要

文章目录前言一、项目需求二、环境介绍三、关键点四、主框架分析总结前言各位小伙伴，在蛰伏了将近有半年的时间又要和大家分享新的知识了，这次和大家分享的是一个项目，因此呢我准备分项目阶段去和大家分享，希望大家都能够在每…...

编程日记 2023/10/26 14:03:43

数仓经典面试题

1.什么是数据仓库？请谈谈你对数据仓库的理解。数据仓库是一个用于存储和管理数据的系统，它可以将分散的、异构的数据源中的数据进行抽取、转换、清洗和整合，然后按照一定的模型和架构进行组织和存储，以便更好地支持决策分析和业…...

编程日记 2023/10/26 14:02:43

【ARM Coresight 系列文章 15.2 – components power domain 详细介绍】

文章目录 1.1. Coresight 电源域模型1.1.1 CDBGPWRUPREQ 和 CDBGPWRUPACK1.1.2 CSYSPWRUPREQ 和 CSYSPWRUPACK1.1.3 Power Domain ID In RomTable1.1.4 Power domain entries1.1.5 Algorithm to discover power domain IDs1.1.6 Debug power requests1.1.7 System power reques…...

编程日记 2023/10/26 14:01:41

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…...

编程新知 2025/7/12 5:29:51

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

说明： 想象一下，你正在用eNSP搭建一个虚拟的网络世界，里面有虚拟的路由器、交换机、电脑（PC）等等。这些设备都在你的电脑里面“运行”，它们之间可以互相通信，就像一个封闭的小王国。但是&#…...

编程新知 2025/7/11 11:33:11

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

今天呢，博主的学习进度也是步入了Java Mybatis 框架，目前正在逐步杨帆旗航。那么接下来就给大家出一期有关 Mybatis 逆向工程的教学，希望能对大家有所帮助，也特别欢迎大家指点不足之处，小生很乐意接受正确的建议&…...

编程新知 2025/7/12 7:58:57

vue3 定时器-定义全局方法 vue+ts

1.创建ts文件路径：src/utils/timer.ts 完整代码： import { onUnmounted } from vuetype TimerCallback (...args: any[]) > voidexport function useGlobalTimer() {const timers: Map<number, NodeJS.Timeout> new Map()// 创建定时器con…...

编程新知 2025/7/5 18:26:46

相机Camera日志分析之三十一：高通Camx HAL十种流程基础分析关键字汇总（后续持续更新中）

【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了：有对最普通的场景进行各个日志注释讲解，但相机场景太多，日志差异也巨大。后面将展示各种场景下的日志。通过notepad++打开场景下的日志，通过下列分类关键字搜索，即可清晰的分析不同场景的相机运行流程差异…...

编程新知 2025/6/15 13:22:13

ArcGIS Pro制作水平横向图例+多级标注

今天介绍下载ArcGIS Pro中如何设置水平横向图例。之前我们介绍了ArcGIS的横向图例制作：ArcGIS横向、多列图例、顺序重排、符号居中、批量更改图例符号等等（ArcGIS出图图例8大技巧），那这次我们看看ArcGIS Pro如何更加快捷的操作。…...

编程新知 2025/7/11 19:32:43

【数据分析】R版IntelliGenes用于生物标志物发现的可解释机器学习

禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者! 文章目录介绍流程步骤1. 输入数据2. 特征选择3. 模型训练4. I-Genes 评分计算5. 输出结果 IntelliGenesR 安装包1. 特征选择2. 模型训练和评估3. I-Genes 评分计…...

编程新知 2025/7/10 15:08:17

Angular微前端架构：Module Federation + ngx-build-plus (Webpack)

以下是一个完整的 Angular 微前端示例，其中使用的是 Module Federation 和 npx-build-plus 实现了主应用（Shell）与子应用（Remote）的集成。 🛠️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...

编程新知 2025/6/15 10:41:11

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。主要功能：服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

编程新知 2025/7/8 10:41:04

Bean 作用域有哪些？如何答出技术深度？

导语： Spring 面试绕不开 Bean 的作用域问题，这是面试官考察候选人对 Spring 框架理解深度的常见方式。本文将围绕“Spring 中的 Bean 作用域”展开，结合典型面试题及实战场景，帮你厘清重点，打破模板式回答&#xff0c…...

编程新知 2025/7/9 17:59:19