当前位置：首页 > news >正文

目标检测之3维合成

news 2026/2/10 7:54:39

现在有一系列的图片，图片之间可以按照z轴方向进行排列。图片经过了目标检测，输出了一系列的检测框，现在的需求是将检测框按类别进行合成，以在3维上生成检测结果。

思路：将图片按照z轴方向排列，以z轴索引作为检测框的z值。等同于输入为（x, y, w, h, z, class_id），可以计算得到每个检测框的中心点来标定这个框（x_center, y_center, z, class_id）。

然后可以通过聚类算法在4维空间上进行聚类，最后取出聚类出的每一类的点的xyz的最大值与最小值和class_id来生成聚类结果[x_min, y_min, z_min, x_max, y_max, z_max, class_id]。

代码展示：

from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import numpy as npclass BBoxClusterv3:def __init__(self, bbox_list):self.bbox_list = bbox_listself.clustering = None# self.color_map = plt.cm.get_cmap('hsv', len(set([bbox[5] for bbox in bbox_list])))def cluster(self, eps=100, min_samples=2):X = [[bbox[0]+bbox[2]/2, bbox[1]+bbox[3]/2, bbox[4], bbox[5]] for bbox in self.bbox_list]  # 中心点的x，y，z坐标和类别ID# breakpoint()self.clustering = DBSCAN(eps=eps, min_samples=min_samples).fit(X)def get_new_bbox_list(self):# self.cluster()labels = self.clustering.labels_print("聚类出的类别：",labels)new_bbox_list = []for label in set(labels):if label != -1:  # Ignore noiseidxs = np.where(labels == label)[0]print("每一类的bboxes索引: ",idxs)bboxes = np.array(self.bbox_list)[idxs]print("每一类的bboxes集合: ",bboxes)x_min = np.min(bboxes[:, 0])y_min = np.min(bboxes[:, 1])x_max = np.max(bboxes[:, 0] + bboxes[:, 2])y_max = np.max(bboxes[:, 1] + bboxes[:, 3])z_min = np.min(bboxes[:, 4])z_max = np.max(bboxes[:, 4])class_id = bboxes[0, 5]new_bbox_list.append([x_min, y_min, z_min, x_max, y_max, z_max, class_id])return new_bbox_listdef draw_bbox_2d(self, bbox, ax):x_min, y_min, w, h, z, class_id = bboxcolor = self.color_map(class_id)# print(color)for xi in [x_min, x_min+w]:for yi in [y_min, y_min+h]:ax.plot([xi, xi], [yi, yi], [z, z], color=color, linestyle='dashed')for xi in [x_min, x_min+w]:ax.plot([xi, xi], [y_min, y_min+h], [z, z], color=color, linestyle='dashed')for yi in [y_min, y_min+h]:ax.plot([x_min, x_min+w], [yi, yi], [z, z], color=color, linestyle='dashed')def draw_bbox_3d(self, bbox, ax):x_min, y_min, z_min, x_max, y_max, z_max, class_id = bboxcolor = self.color_map(class_id)for xi in [x_min, x_max]:for yi in [y_min, y_max]:ax.plot([xi, xi], [yi, yi], [z_min, z_max], color=color)for xi in [x_min, x_max]:for zi in [z_min, z_max]:ax.plot([xi, xi], [y_min, y_max], [zi, zi], color=color)for yi in [y_min, y_max]:for zi in [z_min, z_max]:ax.plot([x_min, x_max], [yi, yi], [zi, zi], color=color)def visualize(self, bbox_list=None, new_bbox_list=None):fig = plt.figure()ax = fig.add_subplot(111, projection='3d')for bbox in bbox_list:self.draw_bbox_2d(bbox, ax)for bbox in new_bbox_list:self.draw_bbox_3d(bbox, ax)plt.show()def draw(self):new_bbox_list = self.get_new_bbox_list()print(bbox_list,new_bbox_list)self.visualize(bbox_list, new_bbox_list)def color_map(self, class_id):# 假设这里使用映射字典将类别 ID 映射到不同的颜色color_mapping = {0: 'red', 1: 'blue', 2: 'green'}return color_mapping.get(class_id, 'black')  # 默认为黑色if __name__ == "__main__":bbox_list = [#-------------------------##[x, y, w, h, z, class_id]##-------------------------#[100, 200, 50, 50, 0, 0],[110, 210, 50, 50, 1, 0],[120, 220, 50, 50, 2, 0],[130, 230, 50, 50, 3, 0],[140, 240, 50, 50, 4, 0],[200, 300, 60, 60, 0, 1],[210, 310, 60, 60, 1, 1],[220, 320, 60, 60, 2, 1],[300, 400, 70, 70, 6, 0],[310, 410, 70, 70, 7, 0],[320, 420, 70, 70, 8, 0],[400, 500, 80, 80, 9, 1],[410, 510, 80, 80, 10, 1],[420, 520, 80, 80, 11, 2]]bbox_cluster = BBoxClusterv3(bbox_list)bbox_cluster.cluster()bbox_cluster.draw()

假如有以下几类框

最终聚类效果：

目标检测之3维合成

现在有一系列的图片，图片之间可以按照z轴方向进行排列。图片经过了目标检测，输出了一系列的检测框，现在的需求是将检测框按类别进行合成，以在3维上生成检测结果。思路：将图片按照z轴方向排列，以z轴索引作…...

编程日记 2023/7/29 10:49:44

【playbook】Ansible的脚本----playbook剧本

Ansible的脚本----playbook剧本 1.playbook剧本组成2.playbook剧本实战演练2.1 实战演练一：给被管理主机安装Apache服务2.2 实战演练二：使用sudo命令将远程主机的普通用户提权为root用户2.3 实战演练三：when条件判断指定的IP地址2.4 实战演练…...

编程日记 2023/7/29 10:48:43

方法一： from pyspark.mllib.tree import GradientBoostedTrees import inspectsource_code inspect.getsource(GradientBoostedTrees) print(source_code) 方法二： GradientBoostedTrees — PySpark 3.4.1 documentation (apache.org) 在官网中&…...

编程日记 2023/7/29 10:47:42

HCIP——OSPF的防环机制

OSPF的防环机制一、域间防环二、域内防环有向图转化1、有向图的画法2、示例： 三、SPF算法 OSPF将整个OSPF域划分为多个区域，区域内部通过拓扑信息计算路由，区域间传递路由信息，实现全网可达。OSPF防环机制主要是体现在域内防环和…...

编程日记 2023/7/29 10:46:40

安全基础 --- 正则表达式

正则表达式是表达文本模式的方法正则表达式（Regular Expression），简称为正则或Regex，是一个用来描述、匹配和操作字符串的工具。 （1）限定字符限定字符多用于重复匹配次数常用限定字符： 语…...

编程日记 2023/7/29 10:45:39

【vue】vue面试高频问题之-$nextTick的作用和使用场景

nextTick的作用和使用场景 vue中的nextTick主要用于处理数据动态变化后，DOM还未及时更新的问题，用nextTick就可以获取数据更新后最新DOM的变化 api文档 Vue.nextTick( [callback, context] ) 参数： {Function} [callback]{Object} [context]…...

编程日记 2023/7/29 10:44:38

MySQL学习笔记之SQL语句执行过程查看

文章目录参数使能查看最近一条SQL执行过程查看profiling打开开后，所有SQL语句执行耗时查看某一条SQL的执行过程指定要查看的性能选项查看所有性能选项参数使能以select语句为例，首先打开profile参数： mysql> set profiling 1; Query…...

编程日记 2023/7/29 10:43:36

如何以毫秒精度，查看系统时间以及文件的创建时间

用 cmd 查看系统的时间： powershell -command "(Get-Date -UFormat %Y-%m-%d %H:%M:%S).toString() . ((Get-Date).millisecond)" 用 XYplorer 查看文件的精确创建时间（含30天试用）： XYplorer - File Manager for …...

编程日记 2023/7/29 10:42:35

基于机器学习的情绪识别算法matlab仿真,对比SVM,LDA以及决策树

目录 1.算法理论概述 2.部分核心程序 3.算法运行软件版本 4.算法运行效果图预览 5.算法完整程序工程 1.算法理论概述情绪识别是一种重要的情感分析任务，旨在从文本、语音或图像等数据中识别出人的情绪状态，如高兴、悲伤、愤怒等。本文介绍一种基于…...

编程日记 2023/7/29 10:41:33

jMeter使用随记

参数化BodyData 先制作参数文件再设置一个csv data set config 最后在body data里面写上参数${xxxxx}...

编程日记 2023/7/29 10:40:33

[语义分割] DeepLab v3（Cascaded model、ASPP model、两种ASPP对比、Multi-grid、训练细节）

Rethinking Atrous Convolution for Semantic Image Segmentation 论文地址：Rethinking Atrous Convolution for Semantic Image SegmentationPytorch 实现代码：pytorch_segmentation/deeplab_v3 这是一篇 2017 年发表在CVPR上的文章。相比 DeepLab V2 有…...

编程日记 2023/7/29 10:39:32

css - Media Query

使用bootstrap的grid system可以在一个较为粗糙的范围得到较好的响应性，但是通过viewport可以看到网站在具体哪个像素点处变得丑陋，再通过css media query来精细调整网页布局。可以通过media query来提高网页移动响应能力。...

编程日记 2023/7/29 10:38:30

9.python设计模式【外观模式】

内容：为子系统中的一组接口提供一个一致的界面，外观模式定义了一个高层接口，这个接口使得这一个子系统更加容易使用。角色： 外观（facade）子类系统（subsystem classes） UML图举…...

编程日记 2023/7/29 10:37:29

Webpack5 CopyPlugin的作用

在Webpack 5中，CopyPlugin是一个插件，用于将文件或目录从源位置复制到构建目录中。它的作用是帮助开发人员在构建过程中将静态文件（如图片、字体等）直接复制到输出目录，而无需经过任何处理。 CopyPlugin并不是必须的&…...

编程日记 2023/7/29 10:36:28

kafka服务端允许生产者发送最大消息体大小

1、kafka config服务端配置文件server.properties server.properties中加上的message.max.bytes配置，我目前设置为5242880，即5MB，可以根据实际情况增大。 message.max.bytes5242880 在生产者端配置max.request.size，这是单个消息…...

编程日记 2023/7/29 10:35:26

台阶型Nim游戏博弈论

台阶型Nim游戏题目 https://www.acwing.com/problem/content/894/ 现在，有一个 n n n 级台阶的楼梯，每级台阶上都有若干个石子，其中第 i i i 级台阶上有 a i a_i ai 个石子( i ≥ 1 i \ge 1 i≥1)。两位玩家轮流操作，每…...

编程日记 2023/7/29 10:34:23

NestJS 的中间件学习

基本概念中间件是在路由处理程序之前调用的函数。中间件函数可以访问请求和响应对象。在程序中我们可以让多个中间件串起来一起使用，当多个中间件一起使用时我们可以使用next()调用下一个中间件。中间件主要是可以实现如下功能： 执行任何代码更改请…...

编程日记 2023/7/29 10:33:22

搭建自己第一个golang程序

概念： golang 和 java有些类似，配置好环境就可以直接编写运行了；这里分两种： 一.shell模式创建一个go类型的文件往里面编写代码二.开发工具模式这里的开发工具我选用goland package mainimport "fmt"func mai…...

编程日记 2023/7/29 10:32:20

Mysql加锁过程

1、背景 MySQL/InnoDB的加锁分析，一直是一个比较困难的话题。我在工作过程中，经常会有同事咨询这方面的问题。同时，微博上也经常会收到MySQL锁相关的私信，让我帮助解决一些死锁的问题。本文，准备就MySQL/InnoDB的加锁问…...

编程日记 2023/7/29 10:31:19

财经界杂志财经界杂志社财经界编辑部2023年第19期目录

《财经界》投稿邮箱：cnqikantg126.com(注明投稿“《财经界》”) ●崔编辑Q Q ：695548262 微信号：f99832970 名刊名著_国内外名刊名著财经名刊名著李少鹏 ;王海蕴; 6-7 发改委专线六方面发力看中国经济形势，既要看准当…...

编程日记 2023/7/29 10:30:18

R语言AI模型部署方案：精准离线运行详解

R语言AI模型部署方案：精准离线运行详解一、项目概述本文将构建一个完整的R语言AI部署解决方案，实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点： 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

编程新知 2025/12/6 1:56:35

【入坑系列】TiDB 强制索引在不同库下不生效问题

文章目录背景SQL 优化情况线上SQL运行情况分析怀疑1：执行计划绑定问题？尝试：SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景项目中使用 TiDB 数据库，并对 SQL 进行优化了，添加了强制索引。 UAT 环境已经生效，但 PROD 环境强制索…...

编程新知 2026/1/31 21:56:58

Java如何权衡是使用无序的数组还是有序的数组

在 Java 中，选择有序数组还是无序数组取决于具体场景的性能需求与操作特点。以下是关键权衡因素及决策指南： ⚖️ 核心权衡维度维度有序数组无序数组查询性能二分查找 O(log n) ✅线性扫描 O(n) ❌插入/删除需移位维护顺序 O(n) ❌直接操作尾部 O(1) ✅内存开销与无序数组相…...

编程新知 2025/8/3 11:17:37

376. Wiggle Subsequence

376. Wiggle Subsequence 代码 class Solution { public:int wiggleMaxLength(vector<int>& nums) {int n nums.size();int res 1;int prediff 0;int curdiff 0;for(int i 0;i < n-1;i){curdiff nums[i1] - nums[i];if( (prediff > 0 && curdif…...

编程新知 2026/2/8 10:51:38

ffmpeg（四）：滤镜命令

FFmpeg 的滤镜命令是用于音视频处理中的强大工具，可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下： ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜： ffmpeg…...

编程新知 2026/2/4 23:47:47

2025 后端自学UNIAPP【项目实战：旅游项目】6、我的收藏页面

代码框架视图 1、先添加一个获取收藏景点的列表请求【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口（适配服务端返回 Token） export const login async (code, avatar) > {const res await http…...

编程新知 2026/1/29 11:40:13

重启Eureka集群中的节点，对已经注册的服务有什么影响

先看答案，如果正确地操作，重启Eureka集群中的节点，对已经注册的服务影响非常小，甚至可以做到无感知。但如果操作不当，可能会引发短暂的服务发现问题。下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...

编程新知 2025/9/24 3:38:34

【生成模型】视频生成论文调研

工作清单上游应用方向：控制、速度、时长、高动态、多主体驱动类型工作基础模型WAN / WAN-VACE / HunyuanVideo控制条件轨迹控制ATI~镜头控制ReCamMaster~多主体驱动Phantom~音频驱动Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation速…...

编程新知 2025/9/9 8:40:47

【从零学习JVM|第三篇】类的生命周期(高频面试题)

前言： 在Java编程中，类的生命周期是指类从被加载到内存中开始，到被卸载出内存为止的整个过程。了解类的生命周期对于理解Java程序的运行机制以及性能优化非常重要。本文会深入探寻类的生命周期，让读者对此有深刻印象。目录 …...

编程新知 2026/1/26 8:42:13

如何更改默认 Crontab 编辑器？

在 Linux 领域中，crontab 是您可能经常遇到的一个术语。这个实用程序在类 unix 操作系统上可用，用于调度在预定义时间和间隔自动执行的任务。这对管理员和高级用户非常有益，允许他们自动执行各种系统任务。编辑 Crontab 文件通常使用文本编…...

编程新知 2026/1/30 3:27:35

目标检测之3维合成

相关文章：

目标检测之3维合成

【playbook】Ansible的脚本----playbook剧本

PySpark基本操作：如何查看源码

HCIP——OSPF的防环机制

安全基础 --- 正则表达式

【vue】vue面试高频问题之-$nextTick的作用和使用场景

MySQL学习笔记之SQL语句执行过程查看

如何以毫秒精度，查看系统时间以及文件的创建时间

基于机器学习的情绪识别算法matlab仿真,对比SVM,LDA以及决策树

jMeter使用随记

[语义分割] DeepLab v3（Cascaded model、ASPP model、两种ASPP对比、Multi-grid、训练细节）

css - Media Query

9.python设计模式【外观模式】

Webpack5 CopyPlugin的作用

kafka服务端允许生产者发送最大消息体大小

台阶型Nim游戏博弈论

NestJS 的中间件学习

搭建自己第一个golang程序

Mysql加锁过程

财经界杂志财经界杂志社财经界编辑部2023年第19期目录

R语言AI模型部署方案：精准离线运行详解

【入坑系列】TiDB 强制索引在不同库下不生效问题

Java如何权衡是使用无序的数组还是有序的数组

376. Wiggle Subsequence

ffmpeg（四）：滤镜命令

2025 后端自学UNIAPP【项目实战：旅游项目】6、我的收藏页面

重启Eureka集群中的节点，对已经注册的服务有什么影响

【生成模型】视频生成论文调研

【从零学习JVM|第三篇】类的生命周期(高频面试题)

如何更改默认 Crontab 编辑器？