当前位置：首页 > news >正文

035、目标检测-物体和数据集

news 2026/2/8 21:25:22

之——物体检测和数据集

杂谈

正文

1.目标检测

2.目标检测数据集

3.目标检测和边界框

4.目标检测数据集示例

杂谈

目标检测是计算机视觉中应用最为广泛的，之前所研究的图片分类等都需要基于目标检测完成。

        在图像分类任务中，我们假设图像中只有一个主要物体对象，我们只关注如何识别其类别。然而，很多时候图像里有多个我们感兴趣的目标，我们不仅想知道它们的类别，还想得到它们在图像中的具体位置。在计算机视觉里，我们将这类任务称为目标检测（object detection）或目标识别（object recognition）。

        以下是一些主流的目标检测算法。请注意，领域中的进展可能导致新的算法和方法的出现，因此建议查阅最新的文献和研究以获取最新信息。

Faster R-CNN (Region-based Convolutional Neural Network): Faster R-CNN是一种经典的目标检测框架，它引入了区域提议网络（Region Proposal Network，RPN）来生成候选区域，然后使用分类器和回归器来完成目标检测。

YOLO (You Only Look Once): YOLO是一种实时目标检测算法，通过将图像划分为网格并在每个网格上预测边界框和类别，实现了高效的目标检测。YOLO的多个版本，如YOLOv2、YOLOv3、YOLOv4，都在改进性能和精度方面进行了优化。

SSD (Single Shot Multibox Detector): SSD是一种单阶段的目标检测算法，它直接在图像中预测多个边界框和类别，具有高效性能和较好的准确度。

Mask R-CNN: Mask R-CNN是在Faster R-CNN的基础上扩展而来，不仅可以进行目标检测，还可以生成目标的精确分割掩码。这使得它在实例分割任务中表现优异。

RetinaNet: RetinaNet引入了一种名为Focal Loss的损失函数，用于解决目标检测中类别不平衡的问题。这个框架在同时保持高召回率的情况下提高了检测框的精度。

EfficientDet: EfficientDet是一种基于EfficientNet的轻量级目标检测算法，通过优化模型结构和参数，实现了高效的目标检测性能。

CenterNet: CenterNet通过预测目标的中心点，然后通过回归得到目标的边界框，具有简单而强大的设计，适用于多种场景。

Cascade R-CNN: Cascade R-CNN通过级联使用多个检测器，每个检测器都在前一个阶段的基础上进行细化，从而提高了检测性能。

        这些算法都在不同的任务和场景中取得了良好的效果，选择最适合特定应用的算法通常取决于实际需求、计算资源和准确度要求。请注意，领域中的研究和发展一直在进行，因此可能有新的算法和技术已经问世。

正文

1.目标检测

图片分类和目标检测：

无人车的实时目标识别应用：

边缘框：

在目标检测中，我们通常使用边界框（bounding box）来描述对象的空间位置。边界框是矩形的，由矩形左上角的以及右角的x和y坐标决定。另一种常用的边界框表示方法是边界框中心的(x,y)轴坐标以及框的宽度和高度。

2.目标检测数据集

经典的目标检测数据集，就是已经框好的：

COO（Common Objects in Context）数据集是一个用于计算机视觉任务的大规模图像数据集，由微软研究院创建和维护。COCO数据集的目的是为目标检测、分割、图像标注等计算机视觉任务提供丰富多样的图像数据和标注信息。

以下是COCO数据集的一些关键特点：

图像数量： COCO数据集包含33w张图像，每张图像包括多个物体，总共有150w个物体，这些图像来自于不同的场景和情境。

对象类别： 数据集涵盖了80多个不同的对象类别，包括人、动物、交通工具、家具等，多为人造物体。这种多样性使得COCO数据集适用于亲民的目标检测和分类任务。

图像标注： 每张图像都有详细的标注信息，包括对象的边界框和对象的语义分割标签。这使得COCO数据集成为训练和评估目标检测、分割等模型的理想选择。

场景复杂性： 数据集中的图像通常具有复杂的场景，包括多个对象的重叠和各种遮挡。这使得模型在处理真实世界场景时更具挑战性。

用途广泛： COCO数据集被广泛用于评估计算机视觉模型的性能，特别是在目标检测、分割和图像生成等任务上。很多研究论文和竞赛中都使用了COCO数据集。

年度挑战赛： COCO每年都举办一个挑战赛，邀请研究人员提交他们在该数据集上训练的模型，并评估这些模型在不同任务上的性能。

COCO数据集的贡献在于为计算机视觉社区提供了一个丰富而具有挑战性的数据集，推动了目标检测、分割和其他相关任务的研究和发展。

3.目标检测和边界框

定义两种框的表示方法：

#左上右下表示法与中间高宽表示法的转换
#boxes是传入的多个框tenser
def box_corner_to_center(boxes):"""从（左上，右下）转换到（中间，宽度，高度）"""x1, y1, x2, y2 = boxes[:, 0], boxes[:, 1], boxes[:, 2], boxes[:, 3]cx = (x1 + x2) / 2cy = (y1 + y2) / 2w = x2 - x1h = y2 - y1boxes = torch.stack((cx, cy, w, h), axis=-1)return boxesdef box_center_to_corner(boxes):"""从（中间，宽度，高度）转换到（左上，右下）"""cx, cy, w, h = boxes[:, 0], boxes[:, 1], boxes[:, 2], boxes[:, 3]x1 = cx - 0.5 * wy1 = cy - 0.5 * hx2 = cx + 0.5 * wy2 = cy + 0.5 * hboxes = torch.stack((x1, y1, x2, y2), axis=-1)return boxes# bbox是边界框的英文缩写
dog_bbox, cat_bbox = [60.0, 45.0, 378.0, 516.0], [400.0, 112.0, 655.0, 493.0]#%%
boxes = torch.tensor((dog_bbox, cat_bbox))
print(box_center_to_corner(box_corner_to_center(boxes)) == boxes)

画边界框：

#画边界框
def bbox_to_rect(bbox, color):# 将边界框(左上x,左上y,右下x,右下y)格式转换成matplotlib格式：# ((左上x,左上y),宽,高)return d2l.plt.Rectangle(xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1],fill=False, edgecolor=color, linewidth=2)fig = d2l.plt.imshow(img)
fig.axes.add_patch(bbox_to_rect(dog_bbox, 'blue'))
fig.axes.add_patch(bbox_to_rect(cat_bbox, 'red'));

显示结果：

4.目标检测数据集示例

目前没有特别小的目标检测数据集用于示例，大的数据集跑起来都太慢了，感谢d2l团队搞了个香蕉数据集用于学习：

拍摄了一组香蕉的照片，并生成了1000张不同角度和大小的香蕉图像。然后，我们在一些背景图片的随机位置上放一张香蕉的图像。最后，我们在图片上为这些香蕉标记了边界框。

下载数据集：

import os
import pandas as pd
import torch
import torchvision
from d2l import torch as d2l#@save
d2l.DATA_HUB['banana-detection'] = (d2l.DATA_URL + 'banana-detection.zip','5de26c8fce5ccdea9f91267273464dc968d20d72')#%%
#读取香蕉检测数据集。
# 该数据集包括一个的CSV文件，内含目标类别标签和位于左上角和右下角的真实边界框坐标
def read_data_bananas(is_train=True):"""读取香蕉检测数据集中的图像和标签"""data_dir = d2l.download_extract('banana-detection')csv_fname = os.path.join(data_dir, 'bananas_train' if is_trainelse 'bananas_val', 'label.csv')csv_data = pd.read_csv(csv_fname)csv_data = csv_data.set_index('img_name')images, targets = [], []for img_name, target in csv_data.iterrows():images.append(torchvision.io.read_image(os.path.join(data_dir, 'bananas_train' if is_train else'bananas_val', 'images', f'{img_name}')))# 这里的target包含（类别，左上角x，左上角y，右下角x，右下角y），# 其中所有图像都具有相同的香蕉类（索引为0）targets.append(list(target))return images, torch.tensor(targets).unsqueeze(1) / 256

自定义dataset，读取：

class BananasDataset(torch.utils.data.Dataset):"""一个用于加载香蕉检测数据集的自定义数据集"""def __init__(self, is_train):self.features, self.labels = read_data_bananas(is_train)print('read ' + str(len(self.features)) + (f' training examples' ifis_train else f' validation examples'))def __getitem__(self, idx):return (self.features[idx].float(), self.labels[idx])def __len__(self):return len(self.features)def load_data_bananas(batch_size):"""加载香蕉检测数据集"""train_iter = torch.utils.data.DataLoader(BananasDataset(is_train=True),batch_size, shuffle=True)val_iter = torch.utils.data.DataLoader(BananasDataset(is_train=False),batch_size)return train_iter, val_iter
#%%
batch_size, edge_size = 32, 256
train_iter, _ = load_data_bananas(batch_size)
batch = next(iter(train_iter))
#0是feature，批量大小，RGB通道，图片大小；1是label，批量大小，物体数，标号+四个坐标
print(batch[0].shape, batch[1].shape)

展示：

#演示
#拿出前十个图像，换下维度
imgs = (batch[0][0:10].permute(0, 2, 3, 1)) / 255
axes = d2l.show_images(imgs, 2, 5, scale=2)
#每个框
for ax, label in zip(axes, batch[1][0:10]):#因为之前归一化到了0~1，所以要乘回来d2l.show_bboxes(ax, [label[0][1:5] * edge_size], colors=['w'])

满天飞的香蕉：

035、目标检测-物体和数据集

之——物体检测和数据集目录之——物体检测和数据集杂谈正文 1.目标检测 2.目标检测数据集 3.目标检测和边界框 4.目标检测数据集示例杂谈目标检测是计算机视觉中应用最为广泛的，之前所研究的图片分类等都需要基于目标检测完成。在图像分类任务中&am…...

编程日记 2023/11/19 9:22:08

【开源】基于Vue.js的社区买菜系统的设计和实现

项目编号： S 011 ，文末获取源码。 \color{red}{项目编号：S011，文末获取源码。} 项目编号：S011，文末获取源码。目录一、摘要1.1 项目介绍1.2 项目录屏二、系统设计2.1 功能模块设计2.1.1 数据中心模块2.1…...

编程日记 2023/11/19 9:20:03

【双指针】复写0

复写0 1089. 复写零 - 力扣（LeetCode） 给你一个长度固定的整数数组 arr ，请你将该数组中出现的每个零都复写一遍，并将其余的元素向右平移。注意：请不要在超过该数组长度的位置写入元素。请对输入的数组就地进行上…...

编程日记 2023/11/19 9:19:01

文章目录 coppersmith的一些相关知识题1 [N1CTF 2023] e2Wrmup题2 [ACTF 2023] midRSA题3 [qsnctf 2023]浅记一下 coppersmith的一些相关知识上界 X c e i l ( 1 2 ∗ N β 2 d − ϵ ) X ceil(\frac{1}{2} * N^{\frac{\beta^2}{d} - \epsilon}) Xceil(21∗Ndβ2−ϵ) …...

编程日记 2023/11/19 9:18:00

Linux秋招面试题

自己在秋招过程中遇到的Linux相关的面试题 linux查找含有“xxxx”的文件名将/path/to/search替换为要搜索的目录路径，xxxx表示要匹配的文件名模式，其中xxxx是你要查找的字符串。这个命令将会在指定路径下递归地查找所有文件名中包含给定字符串的文件 …...

编程日记 2023/11/19 9:16:59

OPPO发布AndesGPT大模型；Emu Video和Emu Edit的新突破

🦉 AI新闻 🚀 OPPO发布全新ColorOS 14及自主训练的AndesGPT大模型摘要：OPPO在2023 OPPO开发者大会上发布了全新的ColorOS 14，并正式推出了自主训练的安第斯大模型（AndesGPT）。AndesGPT拥有对话增强、个人…...

编程日记 2023/11/19 9:15:58

2311rust,到46版本更新

1.43.0稳定版项(item)片段在宏中,可用项片段把项插值到特征,实现和extern块的块体中.如: macro_rules! mac_trait {($i:item) > {trait T { $i }} } mac_trait! {fn foo() {} }这生成: trait T {fn foo() {} }围绕原语的推导类型改进了围绕原语,引用和二进制操作的推…...

编程日记 2023/11/19 9:14:57

Rust根据条件删除相邻元素：dedup

文章目录示例dedup_bydedup_by_key Rust系列：初步⚙所有权⚙结构体和枚举类⚙函数进阶⚙泛型和特征⚙并发和线程通信示例 Rust中的动态数组Vec提供了dedup函数，用于删除相邻重复元素。此外，还提供了dedup_by和dedup_by_key，可…...

编程日记 2023/11/19 9:12:56

2023年（第六届）电力机器人应用与创新发展论坛-核心PPT资料下载

一、峰会简介大会以“聚焦电力机器人创新、助力行业数字化转型、促进产业链协同发展”为主题，展示电力机器人产业全景创新技术，探讨数字化战略下电力机器人应用前景和发展趋势。为加快推进电力机器人应用拓新，助力电网数字化转型升级&#…...

编程日记 2023/11/19 9:11:55

Android BitmapFactory.decodeResource读取原始图片装载成原始宽高Bitmap，Kotlin

Android BitmapFactory.decodeResource读取原始图片装载成原始宽高Bitmap，Kotlin fun getOriginalBitmap(resId: Int): Bitmap {val options BitmapFactory.Options()options.inJustDecodeBounds true //只解析原始图片的宽高，不decode原始文件装载到内…...

编程日记 2023/11/19 9:10:54

阿里云服务器手动搭建WordPress（CentOS 8）

前提条件已创建Linux操作系统的ECS实例，并且手动部署LNMP环境，具体操作，请参见手动部署LNMP环境（CentOS 8）。本教程使用的相关资源版本如下。实例规格：ecs.c6.large 操作系统：公共镜像CentO…...

编程日记 2023/11/19 9:09:53

竞赛题目：基于深度学习的中文对话问答机器人

文章目录 0 简介1 项目架构2 项目的主要过程2.1 数据清洗、预处理2.2 分桶2.3 训练 3 项目的整体结构4 重要的API4.1 LSTM cells部分：4.2 损失函数：4.3 搭建seq2seq框架：4.4 测试部分：4.5 评价NLP测试效果：4.6 梯度截断…...

编程日记 2023/11/19 9:08:52

CCF ChinaSoft 2023 论坛巡礼｜软件测试产教研融合论坛

2023年CCF中国软件大会（CCF ChinaSoft 2023）由CCF主办，CCF系统软件专委会、形式化方法专委会、软件工程专委会以及复旦大学联合承办，将于2023年12月1-3日在上海国际会议中心举行。本次大会主题是“智能化软件创新推动数字经济与社…...

编程日记 2023/11/19 9:07:51

浅谈WPF之控件模板和数据模板

WPF不仅支持传统的Windows Forms编程的用户界面和用户体验设计，同时还推出了以模板为核心的新一代设计理念。在WPF中，通过引入模板，将数据和算法的“内容”和“形式”进行解耦。模板主要分为两大类：数据模板【Data Template】和控…...

编程日记 2023/11/19 9:06:50

微信小程序会议OA首页-开发说明创建项目关于flex布局关于尺寸单位（rpx）关于WXS轮播图会议信息

目录 1. 创建项目 2. 关于flex布局 3. 关于尺寸单位（rpx） 4. 关于WXS 4. 轮播图 5. 会议信息 1. 创建项目基于微信原生开发工具，稳定版 Stable Build (1.06.22010310) 创建项目前，请确定有小程序测试账号使用向导创建一个…...

编程日记 2023/11/19 9:04:48

Linux上编译和安装SOFA23.06

前言你可以直接使用编译安装好的SOFA版本Installing from all-included binaries (v23.06.00)： 如果你想自己编译，可以看我下面写的内容，不过绝大多数是从官网来的，如果和官网有出入，建议还是以官网为准。在Linux下…...

编程日记 2023/11/19 9:03:47

定时任务 Spring Task

一、介绍 Spring Task 是Spring框架提供的任务调度工具，可以按照约定的时间自动执行某个代码逻辑。定位： 定时任务框架作用： 定时自动执行某段Java代码二、cron 表达式 cron表达式在线生成器：https://cron.qqe2.com/ 1、说明…...

编程日记 2023/11/19 9:02:46

golang 上传图片 --chatGPT

问：makeImgUpload(path string) 实现发送发送图片， 发送类型为 multipart/form-data gpt: 下面是一个简单的 makeImgUpload 函数的实现，用于发送图片并以 multipart/form-data 格式进行上传。请注意，此代码假设图片文件路径是正确…...

编程日记 2023/11/19 9:01:44

Android Studio 写一个Java调用c++ 的demo

前提条件： 本地已经配置好了ndk环境,如果没有配置好，建议参考macos 配置ndk环境-CSDN博客这篇链接。新建一个Empty Project 比如我这里的Project的名字是HelloJNI，包名是com.example.hellojni 然后在src目录下，右键选择Add C …...

编程日记 2023/11/19 9:00:43

Pandas数据操作_Python数据分析与可视化

Pandas数据操作排序操作对索引进行排序按行排序按值排序删除操作算数运算去重duplicated()drop_duplicates() 数据重塑层次化索引索引方式内层选取数据重塑排序操作对索引进行排序 Series 用 sort_index() 按索引排序，sort_values() 按值排序； Dat…...

编程日记 2023/11/19 8:59:41

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的？

🧠 智能合约中的数据是如何在区块链中保持一致的？ 为什么所有区块链节点都能得出相同结果？合约调用这么复杂，状态真能保持一致吗？本篇带你从底层视角理解“状态一致性”的真相。一、智能合约的数据存储在哪里&#xf…...

编程新知 2025/10/25 17:23:41

synchronized 学习

学习源： https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.应用场景不超卖，也要考虑性能问题（场景） 2.常见面试问题： sync出…...

编程新知 2025/12/14 17:38:17

Opencv中的addweighted函数

一.addweighted函数作用 addweighted（）是OpenCV库中用于图像处理的函数，主要功能是将两个输入图像（尺寸和类型相同）按照指定的权重进行加权叠加（图像融合），并添加一个标量值&#x…...

编程新知 2026/2/1 1:50:03

【Web 进阶篇】优雅的接口设计：统一响应、全局异常处理与参数校验

系列回顾： 在上一篇中，我们成功地为应用集成了数据库，并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了！但是，如果你仔细审视那些 API，会发现它们还很“粗糙”：有…...

编程新知 2026/1/22 20:46:43

Robots.txt 文件

什么是robots.txt？ robots.txt 是一个位于网站根目录下的文本文件（如：https://example.com/robots.txt），它用于指导网络爬虫（如搜索引擎的蜘蛛程序）如何抓取该网站的内容。这个文件遵循 Robots…...

编程新知 2025/9/9 5:38:23

工业自动化时代的精准装配革新：迁移科技3D视觉系统如何重塑机器人定位装配

AI3D视觉的工业赋能者迁移科技成立于2017年，作为行业领先的3D工业相机及视觉系统供应商，累计完成数亿元融资。其核心技术覆盖硬件设计、算法优化及软件集成，通过稳定、易用、高回报的AI3D视觉系统，为汽车、新能源、金属制造等行…...

编程新知 2025/11/25 4:59:47

华为云Flexus+DeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建

华为云FlexusDeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建前言如今大模型其性能出色，华为云 ModelArts Studio_MaaS大模型即服务平台华为云内置了大模型，能助力我们轻松驾驭 DeepSeek-V3/R1，本文中将分享如何…...

编程新知 2026/2/2 2:30:58

Maven 概述、安装、配置、仓库、私服详解

目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...

编程新知 2026/2/8 1:58:01

Aspose.PDF 限制绕过方案：Java 字节码技术实战分享（仅供学习）

Aspose.PDF 限制绕过方案：Java 字节码技术实战分享（仅供学习） 一、Aspose.PDF 简介二、说明（⚠️仅供学习与研究使用）三、技术流程总览四、准备工作1. 下载 Jar 包2. Maven 项目依赖配置五、字节码修改实现代码&#…...

编程新知 2026/2/6 22:13:44

JVM虚拟机：内存结构、垃圾回收、性能优化

1、JVM虚拟机的简介 Java 虚拟机（Java Virtual Machine 简称：JVM）是运行所有 Java 程序的抽象计算机，是 Java 语言的运行环境，实现了 Java 程序的跨平台特性。JVM 屏蔽了与具体操作系统平台相关的信息，使得 Java 程序只需生成在 JVM 上运行的目标代码（字节码），就可以…...

编程新知 2026/2/7 0:37:40

035、目标检测-物体和数据集

之——物体检测和数据集

杂谈

正文

1.目标检测

2.目标检测数据集

3.目标检测和边界框

4.目标检测数据集示例

相关文章：

035、目标检测-物体和数据集

【开源】基于Vue.js的社区买菜系统的设计和实现

【双指针】复写0

记录一些涉及到界的题

Linux秋招面试题

OPPO发布AndesGPT大模型；Emu Video和Emu Edit的新突破

2311rust,到46版本更新

Rust根据条件删除相邻元素：dedup

2023年（第六届）电力机器人应用与创新发展论坛-核心PPT资料下载

Android BitmapFactory.decodeResource读取原始图片装载成原始宽高Bitmap，Kotlin

阿里云服务器手动搭建WordPress（CentOS 8）

竞赛题目：基于深度学习的中文对话问答机器人

CCF ChinaSoft 2023 论坛巡礼｜软件测试产教研融合论坛

浅谈WPF之控件模板和数据模板

微信小程序会议OA首页-开发说明创建项目关于flex布局关于尺寸单位（rpx）关于WXS轮播图会议信息

Linux上编译和安装SOFA23.06

定时任务 Spring Task

golang 上传图片 --chatGPT

Android Studio 写一个Java调用c++ 的demo

Pandas数据操作_Python数据分析与可视化

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的？

synchronized 学习

Opencv中的addweighted函数

【Web 进阶篇】优雅的接口设计：统一响应、全局异常处理与参数校验

Robots.txt 文件

工业自动化时代的精准装配革新：迁移科技3D视觉系统如何重塑机器人定位装配

华为云Flexus+DeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建

Maven 概述、安装、配置、仓库、私服详解

Aspose.PDF 限制绕过方案：Java 字节码技术实战分享（仅供学习）

JVM虚拟机：内存结构、垃圾回收、性能优化