当前位置：首页 > news >正文

动手学深度学习（Pytorch版）代码实践 -计算机视觉-41目标检测数据集

news 2026/2/10 15:45:23

41目标检测数据集

import os
import pandas as pd
import torch
import torchvision
import matplotlib.pylab as plt
from d2l import torch as d2l# 数据集下载链接
# http://d2l-data.s3-accelerate.amazonaws.com/banana-detection.zip# 读取数据集
#@save
def read_data_bananas(is_train=True):"""读取香蕉检测数据集中的图像和标签"""data_dir = '../data/banana-detection/'csv_fname = os.path.join(data_dir, 'bananas_train' if is_trainelse 'bananas_val', 'label.csv')csv_data = pd.read_csv(csv_fname)# 将 img_name 列设置为索引，以便后续操作中根据图片名称索引标签。csv_data = csv_data.set_index('img_name')images, targets = [], [] # images 用于存储图像，targets 用于存储标签。for img_name, target in csv_data.iterrows():images.append(torchvision.io.read_image(os.path.join(data_dir, 'bananas_train' if is_train else'bananas_val', 'images', f'{img_name}')))# 这里的target包含（类别，左上角x，左上角y，右下角x，右下角y），# 其中所有图像都具有相同的香蕉类（索引为0）targets.append(list(target))# 将 targets 列表转换为 PyTorch 张量，并增加一个维度（通过 unsqueeze(1)）。# 对标签进行归一化处理（除以 256）。return images, torch.tensor(targets).unsqueeze(1) / 256 # 增加维度以匹配其他张量的形状# 图像的小批量的形状为（批量大小、通道数、高度、宽度）# 标签的小批量的形状为（批量大小，m，5），其中m是数据集的任何图像中边界框可能出现的最大数量。#@save
class BananasDataset(torch.utils.data.Dataset):"""一个用于加载香蕉检测数据集的自定义数据集"""def __init__(self, is_train):self.features, self.labels = read_data_bananas(is_train)print('read ' + str(len(self.features)) + (f' training examples' ifis_train else f' validation examples'))def __getitem__(self, idx):return (self.features[idx].float(), self.labels[idx])def __len__(self):return len(self.features)#@save
def load_data_bananas(batch_size):"""加载香蕉检测数据集"""train_iter = torch.utils.data.DataLoader(BananasDataset(is_train=True),batch_size, shuffle=True)val_iter = torch.utils.data.DataLoader(BananasDataset(is_train=False),batch_size)return train_iter, val_iterbatch_size, edge_size = 32, 256
train_iter, _ = load_data_bananas(batch_size)
batch = next(iter(train_iter))# print(batch[0].shape, batch[1].shape)
# torch.Size([32, 3, 256, 256]) torch.Size([32, 1, 5])# 效果演示
imgs = (batch[0][0:10].permute(0, 2, 3, 1)) / 255
# batch[0] 是包含图像数据的张量，形状为 (batch_size, channels, height, width)
# batch[0][0:10] 选择前 10 个图像。
# .permute(0, 2, 3, 1) 将张量的维度重新排列变为 (batch_size, height, width, channels)
# / 255 将像素值归一化到 [0, 1] 之间
# 图像的像素值通常在0到255之间。如果不进行归一化，像素值直接使用原始范围。
# 图像库在显示图像时，需要将像素值映射到一个合理的范围内。
# 在0到1范围内时,显示库可以更好地处理和展示这些图像。axes = d2l.show_images(imgs, 2, 5, scale=2)
# d2l.show_images 是一个用于显示多张图像的函数。
# imgs 是预处理后的图像张量。
# 2, 5 指定了图像将被显示为 2 行 5 列的网格。
# scale=2 指定了图像的缩放比例。# batch[1]是包含图像标签的张量torch.Size([32, 1, 5])
for ax, label in zip(axes, batch[1][0:10]): d2l.show_bboxes(ax, [label[0][1:5] * edge_size], colors=['w'])# d2l.show_bboxes 是一个用于在图像上绘制边界框的函数。# ax 是当前图像的坐标轴。# label[0][1:5] 提取标签中的边界框坐标（标签格式为 [class, x_min, y_min, x_max, y_max]）。# * edge_size 将边界框坐标缩放到图像的实际尺寸。# colors=['w'] 指定边界框的颜色为白色。
plt.show()

运行结果：

在这里插入图片描述

动手学深度学习（Pytorch版）代码实践 -计算机视觉-41目标检测数据集

41目标检测数据集 import os import pandas as pd import torch import torchvision import matplotlib.pylab as plt from d2l import torch as d2l# 数据集下载链接 # http://d2l-data.s3-accelerate.amazonaws.com/banana-detection.zip# 读取数据集 #save def read_data_b…...

编程日记 2024/7/2 6:38:33

2.2章节python的变量和常量

在Python中，变量和常量有一些基本的概念和用法，但需要注意的是，Python本身并没有内置的“常量”类型。然而，程序员通常会遵循一种约定，即使用全部大写的变量名来表示常量。一、变量在Python中，变量是一…...

编程日记 2024/7/2 6:36:28

豆包文科成绩超了一本线，为什么理科不行？

卡奥斯智能交互引擎是卡奥斯基于海尔近40年工业生产经验积累和卡奥斯7年工业互联网平台建设的最佳实践，基于大语言模型和RAG技术，集合海量工业领域生态资源方优质产品和知识服务，旨在通过智能搜索、连续交互，实时生成个性化的内容…...

编程日记 2024/7/2 6:33:24

Java多线程编程实践中的常见问题与解决方案

Java多线程编程实践中的常见问题与解决方案大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！ **1. **引言 Java多线程编程是现代软件开发中不可或缺的一部分&a…...

编程日记 2024/7/2 6:31:21

WebStorm配置路径别名(jsconfig.json）

项目是 ViteVueTs 新建一个 jsconfig.json文件 {"compilerOptions": {"baseUrl": ".","paths": {"/*": ["./src/*"]}},"exclude": ["node_modules", "dist"] }然后在 vite.confi…...

编程日记 2024/7/2 6:30:20

[吃瓜教程]南瓜书第4章决策树

1.决策树的算法原理从逻辑角度，条件判断语句的组合；从几何角度，根据某种准则划分特征空间； 是一种分治的思想，其最终目的是将样本约分约纯，而划分的核心是在条件的选择或者说是**特征空间的划分标准 ** …...

编程日记 2024/7/2 6:29:19

Redis 面试题完整指南：深度解析基础、进阶与高级功能

基础知识 1. 什么是Redis？ Redis（Remote Dictionary Server）是一个开源的、基于内存的数据结构存储系统，既可以用作数据库、缓存，也可以用作消息中间件。它支持多种数据结构，如字符串、哈希、列表、集合、…...

编程日记 2024/7/2 6:28:18

spring 枚举、策略模式、InitializingBean初使化组合使用示例

实现一个简单的文本处理系统。在这个系统中，我们将定义不同类型的文本处理策略，比如大小写转换、添加前缀后缀等，并使用工厂模式来管理这些策略。 1 定义一个枚举来标识不同的文本处理类型 public enum TextProcessTypeEnum {UPPER_CASE,LO…...

编程日记 2024/7/2 6:27:17

嵌入式学习——硬件（IIC、ADC）——day56

1. IIC 1.1 定义（同步串行半双工通信总线） IIC（Inter-Integrated Circuit）又称I2C，是是IICBus简称，所以中文应该叫集成电路总线。是飞利浦公司在1980年代为了让主板、嵌入式系统或手机用以连接低速周边设备…...

编程日记 2024/7/2 6:26:15

vCenter VXR01405C ALARM Certificate is about to expire

vCenter VXR01405C ALARM Certificate is about to expire 需要更新证书步骤如下 ===vCenter=== root@vc [ ~ ]# for i in $(/usr/lib/vmware-vmafd/bin/vecs-cli store list); do echo STORE $i; sudo /usr/lib/vmware-vmafd/b STORE MACHINE_SSL_CERT Alias : __MACHINE…...

编程日记 2024/7/2 6:25:13

安装和微调大模型（基于LLaMA-Factory）

打开终端（在Unix或macOS上）或命令提示符/Anaconda Prompt（在Windows上）。创建一个名为lora的虚拟环境并指定Python版本为3.9。 https://github.com/echonoshy/cgft-llm/blob/master/llama-factory/README.mdGitHub - hiyouga/…...

编程日记 2024/7/2 6:21:09

使用docker搭建squid和ss5

docker run -d --name squid-container -e TZAsia/Shanghai -p 自定义端口并记得开放:3128 ubuntu/squid docker exec -it squid-container /bin/bash apt update && apt install vim # 修改 http_port 3128 为 http_port 0.0.0.0:3128 # 修改 http_access deny all 为…...

编程日记 2024/7/2 6:18:07

大数据面试题之Flink(1)

目录 Flink架构 Flink的窗口了解哪些，都有什么区别，有哪几种?如何定义? Flink窗口函数，时间语义相关的问题介绍下Flink的watermark(水位线)，watermark需要实现哪个实现类，在何处定义?有什么作用? Flink的…...

编程日记 2024/7/2 6:17:05

策略模式、工厂模式和模板模式的应用

1、策略模式、工厂模式解决if else Cal package com.example.dyc.cal;import org.springframework.beans.factory.InitializingBean;public interface Cal extends InitializingBean {public Integer cal(Integer a, Integer b); }Cal工厂 package com.example.dyc.cal;impo…...

编程日记 2024/7/2 6:16:04

在postman中调试supabase的API接口

文章目录在supabase中获取API地址和key知道它的restfull风格在postman中进行的设置1、get请求调试2、post新增用户调试3、使用patch更新数据，不用put！4、delete删除数据总结在supabase中获取API地址和key 首先登录dashboard后台，首页- 右…...

编程日记 2024/7/2 6:14:01

微信小程序毕业设计-英语互助系统项目开发实战(附源码+论文)

大家好！我是程序猿老A，感谢您阅读本文，欢迎一键三连哦。 💞当前专栏：微信小程序毕业设计精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计…...

编程日记 2024/7/2 6:13:00

【WEB前端2024】3D智体编程：乔布斯3D纪念馆-第49课-机器人自动跳舞

【WEB前端2024】3D智体编程：乔布斯3D纪念馆-第49课-机器人自动跳舞使用dtns.network德塔世界（开源的智体世界引擎），策划和设计《乔布斯超大型的开源3D纪念馆》的系列教程。dtns.network是一款主要由JavaScript编写的智体世界引擎…...

编程日记 2024/7/2 6:09:57

【LLM教程-llama】如何Fine Tuning大语言模型？

今天给大家带来了一篇超级详细的教程,手把手教你如何对大语言模型进行微调(Fine Tuning)！（代码和详细解释放在后文） 目录大语言模型进行微调(Fine Tuning)需要哪些步骤？ 大语言模型进行微调(Fine Tuning)训练过程及代码大语言…...

编程日记 2024/7/2 6:08:55

PHP 比 Java 的开发效率高在哪？

在开始前刚好我有一些资料，是我根据网友给的问题精心整理了一份「JAVA的资料从专业入门到高级教程」， 点个关注在评论区回复“888”之后私信回复“888”，全部无偿共享给大家！！！做了几年PHP，最近…...

编程日记 2024/7/2 6:07:53

高德定位获取详细位置失败的处理方法

在使用高德地图定位功能获取位置信息有时候会获取详细位置失败，但是经纬度是有的，这种情况下怎么处理呢，可以使用逆地理编码通过返回的经纬度来再次获取位置信息，如果再次失败那么获取详细位置信息就失败了。具体工具类如下： package com.demo.map.utils;import androi…...

编程日记 2024/7/2 6:06:52

Cursor实现用excel数据填充word模版的方法

cursor主页：https://www.cursor.com/ 任务目标：把excel格式的数据里的单元格，按照某一个固定模版填充到word中文章目录注意事项逐步生成程序1. 确定格式2. 调试程序注意事项直接给一个excel文件和最终呈现的word文件的示例，…...

编程新知 2025/8/23 5:46:26

逻辑回归：给不确定性划界的分类大师

想象你是一名医生。面对患者的检查报告（肿瘤大小、血液指标），你需要做出一个**决定性判断**：恶性还是良性？这种“非黑即白”的抉择，正是**逻辑回归（Logistic Regression）** 的战场&a…...

编程新知 2025/10/27 21:25:04

CocosCreator 之 JavaScript/TypeScript和Java的相互交互

引擎版本： 3.8.1 语言： JavaScript/TypeScript、C、Java 环境：Window 参考：Java原生反射机制您好，我是鹤九日！ 回顾在上篇文章中：CocosCreator Android项目接入UnityAds 广告SDK。我们简单讲…...

编程新知 2026/1/30 12:10:19

【学习笔记】深入理解Java虚拟机学习笔记——第4章虚拟机性能监控，故障处理工具

第2章虚拟机性能监控，故障处理工具 4.1 概述略 4.2 基础故障处理工具 4.2.1 jps:虚拟机进程状况工具命令：jps [options] [hostid] 功能：本地虚拟机进程显示进程ID（与ps相同），可同时显示主类&#x…...

编程新知 2026/1/15 1:34:10

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

目录一、目的二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结一、目的当前市场上有很多目标检测智能识别的相关算法，当前调用一个医疗行业的AI识别算法后返回…...

编程新知 2026/2/9 17:11:06

深入浅出深度学习基础：从感知机到全连接神经网络的核心原理与应用

文章目录前言一、感知机 (Perceptron)1.1 基础介绍1.1.1 感知机是什么？1.1.2 感知机的工作原理 1.2 感知机的简单应用：基本逻辑门1.2.1 逻辑与 (Logic AND)1.2.2 逻辑或 (Logic OR)1.2.3 逻辑与非 (Logic NAND) 1.3 感知机的实现1.3.1 简单实现 (基于阈…...

编程新知 2026/1/26 13:29:00

Caliper 负载(Workload)详细解析

Caliper 负载(Workload)详细解析负载(Workload)是 Caliper 性能测试的核心部分，它定义了测试期间要执行的具体合约调用行为和交易模式。下面我将全面深入地讲解负载的各个方面。一、负载模块基本结构一个典型的负载模块(如 workload.js)包含以下基本结构： use strict;/…...

编程新知 2025/10/31 21:11:39

华为OD最新机试真题-数组组成的最小数字-OD统一考试（B卷）

题目描述给定一个整型数组，请从该数组中选择3个元素组成最小数字并输出 (如果数组长度小于3，则选择数组中所有元素来组成最小数字)。输入描述行用半角逗号分割的字符串记录的整型数组，0<数组长度<= 100，0<整数的取值范围<= 10000。输出描述由3个元素组成…...

编程新知 2025/9/21 23:43:15

第一篇：Liunx环境下搭建PaddlePaddle 3.0基础环境（Liunx Centos8.5安装Python3.10+pip3.10）

第一篇：Liunx环境下搭建PaddlePaddle 3.0基础环境（Liunx Centos8.5安装Python3.10pip3.10） 一：前言二：安装编译依赖二：安装Python3.10三：安装PIP3.10四：安装Paddlepaddle基础框架4.1…...

编程新知 2026/1/31 20:22:32

前端高频面试题2：浏览器/计算机网络

本专栏相关链接前端高频面试题1：HTML/CSS 前端高频面试题2：浏览器/计算机网络前端高频面试题3：JavaScript 1.什么是强缓存、协商缓存？ 强缓存： 当浏览器请求资源时，首先检查本地缓存是否命中。如果命…...

编程新知 2025/11/5 4:36:26

41目标检测数据集

相关文章：