当前位置：首页 > news >正文

PyTorch 深度学习 || 专题六：PyTorch 数据的准备

news 2026/2/9 16:31:10

PyTorch 数据的准备

1. 生成数据的准备工作

import torch
import torch.utils.data as Data#准备建模数据
x = torch.unsqueeze(torch.linspace(-1, 1, 500), dim=1) # 生成列向量
y = x.pow(3) # y=x^3#设置超参数
batch_size = 15 # 分块大小
torch.manual_seed(10) # 设置种子点#设置数据加载器
dataset = Data.TensorDataset(x, y) # 通过 Data 对象构造数据集
loader = Data.DataLoader(dataset=dataset,batch_size=batch_size,shuffle=True,num_workers=2)for step, (batch_x, batch_y) in enumerate(loader):print(step,(batch_x.data.shape, batch_y.data.shape)) # 分批处理

0 (torch.Size([15, 1]), torch.Size([15, 1]))
1 (torch.Size([15, 1]), torch.Size([15, 1]))
2 (torch.Size([15, 1]), torch.Size([15, 1]))
3 (torch.Size([15, 1]), torch.Size([15, 1]))
4 (torch.Size([15, 1]), torch.Size([15, 1]))
5 (torch.Size([15, 1]), torch.Size([15, 1]))
6 (torch.Size([15, 1]), torch.Size([15, 1]))
7 (torch.Size([15, 1]), torch.Size([15, 1]))
8 (torch.Size([15, 1]), torch.Size([15, 1]))
9 (torch.Size([15, 1]), torch.Size([15, 1]))
10 (torch.Size([15, 1]), torch.Size([15, 1]))
11 (torch.Size([15, 1]), torch.Size([15, 1]))
12 (torch.Size([15, 1]), torch.Size([15, 1]))
13 (torch.Size([15, 1]), torch.Size([15, 1]))
14 (torch.Size([15, 1]), torch.Size([15, 1]))
15 (torch.Size([15, 1]), torch.Size([15, 1]))
16 (torch.Size([15, 1]), torch.Size([15, 1]))
17 (torch.Size([15, 1]), torch.Size([15, 1]))
18 (torch.Size([15, 1]), torch.Size([15, 1]))
19 (torch.Size([15, 1]), torch.Size([15, 1]))
20 (torch.Size([15, 1]), torch.Size([15, 1]))
21 (torch.Size([15, 1]), torch.Size([15, 1]))
22 (torch.Size([15, 1]), torch.Size([15, 1]))
23 (torch.Size([15, 1]), torch.Size([15, 1]))
24 (torch.Size([15, 1]), torch.Size([15, 1]))
25 (torch.Size([15, 1]), torch.Size([15, 1]))
26 (torch.Size([15, 1]), torch.Size([15, 1]))
27 (torch.Size([15, 1]), torch.Size([15, 1]))
28 (torch.Size([15, 1]), torch.Size([15, 1]))
29 (torch.Size([15, 1]), torch.Size([15, 1]))
30 (torch.Size([15, 1]), torch.Size([15, 1]))
31 (torch.Size([15, 1]), torch.Size([15, 1]))
32 (torch.Size([15, 1]), torch.Size([15, 1]))
33 (torch.Size([5, 1]), torch.Size([5, 1]))

2. 本地数据的准备工作

import torch
import numpy as np
import pandas as pd
import datetime
from sklearn import preprocessingfeatures = pd.read_csv('temps.csv')#标签，要预测的温度的真实值
labels = np.array(features['actual'])#在特征中去掉标签
features = features.drop('actual', axis=1)#训练集每列名字单独保存，留备用
feature_list = list(features.columns)#转换成合适的格式
features = np.array(features)
input_features = preprocessing.StandardScaler().fit_transform(features)batch_size = 8 # 设置每一批数据集的大小
step = 0for start in range(0, len(input_features), batch_size):end = start + batch_size if start + batch_size < len(input_features) else len(input_features)xx = torch.tensor(input_features[start:end], dtype=torch.float, requires_grad=True)yy = torch.tensor(labels[start:end], dtype=torch.float, requires_grad=True)print(step,(xx.data.shape,yy.data.shape))step = step + 1

0 (torch.Size([8, 6]), torch.Size([8]))
1 (torch.Size([8, 6]), torch.Size([8]))
2 (torch.Size([8, 6]), torch.Size([8]))
3 (torch.Size([6, 6]), torch.Size([6]))

3. 网络数据的准备工作

图像分类数据集Fashion-MNIST

import matplotlib.pyplot as plt
# 其中matplotlib包可用于作图，且设置成嵌入式
import torch
import torchvision #torchvision这个库 它是一Pytorch对于个计算机识别一些模型实现的一个库。
import torchvision.transforms as transforms #对数据进行操作的一个模具。
import matplotlib.pyplot as plt
import time
import sys
from IPython import display

获取数据集

"""
通过框架中的内置函数将Fashion-MNIST数据集下载并读取到内存中
通过ToTensor实例将图像数据从PLL类型变换成32位浮点数格式，最简单的一个预处理 transform=transforms.ToTensor()
"""# 训练数据集
#从torchvision中的datasets中将Fashion-MNIST数据集拿到；root是目录；train=True表示下载的是训练数据集；download=True表示确定从网上下载；
mnist_train = torchvision.datasets.FashionMNIST(root='./Datasets',train=True, download=False,transform=transforms.ToTensor())# 测试数据集
mnist_test = torchvision.datasets.FashionMNIST(root='./Datasets',train=False, download=False,transform=transforms.ToTensor())
# 上⾯的 mnist_train 和 mnist_test 都是 torch.utils.data.Dataset 的⼦类，所以我们可以⽤ len() 来获取该数据集的⼤⼩，还可以⽤下标来获取具体的⼀个样本。
print(type(mnist_train))
print(len(mnist_train), len(mnist_test))# 我们可以通过下标来访问任意一个样本
feature, label = mnist_train[0]
print(feature.shape, label)
# 变量feature对应的高和宽均为28像素的图像，输出显示的第一维是通道数，因为数据集是灰度图像，所以通道数为1，后面两维分别是图像的宽和高。

<class ‘torchvision.datasets.mnist.FashionMNIST’>
60000 10000
torch.Size([1, 28, 28]) 9

输出训练集中的10个样本的图像内容和文本标签

"""
Fashion-MNIST中⼀共包括了10个类别，分别为t-shirt（T恤）、trouser（裤⼦）、pullover（套衫）、
dress（连⾐裙）、coat（外套）、sandal（凉鞋）、shirt（衬衫）、sneaker（运动鞋）、
bag（包）和ankle boot（短靴）。以下函数可以将数值标签转成相应的⽂本标签。
"""
def get_fashion_mnist_labels(labels):text_lables = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat','sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']return [text_lables[int(i)] for i in labels]
#定义绘图函数
def use_svg_display():# 用矢量图显示display.set_matplotlib_formats('svg')def set_figsize(figsize=(3.5, 2.5)):use_svg_display()# 设置图的尺寸plt.rcParams['figure.figsize'] = figsize
# 下⾯定义⼀个可以在⼀⾏⾥画出多张图像和对应标签的函数。
def show_fashion_mnist(images, labels):use_svg_display()# 这⾥的_表示我们忽略（不使⽤）的变量_, figs = plt.subplots(1, len(images), figsize=(12, 12))for f, img, lbl in zip(figs, images, labels):f.imshow(img.view((28, 28)).numpy())f.set_title(lbl)f.axes.get_xaxis().set_visible(False)f.axes.get_yaxis().set_visible(False)plt.show()# 输出训练集中的10个样本的图像内容和文本标签
X, y = [], []
for i in range(10):X.append(mnist_train[i][0])y.append(mnist_train[i][1])
show_fashion_mnist(X, get_fashion_mnist_labels(y))

在这里插入图片描述

读取小批量

#num_work来设置4个进程读取数据
batch_size=256
if sys.platform.startswith('win'):num_workers=0 #0表示不用额外的进程来加速读取数据
else:num_workers=4
train_iter=torch.utils.data.DataLoader(mnist_train,batch_size=batch_size,shuffle=True,num_workers=num_workers)
test_iter=torch.utils.data.DataLoader(mnist_test,batch_size=batch_size,shuffle=True,#随机num_workers=num_workers) #短进程
#最后查看读取一遍训练数据需要的时间
start=time.time()
for X,y in train_iter:continue
print('%.2f sec'% (time.time()- start))

PyTorch 深度学习 || 专题六：PyTorch 数据的准备

PyTorch 数据的准备 1. 生成数据的准备工作 import torch import torch.utils.data as Data#准备建模数据 x torch.unsqueeze(torch.linspace(-1, 1, 500), dim1) # 生成列向量 y x.pow(3) # yx^3#设置超参数 batch_size 15 # 分块大小 torch.manual_seed(10) # 设置种子点…...

编程日记 2023/6/8 9:35:41

迅为RK3568开发板2800页手册+220集视频

iTOP-3568开发板采用瑞芯微RK3568处理器，内部集成了四核64位Cortex-A55处理器。主频高达2.0Ghz，RK809动态调频。集成了双核心架构GPU，ARM G52 2EE、支持OpenGLES1.1/2.0/3.2OpenCL2.0、Vulkan 1.1、内高性能2D加速硬件。内置NPU 内置独立NP…...

编程日记 2023/6/8 9:30:40

模拟电子 | 稳压管及其应用

模拟电子 | 稳压管及其应用稳压二极管工作在反向击穿状态时，其两端的电压是基本不变的。利用这一性质，在电路里常用于构成稳压电路。稳压二极管构成的稳压电路，虽然稳定度不很高，输出电流也较小，但却具有简单、经济实…...

编程日记 2023/6/8 9:25:39

使用大型语言模(LLM)构建系统(二):内容审核、预防Prompt注入

今天我学习了DeepLearning.AI的 Building Systems with LLM 的在线课程，我想和大家一起分享一下该门课程的一些主要内容。下面是我们访问大型语言模(LLM)的主要代码： import openai#您的openai的api key openai.api_key YOUR-OPENAI-API-KEY def get_…...

编程日记 2023/6/8 9:20:38

springboot---mybatis操作事务配置的处理

目录前言： 事务的相关问题 1、什么是事务？ 2、事务的特点（ACID） 3、什么时候想到使用事务？ 4、通常使用JDBC访问数据库，还是mybatis访问数据库，怎么处理事务？ 5、问题中事务处…...

编程日记 2023/6/8 9:15:37

游戏盾是什么防御DDOS攻击的

游戏盾是一种专门用于防御分布式拒绝服务（DDoS）攻击的安全工具。DDoS攻击是指攻击者利用大量的计算机或设备同时向目标服务器发送海量的请求，以使目标服务器超负荷运行，无法正常提供服务。游戏盾通过一系列智能的防护措施&#xf…...

编程日记 2023/6/8 9:10:36

java快速结束嵌套循环

java快速结束嵌套循环快速结束for循环 out:for (int i 0; i < 5; i) {in:for (int j 0; j < 5; j) {if (j 2) {break out;}System.out.println("i " i " j " j);}}解释将外层for循环起别名 o u t \color{red}{out} out,将内层for循环起别名…...

编程日记 2023/6/8 9:05:34

chatgpt赋能python：Python屏蔽一段代码

Python屏蔽一段代码在Python编程中，有时我们需要屏蔽一段代码以便于调试或者测试。在很多情况下，我们可能不想删除这段代码，因为需要在将来的某个时间再次使用它。为了解决这个问题，我们可以使用Python中的注释语句或者条件语句…...

编程日记 2023/6/8 9:00:33

项目跑不起来

Sa-Token/sa-token-core/src/main/java/cn/dev33/satoken/temp/SaTempUtil.java:10:8 java: 写入cn.dev33.satoken.temp.SaTempUtil时出错: Output directory is not specified 写入cn.dev33.satoken.temp.SaTempUtil时出错: Output directory is not specified 答案&#xf…...

编程日记 2023/6/8 8:55:32

黑马Redis视频教程高级篇（多级缓存案例导入说明）

目录一、安装MYSQL 1.1、准备目录 1.2、运行命令 1.3、修改配置 1.4、重启二、导入SQL 三、导入Demo工程 3.1、分页查询商品 3.2、新增商品 3.3、修改商品 3.4、修改库存 3.5、删除商品 3.6、根据id查询商品 3.7、根据id查询库存 3.8、启动四、导入商品查询…...

编程日记 2023/6/8 8:50:31

2023系统分析师下午案例分析真题

真题1 阅读以下关于软件系统分析与建模的叙述，在纸上回答问题1至3. 说明: 某软件公司拟开发一套汽车租赁系统，科学安全和方便的管理租赁公司的各项业务，提高公司效率，提升利率。注册用户在使用系统镜像车辆预约时需执行以下操作…...

编程日记 2023/6/8 8:45:30

【Python练习】Matplotlib数据可视化

文章目录一、实验目标二、实验内容1. 用画布的各种设置，绘制类似如图1所示的：y1=sin(x)和y2=cos(x)的曲线图2. 某校高一3班12名同学语数外三科成绩分布情况如表5-2所示，数据值也可以自拟，适当调整。绘制折线图、纵向条形图分析这些同学单科成绩情况，绘制纵向堆叠条形图查…...

编程日记 2023/6/8 8:40:29

【2611. 老鼠和奶酪】

来源：力扣（LeetCode） 描述： 有两只老鼠和 n 块不同类型的奶酪，每块奶酪都只能被其中一只老鼠吃掉。下标为 i 处的奶酪被吃掉的得分为： 如果第一只老鼠吃掉，则得分为 reward1[i] 。如果第二…...

编程日记 2023/6/8 8:35:28

Reid strong baseline 代码详解

本项目是对Reid strong baseline代码的详解。项目暂未加入目标检测部分，后期会不定时更新，请持续关注。本相比Reid所用数据集为Markt1501，支持Resnet系列作为训练的baseline网络。训练采用表征学习度量学习的方式。目录训练参数训练代…...

编程日记 2023/6/8 8:30:27

宝塔面板搭建网站教程：Linux下使用宝塔一键搭建网站，内网穿透发布公网上线

文章目录前言1. 环境安装2. 安装cpolar内网穿透3. 内网穿透4. 固定http地址5. 配置二级子域名6. 创建一个测试页面转载自cpolar内网穿透的文章：使用宝塔面板快速搭建网站，并内网穿透实现公网远程访问前言宝塔面板作为简单好用的服务器运维管理面板&…...

编程日记 2023/6/8 8:25:26

常微分方程（ODE）求解方法总结

常微分（ODE）方程求解方法总结 1 常微分方程（ODE）介绍1.1 微分方程介绍和分类1.2 常微分方程的非计算机求解方法1.3 线性微分方程求解的推导过程 2 一阶常微分方程（ODE）求解方法2.1 欧拉方法2.1.1 欧拉方法2…...

编程日记 2023/6/8 8:20:25

【华为OD机试】区间交集【2023 B卷|200分】

【华为OD机试】-真题 !!点这里！！【华为OD机试】真题考点分类 !!点这里 !! 题目描述给定一组闭区间，其中部分区间存在交集。任意两个给定区间的交集，称为公共区间 (如:[1,2],[2,3]的公共区间为[2,2]，[3,5],[3,6]的公共区间为[3,5])。公共区间之间若存在交集，则需…...

编程日记 2023/6/8 8:15:24

Vue3 | Element Plus resetFields不生效

Vue3 | Element Plus resetFields不生效 1. 简介先打开创建对话框没有问题，但只要先打开编辑对话框，后续在打开对话框就会有默认值，还无法使用resetFields()重置。下面是用来复现问题的示例代码和示例GIF。 <script setup> import…...

编程日记 2023/6/8 8:10:23

机器视觉特点机器视觉实际应用

机器视觉特点 1、机器视觉是一项综合技术，其中包括数字图像处理技术，机械工程技术，控制技术，电光源照明技术，光学成像技术，传感器技术，模拟与数字视频技术，计算机硬件技术&#xff…...

编程日记 2023/6/8 8:05:22

elementui大型表单校验

一般很大的表单都会被拆解开，校验，，不会写在一个页面，，就会有多个 el-form ，，主页要集合所有el-form的数据，，所以有一个map来接收，传送表单数据，&…...

编程日记 2023/6/8 8:00:21

Python｜GIF 解析与构建（5）：手搓截屏和帧率控制

目录 Python｜GIF 解析与构建（5）：手搓截屏和帧率控制一、引言二、技术实现：手搓截屏模块 2.1 核心原理 2.2 代码解析：ScreenshotData类 2.2.1 截图函数：capture_screen 三、技术实现&…...

编程新知 2025/11/14 3:06:30

.Net框架，除了EF还有很多很多......

文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...

编程新知 2026/2/1 19:26:16

将对透视变换后的图像使用Otsu进行阈值化，来分离黑色和白色像素。这句话中的Otsu是什么意思？

Otsu 是一种自动阈值化方法，用于将图像分割为前景和背景。它通过最小化图像的类内方差或等价地最大化类间方差来选择最佳阈值。这种方法特别适用于图像的二值化处理，能够自动确定一个阈值，将图像中的像素分为黑色和白色两类。 Otsu 方法的原…...

编程新知 2026/1/9 19:36:58

ElasticSearch搜索引擎之倒排索引及其底层算法

文章目录一、搜索引擎1、什么是搜索引擎？2、搜索引擎的分类3、常用的搜索引擎4、搜索引擎的特点二、倒排索引1、简介2、为什么倒排索引不用B+树1.创建时间长，文件大。2.其次，树深，IO次数可怕。3.索引可能会失效。4.精准度差。三. 倒排索引四、算法1、Term Index的算法2、 …...

编程新知 2026/1/30 17:10:19

Rust 异步编程

Rust 异步编程引言 Rust 是一种系统编程语言，以其高性能、安全性以及零成本抽象而著称。在多核处理器成为主流的今天，异步编程成为了一种提高应用性能、优化资源利用的有效手段。本文将深入探讨 Rust 异步编程的核心概念、常用库以及最佳实践。异步编程基础什么是异步…...

编程新知 2025/11/17 18:58:56

Android15默认授权浮窗权限

我们经常有那种需求，客户需要定制的apk集成在ROM中，并且默认授予其【显示在其他应用的上层】权限，也就是我们常说的浮窗权限，那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…...

编程新知 2026/2/1 4:13:59

大语言模型（LLM）中的KV缓存压缩与动态稀疏注意力机制设计

随着大语言模型（LLM）参数规模的增长，推理阶段的内存占用和计算复杂度成为核心挑战。传统注意力机制的计算复杂度随序列长度呈二次方增长，而KV缓存的内存消耗可能高达数十GB（例如Llama2-7B处理100K token时需50GB内存&a…...

编程新知 2026/1/28 1:40:03

Spring是如何解决Bean的循环依赖：三级缓存机制

1、什么是 Bean 的循环依赖在 Spring框架中，Bean 的循环依赖是指多个 Bean 之间‌互相持有对方引用‌，形成闭环依赖关系的现象。多个 Bean 的依赖关系构成环形链路，例如：双向依赖：Bean A 依赖 Bean B，同时 Bean B 也依赖 Bean A（A↔B）。链条循环： Bean A → Bean…...

编程新知 2025/7/25 1:21:53

MFC 抛体运动模拟：常见问题解决与界面美化

在 MFC 中开发抛体运动模拟程序时，我们常遇到轨迹残留、无效刷新、视觉单调、物理逻辑瑕疵等问题。本文将针对这些痛点，详细解析原因并提供解决方案，同时兼顾界面美化，让模拟效果更专业、更高效。问题一：历史轨迹与小球残影残留现象小球运动后，历史位置的 “残影”…...

编程新知 2026/1/29 12:12:12

TSN交换机正在重构工业网络，PROFINET和EtherCAT会被取代吗？

在工业自动化持续演进的今天，通信网络的角色正变得愈发关键。 2025年6月6日，为期三天的华南国际工业博览会在深圳国际会展中心（宝安）圆满落幕。作为国内工业通信领域的技术型企业，光路科技（Fiberroad&…...

编程新知 2026/1/26 5:57:43

PyTorch 数据的准备

1. 生成数据的准备工作

2. 本地数据的准备工作

3. 网络数据的准备工作

相关文章：