当前位置：首页 > news >正文

Pytorch实用教程：TensorDataset和DataLoader的介绍及用法示例

news 2026/5/13 5:02:27

TensorDataset

TensorDataset是PyTorch中torch.utils.data模块的一部分，它包装张量到一个数据集中，并允许对这些张量进行索引，以便能够以批量的方式加载它们。

当你有多个数据源（如特征和标签）时，TensorDataset能够让你把它们打包成一个数据集，这在训练模型时非常有用。

介绍

TensorDataset接收任意数量的张量作为输入，前提是这些张量的第一维度大小（也就是数据点的数量）相同。

每个张量的第一维被视为数据的长度。当对TensorDataset进行索引时，它会返回一个元组，其中包含每个张量在对应索引处的数据。

用法示例

下面是一个使用TensorDataset的简单示例，包括如何创建它，以及如何与DataLoader结合使用，以便于批量加载数据。

首先，你需要有一些数据。在这个例子中，我们将创建一些随机数据来模拟特征（X）和标签（y）。

import torch
from torch.utils.data import TensorDataset, DataLoader
import numpy as np# 假设我们有一些随机数据作为特征和标签
X = np.random.random((100, 10))  # 100个样本，每个样本10个特征
y = np.random.randint(0, 2, (100,))  # 100个样本的二分类标签# 将NumPy数组转换为PyTorch张量
X_tensor = torch.tensor(X, dtype=torch.float32)
y_tensor = torch.tensor(y, dtype=torch.long)# 创建TensorDataset
dataset = TensorDataset(X_tensor, y_tensor)# 使用DataLoader来批量加载数据
dataloader = DataLoader(dataset, batch_size=32, shuffle=True)# 遍历数据集
for features, labels in dataloader:print(features, labels)# 在这里进行训练的步骤，比如将features和labels送入模型等

在上面的代码中：

我们首先创建了特征X和标签y的NumPy数组，然后将它们转换为PyTorch张量。
使用这些张量创建了一个TensorDataset实例。
接着，我们创建了一个DataLoader实例来定义数据的批量大小和是否需要打乱。
最后，我们遍历了DataLoader，它每次迭代会返回一批数据（由features和labels组成），这些数据可以直接用于模型的训练过程。

通过使用TensorDataset和DataLoader，可以非常灵活地处理数据的加载和迭代，这对于训练深度学习模型来说是非常必要的。

DataLoader

DataLoader是PyTorch中用于加载数据的一个非常重要的工具，它提供了一个简便的方式来迭代数据。

这对于训练模型时批量处理数据，以及在训练过程中对数据进行洗牌（shuffle）和并行处理非常有帮助。

介绍

DataLoader封装了一个数据集，并提供了多种功能，使得数据加载变得更加灵活和高效。它的主要功能包括：

批量加载：允许你指定每次迭代加载的数据数量。
洗牌：在每个训练周期开始时，可以选择是否打乱数据，这有助于模型的泛化能力。
并行加载：可以利用多个进程来加速数据的加载过程，特别是当数据预处理比较耗时时这一点非常有用。
自定义数据抽样：通过定义一个Sampler，你可以控制数据的加载顺序，或者实现一些复杂的抽样策略。

用法示例

以下是一个简单的示例，展示如何使用DataLoader来加载一个TensorDataset。

import torch
from torch.utils.data import DataLoader, TensorDataset# 假设我们有一些数据张量
features = torch.tensor([[1, 2], [3, 4], [5, 6], [7, 8]], dtype=torch.float32)
labels = torch.tensor([0, 1, 0, 1], dtype=torch.float32)# 创建TensorDataset
dataset = TensorDataset(features, labels)# 创建DataLoader
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)# 使用DataLoader进行迭代
for batch_idx, (features, labels) in enumerate(dataloader):print(f"Batch {batch_idx}:")print("Features:\n", features.numpy())print("Labels:\n", labels.numpy())

在这个示例中，我们首先创建了一个包含特征和标签的TensorDataset。接着，我们使用DataLoader来定义如何加载这些数据，包括设置批量大小和是否打乱数据。最后，我们通过迭代DataLoader来按批次获取数据，并打印出来。

这个过程展示了DataLoader在数据加载中的基本使用，特别是在处理批量数据和进行迭代训练时。在实际应用中，你可以根据需要调整DataLoader的参数，比如批量大小、是否洗牌以及使用的进程数等，以最适合你的训练流程。

Pytorch实用教程：TensorDataset和DataLoader的介绍及用法示例

TensorDataset

介绍

用法示例

DataLoader

介绍

用法示例

相关文章：

Pytorch实用教程：TensorDataset和DataLoader的介绍及用法示例

uni-app如何实现高性能

docker 应用部署

java.awt.FontFormatException: java.nio.BufferUnderflowException

C++ 枚举类型 ← 关键字 enum

MySQL故障排查与优化

如何做一个知识博主？善用互联网检索

《QT实用小工具·十》本地存储空间大小控件

作为一个初学者该如何学习kali linux？

多线程学习-线程池

Linux第4课 Linux的基本操作

堆排序解读

docker + miniconda + python 环境安装与迁移（详细版）

蓝桥杯刷题第八天（dp专题）

【WEEK6】【DAY1】DQL查询数据-第一部分【中文版】

Linux：权限篇

Lua热更新（xlua)

并查集（基础+带权以及可撤销并查集后期更新）

基于 Java 的数据结构和算法 (不定期更新）

考研回忆录【二本-＞211】

GitHub企业版MCP服务器：为AI助手集成私有化GitHub工作流

第10期| 空间算法入门--GeoAI核心算法拆解，不用啃论文，通俗看懂原理

原生TypeScript待办清单：纯前端架构、观察者模式与拖拽排序实践

多品牌技高速存储卡术拆解分析实测：如何同时满足企业级监控与创作两不误？

清华系团队造出能“边听边说、边看边想“的AI耳朵MiniCPM-o 4.5

2026设备管理系统选型标准（技术向）：8大核心维度，适配信创+全行业场景

2026届学术党必备的六大降重复率平台推荐榜单

从原理图到Vivado：手把手教你搞定XC7Z020-CLG400的EMIO引脚分配与约束

告别‘纸片人’：在Unity URP里给角色注入灵魂——皮肤透光、发丝细节与眼神光的调校指南

基于GAN的端到端ISP：用AI学习从RAW到RGB的图像处理革命