当前位置: 首页 > news >正文

深度学习技术栈 —— Pytorch之TensorDataset、DataLoader

深度学习技术栈 —— Pytorch之TensorDataset、DataLoader

  • 前言
  • 一、TensorDataset、DataLoader的用法?
  • 二、从.csv文件-->tensor张量
  • 总结


前言

简单来说,TensorDatasetDataLoader这两个类的作用, 就是将数据读入并做整合,以便交给模型处理。就像石油加工厂一样,你不关心石油是如何采集与加工的,你关心的是自己去哪加油,油价是多少,对于一个模型而言,DataLoader就是这样的一个予取予求的数据服务商。

参考文章或视频链接
[1] How to use TensorDataset, Dataloader (pytorch)

一、TensorDataset、DataLoader的用法?

# coding:utf-8
# @Time: 2024/1/23 上午9:57
# @Author: 键盘国治理专家
# @File: __init__.py.py
# @Description: import numpy as np
import torch
from torch.utils.data import TensorDataset
from torch.utils.data import DataLoaderdef test_TensorDataset():input = np.random.rand(4, 2)  # Input datacorrect = np.random.rand(4, 1)  # Correct answer datainput = torch.FloatTensor(input)  # Change to an array that can be handled by pytorchcorrect = torch.FloatTensor(correct)  # Same as aboveprint(input)print(correct)dataset = TensorDataset(input, correct)  # set the data,注意,是TensorDataset而不是Dataset,Dataset是个abstract class不能实例化print(dataset)  # 打印地址print(vars(dataset))  # vars prints the contents of the objectreturn datasetdef test_DataLoader(dataset):train_load = DataLoader(dataset, batch_size=3, shuffle=False)  # Data shuffle with shuffle=Truefor x, t in train_load:print('x-->', x)print('t-->', t)if __name__ == '__main__':dataset = test_TensorDataset()print("========================================================================================")test_DataLoader(dataset)

二、从.csv文件–>tensor张量

一般说来,大部分Kaggle比赛的数据都是以.csv为格式的,而Pytorch处理的是tensor张量,所以我们要了解如何将.csv文件的数据变成tensor张量数据。

"""
步骤如下
(1) xx.csv --> 经由pandas 变成 numpy 数组
(2) numpy 变成 tensor 张量
(3) tensor张量经过TensorDataset的组合
(4) dataset再经过DataLoader的处理,进而保证数据可用,以上为清洗过程
.csv --> numpy --> tensor --> dataset --> dataloader 四个过程,五个数据中转形式。
"""
# coding:utf-8
# @Time: 2024/1/23 下午1:01
# @Author: 键盘国治理专家
# @File: csv2tensor.py
# @Description:import numpy
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
from torch.utils.data import TensorDataset
from torch.utils.data import DataLoaderdef csv2numpy(csv_path):data = pd.read_csv(csv_path, dtype=np.float64)# numpy_data = data.iloc[:, data.columns != "xx"]  # 另一种用法,data.columns != "xx" 可以过滤掉你不想读入的字段numpy_data = data.iloc[:].valuesreturn numpy_datadef numpy2tensor(numpy_data):tensor_data = torch.from_numpy(numpy_data)return tensor_datadef tensor2DataLoader(tensor_data):  # 一步到位,直接变成DataLoader。最简单的实现方式,这个func还有改进空间,DataSet可以接收多个tensor数据dataset = torch.utils.data.TensorDataset(tensor_data)data_loader = torch.utils.data.DataLoader(dataset, shuffle=False)return data_loader# 你甚至可以直接将.csv处理成DataLoader了,把这几个过程简单组合下形成一个新函数
def csv2DataLoader(csv_path):numpy_data = csv2numpy(csv_path)tensor_data = numpy2tensor(numpy_data)data_loader = tensor2DataLoader(tensor_data)return data_loaderif __name__ == '__main__':numpy_data = csv2numpy("./test.csv")# print(type(numpy_data))# print(numpy_data.shape)# print(numpy_data)tensor_data = numpy2tensor(numpy_data)# print(type(tensor_data))# print(tensor_data.shape)# print(tensor_data)data_loader = tensor2DataLoader(tensor_data)# print(type(data_loader))# print(data_loader)# print(data_loader.dataset)# # 用遍历的方式才能输出data_loader里的数据# for data_item in data_loader:#     print('data_item-->', data_item)# # 把数据的索引也一起输出# for i, data_item in enumerate(data_loader):#     print('i', i)#     print('data_item-->', data_item)

总结

本篇工作虽然简单,但确是进阶的一个不大不小的绊脚石,功夫虽小,也不能不练。

相关文章:

深度学习技术栈 —— Pytorch之TensorDataset、DataLoader

深度学习技术栈 —— Pytorch之TensorDataset、DataLoader 前言一、TensorDataset、DataLoader的用法?二、从.csv文件-->tensor张量总结 前言 简单来说,TensorDataset与DataLoader这两个类的作用, 就是将数据读入并做整合,以便…...

远程git开发

两种本地与远程仓库同步 """ 1)你作为项目仓库初始化人员:线上要创建空仓库 > 本地初始化好仓库 > 建立remote链接(remote add) > 提交本地仓库到远程(push)2)你作为项目后期开发人员:远程项目仓库已经创…...

Codeforces Round 812 (Div. 2) ---- C. Build Permutation --- 题解

目录 C. Build Permutation 题目描述: ​编辑 思路解析: 代码实现: C. Build Permutation 题目描述: 思路解析: 先证明在任何情况下答案均存在。 假设我们所求的为 m m1 m2.....n 的排列,我们称不小于n…...

Matlab 将工作区变量保存到文件中(save)

语法 1、save(filename) 2、save(filename,variables) 3、save(filename,variables,fmt) 4、save(filename,variables,version) 5、save(filename,variables,version,-nocompression) 6、save(filename,variables,-append) 7、save(filename,variables,-append,-nocompression…...

源码实现简介

本系列所有代码在文章底部,每一章节代码可独立编译运行 随着科技的飞速发展,自动驾驶技术正逐渐成为现实。而在自动驾驶技术中,感知是至关重要的一个环节。通过感知,自动驾驶车辆能够识别和理解周围环境,进而做出相应…...

我每天如何使用 ChatGPT

我们都清楚互联网的运作方式——充斥着各种“爆款观点”,极端分裂的意见,恶搞和无知现象屡见不鲜。 最近,大家对于人工智能(AI)特别是大语言模型(LLMs)和生成式 AI(GenAI&#xff0…...

MySQL修炼手册14:用户权限管理:安全保障与数据隔离

目录 写在开头1 用户与权限的关系1.1 用户的创建与删除1.1.1 创建新用户1.1.2 批量创建用户1.1.3 安全删除用户 1.2 授予与撤销权限1.2.1 授予权限1.2.2 批量授予权限1.2.3 撤销权限 2 角色的应用2.1 创建与管理角色2.1.1 创建角色2.1.2 管理角色 2.2 将权限赋予角色2.2.1 将权…...

动态规划解决马尔可夫决策过程

马尔可夫决策过程是强化学习中的基本问题模型之一,而解决马尔可夫决策过程的方法我们统称为强化学习算法。 动态规划( dynamic programming, DP )具体指的是在某些复杂问题中,将问题转化为若干个子问题,并在求解每个子…...

ubuntu1604安装及问题解决

虚拟机安装vmbox7 虚拟机操作: 安装增强功能 sudo mkdir /mnt/share sudo mount -t vboxsf sharefolder /mnt/share第一次使用sudo提示is not in the sudoers file. This incident will be reported 你的root需要设置好密码 sudo passwd root 输入如下指令&#x…...

Leetcode—24. 两两交换链表中的节点【中等】

2023每日刷题(八十七) Leetcode—24. 两两交换链表中的节点 实现代码 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {}* ListNode(int x) : val(x),…...

USRP相关报错解决办法

文章目录 前言一、本地环境二、相关报错信息二、解决办法1、更换电脑操作系统2、升级最新版固件 前言 在进行 USRP 开发时遇到了一些报错,这里做个记录解决问题的方法。 一、本地环境 电脑操作系统:Windows11MATLAB 版本:MATLAB 2021aUSRP …...

【剑指offer】重建二叉树

👑专栏内容:力扣刷题⛪个人主页:子夜的星的主页💕座右铭:前路未远,步履不停 目录 一、题目描述1、题目2、示例 二、题目分析1、递归2、栈 一、题目描述 1、题目 剑指offer:重建二叉树 给定节…...

中仕教育:事业编招考全流程介绍

一、报名阶段 1. 了解查看招聘信息:查看各类事业编岗位的招聘信息,包括岗位职责、招聘条件、报名时间等。 2. 填写报名表:按照要求填写报名表,包括个人信息、教育背景、工作经历等内容。 3. 提交报名材料:将报名表及…...

149. 直线上最多的点数

149. 直线上最多的点数 class MaxPoints:"""149. 直线上最多的点数https://leetcode.cn/problems/max-points-on-a-line/description/?envTypestudy-plan-v2&envIdtop-interview-150"""def solution(self, points: List[List[int]]) ->…...

不合格机器人工程讲师再读《悉达多》-2024-

一次又一次失败的经历,让我对经典书籍的认同感越来越多,越来越觉得原来的自己是多么多么的无知和愚昧。 ----zhangrelay 唯物也好,唯心也罢,我们都要先热爱这个世界,然后才能在其中找到自己所热爱的事业。 ----zh…...

【STM32CubeMX串口通信详解】USART2 -- DMA发送 + DMA空闲中断 接收不定长数据

( 本篇正在编写、更新状态中.....) 文章目录: 前言 前言 本篇,详细地用截图解释 CubeMX 对 USART2 的配置,HAL函数使用,和收发程序的编写。 收、发机制:DMA发送 DAM空闲中断接收。 DMA空…...

Webpack5入门到原理19:React 脚手架搭建

开发模式配置 // webpack.dev.js const path require("path"); const ESLintWebpackPlugin require("eslint-webpack-plugin"); const HtmlWebpackPlugin require("html-webpack-plugin"); const ReactRefreshWebpackPlugin require("…...

苹果眼镜(Vision Pro)的开发者指南(6)-实战应用场景开发 - 游戏、协作、空间音频、WebXR

第一部分:【构建游戏和媒体体验】 了解如何使用visionOS在游戏和媒体体验中创建真正身临其境的时刻。游戏和媒体可以利用全方位的沉浸感来讲述令人难以置信的故事,并以一种新的方式与人们联系。将向你展示可供你入门的visionOS游戏和叙事开发途径。了解如何使用RealityKit有…...

flutter底层架构初探

本文出处:​​​​​​​​​​​​​Flutter 中文开发者网站 架构 embedder嵌入层 提供程序入口(其他原生应用也采用此方式),程序由此和底层操作系统协调(surface渲染、辅助功能和输入服务,管理事件循环…...

初识SQL注入

目录 注入攻击 SQL注入 手工注入 Information_schema数据库 自动注入 介绍一下这款工具:sqlmap 半自动注入 前面给大家通过学习练习的方式将XSS攻击的几种形式和一些简单的靶场和例题的演示,从本篇开始我将和小伙伴们通过边复习、边练习的方式来进…...

AI绘图技能解析:用自然语言驱动Excalidraw自动生成图表

1. 项目概述:一个为Excalidraw注入AI灵魂的绘图技能如果你经常用Excalidraw画流程图、架构图或者白板草图,那你一定体会过那种“想法很丰满,画笔很骨感”的尴尬。脑子里明明有一个清晰的系统架构,但落到画布上,光是调整…...

解锁Midjourney V6黑白摄影隐藏指令:5个未公开--stylize与--sref协同技法,92%用户至今不会用

更多请点击: https://intelliparadigm.com 第一章:Midjourney V6黑白摄影的美学本质与技术觉醒 黑白摄影在 Midjourney V6 中已超越简单的色彩剥离,成为一场基于对比度张力、纹理显影与光影叙事的深度建模重构。V6 的隐式扩散架构强化了灰阶…...

AI智能体开发实战:从Devin现象到代码辅助智能体构建

1. 项目概述:当开发者遇上AI智能体最近在GitHub上闲逛,发现一个叫“awesome-devins”的仓库热度飙升。点进去一看,好家伙,这简直是一个关于“AI智能体”的宝藏目录。这个由e2b-dev团队维护的项目,本质上是一个精心整理…...

构建高质量Awesome教程库:从Claude Code实战到开发者知识体系搭建

1. 项目概述:一个为Claude Code打造的开发者知识库 最近在GitHub上看到一个挺有意思的项目,叫“awesome-claudcode-tutorial”。光看名字,你可能会有点懵——“Claude Code”是什么?这其实是一个由开发者社区推动的、围绕特定AI编…...

Step-by-Step知识蒸馏:让小模型学会大模型的推理过程

1. 项目概述:当“小个子”也能学会“大智慧”最近在模型压缩和知识蒸馏的圈子里,一个挺有意思的讨论点又热了起来:我们有没有可能让一个参数规模小得多的模型,通过一种更精细、更“手把手”的教学方式,达到甚至逼近那些…...

别再只用高斯噪声了!手把手教你为DDPG算法注入‘惯性’:Ornstein-Uhlenbeck噪声的Python实现与调参实战

突破DDPG探索瓶颈:Ornstein-Uhlenbeck噪声的工程实践指南 在机器人控制或自动驾驶仿真这类连续动作空间的任务中,DDPG算法常因探索效率低下导致训练停滞。当智能体在MuJoCo环境中反复"原地踏步"时,问题往往不在于算法本身&#xf…...

PaperDebugger:用代码调试思维提升学术论文可复现性的工具实践

1. 项目概述:一个为学术论文“排雷”的智能调试器如果你和我一样,常年混迹在学术圈或者技术研发一线,肯定对下面这个场景深恶痛绝:好不容易读完一篇几十页的论文,满心欢喜地准备复现其中的算法或实验,结果发…...

儿童语音合成不能只靠“可爱”!ElevenLabs底层音素建模缺陷与3种年龄适配性补偿方案,一线教育科技团队内部流出

更多请点击: https://intelliparadigm.com 第一章:儿童语音合成不能只靠“可爱”!ElevenLabs底层音素建模缺陷与3种年龄适配性补偿方案,一线教育科技团队内部流出 ElevenLabs 的 TTS 模型虽在成人语音自然度上表现优异&#xff0…...

Win11 VMware 报错“未能启动虚拟机”?深入解析 Hyper-V 与注册表冲突的修复指南

1. 为什么Win11下VMware会报错"未能启动虚拟机"? 最近帮朋友调试Win11上的VMware Workstation时,遇到了经典的"未能启动虚拟机"错误。这个报错背后其实是Windows 11的虚拟化安全机制与第三方虚拟化软件的兼容性问题。微软在Windows …...

BES平台音频算法集成避坑指南:从声加ENC案例看副核调度与内存优化

BES平台音频算法深度优化:从ENC案例剖析多核调度与内存管理 在蓝牙音频芯片领域,BES平台凭借其出色的能效比和灵活的架构设计,已成为众多高端TWS耳机厂商的首选方案。然而,当工程师们尝试将ENC(环境噪声消除&#xff0…...