当前位置: 首页 > news >正文

datasets库之load_dataset

目录

  • 问题
  • 解决方案

问题

使用peft用lora微调blip2时用到了一个足球数据集,如下:
在这里插入图片描述
原始代码如下

dataset = load_dataset("ybelkada/football-dataset", split="train")

然而这需要梯子才能下载,服务器较难用VPN所以使用autodl的学术加速,然而下载后是这样的
在这里插入图片描述
下载后和源数据不一样,服务器端代码无法直接加载autodl解析的数据,并且直接从网页下载源数据集不能像预训练模型那样直接加载。

解决方案

将源数据下载到本地,并执行下面一行代码:

dataset = load_dataset('parquet', data_files='/home/mayunchuan/.cache/huggingface/datasets/ybelkada/football-dataset/data/train-00000-of-00001-fc7c825a21687306.parquet',split='train')

即可加载,注意datasets的版本,低版本的无法加载本地数据,我用的datasets版本是3.1.0,解析的数据如下
在这里插入图片描述

加载后的数据可以保存到disk上:

dataset.save_to_disk('your path')

下次可以直接调用

# 从磁盘加载数据集
dataset = load_from_disk(dataset_path)

也可以直接加载解析的数据

train_dataset_path = "/home/mayunchuan/.cache/huggingface/datasets/parquet/default-d3b5e02210aa68e5/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec"
dataset = load_dataset(train_dataset_path, split="train")

另外,加不加split都不会影响数据集的解析,如果不加split=‘train’:
在这里插入图片描述
加了:
在这里插入图片描述

相关文章:

datasets库之load_dataset

目录 问题解决方案 问题 使用peft用lora微调blip2时用到了一个足球数据集,如下: 原始代码如下 dataset load_dataset("ybelkada/football-dataset", split"train")然而这需要梯子才能下载,服务器较难用VPN所以使用au…...

React Router常见面试题目

1. React Router 支持哪几种模式? React Router 支持以下两种主要模式: BrowserRouter (基于 HTML5 History API 的模式) 原理: 利用 history.pushState 和 history.replaceState 操作浏览器历史栈,无需重新加载页面。URL 看起来像传统 URL…...

sequelize-cli 封装登录接口

node ORM (sequelize)使用、查询、验证及express 基础框架的搭建及实例的使用 一、思路 第一步:肯定是用户要向接口传递邮箱、账号和密码了。 第二步:接口这边,先要验证。因为这里不是往数据库里存储数据,…...

使用 Elasticsearch 查询和数据同步的实现方法

在开发过程中,将数据从数据库同步到 Elasticsearch (ES) 是常见的需求之一。本文将重点介绍如何通过 Python 脚本将数据库中的数据插入或更新到 Elasticsearch,并基于多字段的唯一性来判断是否执行插入或更新操作。此外,我们还将深入探讨如何…...

QTday1作业设置简易登录界面

代码 #include "mywidget.h"MyWidget::MyWidget(QWidget *parent): QWidget(parent) {//创建一个标签QLabel *lab1 new QLabel(this);//重新设置大小lab1->resize(1925,1080);//用动图类QMovie实例化一个动图QMovie *mv new QMovie("C:\\Users\\MR\\Deskto…...

RC低通滤波器和LR低通滤波器,LC低通滤波器该怎么选择

这是RC低通滤波器利用电容两端的电压不能突变可以滤除高频噪声 这是LR低通滤波器利用流过电感的电流不能突变也可以滤除高频噪声 那么问题来了两个低通滤波器,该怎么选择呢还是随便选一个就好? RC电路:因为电流电阻会发热耗能,所…...

芯旺微KF32A156芯片ADC配置

使用芯旺微KF32A156的芯片做预研项目,使用了ADC0外设,根据芯片规格书中的描述进行了配置: /*** brief: Configure ADC.** param[in] none.* param[in] none.* param[out] None* retval: None*/ static void adc_peripheral_init(void) …...

【Token】校验、会话技术、登录请求、拦截器【期末实训】实战项目学生和班级管理系统\Day15-后端Web实战(登录认证)\讲义

登录认证 在前面的课程中,我们已经实现了部门管理、员工管理的基本功能,但是大家会发现,我们并没有登录,就直接访问到了Tlias智能学习辅助系统的后台。 这是不安全的,所以我们今天的主题就是登录认证。 最终我们要实现…...

[Unity Shader] 【游戏开发】【图形渲染】Shader数学基础3:矢量与标量的乘法与除法详解

在计算机图形学和Shader编程中,矢量(Vector)运算是非常基础的数学知识。其中,矢量与标量(Scalar)的乘法与除法是常见的操作。本篇文章将通过详细分析,以及实例讲解矢量和标量的乘除法运算,帮助大家更好地理解并应用到实际开发中。 什么是矢量与标量? 在开始具体运算之…...

javalock(四)AQS派生类之Semphore逐行注释

简单概括: Semphore是一把共享锁(即读锁),即实现了AQS的tryAcquireShared&&tryReleaseShared函数Semphore的逻辑是这样: 创建semphore的时候会初始化一个锁容量即permits,即最多同时允许permits个…...

【C语言】头文件”“和<>的详解

前言 作者在刚开始学C语言的时候&#xff0c;都是用的< >去引用头文件&#xff0c;但在学习STM32的时候发现&#xff0c;程序中大量使用" "去引用双引号。 那么二者有什么区别呢? 无论使用哪种方式&#xff0c;头文件的目的都是为了引用你需要的文件供你编程使…...

Elasticsearch:什么是信息检索?

信息检索定义 信息检索 (IR) 是一种有助于从大量非结构化或半结构化数据中有效、高效地检索相关信息的过程。信息&#xff08;IR&#xff09;检索系统有助于搜索、定位和呈现与用户的搜索查询或信息需求相匹配的信息。 作为信息访问的主要形式&#xff0c;信息检索是每天使用…...

Spark-Streaming容错语义

一、背景 为了理解Spark Streaming提供的语义&#xff0c;我们先回顾西Spark RDD的基本容错语义学。 RDD是一个不可变的、确定性可重新计算的分布式数据集。每个RDD都记住在容错输入数据集上用于创建它的确定性操作的沿袭。如果RDD的任何分区由于工作节点故障而丢失&#xff…...

2024年12月陪玩系统-仿东郊到家约玩系统是一种新兴的线上预约线下社交、陪伴系统分享-优雅草央千澈-附带搭建教程

2024年12月陪玩系统-仿东郊到家约玩系统是一种新兴的线上预约线下社交、陪伴系统分享-优雅草央千澈-附带搭建教程 产品介绍 仿东郊到家约玩系统是一种新兴的线上预约&#xff0c;线下社交、陪伴、助娱、助攻、分享、解答、指导等服务模式&#xff0c;范围涉及电竞、运动、音乐…...

GUI07-学工具栏,懂MVC

MVC模式&#xff0c;是天底下编写GUI程序最为经典、实效的一种软件架构模式。当一个人学完菜单栏、开始学习工具栏时&#xff0c;就是他的一生中&#xff0c;最适合开始认识 MVC 模式的好时机之一。这节将安排您学习&#xff1a; Model-View-Controller 模式如何创建工具栏以及…...

【进程篇】04.进程的状态与优先级

一、进程的状态 1.1 进程的状态 1.1.1 并行与并发 • 并行: 多个进程在多个CPU下分别&#xff0c;同时进行运行 • 并发: 多个进程在一个CPU下采用进程切换的方式&#xff0c;在一个时间片内&#xff0c;让多个进程都得以推进 1.1.2 时间片的概念 LInux/windows这些民用级别…...

ElasticSearch 数据聚合与运算

1、数据聚合 聚合&#xff08;aggregations&#xff09;可以让我们极其方便的实现数据的统计、分析和运算。实现这些统计功能的比数据库的 SQL 要方便的多&#xff0c;而且查询速度非常快&#xff0c;可以实现近实时搜索效果。 注意&#xff1a; 参加聚合的字段必须是 keywor…...

科研学习|论文解读——智能体最新研究进展

从2024-12-13到2024-12-18的45篇文章中精选出5篇优秀的工作分享 Can Modern LLMs Act as Agent Cores in Radiology~Environments? Achieving Collective Welfare in Multi-Agent Reinforcement Learning via Suggestion Sharing A systematic review of norm emergence in …...

面试小札:Java后端闪电五连鞭_8

1. Kafka消息模型及其组成部分 - 消息&#xff08;Message&#xff09;&#xff1a;是Kafka中最基本的数据单元。消息包含一个键&#xff08;key&#xff09;、一个值&#xff08;value&#xff09;和一个时间戳&#xff08;timestamp&#xff09;。键可以用于对消息进行分区等…...

java error(2)保存时间带时分秒,回显时分秒变成00:00:00

超简单&#xff0c;顺带记录一下 1.入参实体类上使用注释&#xff1a;JsonFormat(pattern “yyyy-MM-dd”) 导致舍弃了 时分秒的部分。 2.数据库字段对应的类型是 date。date就是日期&#xff0c;日期就不带时分秒。 3.返参实体类使用了JsonFormat(pattern “yyyy-MM-dd”) 导…...

开源项目仪表盘开发指南:基于React、Next.js与GitHub API的实践

1. 项目概述&#xff1a;一个为开源项目量身定制的现代化仪表盘 最近在折腾一个开源项目&#xff0c;想把它的状态、数据和一些关键指标更直观地展示出来&#xff0c;于是找到了 tugcantopaloglu/openclaw-dashboard 这个仓库。简单来说&#xff0c;这是一个专门为开源项目设…...

从实验设计到代理模型:我是如何用拉丁超立方抽样节省了80%的仿真成本

从实验设计到代理模型&#xff1a;我是如何用拉丁超立方抽样节省了80%的仿真成本 去年夏天&#xff0c;当我接手某新型电动汽车外形的空气动力学优化项目时&#xff0c;团队正面临一个典型的多参数优化困境&#xff1a;每次计算流体力学&#xff08;CFD&#xff09;仿真需要6小…...

CursorTouch/Web-Use:用JavaScript在桌面端模拟移动端触摸交互

1. 项目概述&#xff1a;当光标变成你的手指你有没有想过&#xff0c;在电脑上浏览网页时&#xff0c;如果能像在手机上那样&#xff0c;直接用手指滑动、点击、缩放&#xff0c;体验会不会更流畅&#xff1f;尤其是在处理一些需要精细操作或快速浏览长文档的场景时&#xff0c…...

【作品集】OpenClaw-AgentOps企业级多智能体贵金属交易分析平台

项目名称&#xff1a;OpenClaw-AgentOps 企业级多智能体贵金属交易分析平台 展示方式&#xff1a;保留原有项目架构图&#xff0c;同时加入系统真实页面切片&#xff0c;用“设计图 实物图”的方式完整展示项目。1. 项目一句话介绍OpenClaw-AgentOps 是一个面向贵金属交易研究…...

树莓派5本地大模型实时分析SEN6x环境传感器数据实战

1. 项目概述&#xff1a;当环境传感器遇上本地大模型在物联网和边缘计算领域&#xff0c;我们早已习惯了这样的工作流&#xff1a;传感器采集数据&#xff0c;微控制器或单板计算机&#xff08;比如树莓派&#xff09;负责收集和上传&#xff0c;最终的数据分析和洞察则交给云端…...

企业无线准入实战:AC联动RADIUS与内置Portal构建安全访客网络

1. 为什么企业需要安全访客网络&#xff1f; 想象一下这样的场景&#xff1a;你的公司经常有合作伙伴、客户来访&#xff0c;他们需要临时使用Wi-Fi。如果直接开放内部网络&#xff0c;就像把家门钥匙随便发给陌生人&#xff1b;如果用简单密码共享&#xff0c;又像在公共场合大…...

基于FET6254-C多核异构处理器的智能运动控制系统设计与实践

1. 项目概述&#xff1a;当运动控制遇上嵌入式智能最近在做一个智能运动控制的项目&#xff0c;从传统的PLC方案转向了更灵活、更智能的嵌入式平台。选型过程中&#xff0c;飞凌嵌入式的FET6254-C核心板进入了我的视野&#xff0c;经过一番深度评估和实际测试&#xff0c;它确实…...

本地RAG系统实战:基于开源模型构建私有知识库问答应用

1. 项目概述与核心价值最近在折腾本地大模型应用的时候&#xff0c;发现了一个挺有意思的项目&#xff0c;叫Awareness-Local。这名字听起来有点玄乎&#xff0c;但说白了&#xff0c;它就是一个帮你把本地文件&#xff08;比如PDF、Word、TXT&#xff0c;甚至图片里的文字&…...

ElevenLabs阿拉伯文语音在Qur’anic Arabic场景下韵律崩塌?20年古兰经语音工程团队验证的4层音节边界校准协议

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;ElevenLabs阿拉伯文语音在Qur’anic Arabic场景下的韵律失效现象全景扫描 Qur’anic Arabic&#xff08;古兰经阿拉伯语&#xff09;具有高度规范化的诵读规则&#xff08;Tajwīd&#xff09;&#x…...

京东自动评价工具:Python智能购物助手终极指南

京东自动评价工具&#xff1a;Python智能购物助手终极指南 【免费下载链接】jd_AutoComment 自动评价,仅供交流学习之用 项目地址: https://gitcode.com/gh_mirrors/jd/jd_AutoComment 想要轻松完成京东购物后的评价任务吗&#xff1f;jd_AutoComment 是一款基于Python开…...