当前位置: 首页 > news >正文

github 以及 huggingface下载模型和数据

runningcheese/MirrorSite: 镜像网站合集 (github.com)

huggingface

下载模型和数据使用snapshot_download的方法

不会修改HuggingFace模型下载默认缓存路径?一篇教会你!_huggingface默认下载路径-CSDN博客

下载模型

使用snapshot_download

使用snapshot_download配置代理多线程下载模型 - 风之炼金术士华华 - 博客园

直接使用git下载

GIT_LFS_SKIP_SMUDGE=1 git clone git clone https://huggingface.co/facebook/
opt-125m
cd opt-125m
git lfs pull --include="*.bin"

下载数据

使用snapshot_download

import os
from huggingface_hub import snapshot_download
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
snapshot_download(repo_id = 'liuhaotian/LLaVA-CC3M-Pretrain-595K',  repo_type="dataset",  # 可选 [dataset,model] local_dir='/home/jsh/code/Train_llava/Data',# 下载到本地的路径resume_download=True, # 断点续传) 

使用 datasets的load_dataset

from datasets import load_dataset, Dataset 
dataset = load_dataset("gsm8k",'main',split='train')

如果是本地没有缓存那么会下载到路径

https://zhuanlan.zhihu.com/p/620652410

Windows系统中,HuggingFace模型的默认保存位置是C:\Users\username\.cache\huggingface\transformers。您可以更改shell环境变量来指定不同的缓存目录。例如,您可以更改默认的shell环境变量TRANSFORMERS_CACHE或者HF_HOME + transformers/

文件储存格式

会先把原文件格式下下来然后生成保存成.arrow文件

(hf_dataset_download) PS C:\code\hf_dataset_download> python .\dataset_modelscope.py
README.md: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7.94k/7.94k [00:00<?, ?B/s]
C:\Users\13783\.conda\envs\hf_dataset_download\lib\site-packages\huggingface_hub\file_download.py:139: UserWarning: `huggingface_hub` cache-system uses symlinks by default to efficiently store duplicated files but your machine does not support them in C:\Users\13783\.cache\huggingface\hub\datasets--gsm8k. Caching files will still work but in a degraded version that might require more space on your disk. This warning can be disabled by setting the `HF_HUB_DISABLE_SYMLINKS_WARNING` environment variable. For more details, see https://huggingface.co/docs/huggingface_hub/how-to-cache#limitations.
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-developmentwarnings.warn(message)
train-00000-of-00001.parquet: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2.31M/2.31M [00:00<00:00, 2.40MB/s]
test-00000-of-00001.parquet: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 419k/419k [00:00<00:00, 8.18MB/s]
Generating train split: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7473/7473 [00:00<00:00, 678809.61 examples/s] 
Generating test split: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1319/1319 [00:00<00:00, 439105.24 examples/s] 

修改下载位置 

通过datasets加载数据集

加载 - Hugging Face 中文

github

github下载国内镜像网站

▼ GitHub镜像网站
GitHub 访问在任意 github 链接后面加上 fast,也就是 githubfast.com,[示例]
在任意 github 链接前面加上 521,也就是 521github.com,[示例]
在任意 github 链接前面加上 kk,也就是 kkgithub.com,[示例]
GitHub 下载在 github 下载链接前面加上 https://mirror.ghproxy.com,[示例]
GitHub 文件夹项目地址,解决 GitHub 只能下载整个项目的问题。
GitHub CDNhttps://gcore.jsdelivr.net,180ms 延迟,海外服务器,有缓存。[示列]
https://cdn.jsdelivr.net,180ms 延迟,海外服务器,有缓存。[示列]
https://jsd.onmicrosoft.cn,15ms 延迟,国外服务器,无缓存。[示列]
https://jsd.cdn.zzko.cn,30ms 延迟,国外服务器,无缓存。[示列]
Stackoverflowfsou,在原网页前加上链接。[示例]

相关文章:

github 以及 huggingface下载模型和数据

runningcheese/MirrorSite: 镜像网站合集 (github.com) huggingface 下载模型和数据使用snapshot_download的方法 不会修改HuggingFace模型下载默认缓存路径&#xff1f;一篇教会你!_huggingface默认下载路径-CSDN博客 下载模型 使用snapshot_download 使用snapshot_down…...

使用 Vue 配合豆包MarsCode 实现“小恐龙酷跑“小游戏

作者&#xff1a;BLACK595 “小恐龙酷跑”&#xff0c;它是一款有趣的离线游戏&#xff0c;是Google给Chrome浏览器加的一个有趣的彩蛋。当我们浏览器断网时一只像素小恐龙便会出来提示断网。许多人认为这只是一个可爱的小图标&#xff0c; 但当我们按下空格后&#xff0c;小恐…...

51c视觉~合集6

我自己的原文哦~ https://blog.51cto.com/whaosoft/11603901 #CSWin-UNet 将自注意力机制集成到UNet中&#xff01;CSWin-UNet&#xff1a;U型分割方法&#xff0c;显著提高计算效率和感受野交互&#xff01;本文提出了CSWin-UNet&#xff0c;这是一种新颖的U型分割方法&…...

STM32(hal库)在串口中,USART和uart有什么区别?

在STM32的HAL库中&#xff0c;USART和UART都是用于串口通信的模块&#xff0c;但它们在功能特性和使用场景上存在一些区别。以下是对两者的详细比较&#xff1a; 一、功能特性 UART&#xff08;通用异步收发器&#xff09;&#xff1a; 是一种串行、异步、全双工的通信协议。通…...

机器学习、深度学习面试知识点汇总

下面是本人在面试中整理的资料和文字&#xff0c;主要针对面试八股做浅显的总结&#xff0c;大部分来源于ChatGPT&#xff0c;中间有借鉴一些博主的优质文章&#xff0c;已经在各文中指出原文。有任何问题&#xff0c;欢迎随时不吝指正。 文章系列图像使用动漫 《星游记》插图…...

FPGA高速设计之Aurora64B/66B的应用与不足的修正

FPGA高速设计之Aurora64B/66B的应用与不足的修正 Aurora IP协议的特点 首先基于网上找到的一些资料&#xff0c;来讲述下Aurora高速协议的特点与相关的应用。Aurora 协议在 2002 年由 Xilinx 公司首次提出&#xff0c;是由Xilinx提供的一个开源、免费的链路层串行传输通信协议…...

如何通过PHP脚本自动推送WordPress文章至百度站长平台

想要提高网站在百度搜索中的曝光度?百度站长平台提供了一个非常方便的API接口,允许网站自动将新发布的内容推送至百度以加快收录。本文将带您一步步实现这一功能,帮助您的WordPress站点实现每日自动推送最新文章的URL至百度站长平台。 1. 前提条件 确保您有一个已安装并运行…...

ORA-01092 ORA-14695 ORA-38301

文章目录 前言一、MAX_STRING_SIZE--12C 新特性扩展数据类型 varchar2(32767)二、恢复操作1.尝试恢复MAX_STRING_SIZE参数为默认值2.在upgrade模式下执行utl32k.sql 前言 今天客户发来一个内部测试库数据库启动截图报错&#xff0c;描述是“上午出现服务卡顿&#xff0c;然后重…...

upload-labs通关练习---更新到15关

目录 环境搭建 第一关 方法一 修改文件类型 方法二 前端禁用JS绕过 第二关 方法一 修改Content-Type类型 方法二 修改上传文件类型 第三关 第四关 第五关 方法一 Windows大小写绕过 方法二 利用.user.ini 第六关 第七关 第八关 第九关 第十关 第十一关 第十二…...

WPF 应用程序中使用 Prism 框架时,有多种方式可以注册服务和依赖项

Prism 提供了更多的注册方式&#xff0c;适应不同的需求和场景。下面我会全面列出 IContainerRegistry 提供的所有常见注册方式&#xff0c;并附带相应的示例。1. 注册单例&#xff08;Singleton&#xff09; 注册单例类型服务&#xff0c;整个应用生命周期内只会创建一个实例&…...

【ESP32】ESP-IDF开发 | 低功耗管理+RTC唤醒和按键唤醒例程

1. 简介 ESP32支持5种低功耗模式&#xff0c;低功耗管理单元包括调压器、功耗控制器、电源开关单元、电源域隔离单元 (Isolation Cell) 等部分。 1.1 RTC单元 RTC单元是ESP32低功耗管理的核心&#xff0c;可用于管理低功耗模式的进入和退出&#xff0c;控制时钟源、PLL、电源开…...

Windows 局域网IP扫描工具:IPScaner 轻量免安装

IPScaner是一款258KB的工具&#xff0c;具备快捷修改IP、批量扫描、地址计算等功能&#xff0c;自动识别本机IP网段&#xff0c;快速查看IP使用情况&#xff0c;适用于监控维护、企业IT运维等场 软件功能介绍&#xff1a; 1&#xff09;快捷修改本地IP、IP批量扫描、IP地址计算…...

HTML的浮动与定位

1. 浮动 浮动可以使一个元素脱离自己原本的位置&#xff0c;并在父元素的内容区中向左或向右移动&#xff0c;直到碰到父元素内容区的边界或者其它浮动元素为止。 值描述left元素向左浮动right元素向右浮动 普通文档流&#xff1a;浏览器在默认情况下规定一个块元素在父元素…...

【网络安全 | 漏洞挖掘】我如何通过路径遍历实现账户接管

未经许可,不得转载。 文章目录 不久前,我发现了一个我在高中时非常常用的知名应用程序,它在Intigriti上是一个私有程序,本文称之为REDACTED。 我开始参与REDACTED的漏洞赏金计划,这个应用程序在我开始进行黑客攻击之前我已经非常熟悉了。最初我并没有抱太高的期望。 我首…...

DB-GPT系列(四):DB-GPT六大基础应用场景part1

一、基础问答 进入DB-GPT后&#xff0c;再在线对话默认的基础功能就是对话功能。这里我们可以和使用通义千问、文心一言等在线大模型类似的方法&#xff0c; 来和DB-GPT进行对话。 但是值得注意的是&#xff0c;DB-GPT的输出结果是在内置提示词基础之上进行的回答&#xff0c…...

SpringCloud篇(服务拆分 / 远程调用 - 入门案例)

目录 一、服务拆分原则 二、服务拆分示例 1. 案例需求 2. 案例要求 3. 导入SQL语句 4. 实现思路 4.1. 创建父工程 cloud-demo 管理依赖 依赖导入思路 4.2. 创建子工程 order-servic 4.3. 创建子工程 user-servic 4.4. 创建 cloud_order 数据库和表并插入数据 4.5. …...

Rust 建造者模式

在DDD中&#xff0c;DTO(数据传输对象)->BO(业务对象)、BO(业务对象)->PO(持久化对象&#xff0c;有的叫DO&#xff0c;即和数据表映射的实体)等等情况要做转换&#xff0c;这里提供以下转换方式 1、from或者try_from trait实现对象转换 需要转换对象满足接收对象的所有…...

ANN DNN CNN SNN

这些缩写代表了不同类型的人工神经网络&#xff1a; • ANN&#xff08;Artificial Neural Network&#xff09;&#xff1a;人工神经网络&#xff0c;是模仿人脑神经元之间连接和交互方式的计算模型。它由节点&#xff08;或称为“神经元”&#xff09;组成的网络&#xff0c;…...

go语言进阶之并发模式

并发模式 并发模式是指在程序设计中同时处理多个任务或进程的方式&#xff0c;以提高效率和响应性 for select循环模式 for select循环模式通常用于处理并发操作&#xff0c;尤其是在需要等待多个通道时。 select的执行过程主要是以下几步 阻塞等待&#xff0c;直到其中一…...

Spring Cloud LoadBalancer:负载均衡的服务调用

在微服务系统中,有时候一个服务会部署多个实例,在我们调用这类实例时,如何实现负载均衡的调用呢?这时候就要用到Spring Cloud的负载均衡组件LoadBalancer了 LoadBalancer简介 LoadBalancer是Spring Cloud官方提供的负载均衡组件,通过它能使客户端在多个服务实例之间分发传…...

m4s-converter:5分钟解锁B站缓存视频,打造个人专属媒体库

m4s-converter&#xff1a;5分钟解锁B站缓存视频&#xff0c;打造个人专属媒体库 【免费下载链接】m4s-converter 一个跨平台小工具&#xff0c;将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾为B站缓…...

告别繁琐配置!OpenClaw 一键脚本,轻松搞定本地 AI 自动化

OpenClaw&#xff08;小龙虾&#xff09;Windows 一键部署保姆级教程 | 10 分钟养出你的数字员工&#xff08;2026 最新版&#xff09; 前言 2026 年热门的开源 AI 智能体 OpenClaw&#xff08;昵称小龙虾&#xff09;&#xff0c;GitHub 星标超 28 万&#xff0c;凭借本地运…...

SVM调参实战:如何用Python的sklearn找到鸢尾花分类的最佳C值和核函数?

SVM超参数优化实战&#xff1a;从网格搜索到贝叶斯优化的鸢尾花分类调参指南当你在sklearn中第一次使用SVC分类器时&#xff0c;是否曾被默认参数C1.0和kernellinear的表现所困惑&#xff1f;为什么同样的算法在不同数据集上表现差异巨大&#xff1f;本文将带你深入SVM调参的核…...

小样本下分位数估计与置信区间构建实战指南

1. 项目概述&#xff1a;为什么小样本下的分位数估计如此重要&#xff1f;在机器学习项目的日常工作中&#xff0c;我们常常会面临一个尴尬的局面&#xff1a;模型训练好了&#xff0c;也跑出了几轮评估结果&#xff0c;比如准确率是92%&#xff0c;93%&#xff0c;91%&#xf…...

Armv8-R内存一致性模型解析与Cortex-R82实践

1. Cortex-R82/R82AE内存一致性解析&#xff1a;架构师视角的深度指南 在实时计算领域&#xff0c;内存一致性模型直接影响着多核系统的确定性和性能表现。作为Armv8-R架构的旗舰处理器&#xff0c;Cortex-R82/R82AE集群通过精细的内存属性控制机制&#xff0c;为汽车电子、工业…...

Windows苹果设备驱动一键安装:告别iTunes臃肿体验的完整解决方案

Windows苹果设备驱动一键安装&#xff1a;告别iTunes臃肿体验的完整解决方案 【免费下载链接】Apple-Mobile-Drivers-Installer Powershell script to easily install Apple USB and Mobile Device Ethernet (USB Tethering) drivers on Windows! 项目地址: https://gitcode.…...

如何用本地工具在千万级图片库中快速找到相似图片

如何用本地工具在千万级图片库中快速找到相似图片 【免费下载链接】ImageSearch 基于.NET10的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享 项目地址: https://gitcode.com/gh_mirrors/im/ImageSearch 在数字时代&#xff0c;你的电脑里可能积累了成…...

量子机器学习在日志异常检测中的实践:编码、电路设计与性能评估

1. 项目概述&#xff1a;当量子计算遇见日志异常检测日志异常检测&#xff08;Log-based Anomaly Detection&#xff09;是保障大规模软件系统稳定性的核心运维任务之一。传统的机器学习方法&#xff0c;如基于LSTM的DeepLog或基于注意力机制的LogRobust&#xff0c;虽然有效&a…...

量子计算与生成式AI融合:自动化电路生成技术解析

1. 量子计算与生成式AI的交叉领域概述量子计算作为下一代计算范式&#xff0c;正在经历从理论到实践的转变过程。在这个过程中&#xff0c;量子电路的设计与实现成为关键瓶颈。传统手工编写量子电路的方式效率低下&#xff0c;难以满足日益复杂的量子算法需求。与此同时&#x…...

深入理解Java String不可变性

前言 在现代软件开发中&#xff0c;深入理解Java String不可变性是一个非常重要的技术点。本文将从原理到实践&#xff0c;带你深入理解这一技术&#xff0c;并通过完整的代码示例帮助你快速掌握核心知识点。 核心概念 基本原理 深入理解Java String不可变性的核心在于理解其底…...