Linux 安装 pytorch+cuda+gpu 大模型开发环境过程记录
Linux 安装 pytorch+cuda+gpu 大模型开发环境过程记录
2025-05-17
本文可用于生产环境,用于大模型训练开发运行。
1. 确定 OS 架构
# cat /etc/os-release
NAME="Ubuntu"
VERSION="20.04.6 LTS (Focal Fossa)"
# uname -m
x86_64
2. 查看磁盘空间
# df -h /llm
因为系统已有 Anaconda3 和 minianaconda3,但是已有的这些环境存在问题。
为不破坏这些环境,我重新安装一个 Anaconda3,与已有的共存,切记不可自动设置。
3. 安装 Anaconda3
# cd /llm/Downloads/
# wget -c https://mirrors.ustc.edu.cn/anaconda/archive/Anaconda3-2024.10-1-Linux-x86_64.sh --no-check-certificate
# Anaconda3-2024.10-1-Linux-x86_64.sh
指定安装目录:/llm/huggingface/anaconda3
[no]不要配置: 直接回车
# cd ~/Workspace
# ln -s /llm/huggingface huggingface
# ln -s /llm/Downloads Downloads
以后下面的目录等效:
~/Workspace/huggingface -> /llm/huggingface
~/Workspace/Downloads -> /llm/Downloads
测试Anaconda3安装是否正确:
# conda deactivate
# source ~/Workspace/huggingface/anaconda3/etc/profile.d/conda.sh
# export PATH="~/Workspace/huggingface/anaconda3/bin:$PATH"
# conda activate base
# conda deactivate
# which conda务必显示为安装的路径:/llm/huggingface/anaconda3/bin/conda
然后执行下面的命令创建虚拟环境:pytorch_env
# conda create -n pytorch_env python=3.10
以后全部操作在 pytorch_env 中进行!
4. 安装 pytorch
查看系统 cuda 版本,安装与之匹配的 pytorch:2.6.0
安装 CUDA + cuDNN 的过程(略)
# nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2024 NVIDIA Corporation
Built on Thu_Mar_28_02:18:24_PDT_2024
Cuda compilation tools, release 12.4, V12.4.131
Build cuda_12.4.r12.4/compiler.34097967_0
在下面的网站找到 CUDA 12.4 安装链接:
https://pytorch.org/get-started/previous-versions/# CUDA 12.4
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
开始安装 pytorch cuda 版本:
# conda deactivate
# source ~/Workspace/huggingface/anaconda3/etc/profile.d/conda.sh
# export PATH="~/Workspace/huggingface/anaconda3/bin:$PATH"
# conda env list
base
pytorch_env
# conda activate pytorch_env
(pytorch_env) # python
Python 3.10.17 | ...(pytorch_env) # pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
测试 pytorch 是否安装成功:
(pytorch_env) # python
Python 3.10.17
>>> import torch
>>> print(torch.__version__)
2.6.0+cu124
>>> print(torch.cuda.is_available())
True
>>> print(torch.cuda.get_device_name(0))
NVIDIA GeForce RTX 3090
5. 安装 huggingface
在安装好 PyTorch 后,安装 Hugging Face 的 transformers 库(核心工具库)和其他相关依赖的步骤如下。
创建环境脚本: /llm/huggingface/pytorch_env.sh
#!/bin/bash
# 2025-05-19, zhangliang
# source pytorch_env.sh
#
export HF_HUB_DISABLE_SYMLINKS_WARNING=1
export HF_ENDPOINT="https://hf-mirror.com"
export HF_HOME=/llm/huggingface
export HF_MODELS=/llm/huggingface/models
export ANACONDA3_HOME=/llm/huggingface/anaconda3
source "$ANACONDA3_HOME/etc/profile.d/conda.sh"
conda activate pytorch_env
然后执行:
# source /llm/huggingface/pytorch_env.sh
(pytorch_env) # pip install transformers datasets tokenizers accelerate peft safetensors
(pytorch_env) # pip install soundfile librosa Pillow huggingface_hub python-dotenv bitsandbytes
(pytorch_env) # pip install emoji opencc-python-reimplemented evaluate
写一个测试文件:huggingface_chk.py:
# huggingface_chk.py# 基础库import os, sys, yaml, datetimeimport evaluate # 评估指标计算import pandas as pd # 数据处理import numpy as np # 数值计算import torch # PyTorch 深度学习框架import transformers # Hugging Face 模型库import re, emojifrom typing import Optional, Union# PyTorch 组件from torch import nnfrom torch.amp import GradScaler, autocast # 混合精度训练from torch.utils.data import Dataset as TorchDataset, DataLoader # 数据加载from torch.optim import AdamW # 优化器# 数据集处理from datasets import Dataset # Hugging Face 数据集格式# 中文简繁体转换from opencc import OpenCC# 模型量化from bitsandbytes.nn import Int8Params# 参数高效微调 (PEFT)from peft import get_peft_model, LoraConfigfrom sklearn.preprocessing import MultiLabelBinarizerfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import f1_score# Transformers 组件from transformers import (AutoTokenizer, # 自动分词器AutoModelForSequenceClassification,# 序列分类模型AutoModelForSeq2SeqLM,TrainingArguments, # 训练参数配置BitsAndBytesConfig, # 量化配置Trainer, # 训练器DataCollatorWithPadding, # 数据填充对齐EvalPrediction, # 评估预测对象pipeline # 推理管道)#########################################################print("transformers version:", transformers.__version__)print("torch version:", torch.__version__)# 检查 CUDA 可用性if torch.cuda.is_available():print("cuda version=", torch.version.cuda)print("torch using GPU:", torch.cuda.get_device_name(0))else:raise RuntimeError("CUDA 不可用,请检查安装!")# 环境路径配置print("HF_ENDPOINT=", os.environ["HF_ENDPOINT"])# hf 主目录。下载缓存目录自动在: $HF_HOME/hubprint("HF_HOME=", os.environ["HF_HOME"])# 模型保存的本地目录print("HF_MODELS=", os.environ["HF_MODELS"])print("ANACONDA3_HOME=", os.environ["ANACONDA3_HOME"])print("HF_HUB_DISABLE_SYMLINKS_WARNING=", os.environ["HF_HUB_DISABLE_SYMLINKS_WARNING"])print("Check huggingface success.")
执行环境测试 (以后的py程序完全按此过程执行):
# source /llm/huggingface/pytorch_env.sh
(pytorch_env) # python ./huggingface_chk.pytransformers version: 4.51.3
torch version: 2.6.0+cu124
cuda version= 12.4
torch using GPU: NVIDIA GeForce RTX 3090
HF_ENDPOINT= https://hf-mirror.com
HF_HOME= /llm/huggingface
HF_MODELS= /llm/huggingface/models
ANACONDA3_HOME= /llm/huggingface/anaconda3
HF_HUB_DISABLE_SYMLINKS_WARNING= 1
Check huggingface success.
完毕。开始你的大模型开发之旅吧!
相关文章:
Linux 安装 pytorch+cuda+gpu 大模型开发环境过程记录
Linux 安装 pytorchcudagpu 大模型开发环境过程记录 2025-05-17 本文可用于生产环境,用于大模型训练开发运行。 1. 确定 OS 架构 # cat /etc/os-release NAME"Ubuntu" VERSION"20.04.6 LTS (Focal Fossa)" # uname -m x86_642. 查看磁盘空间…...

局部放大maya的视图HUD文字大小的方法
一、问题描述: 有网友问:有办法局部放大maya的字体吗比如hud中currenttime打开之后画面右下角有个frame 想放大一下能做到吗? 在 Maya 中,可以通过自定义 HUD(Heads-Up Display)元素的字体大小来局部放大特…...
数学复习笔记 16
前言 例题真是经典。 background music 《青春不一样》 2.28 算一个行列式,算出来行列式不等于零,这表示矩阵式可逆的。但是这个算的秩是复合的,感觉没啥好办法了,我直接硬算了,之后再看解析积累好的方法。算矩阵…...

初识Linux · NAT 内网穿透 内网打洞 代理
目录 前言: 内网穿透和打洞 NAPT表 内网穿透 内网打洞 正向/反向代理 前言: 本文算是网络原理的最后一点补充,为什么说是补充呢,因为我们在前面第一次介绍NAT的时候详细介绍的是报文从子网到公网,却没有介绍报文…...

STM32接收红外遥控器的遥控信号
经过几天早晨的学习,终于把遥控器的红外信号给搞通了,特此记录一下;其实说白了,红外遥控就是高低电平的信号,用时间来区分是二进制的0还是1;然后把这些0或1,在组装成一个32位的数基本就算是完事…...

Redis从入门到实战 - 高级篇(下)
一、Redis键值设计 1. 优雅的key结构 Redis的Key虽然可以自定义,但最好遵循下面几个最佳实践约定: 遵循基本格式:[业务名称]:[数据名]:[id]长度不超过44字节不包含特殊字符 例如:我们的登录业务,保存用户信息&…...
NGINX常用功能—笔记
NGINX 是一款高性能的开源 Web 服务器和反向代理服务器,常用于处理高并发场景,其功能丰富且灵活。以下是 NGINX 的常用功能及详细说明: 一、静态资源服务器 功能说明:直接处理 HTML、CSS、JavaScript、图片、视频等静态文件请求&a…...
JVM 性能问题排查实战10连击
🗂️ 目录 前言:理论掌握只是起点,定位能力才是核心全局排查模型:三步法1️⃣Full GC 频繁触发:老年代压力过大2️⃣ OOM 爆炸:元空间泄漏 or 缓存未清理3️⃣ CPU 飙升却不是 GC:线程阻塞或热方…...
【jvm第8集】jvm调优工具(图形化工具)
文章目录 一、JVM 调优图形化工具分类二、JDK 自带工具JConsoleVisualVM 三、第三方工具MAT(Memory Analyzer Tool)JProfiler(商业工具)YourKit(商业工具) 四、APM工具全链路监控与智能运维(AIO…...
Python测试单例模式
单例模式的核心思想 单例模式确保一个类只有一个实例,并提供一个全局访问点。这在需要控制资源访问(如配置文件、数据库连接等)时非常有用。 一个简单的示例: import threading import timeclass Singleton:instance Nonelock…...
多技术栈 iOS 项目的性能调试实战:从 Flutter 到 Unity(含 KeyMob 工具实测)
多技术栈 iOS 项目的性能调试实战:从 Flutter 到 Unity 随着移动端开发日趋多元化,iOS 项目中纯 Objective-C/Swift 已不再是唯一选择。越来越多团队采用 Flutter、React Native、Unity、WebView 混合等方案构建 App。这种“技术栈混合”带来灵活性的同…...
STM32简易计算机设计
运用 A0上拉按钮和 A1 A2下拉按钮设计按键功能 加上独特的算法检测设计,先计算()内在计算乘除在计算加减的值在计算乘除优先级最后计算加减优先级 #include "stm32f10x.h" #include <stdio.h> #include <stdlib.h>…...

GUI实验
题目: 编程包含一个标签和一个按钮,单击按钮时,标签的内容在"你好"和"再见"之间切换。 分析: 导入所需的Java库:程序使用了 javax.swing 包中的一些类来创建图形用户界面。 创建一个 JFrame 对象…...

量子计算 | 量子密码学的挑战和机遇
量子计算在密码学中的应用现主要体现在对现有加密算法的威胁上。最著名的例子是Shor算法,该算法能够在多项式时间内分解大整数,从而威胁到基于大数分解的加密算法,如RSA加密。此外,量子计算还可以加速某些类型的密码分析ÿ…...
linux系统查看硬盘序列号
Linux系统查看硬盘信息指南 方法一:hdparm工具 sudo hdparm -i /dev/sda输出示例:在返回信息中查找"SerialNo"字段为序列号,"Model"字段为硬盘型号注意:必须使用root权限,普通用户需在命令前加s…...

分享一些多模态文档解析思路
多模态文档解析思路小记 作者:Arlene 原文:https://zhuanlan.zhihu.com/p/1905635679293122466 多模态文档解析内容涉及:文本、表格和图片 解析思路v1 基于mineru框架对pdf文件进行初解析 其具备较完整的布局识别和内容识别,并将…...
CSS 选择器入门
一、CSS 选择器基础:快速掌握核心概念 什么是选择器? CSS 选择器就像 “网页元素的遥控器”,用于定位 HTML 中的特定元素并应用样式。 /* 结构:选择器 { 属性: 值; } */ p { color: red; } /* 选择所有<p>元素,…...
【Django】Django DRF 中如何手动调用分页器返回分页数据(APIView,action场景)
📦 Django DRF 中如何手动调用分页器返回分页数据(APIView,action场景) 在使用 Django REST Framework(DRF)时,很多人习惯了用 GenericAPIView 或 ViewSet 自动帮我们处理分页。但在某些场景中…...

AI知识梳理——RAG、Agent、ReAct、LangChain、LangGraph、MCP、Function Calling、JSON-RPC
AI技术I AI技术II RAG 📌 高度凝练表达 RAG (检索增强生成)是一种结合信息检索与生成式人工智能的技术框架,旨在提升大型语言模型(LLM)的输出准确性和实用性。通过在生成响应前引入外部知识库的信息&#…...
Vue组件通信方式及最佳实践
1. Props / 自定义事件 (父子通信) 使用场景 父子组件直接数据传递 代码实现 <!-- Parent.vue --> <template><Child :message"parentMsg" update"handleUpdate" /> </template><script setup> import { ref } from vue…...

【实用教程】如何快速搭建一套私有的埋点系统?
这篇教程将基于开源项目-ClkLog,教大家快速搭建一套自有的埋点系统,从0开始完成数据采集、分析与展示,全流程掌控用户行为数据。 ClkLog是一款支持私有化部署的全开源用户行为数据采集与分析系统,兼容Web、App、小程序多端埋点&am…...

深入解析 Uniswap:自动做市商模型的数学推导与智能合约架构
目录 1. 自动做市商(AMM)模型的数学推导1.1 恒定乘积公式推导1.2 价格影响与滑点 2. Uniswap 智能合约架构解析2.1 核心合约(Core)2.1.1 工厂合约(Factory)2.1.2 交易对合约(Pair) 2…...
spring配置并使用rabbitmq
本篇博客默认你已经成功安装了rabbitmq。如未安装,可参照官网https://www.rabbitmq.com/docs/platforms,选择对应平台进行安装 一、虚拟主机 虚拟主机的概念: 虚拟主机不是指vm虚拟机,而是指一个通过逻辑进行资源隔离和分区的机…...
Android开发——不同布局的定位属性 与 通用属性
目录 不同布局的定位属性1. 线性布局(LinearLayout)2. 相对布局(RelativeLayout)3. 约束布局(ConstraintLayout)4. 表格布局(TableLayout)5. 网格布局(GridLayout&#x…...

React 19版本refs也支持清理函数了。
文章目录 前言一、refs 支持清理函数二、案例演示1.useEffect写法2.React 19改进 的ref写法 总结 前言 React 19版本发布了ref支持清理函数了,这样就可以达到useEffect一样的效果了。为啥需要清理函数呢,这是因为节约内存。 清理事件监听(避…...
Python高效网络爬虫开发指南
Python 网络爬虫入门与实战 一、引言 随着互联网数据的爆炸性增长,获取和分析这些数据变得越来越重要。网络爬虫作为数据采集的重要工具,在这其中扮演了不可或缺的角色。 二、环境搭建 首先我们需要安装Python环境以及一些必要的库: req…...
Python爬虫实战:获取国家统计网最新消费数据并分析,为从业者做参考
一、系统定义与架构设计 1.1 系统定义 本系统基于 Python 爬虫技术构建,实现国家数据网消费数据的自动化获取、清洗、分析及可视化。通过定义标准化的数据采集流程、反爬策略、数据分析模型,为经济研究、行业分析等场景提供数据支持。 1.2 架构设计 数据采集层 --> 数据…...
Python中使用uv创建环境及原理详解
Python中使用uv创建环境及原理详解 摘要:本文详细介绍uv工具的功能、安装及使用方法,重点阐述如何利用uv创建和管理Python环境,并深入分析其工作原理。uv作为一款高性能的Python包和项目管理器,凭借其快速的依赖解析、内置虚拟环…...

阿尔泰科技助力电厂——520为爱发电!
当城市的霓虹在暮色中亮起,当千万个家庭在温暖中共享天伦,总有一群默默的 "光明守护者" 在幕后坚守 —— 它们是为城市输送能量的电厂,更是以科技赋能电力行业的阿尔泰科技。值此 520 爱意满满的日子,阿尔泰科技用硬核技…...
【Golang笔记02】函数、方法、泛型、接口学习笔记
Golang笔记02:函数、方法、泛型、接口学习笔记 一、进阶学习 1.1、函数 go中的函数使用func关键字进行定义,go程序的入口函数叫做:main,并且必须是属于main包里面。 1.1.1、定义函数 (1)普通函数 go中…...