当前位置：首页 > news >正文

指定训练使用的GPU个数，没有指定定gpu id，训练在其中两个gpu上执行，但是线程id分布在所有4个gpu上，为什么？如何解决？

news 2026/4/14 8:26:26

问题背景

1 线程id分布在所有gpu（包括未启用的gpu）上原因：

2 在解决这个问题时，可以采取以下步骤：

3 修正深度学习框架默认使用所有可见 GPU 的问题

1 TensorFlow：

2 PyTorch：

3 Keras：

问题背景

多GUP训练深度学习模型时指定训练使用的GPU个数，没有指定gpu id，训练在其中两个gpu上执行，但是线程id分布在所有4个gpu上，如下图

1 线程id分布在所有gpu（包括未启用的gpu）上原因：

深度学习框架默认使用所有可见GPU： 一些深度学习框架在初始化时默认会使用所有可见的GPU。即使你在代码中明确指定了两个GPU，框架仍可能会在所有四个GPU上启动线程。这是一种默认行为，你需要通过框架的配置来明确指定使用的GPU。

并行计算框架的默认设置： 如果你使用了并行计算框架（例如MPI），它们可能会默认使用所有可见的GPU。在这种情况下，需要查看并行框架的配置，确保只在指定的GPU上进行计算。

未正确设置GPU环境变量： 确保你在代码执行之前正确设置了GPU环境变量。例如，在使用CUDA的情况下，使用 CUDA_VISIBLE_DEVICES 环境变量可以指定可见的GPU。

查看代码中的设置： 检查你在代码中指定GPU的设置是否正确。有时候，代码中的设置可能被其他部分的配置或默认设置覆盖。

检查框架版本和文档： 确保你使用的深度学习框架的版本是最新的，并查看框架的文档，以了解正确的GPU设置方式。

2 在解决这个问题时，可以采取以下步骤：

在代码中正确设置 GPU 个数： 使用框架提供的设置来确保代码在指定数量的 GPU 上运行。有些框架提供了类似 torch.cuda.set_device 或 tf.config.experimental.set_visible_devices 的函数，允许你指定 GPU 的数量而不是具体的 GPU ID。

检查并行计算设置： 如果使用了并行计算框架，查看框架的文档，了解它是如何分配线程和任务的。

检查环境变量和配置文件： 查看环境变量和框架的配置文件，确保没有默认设置导致在所有 GPU 上启动线程。

查看代码中的其他设置： 检查代码中的其他设置，确保没有其他部分的配置或默认设置覆盖了你的 GPU 设置。

确保在调试和解决问题时，仔细查看相关的文档和配置信息，以确保代码按照你的预期方式运行。

3 修正深度学习框架默认使用所有可见 GPU 的问题

你需要在代码中明确指定使用的 GPU。具体的方法可能取决于你使用的深度学习框架。以下是一些常见框架的修正方法：

1 TensorFlow：

在 TensorFlow 中，可以使用 tf.config.experimental.set_visible_devices 来设置可见的 GPU 设备。同时，你可以使用 tf.config.experimental.set_memory_growth 来设置 GPU 内存的增长。以下是一个例子：

import tensorflow as tf# 选择你要使用的 GPU
gpu_ids = [0, 1]  # 选择两个 GPU
tf.config.experimental.set_visible_devices(gpu_ids, 'GPU')# 设置 GPU 内存增长
for gpu_id in gpu_ids:tf.config.experimental.set_memory_growth(tf.config.list_physical_devices('GPU')[gpu_id], True)

这将确保 TensorFlow 只在指定的 GPU 上启动线程。

2 PyTorch：

在 PyTorch 中，可以使用 torch.cuda.set_device 来设置当前设备。以下是一个例子：

import torch# 选择你要使用的 GPU
gpu_ids = [0, 1]  # 选择两个 GPU
torch.cuda.set_device(gpu_ids[0])  # 设置当前设备# 在这之后，PyTorch 的操作将在指定的 GPU 上执行

这将确保 PyTorch 只在指定的 GPU 上启动线程。

3 Keras：

如果你使用 Keras，可以结合使用 TensorFlow 的配置来控制 GPU 的使用。以下是一个例子：

import tensorflow as tf
from keras import backend as K# 选择你要使用的 GPU
gpu_ids = [0, 1]  # 选择两个 GPU
tf.config.experimental.set_visible_devices(gpu_ids, 'GPU')# 设置 GPU 内存增长
for gpu_id in gpu_ids:tf.config.experimental.set_memory_growth(tf.config.list_physical_devices('GPU')[gpu_id], True)# 设置 Keras 使用的后端为 TensorFlow
K.set_session(tf.compat.v1.Session())

确保在设置 GPU 之前初始化框架的配置。这样，你就可以明确指定使用的 GPU，而不会默认使用所有可见的 GPU。

指定训练使用的GPU个数，没有指定定gpu id，训练在其中两个gpu上执行，但是线程id分布在所有4个gpu上，为什么？如何解决？

目录问题背景 1 线程id分布在所有gpu（包括未启用的gpu）上原因： 2 在解决这个问题时，可以采取以下步骤： 3 修正深度学习框架默认使用所有可见 GPU 的问题 1 TensorFlow： 2 PyTorch： 3 K…...

编程日记 2023/11/26 14:29:31

PPT 遇到问题总结（修改页码统计）

PPT常见问题 1. 修改页码自动计数 1. 修改页码自动计数点击视图——>幻灯片母版——>下翻找到计数页直接修改——>关闭母版视图...

编程日记 2023/11/26 14:28:30

Matplotlib子图的创建_Python数据分析与可视化

Matplotlib子图的创建 plt.axes创建子图fig.add_axes()创建子图 plt.axes创建子图前面已经介绍过plt.axes函数，这个函数默认配置是创建一个标准的坐标轴，填满整张图。它还有一个可选的参数，由图形坐标系统的四个值构成。这四个值表示为坐…...

编程日记 2023/11/26 14:27:29

VM虚拟机中Ubuntu14.04安装VM tools后仍不能全屏显示

1、查看Ubuntu所支持的分辨率大小。在终端处输入： xrandr，回车 2、输入你想设置的分辨率参数。我设置的为1360x768，大家可以根据自己的具体设备设置。在终端输入：xrandr -s 1360x768 注意：这里1360后边是字母 x 且…...

编程日记 2023/11/26 14:25:28

序本文主要研究一下httpclient的connect HttpClientConnectionOperator org/apache/http/conn/HttpClientConnectionOperator.java public interface HttpClientConnectionOperator {void connect(ManagedHttpClientConnection conn,HttpHost host,InetSocketAddress loca…...

编程日记 2023/11/26 14:24:27

处理视频的新工具:UniFab 2.0.0.4 Crack

UniFab这是一个用于处理视频的新工具，可以帮助您像专业人士一样获得结果，事实上，它可以确保在项目的任何设备上完美播放，所以，来认识一下 UniFab - 一款功能强大且方便的视频编辑器和转换器，但另一方面&…...

编程日记 2023/11/26 14:22:25

设计模式—开闭原则

1.背景伯特兰迈耶一般被认为是最早提出开闭原则这一术语的人，在他1988年发行的《面向对象软件构造》中给出。这一想法认为一旦完成，一个类的实现只应该因错误而修改，新的或者改变的特性应该通过新建不同的类实现。新建的类可以通过继承的方…...

编程日记 2023/11/26 14:21:24

【开源】基于Vue和SpringBoot的学校热点新闻推送系统

项目编号： S 047 ，文末获取源码。 \color{red}{项目编号：S047，文末获取源码。} 项目编号：S047，文末获取源码。目录一、摘要1.1 项目介绍1.2 项目录屏二、功能模块2.1 新闻类型模块2.2 新闻档案模块2.3 新…...

编程日记 2023/11/26 14:20:24

Java，File类与IO流，处理流：缓冲流、转换流、数据流、对象流

目录处理流之一：缓冲流四种缓冲流： 缓冲流的作用： 使用的方法： 处理文本文件的字符流： 处理非文本文件的字节流： 操作步骤： 处理流之二：转换流转换流的使用： …...

编程日记 2023/11/26 14:19:22

【电路笔记】-分压器

分压器文章目录分压器1、概述2、负载分压器3、分压器网络4、无功分压器4.1 电容分压器4.2 感应分压器 5、总结有时，需要精确的电压值作为参考，或者仅在需要较少功率的电路的特定阶段之前需要。分压器是解决此问题的一个简单方法，因为它们…...

编程日记 2023/11/26 14:18:22

音视频5、libavformat-3

8、设置I/O中断机制在 demux 时，我们首先需要调用 avformat_open_input() 打开一个输入，然后循环调用 av_read_frame() 函数来读取输入。我们要注意的是： avformat_open_input() 和 av_read_frame() 都是阻塞函数，如果不能读取到足够的数据，那么它们将会一直阻塞…...

编程日记 2023/11/26 14:16:18

前端 HTML 和 JavaScript 的基础知识有哪些？

前端开发是Web开发的一个重要领域，涉及到HTML（Hypertext Markup Language）和JavaScript两个主要的技术。HTML用于定义网页的结构和内容，而JavaScript用于实现网页的交互和动态效果。以下是前端HTML和JavaScript的基础知识&#xf…...

编程日记 2023/11/26 14:14:16

Android平台GB28181设备接入模块开发填坑指南

技术背景为什么要开发Android平台GB28181设备接入模块？这个问题不再赘述，在做Android平台GB28181客户端的时候，媒体数据这块，我们已经有了很好的积累，因为在此之前，我们就开发了非常成熟的RTMP推送、轻量…...

编程日记 2023/11/26 14:13:15

我叫：希尔排序【JAVA】

1.我兄弟存在的问题 2.毛遂自荐希尔排序提希尔(Donald Shell)于1959年提出的一种排序算法。希尔排序，也称递减增量排序算法，是插入排序的一种更高效的改进版本。但希尔排序是非稳定排序算法。希尔排序是基于插入排序的以下两点性质而提出改进方法的&…...

编程日记 2023/11/26 14:11:13

Spring Cloud Gateway 网关跨域问题解决

0、版本说明 Spring Cloud Version：Spring Cloud 2021.0.4 Spring Cloud Gateway Version：3.1.4 Spring Boot Version：2.6.11 1、网关跨域问题说明关于跨域的相关原理和理论，网上有大量文章对此进行说明，因此博主在这…...

编程日记 2023/11/26 14:10:12

C++局域网从服务器获取已连接用户的列表（linux to linux）

目录服务器端代码客户端代码解析服务器端原理遇到的阻碍以及解决办法客户端原理遇到的阻碍以及解决办法运行结果截图总结服务器端代码 #include <sys/types.h> #include <sys/socket.h> #include <stdio.h> #include <netinet…...

编程日记 2023/11/26 14:09:10

c++11新特性篇-可调用对象包装器, 绑定器

可调用对象包装器, 绑定器可调用对象可调用对象是指在 C 中能够像函数一样被调用的实体。它包括了多种类型的对象，使得它们能够像函数一样被调用，可以是函数、函数指针、函数对象、Lambda 表达式等。在C中，具有以下特征之一的实体都被认为…...

编程日记 2023/11/26 14:08:09

论文阅读：“Appearance Capture and Modeling of Human Teeth”

文章目录 AbstractIntroductionMethod OverviewTeeth Appearance ModelEnamelDentinGingiva and oral cavity Data AcquisitionImage captureGeometry capture ResultsReferences Abstract 如果要为电影，游戏或其他类型的项目创建在虚拟环境中显示的人类角色&#…...

编程日记 2023/11/26 14:07:08

初学vue3与ts：路由跳转带参数

index-router  <template><div><div class"title-sub flex"><div>1、用router-link跳转带参数id1：</div><router-link to"./link?id1"><button>点我跳转</button>&…...

编程日记 2023/11/26 14:06:07