关于GPU使用过程中的若干问题
1.CUDA异常
问题描述:运行torch.cuda.is_available()
报错:cuda unknown error - this may be due to an incorrectly set up environment
解决方案:重启
2.nvidia驱动版本不匹配
问题描述:运行nvidis-smi
报错:Failed to initialize NVML: Driver/library version mismatch
解决方案:
- 查看/var/log/apt/history.log,是否有驱动更新记录
- 进行驱动版本的适配
- 驱动版本修改后需要重启才会生效
3.服务器主机acpi报错
问题描述:非正常关机,开机之后报错
报错提示 “ACPI Error: No handler for Region”
1)关闭acpi。步骤如下:
a. 编辑grub菜单项。

b. 编辑linux命令启动行,在末尾添加 acpi=off

c. 按Ctrl+X 保存重启
重启后,终端提示进入emergency mode。
2)修复磁盘
- 执行 journalctl -xb | grep -C 10 "fsck failed"查看错误行和前后几行
- 找到/dev/…损坏的盘
- 执行umount /dev/…
fsck -y /dev/… - reboot
如果重启后,卡在黑屏界面,光标不停闪烁
3)解决驱动问题
参照1),进入grub菜单项,在linux启动行末尾添加 nomodeset。
重启后正常进入图形桌面。
参考链接:
ubuntu出现emergency mode的解决办法
Ubuntu系统启动过程在遇到的黑屏光标闪烁问题解决
4.Ubuntu系统启动异常
问题描述:Ubuntu 20.04 系统启动后,屏幕显示如下,无法进行其他操作:
A start job is running for Hold until boot process finishes up (xxx min xxx s/no limit
解决方案:
- 编辑/etc/default/grub文件,找到 GRUB_CMDLINE_LINUX_DEFAULT=“quiet splash"配置,改为 GRUB_CMDLINE_LINUX_DEFAULT=”"
- 更新 grub2(sudo update-grub)
参考:
Start Job Running for Hold
5.编译CUDNN时出错
问题描述:NVIDA官方网站下载cuDNN,编译mnistCUDNN时
报错:fatal error: FreeImage.h: No such file or directory
解决方案:
sudo apt-get install libfreeimage3 libfreeimage-dev
参考:
编译mnistCUDNN时出错:fatal error: FreeImage.h: No such file or directory
6.服务器重启黑屏
硬件层面:
观察主机的指示灯
(1)指示灯偏黄,硬件存在问题(内存条有静电,拔出后用橡皮擦擦拭;或GPU松动)
- 电源指示灯黄,闪烁三下再闪烁一下,扣下主板上的纽扣电池,过十五秒后再装上
- 开机出现下面的情况:

开机按F2进入BIOS设置,将SATA Configuration设置为AHCI,保存重启就好!
(2)指示灯白色且无闪烁,表明硬件无问题,可能系统存在问题
系统软件层面
在xshell能操控的情况下,运行nvidia-smi,若无法显示,驱动存在问题,需重装
- 卸载驱动 sudo apt-get purge nvidia*
- 添加源 sudo add-apt-repository ppa:graphics-drivers/ppa
- 更新 sudo apt-get update
- 查看可用驱动 ubuntu-drivers devices
- 安装可用驱动 sudo apt-get install nvidia-430
参考:
Ubuntu辊机开机后显卡挂了
7.GPU服务器启动报错分析
问题描述:
重启t640后,可以通过xshell远程连接,但与服务器无法进入图形界面。
(/var目录空间满)
解决方案:
1).采用sudo init 5, 尝试恢复图形界面。恢复后,界面如下:
2).查询失败原因,输入:systemctl status rtkit-daemon.service
3). 清理空间,主要是清理/home, /opt 下面的数据。 清理完成后,重启机器,发现问题依旧.
4). 再次查看空间及inode,研究inode与磁盘空间的关系,无任何发现.
df -h
df -i
5). 采用journalctl -b 检查启动日志
6). 定位到还是空间不够,但不清楚是在哪个device,经朋友指导,定位到/var空间满, 之前注意到各种/snap开头的满了,以为/var满了没有影响.
7). 清理/var空间
将里面1.6G那个目录移走,并建立软链接如下:
相关文章:
关于GPU使用过程中的若干问题
1.CUDA异常 问题描述:运行torch.cuda.is_available() 报错:cuda unknown error - this may be due to an incorrectly set up environment解决方案:重启 2.nvidia驱动版本不匹配 问题描述:运行nvidis-smi 报错:Fa…...
spring之面向切面:AOP(2)
学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…...
【开题报告】基于uniapp的家庭记账小程序的设计与实现
1.研究背景 随着社会经济的发展和人们生活水平的提高,家庭财务管理变得越来越重要。家庭记账是一种重要的财务管理方式,通过记录和分析家庭的收入和支出情况,可以帮助家庭成员更好地理解和掌握自己的财务状况,合理规划和管理家庭…...
HTML5面试题
HTML5面试题 什么是HTML5?它与HTML4有何不同之处? HTML5是HTML的第五个主要版本,它引入了许多新的语义化元素、API和功能,以改进网页的结构、样式、交互和多媒体体验。 HTML5与HTML4的不同之处包括: 引入了一系列新的语…...
树莓派通过网线连接电脑并且设置设置链接wifi
好久没玩过树莓派了,系统进不去了,需要记录一下,之前总觉得自己会了,但是还是需要不断的翻阅资料。 树莓派 配置SD卡开启ssh - 哔哩哔哩 树莓派通过网线连接ssh 直接在sd卡建立一个ssh的文件,不要带任何后戳 ip查…...
C#拼接JSON
一、业务背景 最近项目需要与U8c对接,实现增删改查,借此机会,梳理一下C#解析Json字符串的问题。 这篇文章,先以新增接口为例。 二、新增接口 查看需要传入的json格式。 拼接json,无非就是{}和[]的来回嵌套。 首先&am…...
评价机器学习模型的指标
为了衡量一个机器学习模型的好坏,需要给定一个测试集,用模型对测试集中的每一个样本进行预测,并根据预测结果计算评价分数。 对于分类问题,常见的评价标准有准确率、精确率、召回率和F值等。给定测试集 𝒯 {(…...
C# WPF上位机开发(日志调试)
【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 程序开发的过程中,调试肯定是少不了的。比如说,这个时候,我们可以设置断点、查看变量、检查函数调用堆栈等等。…...
AR室内导航如何实现?技术与原理分析
随着科技的进步,我们生活中许多方面正在被重新定义。其中之一就是导航,尤其是室内导航。增强现实(AR)技术的出现为室内导航带来了革命性的变革。本文将深入探讨AR室内导航的技术与原理,以及它如何改变我们的生活方式。…...
计算机网络:物理层(奈氏准则和香农定理,含例题)
带你速通计算机网络期末 文章目录 一、码元和带宽 1、什么是码元 2、数字通信系统数据传输速率的两种表示方法 2.1、码元传输速率 2.2、信息传输速率 3、例题 3.1、例题1 3.2、例题2 4、带宽 二、奈氏准则(奈奎斯特定理) 1、奈氏准则简介 2、…...
天津仁爱学院专升本化学工程与工艺专业 《无机化学》考试大纲
天津仁爱学院化学工程与工艺专业高职升本入学考试《无机化学》课程考试大纲 一.参考教材 杨宏孝《无机化学简明教程》以及《无机化学简明教程学习指南》,高等教育出版社,2011年版。 二.考试基本要求 本考试要求将《无机化学》…...
GO 的 socks5代理 编写
这里学习一下 socks5 代理的编写 网上有很多 学习一下 go 语言实战入门案例之实现Socks5 - 知乎 滑动验证页面 socks5协议原理学习-腾讯云开发者社区-腾讯云 (tencent.com) 首先我们要了解一下socks5的代理方式 socks5 是基于 认证建立连接转发数据 所形成的代理 我们只…...
MYSQL-简单的联表查询示例
假设我们有两个表,一个是users表,包含用户的ID和姓名;另一个是orders表,包含订单的ID、用户ID和订单金额。我们想要关联这两个表,查询出每个用户的订单总金额。 首先,我们可以使用以下SQL查询获取每个用户…...
Python基于joblib的并行计算进程线程multiprocessing多核并行计算
文章目录 Python基于joblib的并行计算适用场景使用示例总结爬虫&joblib使用`joblib`的场景注意事项使用实例结论joblib介绍简单示例多参数并行并行时CPU是怎么分配的何时选用并行进程&线程进程和线程之间的关系...
左右列的单元格合并
EasyExcel导出合并单元格,左右列的单元格合并 1、导出的实体类,也就是表头 Data public class CityCapacityPo {ExcelProperty(value "时间",index 0)private String time;ExcelProperty(value "出口",index 1)private String …...
机器学习 | 决策树 Decision Tree
—— 分而治之,逐个击破 把特征空间划分区域 每个区域拟合简单模型 分级分类决策 1、核心思想和原理 举例: 特征选择、节点分类、阈值确定 2、信息嫡 熵本身代表不确定性,是不确定性的一种度量。 熵越大,不确定性越高,…...
面试题总结(十四)【系统移植】【华清远见西安中心】
你用过哪些Bootloader?有什么区别? 作为一个AI助手,我没有直接使用过Bootloader。但我可以为您提供一些关于常见Bootloader的信息和他们之间的区别。 1. GRUB (GRand Unified Bootloader):GRUB是一个功能强大且广泛使用的Bootload…...
【Spark精讲】Spark RDD弹性体现在哪些方面?
什么是“弹性”? 一般对于分布式系统,“弹性”指的是可以根据计算规模进行动态伸缩的特性。当计算量增长时,可以动态增加资源来满足计算需求,而当计算量减少时,又可以降低资源配置来节约成本。 参考:什么是…...
【从客户端理解Kafka的使用方式】
文章目录 一、从基础的客户端说起1、消息发送者主流程2、消息消费者主流程 二、从客户端属性来梳理客户端工作机制1、消费者分组消费机制2、生产者拦截器机制3、消息序列化机制4、消息分区路由机制5、生产者消息缓存机制6、发送应答机制 三、客户端流程总结四、SpringBoot集成K…...
『OPEN3D』1.5.4 动手实现点云八叉树(OctoTree)最近邻
本专栏地址: https://blog.csdn.net/qq_41366026/category_12186023.html?spm=1001.2014.3001.5482 在二维和三维空间中,我们可以采用四叉树(Quad tree)和八叉树(Octree)这两种特定的数据结构来处理空间分割。这些树形结构可以看作是K-d树在不同维度下的扩展。…...
HunyuanVideo-Foley镜像免配置:预置ffmpeg滤镜链实现音效风格化处理
HunyuanVideo-Foley镜像免配置:预置ffmpeg滤镜链实现音效风格化处理 1. 镜像概述与核心优势 HunyuanVideo-Foley私有部署镜像是一款专为视频与音效生成任务优化的解决方案,基于RTX 4090D 24GB显存和CUDA 12.4深度调优。这个镜像的最大特点是开箱即用的…...
示波器测量UART波特率的原理与实践
1. 示波器测量串口波特率的原理与方法 1.1 串口通信基础 在嵌入式系统开发中,UART串口通信是最常用的调试接口之一。正确识别串口波特率对于设备调试和逆向工程具有重要意义。串口通信采用异步传输方式,其关键参数包括: 波特率:…...
效率倍增:用快马平台一键生成极客日报推荐的高效开发工具与脚本
最近在极客日报上看到不少提升开发效率的小技巧,比如用Prettier统一代码风格、配置Git Hooks自动化检查等等。但每次看完想实践时,总得花时间查文档、写配置,挺麻烦的。于是我用InsCode(快马)平台做了个工具生成器,能直接把日报里…...
3大核心功能打造智能游戏体验:League-Toolkit从入门到精通指南
3大核心功能打造智能游戏体验:League-Toolkit从入门到精通指南 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League…...
HackBar插件许可绕过实战:从旧版降级到源码修改
1. HackBar插件许可验证问题解析 最近不少安全测试同行反馈,HackBar插件突然弹出许可验证窗口,导致无法正常使用。这个问题其实从2.2.0版本开始就存在了,开发者加入了商业化验证机制。作为一个用了HackBar五年的老用户,我完全理解…...
cool-admin(midway版)前端错误处理:全局错误边界与日志上报
cool-admin(midway版)前端错误处理:全局错误边界与日志上报 【免费下载链接】cool-admin-midway 🔥 cool-admin(midway版)一个很酷的后台权限管理框架,模块化、插件化、CRUD极速开发,永久开源免费,基于midway.js 3.x、…...
手把手教你用Coze搭个‘论文小助理’:自动摘要、分类,还能给同组同学发Telegram周报
科研团队效率革命:用Coze构建智能论文协作系统 想象一下这样的场景:周五下午,当你的实验室成员正准备结束一周工作时,每个人的手机同时收到一条Telegram消息——本周团队收集的17篇前沿论文已自动完成摘要提取、关键词标记和分类存…...
软件测试高频面试题 2026 最新整理(功能 + 自动化)
目录 一、功能测试高频题(必背) 1. 什么是软件测试?测试的目的是什么? 2. 黑盒测试 vs 白盒测试,区别与适用场景? 3. 测试用例设计方法有哪些?各适合什么场景? 4. 一个完整的测试用例包含哪些要素? 5. 什么是 Bug?Bug 的生命周期是什么? 6. 功能测试的核心流…...
文脉定序详细步骤:自定义prompt模板提升BGE-m3在垂直领域表现
文脉定序详细步骤:自定义prompt模板提升BGE-m3在垂直领域表现 1. 理解文脉定序与BGE-m3的核心价值 文脉定序是一款基于BGE-m3模型的智能语义重排序系统,专门解决传统搜索引擎"搜得到但排不准"的痛点。它通过全交叉注意机制,对问题…...
从温控器到无人机:PID参数整定的‘手感’秘籍,附C语言代码避坑指南
从温控器到无人机:PID参数整定的‘手感’秘籍与实战避坑指南 在工业自动化和智能硬件开发中,PID控制算法就像一位隐形的调音师,默默调节着系统的每一个细微变化。无论是缓慢升温的工业烘箱,还是高速响应的四旋翼无人机,…...
