linux系统服务器中常见故障及排查方法
目录
故障1:系统无响应
故障2:网络连接问题
故障3:文件系统错误
故障4:软件包依赖问题
故障5:用户权限问题
故障6:服务无法正常工作
故障7:磁盘空间不足
故障8:内存不足
故障9:服务端口被占用
故障10:防火墙和安全组问题
故障1:系统无响应
-
可能原因:资源耗尽、进程冲突、硬件故障等。
-
排查方法:
-
使用
top、htop或free -h命令检查系统资源使用情况
root@fylog001:~# top
top - 11:23:31 up 46 days, 23:38, 1 user, load average: 0.00, 0.01, 0.00
Tasks: 156 total, 1 running, 155 sleeping, 0 stopped, 0 zombie
%Cpu(s): 0.1 us, 0.1 sy, 0.0 ni, 99.8 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 16431740 total, 940580 free, 1922844 used, 13568316 buff/cache
KiB Swap: 0 total, 0 free, 0 used. 14119512 avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 1528 root 10 -10 1153656 24084 2276 S 0.3 0.1 180:53.36 AliDetect 8292 root 10 -10 117128 15572 10396 S 0.3 0.1 150:16.64 AliYunDun 8303 root 10 -10 137980 2304 0 S 0.3 0.0 197:15.24 AliYunDunMonito 8805 root 20 0 5882368 403512 4624 S 0.3 2.5 46:00.51 java
25413 root 20 0 690340 12256 8180 S 0.3 0.1 53:15.80 aliyun-service
31180 root 20 0 2193756 13052 11080 S 0.3 0.1 275:12.95 argusagent 1 root 20 0 184908 4972 3308 S 0.0 0.0 0:27.71 systemd 2 root 20 0 0 0 0 S 0.0 0.0 0:00.31 kthreadd 3 root 20 0 0 0 0 S 0.0 0.0 0:10.57 ksoftirqd/0 5 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 kworker/0:0H 7 root 20 0 0 0 0 S 0.0 0.0 27:04.35 rcu_sched 8 root 20 0 0 0 0 S 0.0 0.0 0:00.00 rcu_bh 9 root rt 0 0 0 0 S 0.0 0.0 0:00.03 migration/0 10 root rt 0 0 0 0 S 0.0 0.0 0:06.02 watchdog/0 11 root rt 0 0 0 0 S 0.0 0.0 0:04.28 watchdog/1
root@fylog001:~# free -htotal used free shared buff/cache available
Mem: 15G 1.8G 913M 3.7M 12G 13G
Swap: 0B 0B 0B
- 使用
ps命令检查是否有异常进程
root@fylog001:~# ps axu
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
root 1 0.0 0.0 184908 4972 ? Ss Mar25 0:27 /sbin/init
root 2 0.0 0.0 0 0 ? S Mar25 0:00 [kthreadd]
root 3 0.0 0.0 0 0 ? S Mar25 0:10 [ksoftirqd/0]
root 5 0.0 0.0 0 0 ? S< Mar25 0:00 [kworker/0:0H]
root 7 0.0 0.0 0 0 ? S Mar25 27:04 [rcu_sched]
root 8 0.0 0.0 0 0 ? S Mar25 0:00 [rcu_bh]
root 9 0.0 0.0 0 0 ? S Mar25 0:00 [migration/0]
root 10 0.0 0.0 0 0 ? S Mar25 0:06 [watchdog/0]
root 11 0.0 0.0 0 0 ? S Mar25 0:04 [watchdog/1]
root 12 0.0 0.0 0 0 ? S Mar25 0:00 [migration/1]
root 13 0.0 0.0 0 0 ? S Mar25 0:04 [ksoftirqd/1]
- 检查硬件状态,如内存、硬盘等。
- 解决方法:
-
重启系统或关闭不必要的进程。
-
升级硬件或增加系统资源。
-
故障2:网络连接问题
-
可能原因:网络配置错误、防火墙设置、网络设备故障等。
-
排查方法:
-
使用
ping、traceroute命令检查网络连接。
root@fylog001:~# ping www.baidu.com
PING www.a.shifen.com (220.181.38.150) 56(84) bytes of data.
64 bytes from 220.181.38.150: icmp_seq=1 ttl=53 time=7.40 ms
64 bytes from 220.181.38.150: icmp_seq=2 ttl=53 time=7.40 ms
64 bytes from 220.181.38.150: icmp_seq=3 ttl=53 time=7.41 ms
64 bytes from 220.181.38.150: icmp_seq=4 ttl=53 time=7.37 ms
-
检查网络配置文件(如
/etc/network/interfaces或/etc/sysconfig/network-scripts/下的文件)。 -
检查防火墙设置(如
iptables或firewalld)。
root@fylog001:~# iptables -L
Chain INPUT (policy ACCEPT)
target prot opt source destination Chain FORWARD (policy DROP)
target prot opt source destination
DOCKER-USER all -- anywhere anywhere
DOCKER-ISOLATION-STAGE-1 all -- anywhere anywhere
ACCEPT all -- anywhere anywhere ctstate RELATED,ESTABLISHED
DOCKER all -- anywhere anywhere
ACCEPT all -- anywhere anywhere
ACCEPT all -- anywhere anywhere
ACCEPT all -- anywhere anywhere ctstate RELATED,ESTABLISHED
DOCKER all -- anywhere anywhere
ACCEPT all -- anywhere anywhere
ACCEPT all -- anywhere anywhere
root@fylog001:~# systemctl status firewalld.service
-
解决方法:
-
修复网络配置或重启网络服务。
-
调整防火墙规则或重启防火墙服务。
-
故障3:文件系统错误
-
可能原因:磁盘故障、文件系统损坏、不正常关机等。
-
排查方法:
-
使用
fsck命令检查并修复文件系统
root@fylog001:~# fsck
fsck from util-linux 2.27.1
e2fsck 1.42.13 (17-May-2015)
/dev/vda1 is mounted.
-
检查磁盘状态(如使用
smartctl)。 -
解决方法:
-
修复文件系统或恢复备份数据。
-
更换损坏的硬盘。
-
故障4:软件包依赖问题
-
可能原因:依赖关系不完整、版本不匹配等。
-
排查方法:
-
使用包管理器(如
apt、yum或dnf)检查依赖关系。 -
解决方法:
-
更新软件包或安装缺失的依赖包。
-
手动调整软件包依赖关系。
-
故障5:用户权限问题
-
可能原因:权限不足。
-
排查方法:
-
使用
ls -l命令检查文件或目录的权限。
root@fylog001:/etc# ls -l
total 844
-rw-r--r-- 1 root root 3028 Feb 27 2019 adduser.conf
-rw-r--r-- 1 root root 18 Oct 25 2021 adjtime
drwxr-xr-x 2 root root 4096 Oct 25 2021 alternatives
drwxr-xr-x 3 root root 4096 Oct 25 2021 apm
drwxr-xr-x 3 root root 4096 May 10 10:59 apparmor
drwxr-xr-x 8 root root 4096 May 10 10:59 apparmor.d
drwxr-xr-x 7 root root 4096 May 10 11:02 apt
-rw-r----- 1 root daemon 144 Jan 15 2016 at.deny
-rw-r--r-- 1 root root 2188 Sep 1 2015 bash.bashrc
-
解决方法:
-
修改文件或目录的权限(如使用
chmod命令)。 -
使用具有足够权限的用户执行操作。
-
故障6:服务无法正常工作
-
可能原因:软件配置错误、版本不兼容、资源耗尽等。
-
排查方法:
-
检查服务的配置文件和日志文件。
-
使用
systemctl命令检查服务状态。
root@fylog001:/etc# systemctl status ssh
● ssh.service - OpenBSD Secure Shell serverLoaded: loaded (/lib/systemd/system/ssh.service; enabled; vendor preset: enabled)Active: active (running) since Mon 2024-03-25 11:44:40 CST; 1 months 16 days agoMain PID: 955 (sshd)Tasks: 1Memory: 928.0KCPU: 112msCGroup: /system.slice/ssh.service└─955 /usr/sbin/sshd -D
-
解决方法:
-
修复配置文件或重启服务。
-
升级软件或调整配置以适应环境。
-
故障7:磁盘空间不足
-
排查方法:
-
使用
df -h命令查看磁盘使用情况。
root@fylog001:/etc# df -h
Filesystem Size Used Avail Use% Mounted on
udev 7.9G 0 7.9G 0% /dev
tmpfs 1.6G 3.8M 1.6G 1% /run
/dev/vda1 394G 15G 363G 4% /
tmpfs 7.9G 0 7.9G 0% /dev/shm
tmpfs 5.0M 0 5.0M 0% /run/lock
tmpfs 7.9G 0 7.9G 0% /sys/fs/cgroup
-
解决方法:
-
清理不必要的文件或目录。
-
增加磁盘空间或扩展分区。
-
故障8:内存不足
-
排查方法:
-
使用
free -m命令查看内存使用情况。
root@fylog001:/etc# free -mtotal used free shared buff/cache available
Mem: 16046 1881 908 3 13256 13783
Swap: 0 0 0
-
解决方法:
-
关闭不必要的进程或服务。
-
升级硬件或增加虚拟内存。
-
故障9:服务端口被占用
-
排查方法:
-
使用
netstat -tuln命令查看端口占用情况。
root@fylog001:~# netstat -tulnp
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address Foreign Address State PID/Program name
tcp 0 0 0.0.0.0:3306 0.0.0.0:* LISTEN 12199/docker-proxy
tcp 0 0 127.0.0.1:42859 0.0.0.0:* LISTEN 21096/hbrclient
tcp 0 0 0.0.0.0:6379 0.0.0.0:* LISTEN 8207/redis-server 0
tcp 0 0 0.0.0.0:22 0.0.0.0:* LISTEN 955/sshd
-
解决方法:
-
停止占用端口的进程或服务。
-
配置服务使用其他端口。
-
故障10:防火墙和安全组问题
-
排查方法:
-
检查防火墙规则和安全组设置。
-
解决方法:
-
调整防火墙规则或安全组设置以允许必要的通信。
-
请注意,以上只是一些常见的故障和排查方法,实际情况可能因系统和环境的不同而有所差异。在排查和解决故障时,应根据具体的错误信息和日志进行分析和处理。
相关文章:
linux系统服务器中常见故障及排查方法
目录 故障1:系统无响应 故障2:网络连接问题 故障3:文件系统错误 故障4:软件包依赖问题 故障5:用户权限问题 故障6:服务无法正常工作 故障7:磁盘空间不足 故障8:内存不足 故障…...
产品人生(5):从“敏捷开发”到“四化时间管理法”
人生如产品,产品映人生,借鉴产品思维,快速提升软技能! 在互联网的敏捷开发实践中,经常会用到“流程化、模板化、清单化、不断优化”的思想来提升开发的效率和产品质量,并确保团队能够快速响应市场变化。大…...
超级好看的html网站维护源码
源码介绍 好看的html网站维护源码,源码由HTMLCSSJS组成,记事本打开源码文件可以进行内容文字之类的修改,双击html文件可以本地运行效果,也可以上传到服务器里面, 源码截图 源码下载 好看的html网站维护源码...
从零开始搭建Springboot项目脚手架2:配置文件、返回值、日志等
1、多个环境与配置文件 2、统一返回值 返回值包括两种场景:正常controller的返回、异常发生之后返回 正常controller的返回:通过在controller的默认返回Response实现 异常发生之后返回:通过全局异常处理统一捕获返回 首先创建类StatusCode…...
Java web第五次作业
1.在idea中配置好数据源 2、视频案例中只给出了查询所有结果的示例,请自己完成添加、删除、修改操作的代码。以下供参 考。 Delete("delete from emp where id#{id}") public void delete(Integer id); 测试代码 Test public void testDelete(){ empMa…...
Unity使用ToggleGroup对多个Toggle进行管理时,初始化默认选项失效的问题
问题描述: 在unity脚本的OnEnable中用代码设置Toggle集合中的其中一个对象的ison时,发现并没有根据设置发生变化。但是该Toggle的OnValueChange却发生过变化。 如果使用协程等待0.01s,那么对应组件的ison的修改才能生效,但是逐帧分析的话会发…...
Retrofit同步请求直接返回目标对象
Rxjava方式: // 创建 Retrofit 实例 Retrofit retrofit new Retrofit.Builder().baseUrl("https://api.example.com/").addConverterFactory(GsonConverterFactory.create()).addCallAdapterFactory(RxJava2CallAdapterFactory.create()).build();// 创…...
Android GPU渲染屏幕绘制显示基础概念(1)
Android GPU渲染屏幕绘制显示基础概念(1) Android中的图像生产者OpenGL,Skia,Vulkan将绘制的数据存放在图像缓冲区中,Android中的图像消费SurfaceFlinger从图像缓冲区将数据取出,进行加工及合成。 Surface…...
Mac电脑设置hosts的方法
hosts文件是什么 hosts文件是一个系统文件,通过绑定域名与ip的关系,当本机访问该域名时 从这个文件中如果找到了对应域名,则转发到对应ip;如果没有找到对应域名,则走默认的DNS公网解析。 好处: 加速访问…...
数据分析——大数据伦理风险分析
大数据伦理风险分析 前言一、大数据伦理二、大数据技术伦理风险算法安全性、可信赖性及稳定性风险及其应对算法风险的表现算法风险的危害算法风险的应对 算法的可解释性风险及其应对算法可解释性风险的内容算法可解释性风险的损害算法可解释性风险的应对 算法的决策不可预见性风…...
漫谈AI时代的手机
以chatGPT 为代表的大语言的横空出世使人们感受到AI 时代的到来,大语言模型技术的最大特点是机器开始”懂人话“,”说人话“了。如同任何一个革命性工具的出现一样,它必将改变人类生活和工作。 在这里。我谈谈AI时代的手机。 语音通信的历史…...
fatal error: ros/ros.h: 没有那个文件或目录
解决方法: 在出错的文件的包下的CMakeLists.txt文件里,加上 find_package(catkin REQUIRED COMPONENTSroscpp )include_directories(include ${catkin_INCLUDE_DIRS} )【ROS-解决问题】 fatal error: ros/ros.h: 没有那个文件或目录-CSDN博客...
苍穹外卖Day06笔记(复习了jwt的加密解密和传递)
疯玩了一个月,效率好低,今天开始捡起来苍穹外卖~ 1. 为什么不需要单独引入HttpClient的dependency? 因为我们在sky-common的pom.xml中已经引入了aliyun-sdk-oss的依赖,而这个依赖低层就引入了httpclinet的依赖,根据依…...
【ARM 嵌入式 C 字符串系列 23.9 -- strcmp 与 strncmp 在使用上的区别以及注意事项】
请阅读【嵌入式开发学习必备专栏】 文章目录 strcmp 与 strncmp 使用介绍strcmpstrncmp使用建议 strcmp 与 strncmp 使用介绍 strcmp 和 strncmp 都是 C 语言标准库中用于比较两个字符串的函数,它们定义在 <string.h> 头文件中。这两个函数在功能上相似&…...
行列视(RCV):企业数据处理的革新工具
在当前数据驱动的商业生态系统中,行列视(RCV)系统以其创新的企业数据处理功能,不断地为各行各业的企业带来变革。行列视系统能够处理大规模数据集,支持多达400种Excel函数,使得数据处理不仅限于基本的表格操…...
Oracle Patch清理
场景: 在对Oracle安装补丁后,会发现OS上被占用了大量的空间,本文档清理Opatch过程中的一些文件,释放空间 参考文档: Can You Delete $ORACLE_HOME/.patch_storage Directory ? (Doc ID 403218.1) How To Avoid Disk …...
Redis-三主三从高可用集群搭建
正式搭建之前,注意事项(坑)提前放到最开始,也可以出问题回来看, (1)第二步中最好将配置文件中的logfile自定义一个目录,以便于在第五步中启动出错的时候迅速定位错误。 ࿰…...
ImageMagick
Linux 安装 sudo apt install php8.2-imagick Windows 安装 下载 ImageMagick ImageMagick – Download 安装并将 D:\Program Files\ImageMagick-7.1.1-Q16-HDRI 加入到系统环境变量 path 中, 或者将 CORE_RL_*.dll 复制到 c:\windows\system32 下 下载 php 扩展…...
攻防世界-web-command_execution
题目: 原理: | 的作用为将前一个命令的结果传递给后一个命令作为输入 &&的作用是前一条命令执行成功时,才执行后一条命令 方法一: 第一步: 1.打开浏览器,在文本框内输入127.0.0.1 | find / -name…...
go语言自定义排序接口Interface实现示例 sort.Sort(data Interface) 快速排序 pdqsort
go语言sort.Sort(data Interface) 排序接口自定义排序实现,golang里面的sort包中的Sort方法底层使用的是 pdqsort的一个快速排序算法, 我们可以将要排序的对象实现Interface接口后直接丢个这个函数即可自动按照我们指定的方式进行数据快速排序。 sort函…...
QMCDecode:终极macOS QQ音乐加密格式免费转换解决方案
QMCDecode:终极macOS QQ音乐加密格式免费转换解决方案 【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac,qmc0,qmc3转mp3, mflac,mflac0等转flac),仅支持macOS,可自动识别到QQ音乐下载目录,默认转…...
PCL2启动器完整使用指南:从零开始打造个性化Minecraft体验
PCL2启动器完整使用指南:从零开始打造个性化Minecraft体验 【免费下载链接】PCL Minecraft 启动器 Plain Craft Launcher(PCL)。 项目地址: https://gitcode.com/gh_mirrors/pc/PCL PCL2启动器是一款功能强大的Minecraft游戏启动工具&…...
Qobuz-DL:从命令行到高保真音乐库的完整构建指南
Qobuz-DL:从命令行到高保真音乐库的完整构建指南 【免费下载链接】qobuz-dl A complete Lossless and Hi-Res music downloader for Qobuz 项目地址: https://gitcode.com/gh_mirrors/qo/qobuz-dl 在数字音乐日益普及的今天,音乐爱好者们对音质的…...
ModTheSpire终极指南:深入解析杀戮尖塔模组加载器核心架构
ModTheSpire终极指南:深入解析杀戮尖塔模组加载器核心架构 【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire ModTheSpire是一款专为《杀戮尖塔》游戏设计的专业级模组加载器&…...
构建私有数字生命线:Go+SQLite+Vue3实现端到端加密个人数据管理
1. 项目概述:一个为个人数字生活打造的“生命线”最近在整理自己的数字资产时,我意识到一个严重问题:我的照片、文档、笔记、代码片段,以及各种服务的账号密码,分散在手机、电脑、云盘和无数个在线服务里。一旦某个设备…...
ESP8266定时开关进阶玩法:不用写App,用微信小程序也能远程+定时控制
ESP8266智能控制新思路:用微信小程序替代原生App的完整实践指南 在物联网项目开发中,ESP8266因其高性价比和丰富的功能库成为智能硬件开发的首选。然而,传统方案往往需要用户安装专用App,这不仅增加了用户使用门槛,也提…...
3分钟快速上手:AcFunDown视频下载工具完整指南
3分钟快速上手:AcFunDown视频下载工具完整指南 【免费下载链接】AcFunDown 包含PC端UI界面的A站 视频下载器。支持收藏夹、UP主视频批量下载 😳仅供交流学习使用喔 项目地址: https://gitcode.com/gh_mirrors/ac/AcFunDown AcFunDown是一款专为A站…...
新型AirSnitch攻击可绕过家庭、办公室及企业Wi
很难夸大Wi-Fi在生活各个层面所扮演的角色。负责管理这一无线协议的组织表示,自上世纪90年代末Wi-Fi问世以来,已有超过480亿台支持Wi-Fi的设备出货。有估计显示,全球Wi-Fi用户数量约达60亿,占世界总人口的70%左右。尽管人们对Wi-F…...
从焦耳热到激光加热:COMSOL多物理场接口全解析,手把手教你选对模块
从焦耳热到激光加热:COMSOL多物理场接口全解析与实战选型指南 当你在COMSOL Multiphysics中新建模型时,面对AC/DC、RF、波动光学等十几个模块和数十种多物理场接口,是否曾感到无从下手?特别是在电热耦合分析领域,焦耳热…...
U-Net与自编码器在医学图像分割与特征提取中的实战应用
1. 项目概述:从像素到洞察的桥梁在医学影像分析领域,我们每天面对的是海量的CT、MRI、病理切片图像。对于临床医生和研究员而言,仅仅“看到”图像是不够的,关键在于“理解”和“量化”。比如,一张肺部CT中,…...
