当前位置: 首页 > news >正文

linux系统服务器中常见故障及排查方法

目录

故障1:系统无响应

故障2:网络连接问题

故障3:文件系统错误

故障4:软件包依赖问题

故障5:用户权限问题

故障6:服务无法正常工作

故障7:磁盘空间不足

故障8:内存不足

故障9:服务端口被占用

故障10:防火墙和安全组问题


故障1:系统无响应

  • 可能原因:资源耗尽、进程冲突、硬件故障等。

  • 排查方法:

  • 使用tophtopfree -h命令检查系统资源使用情况

root@fylog001:~# top
top - 11:23:31 up 46 days, 23:38,  1 user,  load average: 0.00, 0.01, 0.00
Tasks: 156 total,   1 running, 155 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.1 us,  0.1 sy,  0.0 ni, 99.8 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem : 16431740 total,   940580 free,  1922844 used, 13568316 buff/cache
KiB Swap:        0 total,        0 free,        0 used. 14119512 avail Mem PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                                                                                                                                                1528 root      10 -10 1153656  24084   2276 S   0.3  0.1 180:53.36 AliDetect                                                                                                                                                                              8292 root      10 -10  117128  15572  10396 S   0.3  0.1 150:16.64 AliYunDun                                                                                                                                                                              8303 root      10 -10  137980   2304      0 S   0.3  0.0 197:15.24 AliYunDunMonito                                                                                                                                                                        8805 root      20   0 5882368 403512   4624 S   0.3  2.5  46:00.51 java                                                                                                                                                                                   
25413 root      20   0  690340  12256   8180 S   0.3  0.1  53:15.80 aliyun-service                                                                                                                                                                         
31180 root      20   0 2193756  13052  11080 S   0.3  0.1 275:12.95 argusagent                                                                                                                                                                             1 root      20   0  184908   4972   3308 S   0.0  0.0   0:27.71 systemd                                                                                                                                                                                2 root      20   0       0      0      0 S   0.0  0.0   0:00.31 kthreadd                                                                                                                                                                               3 root      20   0       0      0      0 S   0.0  0.0   0:10.57 ksoftirqd/0                                                                                                                                                                            5 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H                                                                                                                                                                           7 root      20   0       0      0      0 S   0.0  0.0  27:04.35 rcu_sched                                                                                                                                                                              8 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcu_bh                                                                                                                                                                                 9 root      rt   0       0      0      0 S   0.0  0.0   0:00.03 migration/0                                                                                                                                                                            10 root      rt   0       0      0      0 S   0.0  0.0   0:06.02 watchdog/0                                                                                                                                                                             11 root      rt   0       0      0      0 S   0.0  0.0   0:04.28 watchdog/1 
root@fylog001:~# free -htotal        used        free      shared  buff/cache   available
Mem:            15G        1.8G        913M        3.7M         12G         13G
Swap:            0B          0B          0B
  • 使用ps命令检查是否有异常进程
root@fylog001:~# ps axu
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root         1  0.0  0.0 184908  4972 ?        Ss   Mar25   0:27 /sbin/init
root         2  0.0  0.0      0     0 ?        S    Mar25   0:00 [kthreadd]
root         3  0.0  0.0      0     0 ?        S    Mar25   0:10 [ksoftirqd/0]
root         5  0.0  0.0      0     0 ?        S<   Mar25   0:00 [kworker/0:0H]
root         7  0.0  0.0      0     0 ?        S    Mar25  27:04 [rcu_sched]
root         8  0.0  0.0      0     0 ?        S    Mar25   0:00 [rcu_bh]
root         9  0.0  0.0      0     0 ?        S    Mar25   0:00 [migration/0]
root        10  0.0  0.0      0     0 ?        S    Mar25   0:06 [watchdog/0]
root        11  0.0  0.0      0     0 ?        S    Mar25   0:04 [watchdog/1]
root        12  0.0  0.0      0     0 ?        S    Mar25   0:00 [migration/1]
root        13  0.0  0.0      0     0 ?        S    Mar25   0:04 [ksoftirqd/1]
  • 检查硬件状态,如内存、硬盘等。
  • 解决方法:
    • 重启系统或关闭不必要的进程。

    • 升级硬件或增加系统资源。

故障2:网络连接问题

  • 可能原因:网络配置错误、防火墙设置、网络设备故障等。

  • 排查方法:

  • 使用pingtraceroute命令检查网络连接。

root@fylog001:~# ping www.baidu.com
PING www.a.shifen.com (220.181.38.150) 56(84) bytes of data.
64 bytes from 220.181.38.150: icmp_seq=1 ttl=53 time=7.40 ms
64 bytes from 220.181.38.150: icmp_seq=2 ttl=53 time=7.40 ms
64 bytes from 220.181.38.150: icmp_seq=3 ttl=53 time=7.41 ms
64 bytes from 220.181.38.150: icmp_seq=4 ttl=53 time=7.37 ms
  • 检查网络配置文件(如/etc/network/interfaces/etc/sysconfig/network-scripts/下的文件)。

  • 检查防火墙设置(如iptablesfirewalld)。

root@fylog001:~# iptables -L
Chain INPUT (policy ACCEPT)
target     prot opt source               destination         Chain FORWARD (policy DROP)
target     prot opt source               destination         
DOCKER-USER  all  --  anywhere             anywhere            
DOCKER-ISOLATION-STAGE-1  all  --  anywhere             anywhere            
ACCEPT     all  --  anywhere             anywhere             ctstate RELATED,ESTABLISHED
DOCKER     all  --  anywhere             anywhere            
ACCEPT     all  --  anywhere             anywhere            
ACCEPT     all  --  anywhere             anywhere            
ACCEPT     all  --  anywhere             anywhere             ctstate RELATED,ESTABLISHED
DOCKER     all  --  anywhere             anywhere            
ACCEPT     all  --  anywhere             anywhere            
ACCEPT     all  --  anywhere             anywhere
root@fylog001:~# systemctl status firewalld.service
  • 解决方法:

    • 修复网络配置或重启网络服务。

    • 调整防火墙规则或重启防火墙服务。

故障3:文件系统错误

  • 可能原因:磁盘故障、文件系统损坏、不正常关机等。

  • 排查方法:

  • 使用fsck命令检查并修复文件系统

root@fylog001:~# fsck
fsck from util-linux 2.27.1
e2fsck 1.42.13 (17-May-2015)
/dev/vda1 is mounted.
  • 检查磁盘状态(如使用smartctl)。

  • 解决方法:

    • 修复文件系统或恢复备份数据。

    • 更换损坏的硬盘。

故障4:软件包依赖问题

  • 可能原因:依赖关系不完整、版本不匹配等。

  • 排查方法:

  • 使用包管理器(如aptyumdnf)检查依赖关系。

  • 解决方法:

    • 更新软件包或安装缺失的依赖包。

    • 手动调整软件包依赖关系。

故障5:用户权限问题

  • 可能原因:权限不足。

  • 排查方法:

  • 使用ls -l命令检查文件或目录的权限。

root@fylog001:/etc# ls -l
total 844
-rw-r--r-- 1 root root    3028 Feb 27  2019 adduser.conf
-rw-r--r-- 1 root root      18 Oct 25  2021 adjtime
drwxr-xr-x 2 root root    4096 Oct 25  2021 alternatives
drwxr-xr-x 3 root root    4096 Oct 25  2021 apm
drwxr-xr-x 3 root root    4096 May 10 10:59 apparmor
drwxr-xr-x 8 root root    4096 May 10 10:59 apparmor.d
drwxr-xr-x 7 root root    4096 May 10 11:02 apt
-rw-r----- 1 root daemon   144 Jan 15  2016 at.deny
-rw-r--r-- 1 root root    2188 Sep  1  2015 bash.bashrc
  • 解决方法

    • 修改文件或目录的权限(如使用chmod命令)。

    • 使用具有足够权限的用户执行操作。

故障6:服务无法正常工作

  • 可能原因:软件配置错误、版本不兼容、资源耗尽等。

  • 排查方法:

  • 检查服务的配置文件和日志文件。

  • 使用systemctl命令检查服务状态。

root@fylog001:/etc# systemctl status ssh
● ssh.service - OpenBSD Secure Shell serverLoaded: loaded (/lib/systemd/system/ssh.service; enabled; vendor preset: enabled)Active: active (running) since Mon 2024-03-25 11:44:40 CST; 1 months 16 days agoMain PID: 955 (sshd)Tasks: 1Memory: 928.0KCPU: 112msCGroup: /system.slice/ssh.service└─955 /usr/sbin/sshd -D
  • 解决方法:

    • 修复配置文件或重启服务。

    • 升级软件或调整配置以适应环境。

故障7:磁盘空间不足

  • 排查方法:

  • 使用df -h命令查看磁盘使用情况。

root@fylog001:/etc# df -h
Filesystem      Size  Used Avail Use% Mounted on
udev            7.9G     0  7.9G   0% /dev
tmpfs           1.6G  3.8M  1.6G   1% /run
/dev/vda1       394G   15G  363G   4% /
tmpfs           7.9G     0  7.9G   0% /dev/shm
tmpfs           5.0M     0  5.0M   0% /run/lock
tmpfs           7.9G     0  7.9G   0% /sys/fs/cgroup
  • 解决方法:

    • 清理不必要的文件或目录。

    • 增加磁盘空间或扩展分区。

故障8:内存不足

  • 排查方法:

  • 使用free -m命令查看内存使用情况。

root@fylog001:/etc# free -mtotal        used        free      shared  buff/cache   available
Mem:          16046        1881         908           3       13256       13783
Swap:             0           0           0
  • 解决方法:

    • 关闭不必要的进程或服务。

    • 升级硬件或增加虚拟内存。

故障9:服务端口被占用

  • 排查方法:

  • 使用netstat -tuln命令查看端口占用情况。

root@fylog001:~# netstat -tulnp
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address           Foreign Address         State       PID/Program name
tcp        0      0 0.0.0.0:3306            0.0.0.0:*               LISTEN      12199/docker-proxy
tcp        0      0 127.0.0.1:42859         0.0.0.0:*               LISTEN      21096/hbrclient 
tcp        0      0 0.0.0.0:6379            0.0.0.0:*               LISTEN      8207/redis-server 0
tcp        0      0 0.0.0.0:22              0.0.0.0:*               LISTEN      955/sshd 
  • 解决方法:

    • 停止占用端口的进程或服务。

    • 配置服务使用其他端口。

故障10:防火墙和安全组问题

  • 排查方法:

  • 检查防火墙规则和安全组设置。

  • 解决方法:

    • 调整防火墙规则或安全组设置以允许必要的通信。

请注意,以上只是一些常见的故障和排查方法,实际情况可能因系统和环境的不同而有所差异。在排查和解决故障时,应根据具体的错误信息和日志进行分析和处理。

相关文章:

linux系统服务器中常见故障及排查方法

目录 故障1&#xff1a;系统无响应 故障2&#xff1a;网络连接问题 故障3&#xff1a;文件系统错误 故障4&#xff1a;软件包依赖问题 故障5&#xff1a;用户权限问题 故障6&#xff1a;服务无法正常工作 故障7&#xff1a;磁盘空间不足 故障8&#xff1a;内存不足 故障…...

产品人生(5):从“敏捷开发”到“四化时间管理法”

人生如产品&#xff0c;产品映人生&#xff0c;借鉴产品思维&#xff0c;快速提升软技能&#xff01; 在互联网的敏捷开发实践中&#xff0c;经常会用到“流程化、模板化、清单化、不断优化”的思想来提升开发的效率和产品质量&#xff0c;并确保团队能够快速响应市场变化。大…...

超级好看的html网站维护源码

源码介绍 好看的html网站维护源码&#xff0c;源码由HTMLCSSJS组成&#xff0c;记事本打开源码文件可以进行内容文字之类的修改&#xff0c;双击html文件可以本地运行效果&#xff0c;也可以上传到服务器里面&#xff0c; 源码截图 源码下载 好看的html网站维护源码...

从零开始搭建Springboot项目脚手架2:配置文件、返回值、日志等

1、多个环境与配置文件 2、统一返回值 返回值包括两种场景&#xff1a;正常controller的返回、异常发生之后返回 正常controller的返回&#xff1a;通过在controller的默认返回Response实现 异常发生之后返回&#xff1a;通过全局异常处理统一捕获返回 首先创建类StatusCode…...

Java web第五次作业

1.在idea中配置好数据源 2、视频案例中只给出了查询所有结果的示例&#xff0c;请自己完成添加、删除、修改操作的代码。以下供参 考。 Delete("delete from emp where id#{id}") public void delete(Integer id); 测试代码 Test public void testDelete(){ empMa…...

Unity使用ToggleGroup对多个Toggle进行管理时,初始化默认选项失效的问题

问题描述&#xff1a; 在unity脚本的OnEnable中用代码设置Toggle集合中的其中一个对象的ison时&#xff0c;发现并没有根据设置发生变化。但是该Toggle的OnValueChange却发生过变化。 如果使用协程等待0.01s,那么对应组件的ison的修改才能生效&#xff0c;但是逐帧分析的话会发…...

Retrofit同步请求直接返回目标对象

Rxjava方式&#xff1a; // 创建 Retrofit 实例 Retrofit retrofit new Retrofit.Builder().baseUrl("https://api.example.com/").addConverterFactory(GsonConverterFactory.create()).addCallAdapterFactory(RxJava2CallAdapterFactory.create()).build();// 创…...

Android GPU渲染屏幕绘制显示基础概念(1)

Android GPU渲染屏幕绘制显示基础概念&#xff08;1&#xff09; Android中的图像生产者OpenGL&#xff0c;Skia&#xff0c;Vulkan将绘制的数据存放在图像缓冲区中&#xff0c;Android中的图像消费SurfaceFlinger从图像缓冲区将数据取出&#xff0c;进行加工及合成。 Surface…...

Mac电脑设置hosts的方法

hosts文件是什么 hosts文件是一个系统文件&#xff0c;通过绑定域名与ip的关系&#xff0c;当本机访问该域名时 从这个文件中如果找到了对应域名&#xff0c;则转发到对应ip&#xff1b;如果没有找到对应域名&#xff0c;则走默认的DNS公网解析。 好处&#xff1a; 加速访问…...

数据分析——大数据伦理风险分析

大数据伦理风险分析 前言一、大数据伦理二、大数据技术伦理风险算法安全性、可信赖性及稳定性风险及其应对算法风险的表现算法风险的危害算法风险的应对 算法的可解释性风险及其应对算法可解释性风险的内容算法可解释性风险的损害算法可解释性风险的应对 算法的决策不可预见性风…...

漫谈AI时代的手机

以chatGPT 为代表的大语言的横空出世使人们感受到AI 时代的到来&#xff0c;大语言模型技术的最大特点是机器开始”懂人话“&#xff0c;”说人话“了。如同任何一个革命性工具的出现一样&#xff0c;它必将改变人类生活和工作。 在这里。我谈谈AI时代的手机。 语音通信的历史…...

fatal error: ros/ros.h: 没有那个文件或目录

解决方法&#xff1a; 在出错的文件的包下的CMakeLists.txt文件里&#xff0c;加上 find_package(catkin REQUIRED COMPONENTSroscpp )include_directories(include ${catkin_INCLUDE_DIRS} )【ROS-解决问题】 fatal error: ros/ros.h: 没有那个文件或目录-CSDN博客...

苍穹外卖Day06笔记(复习了jwt的加密解密和传递)

疯玩了一个月&#xff0c;效率好低&#xff0c;今天开始捡起来苍穹外卖~ 1. 为什么不需要单独引入HttpClient的dependency&#xff1f; 因为我们在sky-common的pom.xml中已经引入了aliyun-sdk-oss的依赖&#xff0c;而这个依赖低层就引入了httpclinet的依赖&#xff0c;根据依…...

【ARM 嵌入式 C 字符串系列 23.9 -- strcmp 与 strncmp 在使用上的区别以及注意事项】

请阅读【嵌入式开发学习必备专栏】 文章目录 strcmp 与 strncmp 使用介绍strcmpstrncmp使用建议 strcmp 与 strncmp 使用介绍 strcmp 和 strncmp 都是 C 语言标准库中用于比较两个字符串的函数&#xff0c;它们定义在 <string.h> 头文件中。这两个函数在功能上相似&…...

行列视(RCV):企业数据处理的革新工具

在当前数据驱动的商业生态系统中&#xff0c;行列视&#xff08;RCV&#xff09;系统以其创新的企业数据处理功能&#xff0c;不断地为各行各业的企业带来变革。行列视系统能够处理大规模数据集&#xff0c;支持多达400种Excel函数&#xff0c;使得数据处理不仅限于基本的表格操…...

Oracle Patch清理

场景&#xff1a; 在对Oracle安装补丁后&#xff0c;会发现OS上被占用了大量的空间&#xff0c;本文档清理Opatch过程中的一些文件&#xff0c;释放空间 参考文档&#xff1a; Can You Delete $ORACLE_HOME/.patch_storage Directory ? (Doc ID 403218.1) How To Avoid Disk …...

Redis-三主三从高可用集群搭建

正式搭建之前&#xff0c;注意事项&#xff08;坑&#xff09;提前放到最开始&#xff0c;也可以出问题回来看&#xff0c; &#xff08;1&#xff09;第二步中最好将配置文件中的logfile自定义一个目录&#xff0c;以便于在第五步中启动出错的时候迅速定位错误。 &#xff0…...

ImageMagick

Linux 安装 sudo apt install php8.2-imagick Windows 安装 下载 ImageMagick ImageMagick – Download 安装并将 D:\Program Files\ImageMagick-7.1.1-Q16-HDRI 加入到系统环境变量 path 中&#xff0c; 或者将 CORE_RL_*.dll 复制到 c:\windows\system32 下 下载 php 扩展…...

攻防世界-web-command_execution

题目&#xff1a; 原理&#xff1a; | 的作用为将前一个命令的结果传递给后一个命令作为输入 &&的作用是前一条命令执行成功时&#xff0c;才执行后一条命令 方法一&#xff1a; 第一步&#xff1a; 1.打开浏览器&#xff0c;在文本框内输入127.0.0.1 | find / -name…...

go语言自定义排序接口Interface实现示例 sort.Sort(data Interface) 快速排序 pdqsort

go语言sort.Sort(data Interface) 排序接口自定义排序实现&#xff0c;golang里面的sort包中的Sort方法底层使用的是 pdqsort的一个快速排序算法&#xff0c; 我们可以将要排序的对象实现Interface接口后直接丢个这个函数即可自动按照我们指定的方式进行数据快速排序。 sort函…...

TDengine 快速体验(Docker 镜像方式)

简介 TDengine 可以通过安装包、Docker 镜像 及云服务快速体验 TDengine 的功能&#xff0c;本节首先介绍如何通过 Docker 快速体验 TDengine&#xff0c;然后介绍如何在 Docker 环境下体验 TDengine 的写入和查询功能。如果你不熟悉 Docker&#xff0c;请使用 安装包的方式快…...

JDK 17 新特性

#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持&#xff0c;不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的&#xff…...

分布式增量爬虫实现方案

之前我们在讨论的是分布式爬虫如何实现增量爬取。增量爬虫的目标是只爬取新产生或发生变化的页面&#xff0c;避免重复抓取&#xff0c;以节省资源和时间。 在分布式环境下&#xff0c;增量爬虫的实现需要考虑多个爬虫节点之间的协调和去重。 另一种思路&#xff1a;将增量判…...

CSS设置元素的宽度根据其内容自动调整

width: fit-content 是 CSS 中的一个属性值&#xff0c;用于设置元素的宽度根据其内容自动调整&#xff0c;确保宽度刚好容纳内容而不会超出。 效果对比 默认情况&#xff08;width: auto&#xff09;&#xff1a; 块级元素&#xff08;如 <div>&#xff09;会占满父容器…...

return this;返回的是谁

一个审批系统的示例来演示责任链模式的实现。假设公司需要处理不同金额的采购申请&#xff0c;不同级别的经理有不同的审批权限&#xff1a; // 抽象处理者&#xff1a;审批者 abstract class Approver {protected Approver successor; // 下一个处理者// 设置下一个处理者pub…...

uniapp 小程序 学习(一)

利用Hbuilder 创建项目 运行到内置浏览器看效果 下载微信小程序 安装到Hbuilder 下载地址 &#xff1a;开发者工具默认安装 设置服务端口号 在Hbuilder中设置微信小程序 配置 找到运行设置&#xff0c;将微信开发者工具放入到Hbuilder中&#xff0c; 打开后出现 如下 bug 解…...

解析两阶段提交与三阶段提交的核心差异及MySQL实现方案

引言 在分布式系统的事务处理中&#xff0c;如何保障跨节点数据操作的一致性始终是核心挑战。经典的两阶段提交协议&#xff08;2PC&#xff09;通过准备阶段与提交阶段的协调机制&#xff0c;以同步决策模式确保事务原子性。其改进版本三阶段提交协议&#xff08;3PC&#xf…...

【HarmonyOS 5】鸿蒙中Stage模型与FA模型详解

一、前言 在HarmonyOS 5的应用开发模型中&#xff0c;featureAbility是旧版FA模型&#xff08;Feature Ability&#xff09;的用法&#xff0c;Stage模型已采用全新的应用架构&#xff0c;推荐使用组件化的上下文获取方式&#xff0c;而非依赖featureAbility。 FA大概是API7之…...

RLHF vs RLVR:对齐学习中的两种强化方式详解

在语言模型对齐&#xff08;alignment&#xff09;中&#xff0c;强化学习&#xff08;RL&#xff09;是一种重要的策略。而其中两种典型形式——RLHF&#xff08;Reinforcement Learning with Human Feedback&#xff09; 与 RLVR&#xff08;Reinforcement Learning with Ver…...

CppCon 2015 学习:Simple, Extensible Pattern Matching in C++14

什么是 Pattern Matching&#xff08;模式匹配&#xff09; ❝ 模式匹配就是一种“描述式”的写法&#xff0c;不需要你手动判断、提取数据&#xff0c;而是直接描述你希望的数据结构是什么样子&#xff0c;系统自动判断并提取。❞ 你给的定义拆解&#xff1a; ✴ Instead of …...