当前位置: 首页 > news >正文

Nginx日志分析:编写Shell脚本进行全面日志统计

Nginx是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP代理服务器。无论是在大流量的网站还是小型的个人博客中,Nginx都得到了广泛应用。在实际生产环境中,对Nginx日志的分析有助于我们了解网站的访问情况,发现潜在问题并进行优化。本文将通过编写Shell脚本,实现对Nginx日志的全面统计分析。

Nginx日志格式

首先,我们需要确保Nginx日志格式与以下格式类似:

log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_referer" ''"$http_user_agent" "$http_x_forwarded_for"';

假设我们的日志文件名为access.log

Shell脚本实现

接下来,我们编写一个Shell脚本,对Nginx日志进行统计分析。这个脚本包括以下功能:

  1. 统计各种状态码的数量

  2. 统计访问最多的Referer

  3. 统计访问最高的URI

  4. 统计访问最多的IP和User-Agent

  5. 统计每分钟的请求数、流量、请求时间、状态码等

脚本代码实现

  1. 统计各种状态码的数量
awk '
{Arry[$12] += 1;  total++;  
}
END {for (s in Arry) {printf "%d\t%.4f\t%s\n", Arry[s], Arry[s] / total, s}
}
' $LOG_FILE | sort -nr -k 1,1
  • Arry[$9] += 1;:

    • $12 是日志文件的第十二个字段,通常表示 HTTP 状态码。

    • Arry 是一个关联数组,以 HTTP 状态码为键,将每个状态码出现的次数累加到数组 Arry 中。

    • Arry[$9] += 1; 表示状态码 $9 出现的次数加 1。

  • total++;:

    • 记录总的日志行数。
  • for (s in Arry):

    • 遍历数组 Arry 中的每个状态码 s
  • printf "%d\t%.4f\t%s\n", Arry[s], Arry[s] / total, s:

    • 打印每个状态码的出现次数、占比和状态码本身。

    • Arry[s] 是状态码 s 出现的次数。

    • Arry[s] / total 是该状态码出现的比例(占总请求数的百分比)。

    • s 是状态码。

    • 输出格式为:出现次数\t 比例\t 状态码。

运行上述的命令,输出如下结果:

统计各种状态码的数量

  1. 统计访问最多的Referer
    awk -F\" '{Arry[$4] += 1;  # 将每个引用的字段($4)出现的次数累加到数组Arry中total++;        # 记录总的日志行数}END {for (s in Arry) {  # 遍历数组Arry中的每个引用字段printf "%d\t%.4f\t%s\n", Arry[s], Arry[s] / total, s  # 打印每个引用字段的出现次数、占比和引用字段本身}}' $LOG_FILE | sort -nr -k 1,1  # 按出现次数降序排序

执行上述命令后,输出如下图的结果:

统计访问最多的Referer

  1. 统计访问最高的URI
    awk  '{Arry[$9] += 1;  # 将每个引用的字段($18)出现的次数累加到数组Arry中total++;        # 记录总的日志行数}END {for (s in Arry) {  # 遍历数组Arry中的每个引用字段printf "%d\t%.4f\t%s\n", Arry[s], Arry[s] / total, s  # 打印每个引用字段的出现次数、占比和引用字段本身}}' $LOG_FILE | sort -nr -k 1  # 按出现次数降序排序 

执行上述命令后,输出如下图的结果:

统计访问最高的URI

  1. 统计访问最多的IP和User-Agent
  • 统计最多IP访问次数
    awk '{Arry[$1] += 1;  # 将每个IP地址出现的次数累加到数组Arry中total++;        # 记录总的日志行数}END {for (s in Arry) {  # 遍历数组Arry中的每个IP地址printf "%d\t%.4f\t%s\n", Arry[s], Arry[s] / total, s  # 打印每个IP地址的出现次数、占比和IP地址本身}}' $LOG_FILE | sort -nr -k 1,1

执行上述命令后,输出如下图的结果:

统计最多IP访问次数

  • 统计最多访问的User-Agent
awk  '{Arry[$18] += 1;  # 将每个引用的字段($18)出现的次数累加到数组Arry中total++;        # 记录总的日志行数}END {for (s in Arry) {  # 遍历数组Arry中的每个引用字段printf "%d\t%.4f\t%s\n", Arry[s], Arry[s] / total, s  # 打印每个引用字段的出现次数、占比和引用字段本身}}' $LOG_FILE | sort -nr -k 1  # 按出现次数降序排序

执行上述命令后,输出如下图的结果:

统计访问统计访问

  1. 统计每分钟的请求数、流量、请求时间、状态码等
awk -F '|' 'BEGIN {printf "时间\t数量\t流量[MB]\t请求时间\t20x\t30x\t40x\t50x\t60x\n"}{# 提取时间的分钟部分minute = substr($2, 12, 5)# 累计流量、请求数和请求时间tms[minute] += $13cnt[minute] += 1reqt[minute] += $15# 统计状态码status_code = $9if (status_code ~ /^2/) { sc20x[minute]++ }else if (status_code ~ /^3/) { sc30x[minute]++ }else if (status_code ~ /^4/) { sc40x[minute]++ }else if (status_code ~ /^5/) { sc50x[minute]++ }else { sc60x[minute]++ }}END {for (t in tms) {printf "%s\t%d\t%.4f\t%.4f\t%d\t%d\t%d\t%d\t%d\n",t,cnt[t],tms[t] / 1024 / 1024,(cnt[t] > 0 ? reqt[t] / cnt[t] : 0),sc20x[t],sc30x[t],sc40x[t],sc50x[t],sc60x[t]}}' "$LOG_FILE"

执行上述命令后,输出如下结果:

总结

通过上述Shell脚本,我们可以快速、全面地分析Nginx日志,了解网站的访问情况和性能表现。这不仅有助于我们发现潜在问题,还能为后续的优化工作提供有力的数据支持。在实际应用中,你可以根据自己的需求,进一步扩展和定制这个脚本。

脚本获取方式


上述脚本已经上传上传到gitee,有需要的小伙伴可以自行获取。gitee上的仓库主要是分享一些工作中常用的脚本。小伙伴可以frok或者watch仓库,这样有更新可以及时关注到。

脚本仓库

仓库地址:

https://gitee.com/didiplus/script

推荐阅读


  • 不再担心数据丢失:用rsync打造你的自动化备份解决方案
  • IP地址乱成一团?用Shell一键搞定!
  • 实用技巧,用lsof命令监控tar文件解压进度,简单有效
  • 运维必备:批量实现Linux机器SSH免密登录的自动化脚本
  • 运维小妙招:如何让系统信息随登录自动展现?

相关文章:

Nginx日志分析:编写Shell脚本进行全面日志统计

Nginx是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP代理服务器。无论是在大流量的网站还是小型的个人博客中,Nginx都得到了广泛应用。在实际生产环境中,对Nginx日志的分析有助于我们了解网站的访问情况,发现潜在问题…...

【Gin】深度解析:在Gin框架中优化应用程序流程的责任链设计模式(下)

【Gin】深度解析:在Gin框架中优化应用程序流程的责任链设计模式(下) 大家好 我是寸铁👊 【Gin】深度解析:在Gin框架中优化应用程序流程的责任链设计模式(下)✨ 喜欢的小伙伴可以点点关注 💝 前言 本次文章分为上下两部分&#xf…...

C语言——运算符及表达式

C语言——运算符及表达式 运算符运算符的分类(自增运算符)、--(自减运算符)赋值运算符逗号运算符(顺序求值运算符) 表达式 运算符 运算符的分类 C语言的运算符范围很宽,除了控制语句和输入输出…...

Python面试宝典第23题:分发糖果

题目 n 个孩子站成一排,给你一个整数数组 ratings 表示每个孩子的评分。你需要按照以下要求,给这些孩子分发糖果。 (1)每个孩子至少分配到 1 个糖果。 (2)相邻两个孩子评分更高的孩子会获得更多的糖果。 请…...

Java与模式及其应用场景知识点分享(电子版)

前言 Java 编程语言自1995年问世以来,其成功好像任何编程语言都无法媲美。生逢其时(互联网的兴起)固然是一方面的原因,而Java吸收总结了前人的经验教训,反映了最新技术(the state ofthe art),对其受到欢迎和采用,恐怕…...

软考高级第四版备考--第36天(审计内容)

IT内部控制审计:IT内部控制审计主要包括组织层面IT控制审计、IT一般控制审计及应用控制审计 IT专项审计:IT专项审计主要包括信息系统生命周期审计、信息系统开发过程审计、信息系统运行维护审计、网络与信息安全审计、信息系统项目审计、数据审计...

文件IO相关作业

1> 使用文件IO完成&#xff0c;将源文件中的所有内容进行加密&#xff08;大写转小写、小写转大写&#xff09;后写入目标文件中 源文件内容不变 #include<myhead.h>int main(int argc, const char *argv[]) {//判断传入的是否是两个文件if(argc!3){write(2,"inp…...

vue3 watch监听 父子组件通信

目录 01 watch监听方式 02 父子组件的通信 01 watch监听方式 1.watch(被监听的变量,(新值,旧值)>{ }) 默认直接就是深层监听 如果想要配置深度监听和默认触发 需要在第三个参数定义options对象 2.watch(被监听的变量,()>{},{ deep:true, immediate:true 项目打开后就执…...

【信创】adduser与useradd的区别 _ 统信 _ 麒麟 _ 中科方德

原文链接&#xff1a;【信创】adduser与useradd的区别 | 统信 | 麒麟 | 中科方德 Hello&#xff0c;大家好啊&#xff01;今天给大家带来一篇关于在信创终端操作系统上adduser和useradd命令区别的文章。adduser和useradd都是用于在Linux系统上添加用户的命令&#xff0c;但它们…...

微软Win11 24H2最新可选更新补丁26100.1301来袭!

系统之家于7月31日发出最新报道&#xff0c;微软针对Win11 24H2用户推出七月最新的可选更新KB5040529&#xff0c;本次更新为开始菜单引入了全新的账号管理器&#xff0c;也改进了任务栏上的小组件图标。接下来跟随系统之家小编来看看本次更新的详细内容吧&#xff01;【推荐下…...

层次特征的尺度艺术:sklearn中的缩放技术

层次特征的尺度艺术&#xff1a;sklearn中的缩放技术 在机器学习中&#xff0c;特征缩放&#xff08;Feature Scaling&#xff09;是数据预处理的重要步骤&#xff0c;尤其对于基于距离的算法&#xff0c;如K-近邻&#xff08;KNN&#xff09;和支持向量机&#xff08;SVM&…...

Chapter 21 深入理解JSON

欢迎大家订阅【Python从入门到精通】专栏&#xff0c;一起探索Python的无限可能&#xff01; 文章目录 前言一、JSON数据格式1. 什么是JSON&#xff1f;2. JSON数据的格式 二、JSON格式数据转化三、格式化JSON数据的在线工具 前言 在当今数据驱动的世界中&#xff0c;JSON&…...

【C++高阶数据结构】红黑树:全面剖析与深度学习

目录 &#x1f680; 前言&#xff1a;红黑树与AVL树的比较一&#xff1a; &#x1f525; 红黑树的概念二&#xff1a; &#x1f525; 红黑树的性质 三&#xff1a; &#x1f525; 红黑树节点的定义和结构&#x1f680; 3.1 基本元素&#x1f680; 3.2 节点颜色&#x1f680; 3.…...

前端基于 axios 实现批量任务调度管理器 demo

一、背景介绍 这是一个基于 axios 实现的批量任务调度管理器的 demo。它使用了axios、promise 等多种技术和原理来实现批量处理多个异步请求&#xff0c;并确保所有请求都能正确处理并报告其状态。 假设有一个场景&#xff1a;有一个任务列表&#xff0c;有单个任务的处理功能…...

Docker容器下面home assistant忘记账号密码怎么重置?

环境&#xff1a; docker ha 问题描述&#xff1a; Docker容器下面home assistant忘记账号密码怎么重置&#xff1f; 解决方案&#xff1a; 你可以按照以下步骤来找回或重置密码&#xff1a; 方法一 (未解决) 停止并删除当前的Home Assistant容器&#xff08;确保你已经保…...

CTF-NSSCTF[GKCTF 2021]

[GKCTF 2021]easycms 考察&#xff1a; 用扫描工具扫描目录&#xff0c;扫描到后台登录界面/admin.php 题目提示了密码是五位弱口令&#xff0c;试了试弱口令admin和12345直接成功了 任意文件下载 点击设计-->主题然后随便选择一个主题&#xff0c;点击自定义&#xff0…...

MSA+抑郁症模型总结(一)(论文复现)

MSA抑郁症模型总结&#xff08;一&#xff09;&#xff08;论文复现&#xff09; 本文所涉及所有资源均在传知代码平台可获取 文章目录 MSA抑郁症模型总结&#xff08;一&#xff09;&#xff08;论文复现&#xff09;情感分析在多场景的应用一、概述二、论文地址三、研究背景四…...

STM32智能农业灌溉系统教程

目录 引言环境准备智能农业灌溉系统基础代码实现&#xff1a;实现智能农业灌溉系统 4.1 数据采集模块 4.2 数据处理与分析模块 4.3 通信与网络系统实现 4.4 用户界面与数据可视化应用场景&#xff1a;农业监测与优化问题解决方案与优化收尾与总结 1. 引言 智能农业灌溉系统通…...

MySQL存储引擎和

MySQL存储引擎 在数据库中保存的是一张张有着千丝万缕关系的表&#xff0c;所以表设计的好坏&#xff0c;将直接影响着整个数据库。而在设计表的时候&#xff0c;最关注的一个问题是使用什么存储引擎。MySQL中的数据用各种不同的技术存储在文件(或者内存)中。这些技术中的每一种…...

Eclipse 主网向开发者开放

摘要&#xff1a;Eclipse 基金会宣布&#xff0c;Eclipse 主网已经向开发者开放。在接下来几周的时间里&#xff0c;Eclipse 将邀请开发者在主网上部署项目&#xff0c;并参加黑客马拉松活动——“Total Eclipse Challenge”。 Eclipse 是首个基于以太坊的 SVM Layer2 方案&am…...

企业财务系统集成指南:如何用诺诺开放平台API搞定电子发票全流程(从签约到开票)

企业财务系统集成指南&#xff1a;诺诺开放平台电子发票全流程实战 当财务数字化转型成为企业降本增效的刚需&#xff0c;电子发票作为交易闭环的关键环节&#xff0c;其系统集成质量直接影响业务流畅度。本文将带您全景式拆解从商务对接到技术落地的完整链路&#xff0c;避开那…...

ContextMenuManager:让Windows交互回归高效本质

ContextMenuManager&#xff1a;让Windows交互回归高效本质 【免费下载链接】ContextMenuManager &#x1f5b1;️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 当你在Windows系统中右键点击文件时&#xff0c;是否…...

Pixel Script Temple 数学建模辅助:将MATLAB算法思路转换为Python代码

Pixel Script Temple 数学建模辅助&#xff1a;将MATLAB算法思路转换为Python代码 1. 为什么需要MATLAB到Python的代码转换 在科研和工程领域&#xff0c;MATLAB长期以来一直是数学建模和科学计算的首选工具。但随着Python生态系统的成熟&#xff0c;越来越多的团队开始转向使…...

基于vue的错题管理系统[vue]-计算机毕业设计源码+LW文档

摘要&#xff1a;随着在线教育的发展&#xff0c;错题管理作为学习过程中的重要环节&#xff0c;其信息化管理需求日益增长。本文旨在设计并实现一个基于Vue框架的错题管理系统&#xff0c;通过对系统需求进行深入分析&#xff0c;采用合适的技术架构和开发技术&#xff0c;完成…...

ROBLEX嵌入式驱动库技术解析与机器人控制实践

1. ROBLEX开发套件底层驱动库技术解析ROBLEX开发套件是一套面向教育与原型验证的嵌入式硬件平台&#xff0c;其核心由主控底板&#xff08;通常基于STM32F4系列MCU&#xff09;与可插拔功能模块&#xff08;如电机驱动、红外测距、超声波测距、环境传感器、LED阵列、蜂鸣器、编…...

CasRel在智能问答系统中的落地实践:为QA引擎注入结构化事实支撑

CasRel在智能问答系统中的落地实践&#xff1a;为QA引擎注入结构化事实支撑 1. 引言&#xff1a;当问答系统遇到关系抽取 想象一下这样的场景&#xff1a;用户向智能问答系统提问"苹果公司的CEO是谁&#xff1f;"&#xff0c;系统需要快速准确地回答"蒂姆库克…...

双项目驱动:AI教育轻创合伙人对比传统教育创业的显著优势

随着人工智能技术的飞速发展&#xff0c;AI教育正成为教育行业的新风口。在这一背景下&#xff0c;轻创合伙模式应运而生&#xff0c;为创业者提供了低门槛、高潜力的入局机会。本文将深入分析AI教育轻创合伙人相较于传统教育创业的核心优势&#xff0c;探讨其规模化路径的实现…...

Nacos服务实例权重设置详解:如何根据服务器性能动态调整流量分配

Nacos服务实例权重设置详解&#xff1a;如何根据服务器性能动态调整流量分配 在分布式系统架构中&#xff0c;服务实例的性能差异是不可避免的现实问题。新采购的服务器与运行多年的老旧设备并存&#xff0c;不同配置的云主机混合部署&#xff0c;这些场景都要求我们能够智能地…...

保姆级教程:从WOS下载文献到Citespace出图,手把手搞定科研可视化(附避坑指南)

科研可视化实战&#xff1a;从WOS数据采集到Citespace图谱优化的完整指南 第一次打开Citespace时&#xff0c;看着满屏的英文参数和报错提示&#xff0c;我盯着屏幕发了十分钟呆——这大概是每个科研新手都会经历的"震撼教育"。文献计量分析本应是揭示知识脉络的利器…...

网盘直链下载助手终极指南:3步实现高速下载新时代

网盘直链下载助手终极指南&#xff1a;3步实现高速下载新时代 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 &#xff0c;支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘…...