当前位置: 首页 > article >正文

Linux awk 命令:文本处理的瑞士军刀

awk 是 Linux 下最强大的文本处理工具之一名字取自三位创始人 Aho、Weinberger、Kernighan 的姓氏首字母。很多人只用它做简单的列提取其实 awk 的能力远不止于此。awk 的核心模型awk 的工作流程可以概括为awk pattern { action } filepattern匹配条件正则、表达式、范围action执行的操作打印、计算、变量赋值对于每一行awk 会自动按分隔符分割字段默认空格字段存入$1, $2, $3...整行是$0检查 pattern匹配则执行 action# 提取第一列和第三列awk{ print $1, $3 }data.txt# 只处理包含 error 的行awk/error/ { print $0 }app.log# 计算文件总行数awkEND { print NR }data.txtNR是内置变量表示当前行号Number of Records。END是特殊模式在所有行处理完后执行。字段分隔符不只是空格-F参数指定字段分隔符# CSV 文件按逗号分割awk-F,{ print $1, $3 }data.csv# 使用正则表达式一个或多个空格awk-F[ ]{ print $1 }data.txt# 多字符分隔符awk-F|{ print $1 }data.txt也可以在脚本内设置FSField SeparatorawkBEGIN { FS , } { print $1, $3 }data.csvBEGIN在处理任何行之前执行常用于初始化变量。内置变量的秘密awk 提供了多个内置变量变量含义$0整行内容$1~$n第 n 个字段NF当前行字段数Number of FieldsNR当前行号全局FNR当前行号当前文件FS字段分隔符OFS输出字段分隔符RS行分隔符ORS输出行分隔符NF的妙用引用最后一个字段# 打印每行的最后一个字段awk{ print $NF }data.txt# 打印倒数第二个字段awk{ print $(NF-1) }data.txt条件判断与循环awk 支持if-else和for/while循环# 按条件过滤并标记awk{ if ($3 100) { print $1, HIGH } else { print $1, NORMAL } }data.txt# 计算每行的字段和awk{ sum 0 for (i 1; i NF; i) { sum $i } print sum }numbers.txt数组与统计awk 的数组是关联数组associative array键可以是任意字符串# 统计每个单词出现次数awk{ for (i 1; i NF; i) { count[$i] } } END { for (word in count) { print word, count[word] } }text.txt# 按访问量统计 HTTP 状态码awk{ count[$9] } END { for (code in count) print code, count[code] }access.log这段代码中$9是 Nginx 日志的状态码字段假设标准格式。实战案例分析 Nginx 访问日志假设日志格式192.168.1.1 - - [10/May/2026:10:30:45 0800] GET /api/users HTTP/1.1 200 1234 - Mozilla/5.01. 统计 Top 10 访问 IPawk{ print $1 }access.log|sort|uniq-c|sort-rn|head-10纯 awk 实现awk{ ip[$1] } END { for (i in ip) print ip[i], i }access.log|sort-rn|head-102. 计算平均响应时间假设日志格式包含响应时间最后一个字段awk{ total $NF count } END { print Average:, total/count, ms }access.log3. 提取 4xx 和 5xx 错误# 提取所有 4xx 和 5xx 状态码的请求awk$9 ~ /^[45][0-9][0-9]$/ { print $0 }access.log# 统计错误类型分布awk$9 ~ /^[45][0-9][0-9]$/ { errors[$9] } END { for (code in errors) print code, errors[code] }access.log~是正则匹配操作符$9 ~ /^.../表示第 9 个字段匹配正则。性能优化技巧1. 跳过无效行用next跳过不需要处理的行awk/^#/ { next } { print $1 }config.conf跳过注释行以#开头。2. 只处理前 N 行awkNR 100 { exit } { print $1 }data.txt处理前 100 行后退出避免读取整个大文件。3. 多文件处理时的 FNR当处理多个文件时NR是全局行号FNR是当前文件行号# 每个文件单独统计awkFNR 1 { print File:, FILENAME } { print NR, FNR, $0 }file1.txt file2.txt复杂案例计算移动平均假设有一个温度数据文件每行一个温度值计算 3 点移动平均awk{ values[NR] $1 if (NR 3) { sum values[NR] values[NR-1] values[NR-2] print (NR-2), sum/3 } }temperature.txtawk vs sed vs grep很多人分不清这三个工具的边界工具核心能力典型场景grep行过滤快速搜索匹配行sed流编辑替换、删除、插入awk字段处理 计算统计、报表、格式化三者常组合使用# 组合示例提取 error 行替换时间戳格式统计按小时分布grepERRORapp.log|\seds/\[.*\]//|\awk{ count[$1] } END { for (h in count) print h, count[h] }小结awk 的强大在于自动字段分割省去手动 split完整的编程语言变量、数组、函数、循环内置的模式匹配机制掌握 awk处理文本文件就像用 SQL 查询数据库一样高效。复杂的统计、格式化、转换任务一行 awk 命令就能搞定。相关工具Linux sed 命令 | 文本去重工具 | Grep 命令详解

相关文章:

Linux awk 命令:文本处理的瑞士军刀

awk 是 Linux 下最强大的文本处理工具之一,名字取自三位创始人 Aho、Weinberger、Kernighan 的姓氏首字母。很多人只用它做简单的列提取,其实 awk 的能力远不止于此。 awk 的核心模型 awk 的工作流程可以概括为: awk pattern { action } f…...

Linux xargs 命令深度解析:从管道到命令构建的桥梁

在 Linux 终端里,管道符 | 可以说是最常用的操作符了。但很多人遇到过这种情况:管道前面的命令输出了一堆文件名,想传给后面的命令处理,结果报错了。 # 删除所有 .log 文件 find . -name "*.log" | rm rm: missing ope…...

CANN/cann-bench量化矩阵乘法算子

QuantMatmul 算子 API 描述 【免费下载链接】cann-bench 评测AI在处理CANN领域代码任务的能力,涵盖算子生成、算子优化等领域,支撑模型选型、训练效果评估,统一量化评估标准,识别Agent能力短板,构建CANN领域评测平台&a…...

CANN/ops-transformer FlashAttention变长分数计算V5

aclnnFlashAttentionVarLenScoreV5 【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-transformer 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DTA…...

CANN/atvoss二元运算符基类

BinaryOp 【免费下载链接】atvoss ATVOSS(Ascend C Templates for Vector Operator Subroutines)是一套基于Ascend C开发的Vector算子库,致力于为昇腾硬件上的Vector类融合算子提供极简、高效、高性能、高拓展的编程方式。 项目地址: https…...

精通MagiskBoot:Android启动镜像修改与Root权限获取实战指南

精通MagiskBoot:Android启动镜像修改与Root权限获取实战指南 【免费下载链接】Magisk The Magic Mask for Android 项目地址: https://gitcode.com/GitHub_Trending/ma/Magisk MagiskBoot是Android系统定制与Root权限获取的核心工具,它专门处理bo…...

MCPal:基于MCP协议为AI助手构建原生桌面通知系统

1. 项目概述:一个为AI助手打造的桌面通知中枢 如果你和我一样,日常重度依赖Claude、Cursor、GPT这些AI编程助手,那你肯定遇到过这个场景:你给AI助手布置了一个任务,比如“帮我分析一下这个项目的依赖关系”&#xff0…...

想转行AI?这4个高薪赛道速来!大模型岗位深度解析,普通人也能进!

想转行AI,但不知道自己适合做什么方向…? 很多人一听到AI大模型,脑子里浮现的就是“搞算法”“硕士起步”,然后默默关掉页面,觉得自己没戏了。但事实是,大模型领域的岗位早已分化,不同方向的门槛…...

AArch64处理器ID_AA64PFR2_EL1寄存器解析与应用

1. AArch64处理器特性寄存器概述在Arm AArch64架构中,系统寄存器扮演着至关重要的角色,它们是处理器与操作系统之间的关键接口。这些寄存器可以分为两大类:通用寄存器和专用系统寄存器。ID_AA64PFR2_EL1属于后者,是处理器特性寄存…...

GPT-4o图像生成实战:从提示词工程到五大核心场景应用

1. 从灵感仓库到创作引擎:GPT-4o图像生成实战全解析如果你和我一样,每天在社交媒体上刷到那些令人惊叹的AI生成图像,从Q版手办到赛博朋克微缩景观,从复古海报到未来主义名片,心里除了“哇塞”,可能还会冒出…...

并行关联扫描与牛顿方法在状态空间模型中的应用

1. 并行关联扫描:分治策略的高效实现并行关联扫描(Parallel Associative Scan)是并行计算领域的核心算法之一,它能够在O(logT)时间内完成对长度为T的序列的关联操作。这个算法的威力来自于对二元关联运算符的巧妙利用和分治策略的…...

通用资源管理库resourcelib:依赖注入与生命周期管理实践

1. 项目概述:一个被低估的通用资源管理库如果你在开发中经常需要处理各种“资源”——无论是本地的配置文件、远程的API密钥、数据库连接池,还是更抽象的计算图节点、机器学习模型权重——并且为它们的加载、缓存、生命周期管理和依赖解析感到头疼&#…...

AI自动化文献综述:NLP与机器学习驱动的科研效率革命

1. 项目概述:当文献综述遇上AI,一场效率革命如果你也曾在深夜面对堆积如山的PDF文献,为撰写综述而抓狂,那么“AI自动化文献综述”这个话题,绝对能让你眼前一亮。这不仅仅是“用工具查文献”,而是一整套利用…...

数字示波器频率响应与上升时间测量技术解析

1. 数字示波器频率响应基础解析在电子测量领域,频率响应特性是评估示波器性能的核心指标之一。传统模拟示波器采用多级模拟放大器串联架构,从输入端到CRT显示通常需要将信号放大三个数量级。这种结构自然形成了高斯频率响应特性,其数学表达式…...

CANN/ops-transformer FlashAttention可变长评分

aclnnFlashAttentionVarLenScore 【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-transformer 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√A…...

HKUDS开源NanoBot

概述 官网,HKUDS开源(GitHub,42.1K Star,7.4K Fork)纳米级Clawdbot(OpenClaw),复刻Clawdbot几乎所有的核心智能体功能,但代码量只有4000行。 注:NanoBot除H…...

系统级自动化测试框架设计:从核心原理到工程实践

1. 项目概述:一个面向未来的系统级自动化测试框架在软件开发的深水区,尤其是涉及操作系统内核、驱动或底层系统服务的项目里,测试从来都不是一件轻松的事。传统的单元测试和集成测试框架,在面对需要模拟复杂硬件交互、系统状态变迁…...

在Taotoken控制台中清晰追踪项目成本与各模型消耗明细

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在Taotoken控制台中清晰追踪项目成本与各模型消耗明细 对于使用大模型API进行开发的团队或个人而言,成本控制与费用透明…...

多模态情感识别系统:完整实现与代码详解

多模态情感识别系统:完整实现与代码详解 目录 系统概述 系统架构设计 环境配置与依赖安装 文本情感分析模块 语音情绪识别模块 人脸表情识别模块 多模态融合模块 实时Web交互界面 完整项目代码汇总 运行与使用指南 总结与展望 一、系统概述 多模态情感识别是当前人机交互领域…...

能耗管理系统是什么?主要有哪几种关键功能和应用场景?

能耗管理系统的基本功能解析 具备多种核心功能,为了实时监测能源的使用状况,提升能效并降低相关成本。其中、在线计量功能让企业可以实时掌握用电情况,进而进行针对性的管理。超功率告警能够及时发现异常能耗,防止无意中的过度浪费…...

Azure/setup-helm:GitHub Actions 中 Helm 客户端安装的标准化解决方案

1. 项目概述:为什么我们需要一个官方的 Helm 安装 Action?如果你在 GitHub Actions 的工作流里用过 Helm,大概率经历过这样的场景:为了安装 Helm 客户端,你不得不在steps里写一段run命令,可能是从 GitHub R…...

AI智能体工作空间管理:Workspace Manager Skill提升项目组织与自动化效率

1. 项目概述与核心价值最近在折腾AI智能体(AI Agent)和自动化工作流,发现一个挺普遍的问题:很多工具功能强大,但上手后文件、项目、文档的管理很快就变得一团糟。特别是当你用ClawPad这类智能体平台,或者自…...

基于多智能体提示工程的AI团队协作框架ClubGPT深度解析

1. 项目概述:一个模拟团队协作的AI智能体框架最近在探索如何让大型语言模型(LLM)更高效地处理复杂任务,尤其是那些需要多步骤、多技能协作的软件开发工作。传统的单轮对话或简单指令往往难以产出结构完整、质量可靠的结果。正是在…...

边缘设备LLM推理性能与热管理对比研究

1. 边缘设备LLM推理性能与热管理对比研究概述在人工智能技术快速发展的今天,大型语言模型(LLM)的边缘部署已成为行业热点。将LLM直接部署在终端设备上,能够实现离线运行、降低延迟并保护用户隐私,这对需要持续响应用户查询的智能助手类应用尤…...

MoltGrid:为AI智能体提供记忆、任务与协作的后台基础设施

1. 项目概述:为什么我们需要一个独立的AI Agent基础设施?如果你和我一样,在过去一年里深度折腾过LangChain、CrewAI或者AutoGen,那你一定经历过这种场景:好不容易用几行代码搭起了一个能对话、能推理的智能体&#xff…...

CANN/metadef AscendString构造析构

AscendString构造函数和析构函数 【免费下载链接】metadef Ascend Metadata Definition 项目地址: https://gitcode.com/cann/metadef 函数功能 AscendString构造函数和析构函数。 函数原型 AscendString() default ~AscendString() default AscendString(const ch…...

拓扑量子计算的可扩展性挑战与Matryoshka链解决方案

1. 拓扑量子计算的可扩展性挑战 量子计算的可扩展性一直是该领域最核心的挑战之一。随着量子比特数量的增加,系统面临的退相干、噪声干扰和操控复杂度等问题呈指数级增长。传统量子计算架构通常需要为每个量子比特提供独立的物理隔离和操控系统,这在扩展…...

ARM虚拟化调试机制:HDFGWTR_EL2与HFGITR2_EL2详解

1. ARM虚拟化调试机制概述在ARMv8/v9架构的虚拟化环境中,Hypervisor(EL2)需要精细控制Guest OS(EL1)和用户态(EL0)对关键系统资源的访问。HDFGWTR_EL2(Hypervisor Debug Fine-Graine…...

从提示式到自发式:AI心智理论的范式转变与实现路径

1. 项目概述:从“被问才答”到“主动思考”的AI心智革命在人工智能领域,我们常常惊叹于模型在特定任务上的超人表现,无论是下棋、写诗还是解答复杂的数学问题。然而,当我们将这些智能体置于一个需要理解“人”的环境中时&#xff…...

Kitty终端工具集:GPU加速与配置即代码的现代开发者利器

1. 项目概述:一个面向开发者的现代化终端工具集最近在折腾开发环境,发现很多朋友还在用着系统自带的终端,或者一些功能相对基础的第三方工具。这让我想起自己几年前,为了提升命令行工作效率,花了不少时间寻找和配置终端…...