Linux Sed 深度解析:从日志清洗到 K8s 等12个高频场景
看图猜诗,你有任何想法都可以在评论区留言哦~
摘要:Sed(Stream Editor)作为 Linux 三剑客之一,凭借其流式处理与正则表达式能力,成为运维场景中文本批处理的核心工具。本文聚焦生产环境高频需求,涵盖日志清洗、K8s 配置管理、数据格式化等 12 大核心场景,通过代码演示与原理剖析,提供可直接复用的 Sed 实战模板。
文章目录
- 一、Sed 的优势
- 1.1 Sed的核心特性
- 1.2 Sed与同类工具对比
- 二、安装配置
- 2.1 安装方法
- 2.2 版本验证
- 三、使用技巧
- 3.1 基础语法结构
- 3.2 核心命令与应用
- 四、生产高频场景
- 4.1 日志文件清洗
- 4.2 批量修改配置文件
- 4.3 日志时间戳格式标准化
- 4.4 删除敏感信息(如密码、Token)
- 4.5 动态修改 K8s Deployment 镜像版本
- 4.6 提取错误日志的上下文(多行处理)
- 4.7 批量转换 CSV 文件为 TSV 格式
- 4.8 K8s ConfigMap 内容批量更新
- 4.9 日志按时间窗口切割(跨行处理)
- 4.10 删除 JSON 日志中的冗余字段
- 4.11 K8s Pod 日志的实时过滤
- 4.12 多文件批量注释/取消注释配置
- 五、常见问题处理
- 5.1 特殊字符转义问题
- 5.2 原地修改导致文件丢失
- 5.3 正则表达式匹配失败
- 六、结语
一、Sed 的优势
1.1 Sed的核心特性
- 非交互式操作:通过命令行或脚本批量处理文本,无需人工干预。
- 行寻址能力:支持按行号、正则表达式匹配定位操作范围。
- 原地编辑:通过
-i
参数直接修改源文件(需谨慎使用)。 - 跨平台兼容:适用于所有Unix/Linux系统及Windows(借助Cygwin/WSL)。
1.2 Sed与同类工具对比
工具 | Sed | Awk | Perl |
---|---|---|---|
定位 | 行级处理 | 列/字段级处理 | 复杂文本与逻辑处理 |
语法 | 简洁,专注文本流转换 | 支持变量、数组、条件判断 | 完整的脚本语言 |
性能 | 极高(纯流处理) | 较高 | 中等(功能越复杂越慢) |
适用场景 | 简单替换、删除、插入 | 结构化数据提取与报表生成 | 复杂文本解析与正则操作 |
总结:Sed在简单文本流处理场景中性能与简洁性优势突出,适合日志清洗、配置批量修改等任务。
二、安装配置
2.1 安装方法
- Linux/Unix:默认预装,无需额外安装。
- macOS:系统自带BSD版本Sed,若需GNU版本:
brew install gnu-sed # 使用gsed调用
- Windows:
- 通过WSL使用Linux环境。
- 安装Cygwin或Git Bash集成环境。
2.2 版本验证
# GNU版本显示"GNU sed"
linux01@linux01:~/data/sed$ sed --version
sed (GNU sed) 4.9
Packaged by Debian
Copyright (C) 2022 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <https://gnu.org/licenses/gpl.html>.
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.
三、使用技巧
3.1 基础语法结构
sed [选项] '地址范围/模式 命令' 文件
-
常用选项:
-n
:抑制默认输出,仅显示处理后的行。-i[后缀]
:原地编辑文件(建议备份,如-i.bak
),重点:如需修改立即生效则设置该选项
。-e
:连接多个命令(如sed -e 'cmd1' -e 'cmd2'
)。
-
常用正则:
^
:匹配行首。$
:匹配行尾。.*
:匹配任意字符(通配符)。
3.2 核心命令与应用
替换操作(s命令):
语法:s/模式/替换内容/修饰符
- 基础替换:
# 替换每行首个"apple"为"orange" sed 's/apple/orange/' file.txt
- 全局替换(g修饰符):
# 替换所有"apple"为"orange" sed 's/apple/orange/g' file.txt
- 指定分隔符:支持任意分隔符(如
#
、|
),处理含斜杠内容:# 替换所有"apple"为"orange" sed 's#/path/to/old#/new/path#g' config.conf
删除操作(d命令):
- 删除空行:
# 以空开头,以空结尾,表示为空行 sed '/^$/d' file.txt
- 删除特定范围行:
# 删除第5行 sed '5d' file.txt # 删除10到20行 sed '10,20d' file.txt
插入与追加(i/a命令):
- 行前插入(i):
# 在第3行前插入"Hello World" sed '3i Hello World' file.txt
- 行后追加(a):
# 在匹配"error"的行后追加"Check log" sed '/error/a Check log' file.txt
多命令组合:
# 删除空行并替换"test"为"prod"
sed -e '/^$/d' -e 's/test/prod/g' file.txt
四、生产高频场景
4.1 日志文件清洗
需求:清理Nginx日志中的调试信息(含DEBUG
的行)并替换时间格式。
原始日志片段:
2023-10-01 12:00:00 [DEBUG] Client 192.168.1.1 connected
2023-10-01 12:00:01 [INFO] Request /api/users handled
处理脚本:
sed -e '/\[DEBUG\]/d' \ # 删除DEBUG行-e 's/\([0-9]\{4\}-[0-9]\{2\}-[0-9]\{2\}\) \([0-9:\{8\}\]\)/\1T\2Z/' \ # 时间格式标准化access.log > cleaned.log
输出结果:
2023-10-01T12:00:01Z [INFO] Request /api/users handled
4.2 批量修改配置文件
需求:将多台服务器的/etc/ssh/sshd_config
中Port 22
改为Port 2222
,并备份原文件。
操作命令:
# 精准定位
sed -i.bak 's/^Port 22$/Port 2222/' /etc/ssh/sshd_config# 验证修改
grep '^Port 2222$' /etc/ssh/sshd_config
关键点:
^
匹配以 Port 开头,如未打开注释的 # Port 则不匹配。$
匹配 22 结尾的行,如 Port 2211 则不匹配。
4.3 日志时间戳格式标准化
需求:将日志中的时间戳从 Oct 1 12:00:00
转换为 ISO 8601 格式 2023-10-01T12:00:00Z
。
日志片段:
Oct 1 12:00:00 server1 nginx: Started
Oct 1 12:00:01 server2 app: Connected to DB
Sed 命令:
sed -E 's/([A-Za-z]{3}) ([0-9]{1,2}) ([0-9]{2}:){2}[0-9]{2}/2023-\1-\2T\3Z/' \ -e 's/\bOct\b/10/g' access.log
关键点:
-E
启用扩展正则表达式,简化分组捕获。- 月份缩写(如
Oct
)需二次替换为数字。
4.4 删除敏感信息(如密码、Token)
需求:清理日志中的 password=***
字段。
日志片段:
user=admin password=123456 action=login
Sed 命令:
sed 's/password=[^ ]*//g' secure.log
输出:
user=admin action=login
说明:[^ ]*
匹配非空格字符,直到下一个空格或行尾。
4.5 动态修改 K8s Deployment 镜像版本
需求:将 Deployment YAML 中的镜像 nginx:1.18
升级至 nginx:1.25
。
YAML 片段:
containers:
- name: nginx image: nginx:1.18
Sed 命令:
sed -i.bak '/image: nginx/s/:1.18/:1.25/' deployment.yaml
安全建议:
-i.bak
生成备份文件,防止误操作。
4.6 提取错误日志的上下文(多行处理)
需求:提取 Java 异常日志的完整堆栈跟踪(含匹配行及其后 5 行)。
Sed 命令:
sed -n '/Caused by:/{p; :loop n; p; /^$/q; b loop}' app.log
解析:
:loop
定义标签,n
读取下一行,/^$/q
遇到空行退出。
4.7 批量转换 CSV 文件为 TSV 格式
需求:将逗号分隔的 CSV 转换为制表符分隔的 TSV。
Sed 命令:
sed 's/,/\t/g' data.csv > data.tsv
注意:需确保字段内不含逗号(否则需更复杂的 CSV 解析器)。
4.8 K8s ConfigMap 内容批量更新
需求:替换 ConfigMap 中 debug: "true"
为 debug: "false"
。
YAML 片段:
data: config.ini: | [runtime] debug=true
Sed 命令:
sed -i '/debug=/s/true/false/' configmap.yaml
说明:限定在含 debug=
的行内替换,避免误改其他字段。
4.9 日志按时间窗口切割(跨行处理)
需求:提取时间范围 12:00:00
至 12:05:00
的日志。
Sed 命令:
sed -n '/12:00:00/,/12:05:00/p' syslog
扩展:结合 awk
处理更复杂的时间范围。
4.10 删除 JSON 日志中的冗余字段
需求:移除 JSON 中的 internal_debug
字段。
日志片段:
{"timestamp": "2023-10-01", "level": "error", "internal_debug": "x123", "msg": "failed"}
Sed 命令:
sed 's/"internal_debug":[^,]*,//' app.json
输出:
{"timestamp": "2023-10-01", "level": "error", "msg": "failed"}
4.11 K8s Pod 日志的实时过滤
需求:实时监控 Pod 日志中的 OOMKilled
事件。
命令组合:
kubectl logs -f pod/app | sed -n '/OOMKilled/{s/^/[OOM] /; p;}'
作用:在匹配行前添加 [OOM]
标记并输出。
4.12 多文件批量注释/取消注释配置
需求:在 Nginx 配置目录中注释所有 listen 80
行。
Sed 命令:
find /etc/nginx/ -type f -name "*.conf" -exec sed -i.bak '/listen 80/s/^/#/' {} +
解析:
find
定位所有.conf
文件,-exec
批量执行 Sed。
五、常见问题处理
5.1 特殊字符转义问题
问题:替换含斜杠/
或&
的内容时格式错误。
解决:
- 更换分隔符:
sed 's#/old/path#/new/path#g' file.txt
- 转义特殊字符:
sed 's/&/\&/g' file.txt # 转义XML中的&符号
5.2 原地修改导致文件丢失
问题:误用-i
未备份导致数据无法恢复。
预防:
- 始终使用
-i.bak
生成备份文件。 - 测试命令时先省略
-i
,确认无误后再执行修改。
5.3 正则表达式匹配失败
问题:预期匹配的行未被处理。
调试方法:
- 使用
p
命令打印匹配行:sed -n '/pattern/p' file.txt
- 启用正则表达式调试工具(如regex101.com)验证模式。
六、结语
Sed凭借其极简语法与高效流处理能力,成为Unix哲学中“小而美”工具的典范。掌握其核心命令与正则表达式技巧,可大幅提升文本处理效率,尤其在日志清洗、配置管理等场景中表现卓越。对于更复杂的文本操作,可结合Awk或Perl实现,但Sed始终是快速解决问题的首选利器。
相关文章:

Linux Sed 深度解析:从日志清洗到 K8s 等12个高频场景
看图猜诗,你有任何想法都可以在评论区留言哦~ 摘要:Sed(Stream Editor)作为 Linux 三剑客之一,凭借其流式处理与正则表达式能力,成为运维场景中文本批处理的核心工具。本文聚焦生产环境高频需求ÿ…...

基于java的网络编程入门
1. 什么是IP地址 由此可见,32位最大为255.255.255.255 打开cmd查询自己电脑的ip地址:ipconfig 测试网络是否通畅:ping 目标ip地址 2. IP地址的组成 注意:127.0.0.1是回送地址,指本地机,一般用来测试使用 …...
CV和NLP领域常见模型列表
图像分类(Image Classification) 模型名特点备注ConvNeXt V2卷积改进,媲美 Transformer强于 ResNet、EfficientNetVision Transformer (ViT)全 Transformer 架构开创图像 transformer 浪潮Swin Transformer V2局部注意力 金字塔结构更强的多…...

Git简介与入门
Git的发明 Git由著名的Linux创始人linus于2005年发明(所以git的界面、使用方式与Linux挺像的,即命令行方式) 经过发展,现在广泛应用于代码管理与团队协作。 Git特性 Git是分布式版本控制系统 分布式 每个开发者拥有完整仓库&…...

Linux 网络基础三 (数据链路层协议:以太网协议、ARP 协议)
一、以太网 两个不同局域网的主机传递数据并不是直接传递的,而是通过路由器 “一跳一跳” 的传递过去。 跨网络传输的本质:由无数个局域网(子网)转发的结果。 所以,要理解数据跨网络转发原理就要先理解一个局域网中数…...

16.QT-Qt窗口-菜单栏|创建菜单栏|添加菜单|创建菜单项|添加分割线|添加快捷键|子菜单|图标|内存泄漏(C++)
Qt窗⼝是通过QMainWindow类来实现的。 QMainWindow是⼀个为⽤⼾提供主窗⼝程序的类,继承⾃QWidget类,并且提供了⼀个预定义的布局。QMainWindow包含⼀个菜单栏(menu bar)、多个⼯具栏(tool bars)、多个浮动窗⼝(铆接部…...

[特殊字符] 分布式定时任务调度实战:XXL-JOB工作原理与路由策略详解
在微服务架构中,定时任务往往面临多实例重复执行、任务冲突等挑战。为了解决这一问题,企业级调度框架 XXL-JOB 提供了强大的任务统一调度与执行机制,特别适合在分布式系统中使用。 本文将从 XXL-JOB 的核心架构入手,详细讲解其调…...

java面试题及答案2020,java最新面试题(四十四)
java面试题及答案2020 二面-2020/3/18 1、自我介绍项目比赛 2、java集合框架全部介绍。。从list set queue到map 3、hashmap底层扩容线程安全问题 4、如果-一个对象要作为hashmap的key需要做什么 5、Threadlocal类以及 内存泄漏 6、线程同步方式,具体每一个怎么做的 7、jvm类加…...
Spring Boot 中处理 JSON 数值溢出问题:从报错到优雅解决
一、问题背景:为什么我的接口突然报错了? 假设你正在开发一个 Spring Boot 接口,接收类似这样的 JSON 请求: {"size": 111111111111111111111 }然后突然收到用户的反馈:请求报错啦! 查看日志&a…...

oracle 锁的添加方式和死锁的解决
DML锁添加方式 DML 锁可由一个用户进程以显式的方式加锁,也可通过某些 SQL 语句隐含方式实现。 DML 锁有三种加锁方式:共享锁方式、独占锁方式、共享更新。 共享锁,独占锁用于 TM 锁,共享锁用于 TX 锁。 1)共享方式的表级锁 共享方…...

基于Hadoop的音乐推荐系统(源码+lw+部署文档+讲解),源码可白嫖!
摘要 本毕业生数据分析与可视化系统采用B/S架构,数据库是MySQL,网站的搭建与开发采用了先进的Java语言、爬虫技术进行编写,使用了Spring Boot框架。该系统从两个对象:由管理员和用户来对系统进行设计构建。主要功能包括ÿ…...

Java查询数据库表信息导出Word
参考: POI生成Word多级标题格式_poi设置word标题-CSDN博客 1.概述 使用jdbc查询数据库把表信息导出为word文档, 导出为word时需要下载word模板文件。 已实现数据库: KingbaseES, 实现代码: 点击跳转 2.效果图 2.1.生成word内容 所有数据库合并 数据库不合并 2.2.生成文件…...
DAY9:Oracle数据库安全管理深度解析
引言 在当今数据泄露事件频发的时代,数据库安全管理已成为DBA和开发者的必修课。本文将深入探讨Oracle数据库安全管理的四大核心领域:用户权限管理、数据库审计、透明数据加密(TDE)和虚拟私有数据库(VPD)&…...

RK3588平台用v4l工具调试USB摄像头实践(亮度,饱和度,对比度,色相等)
目录 前言:v4l-utils简介 一:查找当前的摄像头设备 二:查看当前摄像头支持的v4l2-ctl调试参数 三根据提示设置对应参数,在提示范围内设置 四:常用调试命令 五:应用内执行命令方法 前言:v4l-utils简介 v4l-utils工具是由Linu…...
Dart Flutter数据类型详解 int double String bool list Map
目录 字符串的几种方式 bool值的判断 List的定义方式 Map的定义方式 Dart判断数据类型 (is 关键词来判断类型) Dart的数据类型详解 int double String bool list Map 常用数据类型: Numbers(数值): int double Strings(字符串) String Booleans(布尔…...
LainChain技术解析:基于RAG架构的下一代语言模型增强框架
摘要 随着大语言模型(LLM)在自然语言处理领域的突破性进展,如何突破其知识时效性限制、提升事实准确性成为关键挑战。LainChain通过整合检索增强生成(RAG)技术,构建起动态知识接入框架,为LLM提供实时外部知识支持。本文从技术原理、架构设计、应用场景三个维度,深入解…...
组件是怎样写的(1):虚拟列表-VirtualList
本篇文章是《组件是怎样写的》系列文章的第一篇,该系列文章主要说一下各组件实现的具体逻辑,组件种类取自 element-plus 和 antd 组件库。 每个组件都会有 vue 和 react 两种实现方式,可以点击 https://hhk-png.github.io/components-show/ …...

在Linux中,使用read函数去读取写入文件空洞部分时,读取出来的内容是什么?为什么这样操作,以及应用场景?
使用 read 函数读取文件空洞(hole)部分时,读取到的内容会被系统填充为 \0(即零字节)。文件空洞是稀疏文件中未实际分配磁盘空间的区域,但逻辑上表现为连续的零字节。 1.在指定空洞部分后,写入数…...

Qt6笔记-对Qt6中对CMakeLists.txt的解析
首先,新建Qt Console Application项目。 下面对CMakeLists.txt进行次理解。新建好后,Qt Creator会生成CMakeLists.txt,具体内容如下: cmake_minimum_required(VERSION 3.16)project(EasyCppMain LANGUAGES CXX)set(CMAKE_AUTOUIC…...

CIFAR10图像分类学习笔记(三)---数据加载load_cifar10
新创建一个load_cifar10源文件 需要导入的包 import glob from torchvision import transforms from torch.utils.data import DataLoader ,Dataset import os #读取工具 from PIL import Image import numpy as np 01同样定义10个类别的标签名数组 label_name ["airpl…...

计算机视觉cv入门之答题卡自动批阅
前边我们已经讲解了使用cv2进行图像预处理与边缘检测等方面的知识,这里我们以答题卡自动批阅这一案例来实操一下。 大致思路 答题卡自动批阅的大致流程可以分为这五步:图像预处理-寻找考试信息区域与涂卡区域-考生信息区域OCR识别-涂卡区域填涂答案判断…...

Java学习手册:JSON 数据格式基础知识
1. JSON 简介 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于阅读和编写,也易于机器解析和生成。它最初来源于 JavaScript,但如今已被许多语言所采用,包括 Java、Python、C 等。JSON 以…...
【Python爬虫详解】第四篇:使用解析库提取网页数据——BeautifuSoup
在前一篇文章中,我们学习了如何编写第一个爬虫程序,成功获取了网页的HTML内容。然而,原始HTML通常包含大量我们不需要的信息,真正有价值的数据往往隐藏在HTML的标签和属性中。这一篇,我们将学习如何使用Python的解析库…...

《重塑AI应用架构》系列: Serverless与MCP融合创新,构建AI应用全新智能中枢
在人工智能飞速发展的今天,数据孤岛和工具碎片化问题一直是阻碍AI应用高效发展的两大难题。由于缺乏统一的标准,AI应用难以无缝地获取和充分利用数据价值。 为了解决这些问题,2024年AI领域提出了MCP(Model Context Protocol模型上…...

深度图可视化
import cv2# 1.读取一张深度图 depth_img cv2.imread("Dataset_depth/images/train/1112_0-rgb.png", cv2.IMREAD_UNCHANGED) print(depth_img.shape) cv2.imshow("depth", depth_img) # (960, 1280) print(depth_img)# 读取一张rgb的图片做对比 input_p…...
【调优】log日志海量数据分表后查询速度调优
原始实现 使用pagehelper实现分页 // 提取开始时间的年份和月份,拼装成表名List<String> timeBetween getTimeBetween(condition);List<String> fullTableName getFullTableName(Constants.LOG_TABLE_NAME, timeBetween);PageHelperUtil.startPage(c…...
hive默认的建表格式
在 Hive 中创建表时,默认的建表语法格式如下: CREATE TABLE table_name (column1_type,column2_type,... ) ROW FORMAT DELIMITED FIELDS TERMINATED BY , STORED AS TEXTFILE;在这个语法中: CREATE TABLE table_name:指定要创建…...
sass 变量
基本使用 如果分配给变量的值后面添加了 !default 标志 ,这意味着该变量如果已经赋值,那么它不会被重新赋值,但是,如果它尚未赋值,那么它会被赋予新的给定值。 如果在此之前变量已经赋值,那就不使用默认值…...

微软Edge浏览器字体设置
前言 时间:2025年4月 自2025年4月起,微软Edge浏览器的默认字体被微软从微软雅黑替换成了Noto Sans,如下图。Noto Sans字体与微软雅黑风格差不多,但在4K以下分辨率的显示器上较微软雅黑更模糊,因此低分辨率的显示器建议…...

Vue生命周期详细解析
前言 Vue.js作为当前最流行的前端框架之一,其生命周期钩子函数是每个Vue开发者必须掌握的核心概念。本文将全面解析Vue的生命周期,帮助开发者更好地理解Vue实例的创建、更新和销毁过程。 一、Vue生命周期概述 Vue实例从创建到销毁的整个过程被称为Vue…...