当前位置: 首页 > news >正文

Shell编程之正则表达式与文本处理器

一,正则表达式

1:正则表达式概述

 1.正则表达式的定义

正则表达式(Regular Expression,RegEx)是一种高度灵活的文本处理工具,它结合了字符序列、特殊控制字符(称为元字符)、以及特定的构造规则,形成一种模式描述语言。这种模式能够精准地匹配、查找、替换或提取文本中的特定字符串或模式。正则表达式的核心价值在于其强大的模式描述能力,使得开发者能够以简洁的表达式来应对复杂的文本处理需求。

2.正则表达式的用途

正则表达式广泛应用于多种场合,简化了字符串处理任务,主要用途包括:

  • 搜索匹配:快速在文本中查找符合特定规则的字符串,比如查找所有网址或邮箱地址。
  • 数据验证:确保用户输入的数据格式正确,比如检查是否输入了合法的电话号码或日期格式。
  • 文本替换:批量替换文本中的某种模式,例如将所有电子邮件地址替换为“[邮箱]”。
  • 信息提取:从复杂的文本中提取有用信息,如从网页中提取所有链接。
  • 文本分隔:依据特定规则将文本切分成多个部分,用于数据分析或预处理。

 2:基础正则表达

1.基础正则表达式示例

(1)查找特定字符

示例:在log.txt中查找含有"ERROR"关键词的行。

  • 命令grep 'ERROR' log.txt
  • 说明:直接匹配字符串"ERROR",适用于快速定位错误信息。
(2)利用中括号"[]"匹配集合字符

示例:查找所有以数字或小写字母开头的行。

  • 命令grep '^[0-9a-z]' data.txt
  • 说明[0-9a-z]匹配数字0-9和小写字母a-z中的任意一个,^确保匹配的是行首字符。
(3)行首"^"与行尾"$"的应用

示例:查找所有以".conf"为文件扩展名的行。

  • 命令ls | grep '\.conf$'
  • 说明\.用于匹配实际的点字符,$确保".conf"位于行尾,从而精确匹配文件扩展名。
(4)任意字符"."与重复字符"*"的组合

示例:查找所有以任何形式的"email"出现的行。

  • 命令grep -E 'email.*' messages.log
  • 说明.匹配任意字符(除了换行符),*表示前面的元素可以重复零次或多次,所以email.*匹配以"email"开始的任何文本。
(5)连续字符范围"{}"的精确定位

示例:查找所有长度为6的密码。

  • 命令grep -E '\b\w{6}\b' passwords.txt
  • 说明\w{6}匹配正好六个单词字符(字母、数字或下划线),\b确保匹配的是完整单词。

2. 元字符总结

  • .:转义点字符,用于匹配实际的"."字符。
  • ^ 和 $:分别匹配字符串的开始和结束,注意在方括号[]内时失去特殊含义。
  • :定义字符集,如[abc]匹配"a"、"b"或"c"。
  • $$:分组,用于捕获匹配或应用量词于整个组。
  • |:逻辑或,匹配左右两边的任一模式,如cat|dog匹配"cat"或"dog"。
  • {n,m}:指定匹配次数的范围,如\d{3,5}匹配3到5位数字。
  • ?、*、+:分别代表前面的元素可以重复0次、0次或多次、1次或多次。
  • \w、\d、\s:预定义字符类,分别匹配字母数字、数字、空白字符。
  • \W、\D、\S:与上述相反,匹配非字母数字、非数字、非空白字符。
  • 反向引用:通过\n引用之前分组的内容,如(\w+)\s+\1匹配重复的单词。
  • 忽略大小写:在某些命令中(如grep)使用-i选项,如grep -i 'error'
  • 多行模式:在某些情况下,使用-z(如在grep中)处理多行文本作为一个整体。

二,文本处理器

        1:sed工具

                1.sed命令常见用法

-n :使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN 的数据一般都会被列出到终端上。但如果加上 -n 参数后,则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。
-e :直接在命令列模式上进行 sed 的动作编辑;
-f :直接将 sed 的动作写在一个文件内, -f filename 则可以运行 filename 内的 sed 动作;
-r :sed 的动作支持的是延伸型正规表示法的语法。(默认是基础正规表示法语法)
-i :直接修改读取的文件内容,而不是输出到终端。

                2.用法示例

  • 输出符合条件的文本(p)

    • 示例sed '/pattern/p' filename
      会在匹配到pattern的行后面直接再输出该行,相当于打印匹配到的行。
  • 删除符合条件的文本(d)

    • 示例sed '/pattern/d' filename
      删除所有匹配到pattern的行。
  • 替换符合条件的文本

    • 示例sed 's/old/new/g' filename
      将文件中所有匹配到old的字符串替换为newg标志表示全局替换。
  • 迁移符合条件的文本

    • 示例sed '/pattern/{h;d};G' filename
      匹配到pattern的行会被暂存(h命令),然后删除(d命令),接着在每个非匹配行后追加暂存的行(G命令)。
  • 使用脚本编辑文件

    • 示例:创建一个sed脚本script.sed,内容为s/pattern/replacement/,然后执行sed -f script.sed filename
  • sed直接操作文件示例

    • 示例sed -i 's/old/new/g' filename
      直接在原文件中进行替换,-i选项表示就地编辑。

        2:awk工具

                1.awk常见用法

$0           表示整个当前行

$1           每行第一个字段

NF          字段数量变量

NR          每行的记录号,多文件记录递增

FNR        与NR类似,不过多文件记录不递增,每个文件都从1开始

\t            制表符

\n           换行符

FS          BEGIN时定义分隔符

RS       输入的记录分隔符, 默认为换行符(即文本是按一行一行输入)

~            匹配,与==相比不是精确比较

!~           不匹配,不精确比较

==         等于,必须全部相等,精确比较

!=           不等于,精确比较

&&     逻辑与

||             逻辑或

+            匹配时表示1个或1个以上

/[0-9][0-9]+/   两个或两个以上数字

/[0-9][0-9]*/    一个或一个以上数字

FILENAME 文件名

OFS      输出字段分隔符, 默认也是空格,可以改为制表符等

ORS        输出的记录分隔符,默认为换行符,即处理结果也是一行一行输出到屏幕

-F'[:#/]'   定义三个分隔符

                2.用法示例

(1):按行输出文本

awk -F":" '{print}' /etc/passwd //输出所有

awk -F":" '{print $0}' /etc/passwd //输出所有

awk -F: 'NR==3,NR==6{print}' /etc/passwd  //显示第3行到第6行

awk -F: 'NR>=3&&NR<=6{print}' /etc/passwd       //显示第3行到第6行

awk -F: 'NR==3||NR==6{print}' /etc/passwd       //显示第3行和第6行

awk '(NR%2)==1{print}' /etc/passwd //显示奇数行

awk '(NR%2)==0{print}' /etc/passwd //显示偶数行

awk '/^root/{print}' /etc/passwd //显示以root开头的行

awk '/nologin$/{print}' /etc/passwd //显示以nologin结尾的行

awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd      //统计以/bin/bash结尾的行数

awk 'BEGIN{RS=""};END{print NR}' /etc/ssh/sshd_config //统计以空行分隔的文本段落数

awk '{print NR,$0}' /etc/passwd                                 //输出每行的行号

awk -F: '{print NR,NF,$NF,"\t",$0}' /etc/passwd      //依次打印行号,字段数,最后字段值,制表符,每行内容

awk -F: 'NR==5{print}'  /etc/passwd                         //显示第5行

route -n|awk 'NR!=1{print}'                                       //不显示第一行

awk -F: '{print NF}' /etc/passwd                                //显示每行有多少字段

awk -F: '{print $NF}' /etc/passwd                              //将每行第NF个字段的值打印出来

 awk -F: 'NF==4 {print }' /etc/passwd                       //显示只有4个字段的行

awk -F: 'NF>2{print $0}' /etc/passwd                       //显示每行字段数量大于2的行

(2):按字段输出文本

awk -F":" '{print $3}' /etc/passwd //显示第三列

awk -F":" '{print $1 $3}' /etc/passwd                       //$1与$3相连输出,无空格,

awk -F":" '{print $1,$3}' /etc/passwd                       //多了一个逗号,输出第1和第3个字段,有空格

awk -F: '$2=="!!" {print}' /etc/shadow //统计密码为空的shadow记录

awk 'BEGIN {FS=":"}; $2=="!!" {print}' /etc/shadow ##显示密码为空的用户的shadow信息

awk -F ":" '$7~"/bash" {print $1}' /etc/passwd ##显示第七个字段为/bash的行的第一个字段

awk -F: 'NR==5{print}' /etc/passwd                         //显示第5行

awk -F":" '{print $1 " " $3}' /etc/passwd                  //$1与$3之间手动添加空格分隔

(3):通过管道,双引号调用Shell命令

awk -F: '/bash$/{print | "wc -l"}' /etc/passwd     ##统计bash用户的个数

awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}}'   ##统计在线用户的数量

awk 'BEGIN {"hostname" | getline;print $0}'      ##输出当前主机名

awk -F: '$1~/mail/ && $3>6 {print }' /etc/passwd         //逻辑与,$1匹配mail,并且$3>6

awk -F: '{if($1~/mail/ && $3>8) print }' /etc/passwd  

awk -F: '$1~/mail/ || $3>1000 {print }' /etc/passwd       //逻辑或,统计以mail开头或第3列大于1000的行

awk -F: '{if($1~/mail/ || $3>1000) print }' /etc/passwd 

相关文章:

Shell编程之正则表达式与文本处理器

一&#xff0c;正则表达式 1&#xff1a;正则表达式概述 1.正则表达式的定义 正则表达式&#xff08;Regular Expression&#xff0c;RegEx&#xff09;是一种高度灵活的文本处理工具&#xff0c;它结合了字符序列、特殊控制字符&#xff08;称为元字符&#xff09;、以及特定…...

linux文本粘贴格式错乱的问题

vi/vim :set paste然后再 insert, 粘贴...

第二节课 6月13日 ssh密钥登陆方式

centos和ubuntu openssh服务的初始安装 一、实验&#xff1a;ubuntu系统激活root用户 ubuntu系统如何激活root用户&#xff0c;允许root用户ssh登陆&#xff1f; 1、ubuntu默认root用户未设置密码&#xff0c;未激活 激活root用户&#xff0c;设置root密码 sudo passwd roo…...

图书馆借阅表

DDL 用户表 (Users) 图书表 (Books) 图书类别表 (BookCategories) 图书与类别关联表 (BookCategoryRelations) 借阅记录表 (BorrowRecords) 供应商表 (Suppliers) 采购记录表 (PurchaseRecords) CREATE TABLE Users (user_id INT PRIMARY KEY AUTO_INCREMENT,username …...

云动态摘要 2024-06-25

给您带来云厂商的最新动态&#xff0c;最新产品资讯和最新优惠更新。 最新产品更新 Web应用防火墙 - 验证码支持微信小程序接入 阿里云 2024-06-25 支持客户从微信小程序场景下接入&#xff0c;提供人机识别的安全防护。 工业数字模型驱动引擎 - iDME控制台换新升级 华为云…...

Docker编译nanopc-t4源码流程介绍

官方文档 Android系统编译 vnc加环境变量配置 https://github.com/friendlyarm/docker-cross-compiler-novnc 下载 git clone https://github.com/friendlyarm/docker-ubuntu-lxde-novnc cd docker-ubuntu-lxde-novnc docker build --no-cache -t docker-ubuntu-lxde-novnc …...

Redis八股文目录

Redis缓存穿透-CSDN博客 Redis缓存击穿-CSDN博客 Redis缓存雪崩&#xff08;主从复制、哨兵模式&#xff08;脑裂&#xff09;、分片集群&#xff09;-CSDN博客 Redis双写一致性-CSDN博客 Redis持久化-CSDN博客 Redis数据过期、淘汰策略-CSDN博客 分布式锁&#xff08;Re…...

Ext JS+Spring Boot 使用Ajax方式上传文件

实现方式 使用 Ext JS 进行 AJAX 调用以传递文件通常涉及到创建一个 FormData 对象,将文件附加到这个对象中,然后通过 Ext JS 的 AJAX API 发送这个对象。 基本步骤 以下是使用 Ext JS 发送文件的基本步骤: 准备文件和数据: 首先需要获取到要传递的文件 创建 FormData 对…...

windows桌面运维----第九天

1、新的电脑需要安装哪些驱动&#xff1a; 显卡驱动、声卡驱动、主板驱动、网卡驱动、打印机驱动、外设驱动、 2、网络打印机如何开启打印机共享核客户端连接共享打印机&#xff1a; 一、打开控制面板并定位到设备和打印机&#xff1a; 首先&#xff0c;我们在电脑桌面上找…...

【Docker】安装和加速

目录 1.安装 2.了解 docker 信息 3.查询状态 4. 重新启动Docker 1.安装 yum install –y docker 2.了解 docker 信息 cat /etc/redhat-release 3.查询状态 systemctl status docker 4.支持 1.12 的 docker 镜像加速 sudo mkdir -p /etc/docker sudo tee /etc/docke…...

如何关闭win10音量调节时 左上角出现的黑框

目录 1.谷歌浏览器&#xff1a; 2.edge浏览器&#xff1a; 3.没得办法的办法&#xff1a; 4.官方回复&#xff1a; 1.谷歌浏览器&#xff1a; 把这行地址chrome://flags/#hardware-media-key-handling 输入到chrome的地址栏里&#xff0c;回车&#xff0c;把黄色里的Hardwa…...

准确率(accuracy)、召回率(recall)的意义和区别

准确率&#xff08;accuracy&#xff09;、召回率&#xff08;recall&#xff09;的意义和区别 对于准确率和召回率&#xff1a;一句话&#xff0c;准确率就是“找的对”&#xff0c;召回率就是“找的全” &#xff08;精确率&#xff1a;正样本中找对的准确率&#xff09; 注…...

分享5个卫星影像查看网站

我们在《分享5个图源二维码及使用方法》一文中&#xff0c;为你分享了5个图源二维码。 现在再为你为分享5种在线卫星影像&#xff0c;如果你需要更多的图源二维码&#xff0c;请在文末查看领取方式。 MapBox卫星影像 可能很多人都知道MapBox的地名路网地图&#xff0c;但可能…...

37岁,被裁员,失业三个月,被面试官嫌弃“太水”:就这也叫10年以上工作经验?

今年部门要招两个自动化测试&#xff0c;这几个月我面试了几十位候选人。发现一个很奇怪的现象&#xff0c;面试中一问到元素定位、框架api、脚本编写之类的&#xff0c;很多候选人都对答如流。但是一问到实际项目&#xff0c;比如“项目中UI自动化和接口自动化如何搭配使用&am…...

如何选择一款优质的酱香酒?

很多人在评价一款酒的好坏时&#xff0c;往往只关注一个标准&#xff1a;口感是否顺滑。然而&#xff0c;真正品鉴一款酒的品质&#xff0c;首要的是香味&#xff0c;其次是味道&#xff0c;最后才是岁月带来的柔和。这种由岁月赋予的柔和&#xff0c;才能展现出酒的力量感和层…...

SQL Server数据库安装

原文&#xff1a;https://blog.c12th.cn/archives/26.html SQL Server数据库安装 测试&#xff1a;笔记本原装操作系统&#xff1a;Windows 10 家庭中文版 资源分享链接&#xff1a;提取码&#xff1a;qbt2 注意事项&#xff1a; 请严格按照步骤安装&#xff0c;SQL软件安装较…...

Hadoop 面试题(十)

1. 简述下列关于Hadoop命令中&#xff0c;命令执行成功返回0&#xff0c;执行失败返回-1&#xff0c;下列命令返回-1的是 &#xff1f; A&#xff1a;hadoop fs -mv /user/hadoop/file1 /user/hadoop/file2 B&#xff1a;hdfs dfs -mv hdfs:///testData file:///tmp/testData …...

Python网络安全项目开发实战,如何看清Web攻击

注意:本文的下载教程,与以下文章的思路有相同点,也有不同点,最终目标只是让读者从多维度去熟练掌握本知识点。 下载教程: Python网络安全项目开发实战_看清Web攻击_编程案例解析实例详解课程教程.pdf 一、引言 在网络安全领域,Web攻击一直是一个严峻的问题。攻击者通过各…...

持续总结中!2024年面试必问的操作系统面试题(三)

上一篇地址&#xff1a;持续总结中&#xff01;2024年面试必问的操作系统面试题&#xff08;二&#xff09;-CSDN博客 五、什么是分页和分段&#xff1f;它们之间有什么区别&#xff1f; 分页和分段是操作系统中用于内存管理的两种不同技术&#xff0c;它们都旨在允许操作系统…...

请说明Thread类中run和start的区别,从方法的区别,及运行结果的区别分别说明

方法本身的区别 start() 方法&#xff1a; run()方法是Thread类的一个普通方法&#xff0c;它包含了线程要执行的代码。当你直接调用一个线程的run()方法&#xff08;如myThread.run()&#xff09;&#xff0c;你实际上是在当前线程&#xff08;通常是主线程&#xff09;中执行…...

CentOS下的分布式内存计算Spark环境部署

一、Spark 核心架构与应用场景 1.1 分布式计算引擎的核心优势 Spark 是基于内存的分布式计算框架&#xff0c;相比 MapReduce 具有以下核心优势&#xff1a; 内存计算&#xff1a;数据可常驻内存&#xff0c;迭代计算性能提升 10-100 倍&#xff08;文档段落&#xff1a;3-79…...

ESP32 I2S音频总线学习笔记(四): INMP441采集音频并实时播放

简介 前面两期文章我们介绍了I2S的读取和写入&#xff0c;一个是通过INMP441麦克风模块采集音频&#xff0c;一个是通过PCM5102A模块播放音频&#xff0c;那如果我们将两者结合起来&#xff0c;将麦克风采集到的音频通过PCM5102A播放&#xff0c;是不是就可以做一个扩音器了呢…...

大模型多显卡多服务器并行计算方法与实践指南

一、分布式训练概述 大规模语言模型的训练通常需要分布式计算技术,以解决单机资源不足的问题。分布式训练主要分为两种模式: 数据并行:将数据分片到不同设备,每个设备拥有完整的模型副本 模型并行:将模型分割到不同设备,每个设备处理部分模型计算 现代大模型训练通常结合…...

嵌入式常见 CPU 架构

架构类型架构厂商芯片厂商典型芯片特点与应用场景PICRISC (8/16 位)MicrochipMicrochipPIC16F877A、PIC18F4550简化指令集&#xff0c;单周期执行&#xff1b;低功耗、CIP 独立外设&#xff1b;用于家电、小电机控制、安防面板等嵌入式场景8051CISC (8 位)Intel&#xff08;原始…...

Linux部署私有文件管理系统MinIO

最近需要用到一个文件管理服务&#xff0c;但是又不想花钱&#xff0c;所以就想着自己搭建一个&#xff0c;刚好我们用的一个开源框架已经集成了MinIO&#xff0c;所以就选了这个 我这边对文件服务性能要求不是太高&#xff0c;单机版就可以 安装非常简单&#xff0c;几个命令就…...

解析两阶段提交与三阶段提交的核心差异及MySQL实现方案

引言 在分布式系统的事务处理中&#xff0c;如何保障跨节点数据操作的一致性始终是核心挑战。经典的两阶段提交协议&#xff08;2PC&#xff09;通过准备阶段与提交阶段的协调机制&#xff0c;以同步决策模式确保事务原子性。其改进版本三阶段提交协议&#xff08;3PC&#xf…...

在RK3588上搭建ROS1环境:创建节点与数据可视化实战指南

在RK3588上搭建ROS1环境:创建节点与数据可视化实战指南 背景介绍完整操作步骤1. 创建Docker容器环境2. 验证GUI显示功能3. 安装ROS Noetic4. 配置环境变量5. 创建ROS节点(小球运动模拟)6. 配置RVIZ默认视图7. 创建启动脚本8. 运行可视化系统效果展示与交互技术解析ROS节点通…...

Heygem50系显卡合成的视频声音杂音模糊解决方案

如果你在使用50系显卡有杂音的情况&#xff0c;可能还是官方适配问题&#xff0c;可以使用以下方案进行解决&#xff1a; 方案一&#xff1a;剪映替换音色&#xff08;简单适合普通玩家&#xff09; 使用剪映换音色即可&#xff0c;口型还是对上的&#xff0c;没有剪映vip的&…...

分布式光纤声振传感技术原理与瑞利散射机制解析

分布式光纤传感技术&#xff08;Distributed Fiber Optic Sensing&#xff0c;简称DFOS&#xff09;作为近年来迅速发展的新型感知手段&#xff0c;已广泛应用于边界安防、油气管道监测、结构健康诊断、地震探测等领域。其子类技术——分布式光纤声振传感&#xff08;Distribut…...

如何优雅地绕过限制调用海外AI-API?反向代理与API中转技术详解​

阅读时长​​ | 8分钟 ​​适用读者​​ | 需要跨境调用OpenAI等AI服务的开发者/企业 ​​一、问题背景&#xff1a;为什么需要代理&#xff1f;​​ 最近在技术社区看到这样的求助&#xff1a; "公司服务器在国内&#xff0c;但业务需要调用OpenAI接口&#xff0c;直接访…...