当前位置: 首页 > article >正文

Linux-C/C++《七、字符串处理》(字符串输入/输出、C 库中提供的字符串处理函数、正则表达式等)

        字符串处理在几乎所有的编程语言中都是一个绕不开的话题,在一些高级语言当中,对字符串的处理支 持度更是完善,譬如 C++、 C# Python 等。若在 C 语言中想要对字符串进行相关的处理,譬如将两个字符串进行拼接、字符串查找、两个字符串进行比较等操作,几乎是需要程序员自己编写字符串处理相关逻辑代码来实现字符串处理功能。
        好在 C 语言库函数中已经给我们提供了丰富的字符串处理相关函数,基本常见的字符串处理需求都可以直接使用这些库函数来实现,而不需要自己编写代码,使用这些库函数可以大大减轻编程负担。这些库函数大致可以分为字符串的输入、输出、合并、修改、比较、转换、复制、搜索等几类,本章将向大家介绍这些库函数的使用方法。
本章将会讨论如下主题内容。
字符串输入 / 输出;
C 库中提供的字符串处理函数;
给应用程序传参;
正则表达式。

1、字符串输入/输出

        在程序当中,经常需要在程序运行过程中打印出一些信息,将其输出显示到标准输出设备 stdout (譬如屏幕)或标准错误设备 stderr (譬如屏幕),譬如调试信息、报错信息、中间产生的变量的值等等,以实现对程序运行状态的掌控和分析。除了向 stdout stderr 输出打印信息之外,有时程序在运行过程中还需要从标准输入设备 stdin (譬如键盘)中读取字符串,将读取到的字符串进行解析,以指导程序的下一步动作、控制程序执行流程。

1.1 字符串输出

        常用的字符串输出函数有 putchar() puts() fputc() fputs() ,前面我们经常使用 printf() 函数来输出字符串信息,而并没有使用到 putchar() puts() fputc() fputs() 这些函数,原因在于 printf() 可以按照自己规定的格式输出字符串信息,一般称为格式化输出;而 putchar() puts() fputc() fputs() 这些函数只能输出字符串,不能进行格式转换。所以由此可知,printf() 在功能上要比 putchar() puts() fputc() fputs() 这些函数更加强大,往往在实际编程中,printf() 用的也会更多,但是 putchar() puts() fputc() fputs() 这些库函数相比与 printf ,在使用上方便、简单。
        与 printf() 一样, putchar() puts() fputc() fputs() 这些函数也是标准 I/O 函数,属于标准 C 库函数,所以需要包含头文件<stdio.h> ,并且它们也使用 stdio 缓冲。
        puts 函数
        puts()函数用来向标准输出设备(屏幕、显示器)输出字符串并自行换行。把字符串输出到标准输出设备,将' \0 ' 转换为换行符 ' \n ' puts 函数原型如下所示(可通过 "man 3 puts" 命令查看):
#include <stdio.h>
int puts(const char *s);
        函数参数和返回值含义如下:
        s: 需要进行输出的字符串。
        返回值:成功返回一个非负数;失败将返回 EOF EOF 其实就是 -1
使用 puts() 函数连换行符 ' \n ' 都省了,函数内部会自动在其后添加一个换行符。所以,如果只是单纯输出字符串到标准输出设备,而不包含数字格式化转换操作,那么使用 puts() 会更加方便、简洁; puts() 虽然方便、简单,但也仅限于输出字符串,功能还是没有 printf() 强大。
        putchar 函数
        putchar()函数可以把参数 c 指定的字符(一个无符号字符)输出到标准输出设备,其输出可以是一个字符,可以是介于 0~127 之间的一个十进制整型数(包含 0 127 ,输出其对应的 ASCII 码字符),也可以是用 char 类型定义好的一个字符型变量。 putchar 函数原型如下所示(可通过 "man 3 putchar" 命令查看):
#include <stdio.h>
int putchar(int c);
        函数参数和返回值含义如下:
        c: 需要进行输出的字符。
        返回值:出错将返回 EOF
        fputc 函数
        fputc()与 putchar() 类似,也用于输出参数 c 指定的字符(一个无符号字符),与 putchar() 区别在于,putchar()只能输出到标准输出设备,而 fputc() 可把字符输出到指定的文件中,既可以是标准输出、标准错误设备,也可以是一个普通文件。
        fputc 函数原型如下所示:
#include <stdio.h>
int fputc(int c, FILE *stream);
        使用该函数需要包含头文件<stdio.h>
        函数参数和返回值含义如下:
        c: 需要进行输出的字符。
        stream: 文件指针。
        返回值:成功时返回输出的字符;出错将返回 EOF
        fputs 函数
        同理,fputs() puts() 类似,也用于输出一条字符串,与 puts() 区别在于, puts() 只能输出到标准输出设备,而 fputs() 可把字符串输出到指定的文件中,既可以是标准输出、标准错误设备,也可以是一个普通文件。
        函数原型如下所示:
#include <stdio.h>
int fputs(const char *s, FILE *stream);
        函数参数和返回值含义如下:
        s: 需要输出的字符串。
        stream: 文件指针。
        返回值:成功返回非负数;失败将返回 EOF

1.2字符串输入

        常用的字符串输入函数有 gets() getchar() fgetc() fgets() 。与 printf() 对应,在 C 库函数中同样也提供了格式化输入函数 scanf() scanf() gets() getchar() fgetc() fgets() 这些函数相比,在功能上确实有它的优势,但是在使用上不如它们方便、简单、更易于使用。
        与 scanf() 一样, gets() getchar() fgetc() fgets() 这些函数也是标准 I/O 函数,属于标准 C 库函数,所以需要包含头文件<stdio.h> ,并且它们也使用 stdio 缓冲。
        gets 函数
        gets()函数用于从标准输入设备(譬如键盘)中获取用户输入的字符串, gets() 函数原型如下所示:
#include <stdio.h>
char *gets(char *s);
        函数参数和返回值含义如下:
        s: 指向字符数组的指针,用于存储字符串。
        返回值:如果成功,该函数返回指向 s 的指针;如果发生错误或者到达末尾时还未读取任何字符,则返回 NULL
        用户从键盘输入的字符串数据首先会存放在一个输入缓冲区中,gets() 函数会从输入缓冲区中读取字符串存储到字符指针变量 s 所指向的内存空间,当从输入缓冲区中读走字符后,相应的字符便不存在于缓冲区了。
        输入的字符串中就算是有空格也可以直接输入,字符串输入完成之后按回车即可,gets() 函数不检查缓冲区溢出。
        gets()与 scanf() 的区别
        gets()除了在功能上不及 scanf 之外,它们在一些细节上也存在着不同:
         gets() 函数不仅比 scanf 简洁,而且,就算输入的字符串中有空格也可以,因为 gets() 函数允许输入的字符串带有空格、制表符,输入的空格和制表符也是字符串的一部分,仅以回车换行符作为字符串的分割符;而对于 scanf %s 格式输入的时候,空格、换行符、 TAB 制表符等都是作为字符串分割符存在,即分隔符前后是两个字符串,读取字符串时并不会将分隔符读取出来作为字符串的组成部分,一个%s 只能读取一个字符串,若要多去多个字符串,则需要使用多个 %s 、并且需要使用多个字符数组存储。
         gets() 会将回车换行符从输入缓冲区中取出来,然后将其丢弃,所以使用 gets() 读走缓冲区中的字符串数据之后,缓冲区中将不会遗留下回车换行符;而对于 scanf() 来说,使用 scanf() 读走缓冲区中的字符串数据时,并不会将分隔符(空格、TAB 制表符、回车换行符等)读走将其丢弃,所以使用 scanf() 读走缓冲区中的字符串数据之后,缓冲区中依然还存在用户输入的分隔符。 
        getchar 函数
        getchar()函数用于从标准输入设备中读取一个字符(一个无符号字符),函数原型如下所示:
#include <stdio.h>
int getchar(void);
        函数参数和返回值含义如下:
        无需传参
        返回值:该函数以无符号 char 强制转换为 int 的形式返回读取的字符,如果到达文件末尾或发生读错误,则返回 EOF
        同样 getchar() 函数也是从输入缓冲区读取字符数据,但只读取一个字符,包括空格、 TAB 制表符、换行回车符等。
        fgetc 函数
        fgetc()与 getchar() 一样,用于读取一个输入字符,函数原型如下所示:
#include <stdio.h>
int fgetc(FILE *stream);
        函数参数和返回值含义如下:
        stream: 文件指针。
        返回值:该函数以无符号 char 强制转换为 int 的形式返回读取的字符,如果到达文件末尾或发生读错误,则返回 EOF
        fgetc()与 getchar() 的区别在于, fgetc 可以指定输入字符的文件,既可以从标准输入设备输入字符,也可以从一个普通文件中输入字符,其它方面与 getchar 函数相同。

2、字符串长度

        C 语言函数库中提供了一个用于计算字符串长度的函数 strlen() ,其函数原型如下所示:
#include <string.h>
size_t strlen(const char *s);
        函数参数和返回值含义如下:
        s: 需要进行长度计算的字符串,字符串必须包含结束字符 ' \0 '
        返回值:返回字符串长度(以字节为单位),字符串结束字符 ' \0 ' 不计算在内。
        sizeof 和 strlen 的区别
        在程序当中,我们通常也会使用 sizeof 来计算长度,那 strlen sizeof 有什么区别呢?
         sizeof C 语言内置的操作符关键字,而 strlen C 语言库函数;
         sizeof 仅用于计算数据类型的大小或者变量的大小,而 strlen 只能以结尾为 ' \0 ' 的字符串作为参数;
         编译器在编译时就计算出了 sizeof 的结果,而 strlen 必须在运行时才能计算出来;
         sizeof 计算数据类型或变量会占用内存的大小, strlen 计算字符串实际长度。

3 、字符串拼接

        C 语言函数库中提供了 strcat() 函数或 strncat() 函数用于将两个字符串连接(拼接)起来, strcat 函数原 型如下所示:
        strcat 函数
#include <string.h>
char *strcat(char *dest, const char *src);
        函数参数和返回值含义如下:
        dest: 目标字符串。
        src: 源字符串。
        返回值:返回指向目标字符串 dest 的指针。
strcat() 函数会把 src 所指向的字符串追加到 dest 所指向的字符串末尾,所以必须要保证 dest 有足够的存储空间来容纳两个字符串,否则会导致溢出错误;dest 末尾的 ' \0 ' 结束字符会被覆盖, src 末尾的结束字符 '\0 '会一起被复制过去,最终的字符串只有一个 ' \0 '
        strncat 函数
        strncat()与 strcat() 的区别在于, strncat 可以指定源字符串追加到目标字符串的字符数量, strncat 函数原型如下所示:
#include <string.h>
char *strncat(char *dest, const char *src, size_t n);
        函数参数和返回值含义如下:
        dest: 目标字符串。
        src: 源字符串。
        n: 要追加的最大字符数。
        返回值:返回指向目标字符串 dest 的指针。
如果源字符串 src 包含 n 个或更多个字符,则 strncat() n+1 个字节追加到 dest 目标字符串( src 中的 n个字符加上结束字符' \0 ' )。

4、字符串拷贝

        C 语言函数库中提供了 strcpy() 函数和 strncpy() 函数用于实现字符串拷贝, strcpy 函数原型如下所示:
#include <string.h>
char *strcpy(char *dest, const char *src);
        函数参数和返回值含义如下:
        dest: 目标字符串。
        src: 源字符串。
        返回值:返回指向目标字符串 dest 的指针。
        strcpy()会把 src (必须包含结束字符 ' \0 ' )指向的字符串复制(包括字符串结束字符 ' \0 ' )到 dest ,所以必须保证 dest 指向的内存空间足够大,能够容纳下 src 字符串,否则会导致溢出错误。
        strncpy 函数
        strncpy()与 strcpy() 的区别在于, strncpy() 可以指定从源字符串 src 复制到目标字符串 dest 的字符数量,strncpy 函数原型如下所示:
#include <string.h>
char *strncpy(char *dest, const char *src, size_t n);
        函数参数和返回值含义如下:
        dest: 目标字符串。
        src: 源字符串。
        n: src 中复制的最大字符数。
        返回值:返回指向目标字符串 dest 的指针。
src 所指向的字符串复制到 dest ,最多复制 n 个字符。当 n 小于或等于 src 字符串长度(不包括结束字符的长度)时,则复制过去的字符串中没有包含结束字符' \0 ' ;当 n 大于 src 字符串长度时,则会将 src 字符串的结束字符' \0 '也一并拷贝过去,必须保证 dest 指向的内存空间足够大,能够容纳下拷贝过来的字符串,否则会导致溢出错误。
        memcpy、 memmove bcopy
        除了 strcpy() strncpy() 之外,其实还可以使用 memcpy() memmove() 以及 bcopy() 这些库函数实现拷贝操作,字符串拷贝本质上也只是内存数据的拷贝,所以这些库函数同样也是适用的,在实际的编程当中,这些库函数也是很常用的,关于这三个库函数,这里不再给大家介绍,用法也非常简单,需要注意的就是目标内存空间与源内存空间是否有重叠的问题。
        关于三个库函数的使用方法,大家可以使用 man 手册进行查询。

5、内存填充

        在编程中,经常需要将某一块内存中的数据全部设置为指定的值,譬如在定义数组、结构体这种类型变量时,通常需要对其进行初始化操作,而初始化操作一般都是将其占用的内存空间全部填充为 0
        memset 函数
        memset()函数用于将某一块内存的数据全部设置为指定的值,其函数原型如下所示:
#include <string.h>
void *memset(void *s, int c, size_t n);
        函数参数和返回值含义如下:
        s: 需要进行数据填充的内存空间起始地址。
        c: 要被设置的值,该值以 int 类型传递。
        n: 填充的字节数。
        返回值:返回指向内存空间 s 的指针。
        参数 c 虽然是以 int 类型传递,但 memset() 函数在填充内存块时是使用该值的无符号字符形式,也就是函数内部会将该值转换为 unsigned char 类型的数据,以字节为单位进行数据填充。
        bzero 函数
        bzero()函数用于将一段内存空间中的数据全部设置为 0 ,函数原型如下所示:
#include <strings.h>
void bzero(void *s, size_t n);
函数参数和返回值含义如下:
s 内存空间的起始地址。
n 填充的字节数。
返回值: 无返回值。

6 、字符串比较

        C 语言函数库提供了用于字符串比较的函数 strcmp() strncmp() strcmp() 函数原型如下所示:
#include <string.h>
int strcmp(const char *s1, const char *s2);
        函数参数和返回值含义如下:
        s1: 进行比较的字符串 1
        s2: 进行比较的字符串 2
        返回值:
         如果返回值小于 0 ,则表示 str1 小于 str2
         如果返回值大于 0 ,则表示 str1 大于 str2
         如果返回值等于 0 ,则表示字符串 str1 等于字符串 str2
        strcmp 进行字符串比较,主要是通过比较字符串中的字符对应的 ASCII 码值, strcmp 会根据 ASCII 编码依次比较 str1 str2 的每一个字符,直到出现了不同的字符,或者某一字符串已经到达末尾(遇见了字符串结束字符' \0 ' )。
        strncmp 函数
        strncmp()与 strcmp() 函数一样,也用于对字符串进行比较操作,但最多比较前 n 个字符, strncmp() 函数原型如下所示:
#include <string.h>
int strncmp(const char *s1, const char *s2, size_t n);
        函数参数和返回值含义如下:
        s1: 参与比较的第一个字符串。
        s2: 参与比较的第二个字符串。
        n: 最多比较前 n 个字符。
        返回值:返回值含义与 strcmp() 函数相同。

7 、字符串查找

        字符串查找在平时的编程当中也是一种很常见的操作,譬如从一个给定的字符串当中查找某一个字符或者一个字符串,并获取它的位置。C 语言函数库中也提供了一些用于字符串查找的函数,包括 strchr() 、strrchr()、 strstr() strpbrk() index() 以及 rindex() 等。
        strchr 函数
        使用 strchr() 函数可以查找到给定字符串当中的某一个字符,函数原型如下所示:
#include <string.h>
char *strchr(const char *s, int c);
        函数参数和返回值含义如下:
        s: 给定的目标字符串。
        c: 需要查找的字符。
        返回值:返回字符 c 第一次在字符串 s 中出现的位置,如果未找到字符 c ,则返回 NULL
        字符串结束字符' \0 ' 也将作为字符串的一部分,因此,如果将参数 c 指定为 ' \0 ' ,则函数将返回指向结束字符的指针。strchr 函数在字符串 s 中从前到后(或者称为从左到右)查找字符 c ,找到字符 c 第一次出现的位置就返回,返回值指向这个位置,如果找不到字符 c 就返回 NULL
        strrchr 函数
        strrchr()与 strchr() 函数一样,它同样表示在字符串中查找某一个字符,返回字符第一次在字符串中出现的位置,如果没找到该字符,则返回值 NULL ,但两者唯一不同的是, strrchr() 函数在字符串中是从后到前(或者称为从右向左)查找字符,找到字符第一次出现的位置就返回,返回值指向这个位置,strrchr() 函数原型如下所示:
#include <string.h>
char *strrchr(const char *s, int c);
        函数参数和返回值含义与 strchr() 函数相同。
        strstr 函数
        与 strchr() 函数不同的是, strstr() 可在给定的字符串 haystack 中查找第一次出现子字符串 needle 的位置,不包含结束字符' \0 ' ,函数原型如下所示:
#include <string.h>
char *strstr(const char *haystack, const char *needle);
        函数参数和返回值含义如下:
        haystack: 目标字符串。
        needle: 需要查找的子字符串。
        返回值:如果目标字符串 haystack 中包含了子字符串 needle ,则返回该字符串首次出现的位置;如果未能找到子字符串 needle ,则返回 NULL
        其它函数
        除了上面介绍的三个函数之外,C 函数库中还提供其它的字符串(或字符)查找函数,譬如 strpbrk() 、index()以及 rindex() 等,这里便不再给大家一一介绍了,这些函数的用法都比较简单,大家通过 man 手册便可以快速了解到它们的使用方法。

8、 字符串与数字互转

        在编程中,经常会需要将数字组成的字符串转换为相应的数字、或者将数字转换为字符串,在 C 函数库中同样也提供了相应的函数,本小节就向大家介绍这些函数的用法。

8.1 字符串转整形数据

        C 函数库中提供了一系列函数用于实现将一个字符串转为整形数据,主要包括 atoi() atol() atoll() 以及strtol()、 strtoll() strtoul() strtoull() 等,它们之间的区别主要包括以下两个方面:
         数据类型( int long int unsigned long 等)。
         不同进制方式表示的数字字符串(八进制、十六进制、十进制)。
        atoi、 atol atoll 函数
        atoi()、 atol() atoll() 三个函数可用于将字符串分别转换为 int long int 以及 long long 类型的数据,它们的函数原型如下:
#include <stdlib.h>
int atoi(const char *nptr);
long atol(const char *nptr);
long long atoll(const char *nptr);
        函数参数和返回值含义如下:
        nptr: 需要进行转换的字符串。
        返回值:分别返回转换之后得到的 int 类型数据、 long int 类型数据以及 long long 类型数据。
目标字符串 nptr 中可以包含非数字字符,转换时跳过前面的空格字符(如果目标字符串开头存在空格字符),直到遇上数字字符或正负符号才开始做转换,而再遇到非数字或字符串结束时(' /0 ') 才结束转换,并将结果返回。
        使用 atoi() atol() atoll() 函数只能转换十进制表示的数字字符串,即 0~9
        strtol、 strtoll 函数
        strtol()、 strtoll() 两个函数可分别将字符串转为 long int 类型数据和 long long ing 类型数据,与 atol() 、atoll()之间的区别在于, strtol() strtoll() 可以实现将多种不同进制数(譬如二进制表示的数字字符串、八进制表示的数字字符串、十六进制表示的数数字符串)表示的字符串转换为整形数据,其函数原型如下所示:
#include <stdlib.h>
long int strtol(const char *nptr, char **endptr, int base);
long long int strtoll(const char *nptr, char **endptr, int base);
        函数参数和返回值含义如下:
        nptr: 需要进行转换的目标字符串。
        endptr: char ** 类型的指针,如果 endptr 不为 NULL ,则 strtol() strtoll() 会将字符串中第一个无效字符的地址存储在*endptr 中。如果根本没有数字, strtol() strtoll() 会将 nptr 的原始值存储在 *endptr 中(并返回 0 )。也可将参数 endptr 设置为 NULL ,表示不接收相应信息。
        base: 数字基数,参数 base 必须介于 2 36 (包含)之间,或者是特殊值 0 。参数 base 决定了字符串转换为整数时合法字符的取值范围,譬如,当 base=2 时,合法字符为 ' 0 ' ' 1 ' (表示是一个二进制表示的数字字符串);当 base=8 时,合法字符为 ' 0 ' ' 1 ' ' 2 ' ' 3 '……' 7 ' (表示是一个八进制表示的数字字符串);当 base=16 时,合法字符为 ' 0 ' ' 1 ' ' 2 ' ' 3 '……' 9 ' ' a '……' f ' (表示是一个十六进制表示的数字字符串);当 base 大于 10 的时候, ' a ' 代表 10 ' b ' 代表 11 ' c ' 代表 12 ,依次类推, ' z ' 代表 35 (不区分大小写)。
        返回值:分别返回转换之后得到的 long int 类型数据以及 long long int 类型数据。
        需要进行转换的目标字符串可以以任意数量的空格或者 0 开头,转换时跳过前面的空格字符,直到遇上数字字符或正负符号(' + ' ' - ' )才开始做转换,而再遇到非数字或字符串结束时 (' /0 ') 才结束转换,并将结果返回。
        在 base=0 的情况下,如果字符串包含一个了“ 0x ”前缀,表示该数字将以 16 为基数;如果包含的是“0 ”前缀,表示该数字将以 8 为基数。
        当 base=16 时,字符串可以使用“ 0x ”前缀。
        strtoul、 strtoull 函数
        这两个函数使用方法与 strtol() strtoll() 一样,区别在于返回值的类型不同, strtoul() 返回值类型是 unsigned long int, strtoull() 返回值类型是 unsigned long long int ,函数原型如下所示:
#include <stdlib.h>
unsigned long int strtoul(const char *nptr, char **endptr, int base);
unsigned long long int strtoull(const char *nptr, char **endptr, int base);
        函数参数与 strtol() strtoll() 一样,这里不再重述!

8.2 字符串转浮点型数据

        C 函数库中用于字符串转浮点型数据的函数有 atof() strtod() strtof() strtold()
        atof 函数
        atof()用于将字符串转换为一个 double 类型的浮点数据,函数原型如下所示:
#include <stdlib.h>
double atof(const char *nptr);
        函数参数和返回值含义如下:
        nptr: 需要进行转换的字符串。
        返回值:返回转换得到的 double 类型数据。
        strtod、 strtof strtold 函数
        strtof()、 strtod() 以及 strtold() 三个库函数可分别将字符串转换为 float 类型数据、 double 类型数据、 long double 类型数据,函数原型如下所示:
#include <stdlib.h>
double strtod(const char *nptr, char **endptr);
float strtof(const char *nptr, char **endptr);
long double strtold(const char *nptr, char **endptr);
        函数参数与 strtol() 含义相同,但是少了 base 参数。

8.3 数字转字符串

        数字转换为字符串推荐大家使用前面介绍的格式化 IO 相关库函数,譬如使用 printf() 将数字转字符串、并将其输出到标准输出设备或者使用 sprintf() snprintf() 将数字转换为字符串并存储在缓冲区中,具体的使用方法,3.11 内容中已经给大家进行了详细介绍,这里不再重述。
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
int main(void)
{char str[20] = {0};sprintf(str, "%d", 500);puts(str);memset(str, 0x0, sizeof(str));sprintf(str, "%f", 500.111);puts(str);memset(str, 0x0, sizeof(str));sprintf(str, "%u", 500);puts(str);exit(0);
}
        运行结果:

9、给应用程序传参

        一个能够接受外部传参的应用程序往往使用上会比较灵活,根据参入不同的参数实现不同的功能,前面给大家编写的示例代码中,信息都是硬编码在代码中的,譬如 open 打开的文件路径是固定的,意味着如果需要打开另一个文件则需要修改代码、修改文件路径,然后再重新编译、运行,非常麻烦、不够灵活。其实
可以将这些可变的信息通过参数形式传递给应用程序,譬如,当执行应用程序的时候,把需要打开的文件路径作为参数传递给应用程序,就可以在不重新编译源码的情况下,通过传递不同的参数打开不同的文件。当然这里只是举个例子,不同应用程序需根据其需要来设计。
         如果在执行应用程序时,需要向应用程序传递参数,则写法如下:
int main(int argc, char *argv[])
{/* 代码 */
}
        传递进来的参数以字符串的形式存在,字符串的起始地址存储在 argv 数组中,参数 argc 表示传递进来的参数个数,包括应用程序自身路径名,多个不同的参数之间使用空格分隔开来,如果参数本身带有空格、则可以使用双引号" " 或者单引号 ' ' 的形式来表示。

10、正则表达式

10.1 初识正则表达式

        正则表达式,又称为规则表达式(英语: Regular Expression ),正则表达式通常被用来检索、替换那些
符合某个模式(规则)的字符串,正则表达式描述了一种字符串的匹配模式( pattern ),可以用来检查一个给定的字符串中是否含有某种子字符串、将匹配的字符串替换或者从某个字符串中取出符合某个条件的子字符串。
        在 Linux 系统下运行命令的时候,相信大家都使用过 ? * 通配符来查找硬盘上的文件或者文本中的某个字符串,? 通配符匹配 0 个或 1 个字符,而 * 通配符匹配 0 个或多个字符,譬如 "data?.txt" 这样的匹配模式可以将下列文件查找出来:
data.dat
data1.dat
data2.dat
datax.dat
dataN.dat
        尽管使用通配符的方法很有用,但它还是很有限,正则表达式则更加强大、更加灵活。
        正则表达式其实也是一个字符串,该字符串由普通字符(譬如,数字 0~9 、大小写字母以及其它字符)和特殊字符(称为“元字符”)所组成,由这些字符组成一个“规则字符串”,这个“规则字符串”用来表达对给定字符串的一种查找、匹配逻辑。
        许多程序设计语言都支持正则表达式。譬如,在 Perl 中就内建了一个功能强大的正则表达式引擎、 Python提供了内置模块 re 用于处理正则表达式,正则表达式这个概念最初是由 Unix 中的工具软件(例如 sed 和grep)普及开的,使用过 sed 命令的朋友想必对正则表达式并不陌生。同样,在 C 语言函数库中也提供了用于处理正则表达式的接口供程序员使用。

11、C 语言中使用正则表达式

编译正则表达式
匹配正则表达式
释放正则表达式
匹配 URL 的正则表达式:
^((ht|f)tps?)://[-A-Za-z0-9_]+(\.[-A-Za-z0-9_]+)+([-A-Za-z0-9_.,@?^=%&:/~+#]*[-A-Za-z0-9_@?^=%&/~+#])?$
#include <stdio.h>
#include <stdlib.h>
#include <sys/types.h>
#include <regex.h>
#include <string.h>
int main(int argc, char *argv[])
{regmatch_t pmatch = {0};regex_t reg;char errbuf[64];int ret;char *sptr;int length;int nmatch; //最多匹配出的结果if (4 != argc) {/*********************************** 执行程序时需要传入两个参数:* arg1: 正则表达式* arg2: 待测试的字符串* arg3: 最多匹配出多少个结果**********************************/fprintf(stderr, "usage: %s <regex> <string> <nmatch>\n", argv[0]);exit(0);}/* 编译正则表达式 */if(ret = regcomp(&reg, argv[1], REG_EXTENDED)) {regerror(ret, &reg, errbuf, sizeof(errbuf));fprintf(stderr, "regcomp error: %s\n", errbuf);exit(0);}/* 赋值操作 */sptr = argv[2]; //待测试的字符串length = strlen(argv[2]);//获取字符串长度nmatch = atoi(argv[3]); //获取最大匹配数/* 匹配正则表达式 */for (int j = 0; j < nmatch; j++) {char temp_str[100];/* 调用 regexec 匹配正则表达式 */if(ret = regexec(&reg, sptr, 1, &pmatch, 0)) {regerror(ret, &reg, errbuf, sizeof(errbuf));fprintf(stderr, "regexec error: %s\n", errbuf);goto out;}if(-1 != pmatch.rm_so) {if (pmatch.rm_so == pmatch.rm_eo) {//空字符串sptr += 1;length -= 1;printf("\n"); //打印出空字符串if (0 >= length)//如果已经移动到字符串末尾、则退出break;continue; //从 for 循环开始执行}memset(temp_str, 0x00, sizeof(temp_str));//清零缓冲区memcpy(temp_str, sptr + pmatch.rm_so,pmatch.rm_eo - pmatch.rm_so);//将匹配出来的子字符串拷贝到缓冲区printf("%s\n", temp_str); //打印字符串sptr += pmatch.rm_eo;length -= pmatch.rm_eo;if (0 >= length)break;}}/* 释放正则表达式 */
out:regfree(&reg);exit(0);
}

相关文章:

Linux-C/C++《七、字符串处理》(字符串输入/输出、C 库中提供的字符串处理函数、正则表达式等)

字符串处理在几乎所有的编程语言中都是一个绕不开的话题&#xff0c;在一些高级语言当中&#xff0c;对字符串的处理支 持度更是完善&#xff0c;譬如 C、 C# 、 Python 等。若在 C 语言中想要对字符串进行相关的处理&#xff0c;譬如将两个字符串进行拼接、字符串查找、两个…...

如何使用CSS画一个三角形,原理是什么?

如何用 CSS 画一个三角形&#xff1f;原理和实战指南 一、核心原理 CSS 画三角形的本质是利用边框&#xff08;border&#xff09;的叠加特性。当一个元素的宽高为 0 时&#xff0c;其边框会以对角线形式相交&#xff0c;形成四个独立的三角形区域。通过控制某一边的边框颜色为…...

调用DeepSeek API接口:实现智能数据挖掘与分析

在当今数据驱动的时代&#xff0c;企业和开发者越来越依赖高效的数据挖掘与分析工具来获取有价值的洞察。DeepSeek作为一款先进的智能数据挖掘平台&#xff0c;提供了强大的API接口&#xff0c;帮助用户轻松集成其功能到自己的应用中。本文将详细介绍如何调用DeepSeek API接口&…...

iOS主要知识点梳理回顾-5-运行时方法交换

方法交换可以放在 load 或 initialize 方法中&#xff0c;也可以自己根据时机来空&#xff0c;比如开启某个开关后才需要交换方法。如果是在load中调用&#xff0c;交换工作会在类加载时&#xff08;程序启动&#xff09;自动调用&#xff1b;如果是在initialize中调用&#xf…...

基于若依开发的工程项目管系统开源免费,用于工程项目投标、进度及成本管理的OA 办公开源系统,非常出色!

一、简介 今天给大家推荐一个基于 RuoYi-Flowable-Plus 框架二次开发的开源工程项目管理系统&#xff0c;专为工程项目的投标管理、项目进度控制、成本管理以及 OA 办公需求设计。 该项目结合了 Spring Boot、Mybatis、Vue 和 ElementUI 等技术栈&#xff0c;提供了丰富的功能…...

uni-app 学习(一)

一、环境搭建和运行 &#xff08;一&#xff09;创建项目 直接进行创建 &#xff08;二&#xff09;项目结构理解 pages 是页面 静态资源 打包文件&#xff0c;看我们想输出成什么格式 app.vue 页面的入口文件 main.js 是项目的入口文件 存放对打包文件的配置 pages 存放整…...

本地部署DeepSeek + AnythingLLM 搭建高效安全的个人知识库

环境准备: 本地部署方案请参考博客:windows平台本地部署DeepSeek大模型+Open WebUI网页界面(可以离线使用)-CSDN博客 windows平台本地部署DeepSeek大模型+Chatbox界面(可以离线使用)-CSDN博客 根据本人电脑配置:windows11 + i9-13900HX+RTX4060+DDR5 5600 32G内存 确…...

【git-hub项目:YOLOs-CPP】本地实现03:跑自己的实例分割模型

本节博客,我们继续讲解,如何在cpu+windows上,跑通自己的实例分割模型。 目录 模型 类别名称 量化 导出模型 拉取最新代码 进入官网ultralytics 模型 该项目包括存储在 models 和 quantized_models 目录中的各种预训练标准 YOLO 模型: 模型类型模型名称标准模型yolo5…...

【Qt】QObject类的主要功能

在 Qt 中&#xff0c;QObject 类是所有 Qt 对象的基类&#xff0c;提供了许多基础功能&#xff0c;使得 Qt 的对象系统能够有效地工作。它为其他类提供了核心的机制&#xff0c;比如信号和槽机制、对象树结构、内存管理等。 QObject 类的主要功能&#xff1a; 信号和槽机制&am…...

OpenEuler学习笔记(三十):在OpenEuler上搭建3D建模环境

在OpenEuler上搭建3D建模环境&#xff0c;通常可以选择一些常见的3D建模软件&#xff0c;如Blender、FreeCAD等。以下以搭建Blender和FreeCAD这两款软件的使用环境为例&#xff0c;为你详细介绍搭建步骤。 搭建Blender 3D建模环境 1. 更新系统软件包 首先&#xff0c;确保系…...

nsc account 及user管理

从安全角度&#xff0c;推荐使用sign 模式进行nats account及用户管理 把权限放到account level 用户密码泄露可以通过快速更换用户可以设置过期日期&#xff0c;进行安全轮换 此外通过nsc 管理用户和权限&#xff0c;可以统一实现全局管控&#xff0c;包括subject管控&#…...

把 DeepSeek1.5b 部署在显卡小于4G的电脑上

这里写自定义目录标题 介绍准备安装 Ollama查看CUDA需要版本安装CudaToolkit检查Cuda是否装好设置Ollama环境变量验证是否跑在GPU上ollama如何导入本地下载的模型安装及配置docker安装open-webui启动open-webui开始对话 调整gpu精度 介绍 Deepseek1.5b能够运行在只用cpu和gpu内…...

Git子模块实战:大型后台管理系统模块拆分实践

案例背景 某企业级后台管理系统需要拆分为三个核心模块&#xff1a; 权限中心 (auth-center)&#xff1a;负责RBAC权限管理数据可视化 (data-visualization)&#xff1a;包含BI看板模块工作流引擎 (workflow-engine)&#xff1a;审批流程核心组件 每个模块由独立团队开发维护…...

【做一个微信小程序】校园事件页面实现

前言 为了进一步扩展校园事件页面的功能,我们可以添加 搜索、分类筛选 和 渐变卡片色 等特性。以下是详细的方案和源码实现。 扩展功能设计 1. 搜索功能 在页面顶部添加搜索框,用户输入关键词后,筛选出匹配的事件。2. 分类筛选 在页面顶部添加分类标签(如“全部”、“活动…...

基于 Filebeat 的日志收集

在现代分布式系统中&#xff0c;日志数据作为关键的监控与故障排查依据&#xff0c;越来越受到重视。本文将深入探讨 Filebeat 的技术原理、配置方法及在 ELK&#xff08;Elasticsearch、Logstash、Kibana&#xff09;生态系统中的应用&#xff0c;帮助开发者构建高效、稳定的日…...

Python教程108:针对面向对象Class类知识要点,源码示例再演示

类的基础结构&#xff0c;比如定义类、初始化方法__init__&#xff0c;然后实例化对象。然后是类的属性&#xff0c;包括实例属性和类属性。接着是方法&#xff0c;比如实例方法、类方法、静态方法的区别。还有继承和多态&#xff0c;这是面向对象的重要部分。可能还需要提到特…...

如何在Excel和WPS中进行翻译

文档翻译我们可以用在线翻译工具&#xff0c;Excel工作表的翻译使用在线翻译工具就不是特别方便&#xff0c;那么如何快速进行翻译呢&#xff0c;我们今天介绍在不同的场景下如何利用翻译函数和Python程序来实现单元格的快速翻译。 一、在wps中进行翻译 WPS是我们常用的办公软…...

zola + github page,用 workflows 部署

之前的Zola都是本地build之后&#xff0c;再push到github上&#xff0c;这种方式很明显的弊端就是只能在本地编辑&#xff0c;而不能通过github编辑&#xff0c;再pull到本地&#xff0c;缺乏了灵活性。因此将zola用workflows来部署。 repo地址&#xff1a;https://github.com/…...

DeepSeek从入门到精通:提示词设计的系统化指南

目录 引言&#xff1a;AIGC时代的核心竞争力 第一部分 基础篇&#xff1a;提示词的本质与核心结构 1.1 什么是提示词&#xff1f; 1.2 提示词的黄金三角结构 第二部分 类型篇&#xff1a;提示词的六大范式 2.1 提示语的本质特征 2.2 提示语的类型 2.2.1 指令型提示词 …...

org.apache.kafka.common.errors.TimeoutException

个人博客地址&#xff1a;org.apache.kafka.common.errors.TimeoutException | 一张假钞的真实世界 使用kafka-console-producer.sh向远端Kafka写入数据时遇到以下错误&#xff1a; $ bin/kafka-console-producer.sh --broker-list 172.16.72.202:9092 --topic test This is …...

DeepSeek免费部署到WPS或Office

部署到WPS - 通过OfficeAI插件接入&#xff1a; - 准备工作&#xff1a;安装最新版本的WPS Office软件&#xff1b;访问DeepSeek官网&#xff0c;点击右上角的“API开放平台”&#xff0c;登录账号&#xff08;若无账号需先注册&#xff09;&#xff0c;登录成功后&#xff0c;…...

智能手表表带圆孔同心度检测

在智能手表的制造工艺中&#xff0c;表带圆孔同心度检测是确保产品品质的关键环节。精准的同心度不仅关乎表带与表体的完美适配&#xff0c;更直接影响用户的佩戴舒适度和产品的整体美观度。稍有偏差&#xff0c;就可能导致表带安装困难、佩戴时出现晃动&#xff0c;甚至影响智…...

C# 变量,字段和属性的区别

总目录 前言 在C#中&#xff0c;变量&#xff08;Variables&#xff09;、字段&#xff08;Fields&#xff09; 和 属性&#xff08;Properties&#xff09; 是三个容易混淆但作用截然不同的概念。以下是它们的核心区别与使用场景&#xff1a; 一、变量&#xff08;Variables&…...

如何设置linux系统时间?

在 Linux 系统中&#xff0c;可以通过不同的方法来设置系统时间&#xff0c;下面详细介绍几种常见的方式。 目录 方法一&#xff1a;使用date命令手动设置时间 方法二&#xff1a;同步硬件时钟&#xff08;BIOS 时钟&#xff09; 方法三&#xff1a;使用timedatectl命令设置…...

完美解决 error:0308010C:digital envelope routines::unsupported

查看专栏目录 Network 灰鸽宝典专栏主要关注服务器的配置&#xff0c;前后端开发环境的配置&#xff0c;编辑器的配置&#xff0c;网络服务的配置&#xff0c;网络命令的应用与配置&#xff0c;windows常见问题的解决等。 文章目录 windows电脑完美解决办法&#xff1a;设置说明…...

【OJ项目】深入剖析 JudgeServiceImpl 类:题目的判题逻辑详解

《深入剖析 JudgeServiceImpl 类&#xff1a;题目的判题逻辑详解》 一、引言 在编程竞赛或者在线编程平台中&#xff0c;判题服务是核心功能之一。它负责对用户提交的代码进行编译、执行&#xff0c;并根据预设的测试用例判断代码的正确性。今天我们就来详细剖析一个名为 Jud…...

MATLAB图像处理:Sobel、Roberts、Canny等边缘检测算子

边缘是图像中像素值剧烈变化的区域&#xff0c;反映了目标的轮廓、纹理等关键信息。边缘检测是图像分割、目标识别等任务的基础。本文将系统解析 六种经典边缘检测算子 的数学原理、实现方法及适用场景&#xff0c;并给出完整的MATLAB代码示例和对比分析。 1. 边缘检测基础 1…...

【设计模式】02-理解常见设计模式-结构型模式

上一篇&#xff0c;我们介绍了设计模式-创建型模式的内容&#xff0c;并给出了相关代码示范。 这一篇我们接着介绍剩下的内容之一“结构型模式” 一、概述 结构型模式主要用于处理类或对象的组合&#xff0c;以获得新的功能或实现更灵活的结构。 二、常见的结构型模式 1、适…...

LabVIEW太阳能制冷监控系统

在全球能源需求日益增长的背景下&#xff0c;太阳能作为一种无限再生能源&#xff0c;被广泛应用于各种能源系统中。本基于LabVIEW软件和STM32F105控制器的太阳能制冷监控系统的设计与实现&#xff0c;提供一个高效、经济的太阳能利用方案&#xff0c;以应对能源消耗的挑战。 项…...

MambaMorph brain MR-CT

loss代码实现了几种用于医学图像配准(Registration)和分割(Segmentation)任务的损失函数,主要包括以下几种: NCC (Normalized Cross-Correlation): 功能: 计算局部归一化互相关损失,用于衡量两个图像之间的相似性。 应用场景: 通常用于图像配准任务,通过最大化图像之间…...