当前位置: 首页 > news >正文

【Linux】理解系统中一个被打开的文件

文件系统

  • 前言
  • 一、C语言文件接口
  • 二、系统文件接口
  • 三、文件描述符
  • 四、struct file 对象
  • 五、stdin、stdout、stderr
  • 六、文件描述符的分配规则
  • 七、重定向
    • 1. 重定向的原理
    • 2. dup2
    • 3. 重谈 stderr
  • 八、缓冲区
    • 1. 缓冲区基础
    • 2. 深入理解缓冲区
    • 3. 用户缓冲区和内核缓冲区
    • 4. FILE

前言

首先我们在前面的学习中,知道了 文件 = 内容 + 属性,那么我们对文件的操作就是分别对内容和属性操作。

当我们要访问一个文件的时候,都是先要把这个文件打开,那么是谁把文件打开呢?答案是进程打开文件,在打开文件前,文件是存放在磁盘上;打开文件后,文件被进程加载到内存中。

一个进程可以通过操作系统打开一个文件,也可以打开多个文件,所以操作系统一定会给进程提供系统调用接口去打开文件;这些文件被加载到内存中,可能会存在多个,同时,加载磁盘上的文件,一定会涉及到访问磁盘设备,这些操作由操作系统来完成;所以在操作系统运行中,可能会打开很多个文件!那么此时操作系统就要将打开的文件进行管理,怎样管理呢?我们前面也学过,先描述,再组织! 一个文件要被打开,一定要现在内核中形成被打开的文件对象!

一、C语言文件接口

我们简单复习一下C语言阶段使用的文件接口,其中详细的内容链接 -> 文件操作.

其中我们复习一下 fopenfputs这个接口,如下介绍:

在这里插入图片描述
在这里插入图片描述

其中 fopen 中的 path 是我们需要打开的文件,mode 是以什么样的方式打开。下面我们分别使用一下以 wa 方式打开,代码如下:

		  1 #include <stdio.h>2 3 int main()4 {5     FILE* fp = fopen("test.txt", "w");                                                                                                        6     if(fp == NULL)7     {8         perror("fopen");9         return 1;10     }11 12     const char* str = "aaaaaaaaaaaaaaaaaa\n";13     int cnt = 10;14     while(cnt)15     {16         fputs(str, fp);17         cnt--;18     }19 20     fclose(fp);21     return 0;22 }

其中以 “w” 方式打开是按照写方式打开,如果文件不存在就创建它;并且以 “w” 方式打开会先清空文件内容!

例如下面场景,我们先运行程序打开 test.txt 写入内容,再重定向重新写入内容,会发现原有内容已经被清空了:

在这里插入图片描述

当以 “a” 方式打开,代码如下:

		  1 #include <stdio.h>2 3 int main()4 {5     FILE* fp = fopen("test.txt", "a");                                                                                                        6     if(fp == NULL)7     {8         perror("fopen");9         return 1;10     }11 12     const char* str = "aaaaaaaaaaaaaaaaaa\n";13     int cnt = 10;14     while(cnt)15     {16         fputs(str, fp);17         cnt--;18     }19 20     fclose(fp);21     return 0;22 }

结果如下,所以我们得出结论,“a” 方式是从文件结尾出开始写入,即追加,不清空文件内原有内容:

在这里插入图片描述

所以我们得出以 “w” 方式打开文件相当于重定向写入,即 echo "xxx" > filename;以 “a” 方式打开文件相当于追加重定向写入,即 echo "xxx" >> filename.

二、系统文件接口

接下来我们认识一下系统给我们提供的系统文件接口 open,下面看一下文档介绍:

在这里插入图片描述

其中 open 的返回值是 fd(文件描述符),如下图介绍:

在这里插入图片描述

我们可以看到,如果文件创建成功会返回新文件的文件描述符,关于文件描述符我们下面再介绍。

其中 open 系统接口第一个参数 pathname 我们都知道,就是需要打开文件的名字;关于第二个参数我们需要介绍一下,关于函数传入标志位的技巧,是 Linux 中常用的传参方式;例如我们想在函数传参的时候传入指定的宏,它就会帮我们执行对应的宏的指令;如下代码:

		  1 #include <stdio.h>  2   3 #define Print1 1      // 0001  4 #define Print2 (1<<1) // 0010  5 #define Print3 (1<<2) // 01006 #define Print4 (1<<3) // 10007 8 void Print(int flags)9 {10     if(flags & Print1) printf("hello 1\n"); 11     if(flags & Print2) printf("hello 2\n");12     if(flags & Print3) printf("hello 3\n");13     if(flags & Print4) printf("hello 4\n");14 }15 16 17 int main()18 {19     Print(Print1);20     printf("\n");21     Print(Print1 | Print2);22     printf("\n");23     Print(Print1 | Print2 | Print3);24     printf("\n");25     Print(Print3 | Print4);26     printf("\n");27     Print(Print4);                                                                                                                            28     return 0;29 }

结果如下:

在这里插入图片描述

所以 open 的第二个参数实际上是一些系统定义的宏定义,在 open 的介绍文档中有介绍,如下图:

在这里插入图片描述

在这里插入图片描述

当我们想要以什么方式打开该文件时,就传入对应的宏定义,这就是 open 的第二个参数。我们先简单介绍几个宏定义:

			 O_RDONLY: 只读打开O_WRONLY: 只写打开O_RDWR : 读,写打开以上三个宏,必须指定一个且只能指定一个O_CREAT : 若文件不存在,则创建它。需要使用 mode 选项,来指明新文件的访问权限O_APPEND: 追加写O_TRUNC: 打开后清空原内容

接下来我们先介绍另一个系统接口 write,我们先看看 man 手册,如下:

在这里插入图片描述

如上图,write 的参数列表比较好理解,第一个参数 fd 就是需要写入文件的文件描述符;第二个参数 buf 就是需要写入的字符串;第三个参数 count 就是需要写入的个数,注意这里不需要把 \0 的个数加上去,只需要将需要写入字符串的个数填上即可。

下面我们配对使用 openwrite ,如下代码:

		int main(){int fd = open("test.txt", O_WRONLY | O_CREAT | O_TRUNC);if(fd < 0){perror("open");return 1;}printf("fd: %d\n", fd);const char* str = "xxxxx\n";write(fd, str, strlen(str));close(fd);return 0;}

当我们运行起程序再查看文件属性的时候,会发现以下现象:

在这里插入图片描述

此时我们创建的 test.txt 的权限是乱码的!为什么呢?这就和 open 的第三个参数 mode 有关了,所以我们现在知道 mode 就是需要改写的权限,以八进制形式传入,下面我们对上面代码做修改:

		int main(){int fd = open("test.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);if(fd < 0){perror("open");return 1;}printf("fd: %d\n", fd);const char* str = "xxxxx\n";write(fd, str, strlen(str));close(fd);return 0;}

再次运行程序:

在这里插入图片描述

此时我们发现 test.txt 的权限就恢复正常了,由于有权限掩码的原因,权限为 0664.

此时我们查看 test.txt 中的内容:

在这里插入图片描述

如果我们往文件中追加内容再重新打开文件的话,原有的内容会被清掉,因为我们传的是 O_TRUNC,即打开后清空原内容 ,例如下图:

在这里插入图片描述

当我们将代码中的 open("test.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666) 改为 open("test.txt", O_WRONLY | O_CREAT | O_APPEND, 0666) 后,重新再执行程序后就可以追加内容了,如下图:

在这里插入图片描述

三、文件描述符

通过上面的学习,我们可以开始理解语言和系统的理解了,我们在上面使用的 FILE* fp = fopen("test.txt", "w"); 是C语言库函数的接口,它对应的是系统接口 int fd = open("test.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666); ;而 FILE* fp = fopen("test.txt", "a"); 对应的是系统接口 int fd = open("test.txt", O_WRONLY | O_CREAT | O_APPEND, 0666);;那么我们得出结论,因为文件只能通过操作系统去访问,不能直接通过语言去访问,所以 fopen 的底层一定是对 open 的封装!

同时,我们肯定会对 fd(文件描述符) 很感兴趣,那么它到底是什么呢?下面我们通过创建多个文件观察 open 的返回值 fd,如下代码:

		int main(){int fd1 = open("test1.txt", O_WRONLY | O_CREAT | O_APPEND, 0666);int fd2 = open("test2.txt", O_WRONLY | O_CREAT | O_APPEND, 0666);int fd3 = open("test3.txt", O_WRONLY | O_CREAT | O_APPEND, 0666);int fd4 = open("test4.txt", O_WRONLY | O_CREAT | O_APPEND, 0666);printf("fd1: %d\n", fd1);printf("fd2: %d\n", fd2);printf("fd3: %d\n", fd3);printf("fd4: %d\n", fd4);close(fd1);close(fd2);close(fd3);close(fd4);return 0;}

结果如下:

在这里插入图片描述

我们可以看到,连续创建文件时 fd 是一串连续的数字,类似于数组的下标。

四、struct file 对象

下面我们开始理解文件在操作系统中的表现;当一个进程需要打开一个在磁盘上的文件时,此时操作系统内可能会存在多个被打开的文件,那么这些文件需要被操作系统通过先描述再组织的形式管理起来;那么当操作系统需要打开一个文件的时候,需要为每个文件创建一个文件对象,在 Linux 中被创建的结构体对象叫做 struct file,即是被打开文件的描述结构体对象。

如果我们打开了很多个文件,那么每个文件都有它自己的 struct file,每个文件可能都由不同的进程打开的,但是最终操作系统都要将这些 struct file 管理起来,那么就可以通过双链表的形式将它们连接起来管理,所以从此往后,对打开文件的管理就转化成了对双链表的增删查改的管理。

那么操作系统如何知道哪个文件是由哪个进程打开的呢?所以操作系统不得不面临一个问题:如何维护进程和打开文件的对应关系?所以操作系统内核中,它为进程设计了一个结构体:struct files_struct ,该结构体也叫做进程文件描述符表,进程文件描述符表里有一个非常重要的数组:struct file* fd_array[],即一个数组指针。此时当一个进程打开一个文件时,操作系统会为该文件创建一个 struct file 对象,再把该对象的地址填入到 struct file* fd_array[] 中没有被使用的数组下标中,最后把该数组的下标返回给上层,其中这个数组的下标就是我们的 fd(文件描述符)

上面所说的理论过程可以通过下图进行理解:

在这里插入图片描述

下面我们重新理解一下 struct file 对象,那么 struct file 对象里面应该有什么呢?答案是内容+属性。首先我们需要知道 struct file 对象中有一些字段可以直接获得文件的所有属性,直接或间接包含如下属性:在磁盘的什么位置,权限、大小、读写位置等。除此之外,struct file 内还需要有自己对应的文件缓冲区,也就是说这是一段内存空间。当我们的文件没有被打开的时候,它是存放在磁盘当中的,当我们打开这个文件时,内核需要帮我们创建 struct file 对象,因为在内核中,struct file 是专门用来管理被打开文件的!

当进程需要读取文件数据的时候,必然是先要将数据加载到内存空间中,即 struct file 的文件缓冲区中;如果我们需要向这个文件中写入呢?同样地,我们也同样先需要将数据加载到内存中,在内存中进行对文件数据的增删查改,不能直接在磁盘中进行,因为需要根据冯诺依曼体系!这个过程是操作系统帮我们完成的,因为操作系统是硬件的管理者!

所以我们在应用层进行数据读写的时候,本质是什么呢?其实,本质就是将内核缓冲区中的数据进行来回拷贝!该过程如下图所示:

在这里插入图片描述

首先如果我们需要写入数据,我们根据进程找到相应的进程描述符表,根据文件描述符找到对应的 struct_file 对象,再将我们写入数据的 buffer 缓冲区拷贝到对应 struct_file 对象中的文件缓冲区中,然后操作系统会帮我们刷新缓冲区中的内容,这就完成了文件数据的写入。

同样地,如果需要读取文件数据,操作系统帮我们将文件的数据加载到文件缓冲区中,我们根据文件描述符找到对应的 struct_file 对象中的文件缓冲区,再将文件缓冲区中的内容拷贝到我们的 buffer 缓冲区中即可完成读取数据。

五、stdin、stdout、stderr

在该数组指针中为什么默认填入的 struct file 对象的地址是从下标 3 开始的呢?0、1、2 去哪里了呢?其实在进程运行的时候,默认把标准输入(键盘:stdin)、标准输出(显示器:stdout)、标准错误(显示器:stderr) 打开了,它们分别代表 0、1、2;那么它们也是文件吗?没错,因为 Linux 下一切皆文件,这个我们下面再解释。

首先我们要知道,操作系统访问一个文件时,只认文件描述符!即只能通过文件描述符访问!其次我们回顾C语言的文件接口中,返回值是 FILE*,那么FILE又是什么呢?其实它是C语言提供的结构体类型,而操作系统访问文件只认文件描述符,所以我们肯定,FILE结构体中必定封装了文件描述符!下面我们可以通过代码验证一下,首先 stdin、stdout、stderr 的返回值都是 FILE*,如下图,所以我们可以通过它们的返回值观察;

在这里插入图片描述

代码如下:

		int main(){printf("stdin->fd: %d\n", stdin->_fileno);printf("stdout->fd: %d\n", stdout->_fileno);printf("stderr->fd: %d\n", stderr->_fileno);}

结果如下:

在这里插入图片描述

如上图,就验证了我们是对的。那么操作系统为什么要默认把 stdin、stdout、stderr 打开呢?答案是为了让程序员默认进行输入输出代码编写!

那么我们现在就要回答上面的问题了,如何理解Linux下一切皆文件呢?首先我们的外设设备,键盘、显示器、磁盘、网卡…它们都有自己对应的读写方法,而且方法肯定不一样的。

当操作系统打开键盘文件时,创建了对应的 struct file 对象,那么键盘的结构体对象中会有键盘对应的读写的函数指针,该函数指针指向的是键盘底层对应的读写方法!同理,当系统打开显示器、磁盘、网卡等文件也是如此。所以这时候我们就可以忽略底层硬件读写方法的差异,只需要关注软件层 struct file 对象中的有关读写的函数指针即可,在操作系统看来它们的读写方法都是一样的!因为每个 struct file 对象中都会有这样的指针!而该软件层可以称为VFS(虚拟文件系统 ),所以从这一层往上面看就要可以看作一切皆文件!这种情况我们可以看作使用C语言实现了继承和多态!

六、文件描述符的分配规则

由于系统默认把 fd 中的 0、1、2 打开了,所以默认地我们打开一个文件的时候,它的 fd 会是从 3 开始,这毫无疑问。

接下来我们再认识一个系统接口:read,我们先看一下手册:

在这里插入图片描述

如上图,read 就是根据 fd 来进行读取文件缓冲区的数据,将数据读到 buf 中,count 就是 buf 的大小,也就是我们期望读到多少数据;返回值就是实际读到多少的数据。

假设我们现在需要在键盘里面读取数据,读到什么就打印什么,如下代码:

				#include <stdio.h>#include <sys/types.h>#include <sys/stat.h>#include <fcntl.h>#include <unistd.h>int main(){char buffer[1024];ssize_t s = read(0, buffer, 1024);if(s > 0){buffer[s-1] = 0;printf("echo# %s\n", buffer);}return 0;}

在这里插入图片描述

所以我们也侧面印证了系统是默认帮我们打开了0号文件描述符标准输入的。

接下来我们再认识一个系统接口:write,就是从对应的 fd 写入数据,我们先看手册:

在这里插入图片描述

接下来我们尝试往标准输出写入数据,如下代码:

				int main(){char buffer[1024];ssize_t s = read(0, buffer, 1024);if(s > 0){buffer[s-1] = 0;write(1, buffer, strlen(buffer));//printf("echo# %s\n", buffer);}return 0;}

在这里插入图片描述

如上结果,我们可是从来没有打开过 fd 为0或者1的文件,所以就证明了系统是默认打开了标准输入、标准输出和标准错误。

所以我们得出第一个结论,进程默认已经打开了0、1、2,我们可以直接使用0、1、2进行数据的访问!

接下来我们验证另一个问题,当我们关闭0号 fd 时,再打开一个文件时,会给该文件分配哪一个 fd 呢?下面我们验证一下:

				int main(){close(0);int fd = open("log.txt", O_CREAT | O_WRONLY | O_TRUNC, 0666);if(fd < 0){perror("open faild");return 1;}printf("fd:%d\n", fd);close(fd);return 0;}

结果如下:

在这里插入图片描述

同样地,如果我们将 2号 fd 关闭时,再打开一个文件,它的 fd 也是 2;这说明了什么呢?

我们得出第二个结论,文件描述符的分配规则是,寻找最小的,没有被使用的数据的位置,分配给指定的打开文件!

如果我们关闭 1号 fd 呢?如果我们关闭 1号 fd,再重新打开一个文件,并把它的 fd 打印出来,我们会发现,什么都没有打印出来,这是为什么呢?很简单,因为我们把 1号 fd 关闭了,把标准输出关闭了!

七、重定向

1. 重定向的原理

上面我们尝试过将 1号 fd 关闭后重新打开一个文件,再打印数据,会发现什么都没有打印出来,但是我们将代码做一下修改,如下:

				int main(){close(1);int fd = open("log.txt", O_CREAT | O_WRONLY | O_TRUNC, 0666);if(fd < 0){perror("open faild");return 1;}printf("fd: %d\n", fd);printf("stdout->fd: %d\n", stdout->_fileno);fflush(stdout);close(fd);return 0;}

我们打印多了一个语句,并且强制刷新了缓冲区,下面我们观察现象:

在这里插入图片描述

如上图,我们直接执行程序没有打印任何信息,但是我们读取 log.txt 的时候发现,怎么信息都往 log.txt 里面打印了呢?下面我们画一个图理解一下:

在这里插入图片描述

如上图,我们首先关闭了 1号 fd,然后打开 log.txt,根据文件描述符的分配规则,给 log.txt 分配的应该是 1号 fd,所以当前 1号 fd 是指向了 log.txt 的。而 printf 这样的接口只认 stdout,而 stdoutfileno 为1,即 printf 只认文件描述符 1;所以在上层 printf 打印的时候,只会往 1号 fd 里面打印的,而具体地,这个 1号 fd 如果指向显示器,它就往显示器里打印,如果指向 log.txt,就往 log.txt 里打印!

其实这就是重定向的原理!如果我们需要完成重定向功能,其实只需要将文件描述符下标不变,将数组中的内容发生改变即可,也就是说 1号 fd 以前指向的是显示器,我们只需要将新文件的地址填入 1号 fd 中,就会直接向新文件中写入了!

所以,重定向的本质其实就是修改特定文件描述符中的下标内容!

上面我们所实现的是输出重定向的功能,如果我们需要实现追加重定向呢?很简单,只需要修改 open 接口中的参数即可,将 O_TRUNC 改成 O_APPEND 即可,如下:

				int main(){close(1);int fd = open("log.txt", O_CREAT | O_WRONLY | O_APPEND, 0666);if(fd < 0){perror("open faild");return 1;}printf("fd: %d\n", fd);printf("stdout->fd: %d\n", stdout->_fileno);fflush(stdout);close(fd);return 0;}

结果如下图所示:

在这里插入图片描述

接下来我们尝试一下关闭0号 fd 后,再打开 log.txt,从 stdin 中读取数据,即实现输入重定向,如下代码:

				int main(){close(0);int fd = open("log.txt", O_RDONLY);if(fd < 0){perror("open faild");return 1;}char buffer[1024];fread(buffer, 1, sizeof(buffer), stdin);printf("%s\n", buffer);close(fd);return 0;}

如上我们使用了 fread 接口,我们可以看一下手册:

在这里插入图片描述

结果如下:

在这里插入图片描述

如上图,本应该从标准输入键盘中读取数据的,但是由于我们关闭了 0号 fd,再打开 log.txt,所以最后从 log.txt 中读取了数据。

2. dup2

但是以上方式实现的重定向太麻烦了,每次都要关闭文件再重新打开文件,有没有简洁一点的方式呢?答案是有的,我们知道,重定向的本质就是将文件描述符表中的下标不变,改变数组中的内容即可,那么我们是不是就可以正常打开一个文件,再将该文件中的文件描述符表中的内容拷贝到 0 号、1 号、2 号 fd 中呢?例如下图:

在这里插入图片描述

那么我们是否有一些接口,可以帮助我们完成文件描述符级别的数组中的内容拷贝呢?答案是有的!以输出重定向为例,我们只需要将新打开的文件的数组中的地址拷贝到 1号 fd 中的数组内容中即可。

这样的接口叫做 dup2 ,下面我们认识一下这个接口,先看一下手册:

在这里插入图片描述
在这里插入图片描述

现在我们以输出重定向为例,我们观察 dup2 的参数,我们应该如何传入参数呢?我们观察该函数的描述,得知最后保留下来的应该是 oldfd,所以我们以输出重定向为例,3号 fd 就是保留下来的,1号 fd 就是被覆盖的,所以 fd 就是 oldfd,1就是 newfd,即 dup(fd, 1);

那么会有一些问题,例如我们将 fd 的内容拷贝到 1号 fd 后,是不是有两个文件指针指向 log.txt 呢?是的,那么 log.txt 怎么知道有几个文件指针指向自己呢?那么其中一个文件指针把 log.txt 关了会不会影响另外一个正在使用 log.txt 的文件指针呢?答案是不会的,因为在内核当中存在引用计数,该引用计数记录的是有多少个文件指针指向自己,当有一个文件指针把它关闭之后,引用计数会减一,并不会直接关闭文件,当引用计数为 0 时,说明已经没有文件指针指向自己,这时候才可以关闭文件。

然后我们使用 dup2() 实现一下输出重定向:

				int main(){int fd = open("log.txt", O_WRONLY | O_CREAT | O_TRUNC, 0666);if(fd < 0){perror("open faild");return 1;}dup2(fd, 1);printf("hello printf\n");fprintf(stdout, "hello fprintf\n");close(fd);return 0;}

结果如下:

在这里插入图片描述

但是这跟我们以前用的重定向有什么区别呢,我们以前用的重定向如下:

在这里插入图片描述

我们在命令行是这样使用的,但是这跟我们上面学的又有什么关系呢?首先我们执行的命令行,都是进程在执行,首先要对命令行进行解析,如果识别到命令行中有 >, >>, < 这些符号,说明该指令是要具备重定向功能的;一旦识别到该指令是要具备重定向功能的,那么前半部分就是需要执行的指令,后半部分是我们需要重定向的目标文件。

所以我们可以修改以前模拟实现的 shell,使其具备重定向功能,其中简单实现重定向的 shell 的源码地址为:myshell.

3. 重谈 stderr

那么对于标准输入和标准输出相信我们已经很熟悉了,但是为什么要存在标准错误呢?尤其它指向的也是显示器!我们先来看看,它们都是往显示器上打印信息,如下:

				int main(){fprintf(stdout, "hello, stdout\n");fprintf(stderr, "hello, stderr\n");return 0;}

在这里插入图片描述

如果我们将可执行程序进行输出重定向呢?如下所示:

在这里插入图片描述

如图,为什么 hello, stderr 还会打印出来呢?很简单,我们的输出重定向只是将 hello, stdout 的信息重定向进 log.txt 里面去了,不关 stderr 的事,所以它还是会打印到显示器上。

如果我们需要将 stdoutstderr 打印到一个文件里,应该怎么做呢?此时我们需要在后面加上 2>&1,即如下:

在这里插入图片描述

这又是什么意思呢?2>&1 我们可以理解成将 1号 fd 数组中的内容放到 2号 fd 中,即现在 2号 fd 中数组的文件指针也指向了 log.txt.

那么为什么要有 stderr 呢?其实我们现在写的重定向,如:./test > log.txt 是一种简略的写法,它的正常的写法应该是:./test 1 > log.txt,如下:

在这里插入图片描述

我们理解了 2>&1 之后,再看上面的写法应该就不难理解了。那么我们还可以像下面这样写,注意 2>&1 中间不能有空格:

在这里插入图片描述

所以我们还可以写成下面这样:./test 1 > log.txt 2>log.txt.error 此时我们就形成了两个文件:

在这里插入图片描述

这样写我们就能理解了,因为我们在进行重定向的时候,我们把 1号 fd 重定向到 log.txt 文件,把 2号 fd 重定向到 log.txt.error 文件里,这样我们以后写程序时,printf 打印的是常规信息,perror 打印的是错误信息,这样我们就可以将正确的信息和错误的信息分别保存到两个不同的文件中!

八、缓冲区

1. 缓冲区基础

首先我们需要知道缓冲区是什么呢?我们在前面也有所了解过,如下图:

在这里插入图片描述

当我们需要进行文件写入或者读取文件时,实际上就是将我们自定义的 buffer 缓冲区写入到C库为我们提供的缓冲区,然后再由C库的缓冲区根据 fd 找到文件对应的文件缓冲区进行写入或读取。本质上缓冲区就是一部分内存!

我们可以举一个例子来比喻缓冲区,我们可以将缓冲区比喻成我们平时的“菜鸟驿站”,“菜鸟驿站”是帮我们将快递运输到另一个地方,而缓冲区则是将数据运输至操作系统中的文件缓冲区!因为有缓冲区的存在,我们可以积累一部分信息再统一发送,这也就提高了发送的效率!所以缓冲区的主要作用是提高效率,提高使用者的效率!

缓冲区因为能够暂存数据,所以必定有一定的刷新方式,其中有以下几种:

  • 无缓冲(立即刷新)
  • 行缓冲(行刷新)
  • 全缓冲(缓冲区满了,再刷新)

以上是一般的策略,当然也有特殊情况,例如:

  1. 强制刷新,如 \nfflush()
  2. 进程在退出的时候,一般要进行刷新缓冲区。

而一般对于显示器文件,默认是进行行刷新;对于磁盘上的文件,默认是全缓冲,即缓冲写满再刷新。

2. 深入理解缓冲区

下面我们看一个例子,如下代码:

				int main(){fprintf(stdout, "C: hello fprintf\n");printf("C: hello printf\n");fputs("C: hello fputs\n", stdout);const char* str = "system call: hello write\n";write(1, str, strlen(str));return 0;}

我们分别调用了三个C语言的接口,fprintfprintffputs,和一个系统接口:write,我们使用这几个接口往显示器上打印信息,结果如下:

在这里插入图片描述

如上图,可以打印到正确的结果。接下来我们对上面的代码进行一些修改,如下:

				int main(){fprintf(stdout, "C: hello fprintf\n");printf("C: hello printf\n");fputs("C: hello fputs\n", stdout);const char* str = "system call: hello write\n";write(1, str, strlen(str));fork();return 0;}

我们只在最后加上了 fork() 创建子进程,我们观察运行的结果:

在这里插入图片描述

结果也是没有问题的,但是我们将执行结果输出重定向到一个文件中的时候呢?如下:

在这里插入图片描述

如上图,为什么重定向到 log.txt 就会发生上面的现象呢?这里涉及到的问题是有点多的,我们一个一个来。

  1. 首先,当我们直接向显示器打印的时候,显示器文件的刷新方式是行刷新!而且我们的代码中输出的所有字符串,都有 \n,所以 fork() 之前,数据全部已经被刷新,包括 system call!所以 fork() 之后缓冲区已经被清空了,即使进程退出需要刷新缓冲区,也没有数据可刷新了!
  2. 当我们重定向到 log.txt 的时候,本质是向磁盘文件中写入,系统对于数据的刷新方式已经由行刷新变成了全缓冲!
  3. 全缓冲意味着缓冲区变大,实际写入的简单数据,不足以把缓冲区写满,即使有 \n 强制进行行刷新,但是由于此时系统默认的刷新方式是全缓冲,所以当 fork() 执行的时候,此时缓冲区的数据依旧在缓冲区中!
  4. 我们可以看到,分别向显示器和文件中打印的时候,系统接口 system call 始终都是只打印一次,反而是C语言的接口在变化,所以我们得出结论,我们目前所谈的“缓冲区”,和操作系统和系统接口是没有关系的;由于fprintf printffputs 底层都是对 write 的封装,所以引起这些变化的,只能和C语言本身有关!所以我们平时用得最多的其实是 C/C++ 提供的语言级别的缓冲区,也就是用户缓冲区
  5. C/C++ 提供的缓冲区,里面一定保存的是用户的数据,属于当前进程在运行时自己的数据!如果我们把数据交给了操作系统,即通过语言级别的缓冲区刷新到文件缓冲区中后,这个数据就属于操作系统了,不属于进程了!
  6. 当进程退出的时候,一般要进行刷新缓冲区,即便数据没有满足刷新条件!那么,刷新缓冲区属不属于清空或者“写入”操作呢?属于!当我们的 fork() 之后,总有一个进程需要先退出,子进程或者父进程,取决于OS的调度,那么当任意一个进程退出的时候,就要对缓冲区进行刷新,即发生了写入操作,就要发生写时拷贝!
  7. 但是我们发现,发生写时拷贝的都是C语言的接口,系统接口write并没有发生写时拷贝,即没有使用C语言的缓冲区,这是为什么呢?很简单,系统调用接口是在C语言之下的,它看不到语言级别的缓冲区,而是将数据直接写入到操作系统的缓冲区了!所以该数据就不属于进程了,也就不会发生写时拷贝了!

3. 用户缓冲区和内核缓冲区

我们通过上面得知,日常我们用得最多的其实是C/C++提供的语言级别的缓冲区,下面我们画一个图理解一下这两者的关系:

在这里插入图片描述

上图就是我们的代码写入到文件中的过程,以及缓冲区刷新的理解,但是为什么要有这个过程呢?我们直接使用 printf 写入到文件里不行吗?我们上面说过,缓冲区的存在就是提高使用者的效率,如果 printf 直接往操作系统里面写,会涉及到用户直接拷贝到操作系统里,这个过程的成本可远比拷贝到C语言缓冲区中再拷贝到操作系统的成本要大!因为缓冲区积累一定量后再往操作系统写入,和用户一次一次往操作系统里写入,明显前者效率更高,提高了 printf 的调用效率!所以 printf 只需要将我们用户定义的缓冲区,写入到C语言的缓冲区,由于大家都是同一个级别的拷贝,所以过程也很简单很快。至于C语言缓冲区,它可以积累上一段时间再一次性写入到操作系统中,只跑一次就能大大提高效率!

那么我们为什么要提高 printf 的调用效率呢?其实 printf 只是众多 IO效率的一个代表,还有许多接口例如:fprintf fputsscanf 等等都需要提高,所以C语言上所有IO级别的接口都需要提供缓冲区,都需要提高它们的效率,这样,我们写C语言的时候调用接口的效率就会非常快,从而使我们代码的效率就非常快了。

4. FILE

通过以前的学习我们知道,任何情况下我们输入输出的时候,都要有一个 FILE 结构体。

  • 因为 IO 相关函数与系统调用接口对应,并且库函数封装系统调用,所以本质上,访问文件都是通过 fd 访问的。
  • 所以C库当中的 FILE 结构体内部,必定封装了 fd
  • 既然 FILE 结构体内部已经封装了 fd 了,那么 FILE 里面也就一定为我们提供了一段缓冲区!所以缓冲区是在 FILE 结构体里,所以当我们任意打开一个文件,都会有一个 FILE 结构体,也就是任意一个文件都要在C标准库里通过 FILE 来为我们创建一个属于它自己的文件级别的用户级缓冲区!所以有几个文件被打开,就有几个 FILE,就有几个缓冲区!

例如,我们可以在 /usr/include/stdio.h 路径下的头文件中找到 FILE 结构体的 typedef

在这里插入图片描述

我们还可以在 /usr/include/libio.h 路径下的头文件中找到 FILE 结构体的定义:

在这里插入图片描述
在这里插入图片描述

基于上面的认识,我们可以简单实现一个自己的C库函数,当然我们只是为了更好地了解底层,只是认识级别的实现,源码链接:my_Clib.

相关文章:

【Linux】理解系统中一个被打开的文件

文件系统 前言一、C语言文件接口二、系统文件接口三、文件描述符四、struct file 对象五、stdin、stdout、stderr六、文件描述符的分配规则七、重定向1. 重定向的原理2. dup23. 重谈 stderr 八、缓冲区1. 缓冲区基础2. 深入理解缓冲区3. 用户缓冲区和内核缓冲区4. FILE 前言 首…...

k8s kubeadm部署安装详解

目录 kubeadm部署流程简述 环境准备 步骤简述 关闭 防火墙规则、selinux、swap交换 修改主机名 配置节点之间的主机名解析 调整内核参数 所有节点安装docker 安装依赖组件 配置Docker 所有节点安装kubeadm&#xff0c;kubelet和kubectl 定义kubernetes源并指定版本…...

RT-DETR算法优化改进: 下采样系列 | 一种新颖的基于 Haar 小波的下采样HWD,有效涨点系列

💡💡💡本文独家改进:HWD的核心思想是应用Haar小波变换来降低特征图的空间分辨率,同时保留尽可能多的信息,与传统的下采样方法相比,有效降低信息不确定性。 💡💡💡使用方法:代替原始网络的conv,下采样过程中尽可能包括更多信息,从而提升检测精度。 RT-DET…...

CocosCreator3.8源码分析

Cocos Creator架构 Cocos Creator 拥有两套引擎内核&#xff0c;C 内核 和 TypeScript 内核。C 内核用于原生平台&#xff0c;TypeScript 内核用于 Web 和小游戏平台。 在引擎内核之上&#xff0c;是用 TypeScript 编写的引擎框架层&#xff0c;用以统一两套内核的差异&#xf…...

(已解决)spingboot 后端发送QQ邮箱验证码

打开QQ邮箱pop3请求服务&#xff1a;&#xff08;按照QQ邮箱引导操作&#xff09; 导入依赖&#xff08;不是maven项目就自己添加jar包&#xff09;&#xff1a; <!-- 邮件发送--><dependency><groupId>org.springframework.boot</groupId><…...

【蓝桥杯冲冲冲】[NOIP2001 普及组] 装箱问题

蓝桥杯备赛 | 洛谷做题打卡day26 文章目录 蓝桥杯备赛 | 洛谷做题打卡day26题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示思路 题解代码我的一些话 [NOIP2001 普及组] 装箱问题 题目描述 有一个箱子容量为 V V V&#xff0c;同时有 n n n 个物品&#xff0c;每…...

2024牛客寒假算法基础集训营1

文章目录 A DFS搜索M牛客老粉才知道的秘密G why外卖E 本题又主要考察了贪心B 关鸡C 按闹分配 今天的牛客&#xff0c;说是都是基础题&#xff0c;头昏昏的&#xff0c;感觉真不会写&#xff0c;只能赛后补题了 A DFS搜索 写的时候刚开始以为还是比较难的&#xff0c;和dfs有关…...

元素的显示与隐藏,精灵图,字体图标,CSSC三角

元素的显示与隐藏 类似网站广告&#xff0c;当我们点击关闭就不见了&#xff0c;但是我们重新刷新页面&#xff0c;会重新出现 本质&#xff1a;让元素在页面中隐藏或者显示出来。 1.display显示隐藏 2.visibility显示隐藏 3.overflow溢出显示隐藏 1.display属性&#xff08;…...

最新!2024顶级SCI优化!TTAO-CNN-BiGRU-MSA三角拓扑聚合优化、双向GRU融合注意力的多变量回归预测程序!

适用平台&#xff1a;Matlab 2023版及以上 TTOA三角聚合优化算法&#xff0c;将在2024年3月正式发表在中科院1区顶级SCI期刊《Expert Systems with Applications》上。 该算法提出时间极短&#xff0c;目前以及近期内不会有套用这个算法的文献。新年伊始&#xff0c;尽快拿下…...

Flink SQL Client 安装各类 Connector、组件的方法汇总(持续更新中....)

一般来说&#xff0c;在 Flink SQL Client 中使用各种 Connector 只需要该 Connector 及其依赖 Jar 包部署到 ${FLINK_HOME}/lib 下即可。但是对于某些特定的平台&#xff0c;如果 AWS EMR、Cloudera CDP 等产品会有所不同&#xff0c;主要是它们中的某些 Jar 包可能被改写过&a…...

React18-模拟列表数据实现基础表格功能

文章目录 分页功能分页组件有两种接口参数分页类型用户列表参数类型 模拟列表数据分页触发方式实现目录 分页功能 分页组件有两种 table组件自带分页 <TableborderedrowKey"userId"rowSelection{{ type: checkbox }}pagination{{position: [bottomRight],pageSi…...

MySQL查询数据(十)

MySQL查询数据&#xff08;十&#xff09; 一、SELECT基本查询 1.1 SELECT语句的功能 SELECT 语句从数据库中返回信息。使用一个 SELECT 语句&#xff0c;可以做下面的事&#xff1a; **列选择&#xff1a;**能够使用 SELECT 语句的列选择功能选择表中的列&#xff0c;这些…...

AJAX-常用请求方法和数据提交

常用请求方法 请求方法&#xff1a;对服务器资源&#xff0c;要执行的操作 axios请求配置 url&#xff1a;请求的URL网址 method&#xff1a;请求的方法&#xff0c;如果是GET可以省略&#xff1b;不用区分大小写 data&#xff1a;提交数据 axios({url:目标资源地址,method…...

2024美国大学生数学建模竞赛美赛B题matlab代码解析

2024美赛B题Searching for Submersibles搜索潜水器 因为一些不可抗力&#xff0c;下面仅展示部分代码&#xff08;很少部分部分&#xff09;和部分分析过程&#xff0c;其余代码看文末 Dthxlsread(C:\Users\Lenovo\Desktop\Ionian.xlsx); DpDth(:,3:5); dy0.0042; dx0.0042; …...

【DouYing Desktop】

I) JD 全日制大专及以上学历&#xff1b; 2. 3年以上的IT服务支持相关工作经验 3. 有较强的桌面相关trouble shooting与故障解决能力&#xff0c;能够独立应对各类型桌面问题&#xff1b; 4. 具备基础的网络、系统知识&#xff0c;能够独立解决常见的网络、系统等问题&#xf…...

正则表达式与文本处理工具

目录 引言 一、正则表达式基础 &#xff08;一&#xff09;字符匹配 1.基本字符 2.特殊字符 3.量词 4.边界匹配 &#xff08;二&#xff09;进阶用法 1.组与引用 2.选择 二、命令之-----grep &#xff08;一&#xff09;基础用法 &#xff08;二&#xff09;高级用…...

IDEA中的Run Dashboard

Run Dashboard是IntelliJ IDEA中的工具【也就是View中的Services】&#xff0c;提供一个可视化界面&#xff0c;用于管理控制应用程序的运行和调试过程。 在Run DashBoard中&#xff0c;可以看到所有的运行配置&#xff0c;以及每个配置的运行状态&#xff08;正在运行&#xf…...

【力扣白嫖日记】SQL

前言 练习sql语句&#xff0c;所有题目来自于力扣&#xff08;https://leetcode.cn/problemset/database/&#xff09;的免费数据库练习题。 今日题目&#xff1a; 1407.排名靠前的旅行者 表&#xff1a;Users 列名类型idintnamevarchar id 是该表中具有唯一值的列。name …...

自动化报告pptx-python|高效通过PPT模版制造报告(三)

这是自动化报告学习的第三篇了,前面两篇分别是: 自动化报告的前奏|使用python-pptx操作PPT(一)自动化报告pptx-python|如何将pandas的表格写入PPTX(二)本篇是逼着笔者看到JoStudio 大佬自己写的一个jojo-office 库,基于pptx-python开发成一套试用office软件的依赖,非…...

Linux升级openssh的解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…...

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统 下面是一个完整的 Python 系统,利用大模型实现智能 UI 自动化,结合计算机视觉和自然语言处理技术,实现"看屏操作"的能力。 系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

R语言AI模型部署方案:精准离线运行详解

R语言AI模型部署方案:精准离线运行详解 一、项目概述 本文将构建一个完整的R语言AI部署解决方案,实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点: 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件&#xff0c;常用于在两个集合之间进行数据转移&#xff0c;如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。 核心特性与用法 基本属性 v-model&#xff1a;绑定右侧列表的值&…...

遍历 Map 类型集合的方法汇总

1 方法一 先用方法 keySet() 获取集合中的所有键。再通过 gey(key) 方法用对应键获取值 import java.util.HashMap; import java.util.Set;public class Test {public static void main(String[] args) {HashMap hashMap new HashMap();hashMap.put("语文",99);has…...

QMC5883L的驱动

简介 本篇文章的代码已经上传到了github上面&#xff0c;开源代码 作为一个电子罗盘模块&#xff0c;我们可以通过I2C从中获取偏航角yaw&#xff0c;相对于六轴陀螺仪的yaw&#xff0c;qmc5883l几乎不会零飘并且成本较低。 参考资料 QMC5883L磁场传感器驱动 QMC5883L磁力计…...

智能在线客服平台:数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展&#xff0c;消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁&#xff0c;不仅优化了客户体验&#xff0c;还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用&#xff0c;并…...

如何将联系人从 iPhone 转移到 Android

从 iPhone 换到 Android 手机时&#xff0c;你可能需要保留重要的数据&#xff0c;例如通讯录。好在&#xff0c;将通讯录从 iPhone 转移到 Android 手机非常简单&#xff0c;你可以从本文中学习 6 种可靠的方法&#xff0c;确保随时保持连接&#xff0c;不错过任何信息。 第 1…...

css3笔记 (1) 自用

outline: none 用于移除元素获得焦点时默认的轮廓线 broder:0 用于移除边框 font-size&#xff1a;0 用于设置字体不显示 list-style: none 消除<li> 标签默认样式 margin: xx auto 版心居中 width:100% 通栏 vertical-align 作用于行内元素 / 表格单元格&#xff…...

智能分布式爬虫的数据处理流水线优化:基于深度强化学习的数据质量控制

在数字化浪潮席卷全球的今天&#xff0c;数据已成为企业和研究机构的核心资产。智能分布式爬虫作为高效的数据采集工具&#xff0c;在大规模数据获取中发挥着关键作用。然而&#xff0c;传统的数据处理流水线在面对复杂多变的网络环境和海量异构数据时&#xff0c;常出现数据质…...

Mac下Android Studio扫描根目录卡死问题记录

环境信息 操作系统: macOS 15.5 (Apple M2芯片)Android Studio版本: Meerkat Feature Drop | 2024.3.2 Patch 1 (Build #AI-243.26053.27.2432.13536105, 2025年5月22日构建) 问题现象 在项目开发过程中&#xff0c;提示一个依赖外部头文件的cpp源文件需要同步&#xff0c;点…...