当前位置: 首页 > news >正文

探索文件系统:高效、可靠的文件管理与访问机制

文件系统的功能规划

内存就像是一个书包,容量有限,只能带着一部分东西。而图书馆则是一个专门存储和管理文件的地方,拥有更大的容量,并且可以永久保存文件。为了能够快速找到需要的文件,我们需要有一个书单来记录每本书放在哪里,这个书单就相当于文件系统的索引区,记录着文件的位置和相关信息。同时,为了提高访问效率,热门借阅的书会放在最前面供大家选择,避免每次都要去远处找书。通过良好的文件系统规划,我们可以提高数据管理的效率和安全性,本文将通过类似于图书馆的组织和管理方式再一步一步的讲解文件是如何放入磁盘的、索引节点等这些知识点。

我们最常用的外部存储就是硬盘,数据是以文件的形式保存在硬盘上的。为了有效地管理硬盘上保存的文件,在需要对文件系统进行优化规划前,以下是一些需要考虑的重要因素:

image

第一点,文件系统应具备严格的组织形式,以便将文件以块的形式进行存储。可以将其类比为图书馆中的书架排列,将书架划分为小格子,以便存放不同项目的资料。另外,可以将其类比为MySQL数据库,其中的记录也是逐条存储的。

第二点,文件系统中也要有索引区,用来方便查找一个文件分成的多个块都存放在了什么位置。这可以类比为图书馆中设置的一排书架,上面清楚地标注了整个档案库中的资料以及它们在哪个书架的哪个格子上。这样,在查找资料时就不需要遍历整个档案库,只需找到对应的书架,然后直接定位到目标书架即可。类似地,在MySQL数据库中,当表的数据量较大时,需要使用索引来快速查找数据记录。

第三点,如果文件系统中存在热点文件,经常被读取和写入,应该设置缓存层。这类似于图书馆的热门图书区,里面存放的是畅销书或经常被借还的图书。由于借还次数较多,不需要每次还书都放回远处的书架上,可以专门设置一个区域,用于存放这些借还频率高的图书。这样可以提高借还效率。类比到我们的Redis,它也是用来缓存热点数据,以免每次都需要查找数据库。

第四点,为了方便管理和查询,文件应该以文件夹的形式进行组织。这类似于图书馆中的资料分类,例如按计算机类、文学类、历史类等进行分类。这样可以更容易进行管理,项目组在借阅时只需在相应的分类中查找即可。类比到我们的MySQL数据库,一个业务的数据应该放在一个表中,每个表不应存储其他业务数据。如果你提到目录中可以再包含目录,那在数据库中实现方式是使用关联表。

在文件系统中,每个文件都有一个名字,我们可以通过这个名字来访问文件。文件名是一个普通的文本,但是由于不同用户可能取相同的名字,所以文件名冲突是常见的情况。

为了有序地组织大量的文件,我们可以将它们分组成目录或文件夹的形式。这样,一个文件夹可以包含其他文件夹和文件,形成了一种树形结构。通过将不同用户放在不同的用户目录下,可以在一定程度上避免命名冲突的问题。

image

第五点是,Linux内核需要在内存中维护一个数据结构,用于记录哪些文件被哪些进程打开和使用。这可以类比于图书馆的图书管理系统,记录了哪些书被借阅、由谁借阅、借阅时长以及何时归还。

文件系统的基本组成

一切皆文件

文件系统是操作系统的一个子系统,负责管理和存储用户的文件数据到磁盘硬件中。它的主要作用是使得即使在计算机断电的情况下,磁盘中的数据仍然可以被保留下来,实现了文件的持久化保存。简单来说,文件系统确保了用户的文件数据的长期存储和可靠性。

文件系统以文件为基本数据单位,其目的是对磁盘上的文件进行组织和管理。不同的组织方式会形成不同的文件系统。举一些常见的文件系统例子:

  1. FAT32(File Allocation Table 32):FAT32是一种简单的文件系统,主要用于Windows操作系统。它使用文件分配表(File Allocation Table)来跟踪文件的存储位置。FAT32对文件名的长度有限制,文件名不能超过8个字符,并且不支持文件的安全性和权限控制。它在许多可移动存储设备(如闪存驱动器)上使用广泛。
  2. NTFS(New Technology File System):NTFS是Windows操作系统中较新的文件系统。它支持更大的文件和分区大小,并提供了更高级的安全性和权限控制。NTFS还支持文件的压缩、加密和日志记录,以提高数据的完整性和可靠性。
  3. ext4(Fourth Extended File System):ext4是Linux操作系统中常用的文件系统。它是ext文件系统家族的最新版本,支持更大的文件和分区大小,具有更好的性能和可靠性。ext4使用B树数据结构来组织文件和目录,提供了较快的文件查找和访问速度。

当你将一个文件从Windows系统传输到Linux系统时,文件的原始格式和文件系统可能会有所不同。例如,文件可能是在Windows系统上使用NTFS文件系统创建的,但在传输过程中,它以字节流的形式进行传输,并在Linux系统上重新写入。在这种情况下,Linux系统会根据所使用的文件系统(如ext4)来重新组织和管理文件。

在Linux中,有一句经典的话是“一切皆文件”,这意味着不仅普通的文件和目录,而且块设备、管道、socket等都统一由文件系统进行管理。

Linux文件系统为每个文件分配了两个数据结构:索引节点(inode)和目录项(directory entry)。索引节点记录了文件的元信息,如权限、所有者、大小等,而目录项则记录了文件在目录层次结构中的位置和名称。这两个数据结构并不是与文件内容一起保存的,而是由操作系统自行管理的一个区域。
image

索引节点(inode)用来记录文件的元信息,包括inode编号、文件大小、访问权限、创建时间、修改时间以及数据在磁盘上的位置等。每个文件都有唯一的索引节点,它们与文件一一对应,并且被存储在硬盘上,因此索引节点也会占用磁盘空间。

目录项(directory entry)用来记录文件的名称、索引节点指针以及与其他目录项的层级关系。多个目录项的关联形成了目录结构。与索引节点不同的是,目录项是由内核维护的数据结构,不存放于磁盘上,而是缓存在内存中。

由于索引节点是文件的唯一标识,而目录项记录着文件的名称,因此目录项和索引节点之间是多对一的关系。换句话说,一个文件可以有多个不同的目录项指向相同的索引节点。例如,硬链接的实现就是多个目录项中的索引节点指向同一个文件。

请注意,目录文件也是通过索引节点来唯一标识的,与普通文件有所不同之处在于,普通文件在磁盘上存储了实际的文件数据,而目录文件在磁盘上存储了子目录或文件的相关信息。

目录项和目录是一个东西吗?

首先肯定的是他俩不是一个东西,我们刚才说了,目录项是操作系统维护的一个数据结构,存储在缓存中,它通过索引节点指针来定位和访问目录或文件。而目录则是一个存储在磁盘上的文件,目录项通过自己保存的索引节点指针可以进一步找到目录或者是文件,

而且需要注意的是,由于磁盘上的文件数量庞大,而内存空间有限,因此需要使用目录项来进行缓存,以提高对目录的访问效率。目录项会根据缓存策略进行管理,不会一次性缓存所有的目录项。

那文件数据是如何存储在磁盘的呢?

磁盘读写的最小单位是扇区,扇区的大小只有 512B 大小,很明显,如果每次读写都以这么小为单位,那这读写的效率会非常低。

所以,文件数据在磁盘上以逻辑块为单位进行存储,每个逻辑块由多个扇区组成,每次读写的最小单位就是逻辑块(数据块),在Linux中,逻辑块的大小通常为4KB,相当于8个扇区。这将大大提高了磁盘的读写的效率。

索引节点是存储在磁盘上的数据,为了加速文件的访问,通常会将索引节点加载到内存中。磁盘在格式化时被分为三个存储区域:超级块、索引节点区和数据块区。

  • 超级块:用于存储文件系统的详细信息,如块个数、块大小和空闲块数量等。超级块在文件系统挂载时会被加载到内存中。
  • 索引节点区:用于存储索引节点。当文件被访问时,相应的索引节点会被加载到内存中,以便快速访问文件的元数据。
  • 数据块区:用于存储文件或目录的实际数据。

由于无法将整个超级块和索引节点区加载到内存中,只有在需要使用时才会将其加载进内存,它们加载进内存的时机是不同的:超级块在文件系统挂载时加载,而索引节点在文件被访问时加载进内存。这样的加载策略可以有效利用内存资源,并提高文件系统的性能。

总结

在文件系统的功能规划中,块是文件以及文件系统中数据存储的基本单位。索引节点记录了文件的元信息,包括文件的权限、大小、创建时间等。目录项则记录了文件在目录层次结构中的位置和名称。

可以有多个不同的目录项指向相同的索引节点,这样可以在不同的目录中通过不同的名称访问同一个文件。这种多对一的关系使得文件系统更加灵活和高效。为了提高文件访问效率,文件系统还采用了缓存策略。热点文件会被缓存在内存中,以减少磁盘IO的次数。

相关文章:

探索文件系统:高效、可靠的文件管理与访问机制

文件系统的功能规划 内存就像是一个书包,容量有限,只能带着一部分东西。而图书馆则是一个专门存储和管理文件的地方,拥有更大的容量,并且可以永久保存文件。为了能够快速找到需要的文件,我们需要有一个书单来记录每本…...

启程与远征Ⅸ--优化生成式人工智能以满足业务需求的框架

生成类似人类的文本和语音曾经只存在于科幻小说中。但 GPT-3 和 PaLM 等大型语言模型 (LLM) 的快速发展让这一愿景更接近现实,解锁了从聊天机器人到内容创作等一系列有前景的商业应用。 然而,通用基础模型往往无法满足行业用例的需求。企业对其生成式 A…...

canal数据同步工具介绍与应用

canal服务 canal介绍canal版本与环境canal 服务集canal应用场景: canal常见问题xml配置问题连接认证问题jar版本问题连接问题 canal介绍 ‌1、Canal是‌阿里巴巴开源的‌MySQL增量数据订阅和消费工具,通过模拟MySQL的‌slave与‌master交互,捕…...

ubuntu18.04 设置静态地址

修改配置文件 sudo vim /etc/netplan/01-network-manager-all.yaml 代码如下: network: version: 2 renderer: NetworkManager ethernets: ens33: # 配置的网卡名称,可以使用ifconfig -a查看本机的网卡 dhcp4: no # 关闭动态IP设置 …...

jira敏捷开发管理工具视频教程Confluence工作流协同开发(2024)

正文: 随着Jira敏捷开发方法论的普及,Jira已经成为全球软件开发团队管理项目、任务和问题的首选工具。为了帮助团队更好地掌握Jira的核心功能,精心准备了一套全面开发技术及案例视频教程——《Jira敏捷开发管理工具视频教程Confluenc…...

【网络】TCP回显服务器和客户端的构造,以及相关bug解决方法

文章目录 ServerSocket构造方法方法 Socket构造方法方法 回显服务器(Echo Server)1. 构造方法2. 建立连接processConnection 方法的创建1. 读取请求并解析2. 根据请求计算响应3. 把响应写回给客户端 3. 完整代码 客户端(Echo Client&#xff…...

Python知识点:如何使用Boto3进行AWS服务管理

使用 boto3 来管理 AWS 服务是一个非常强大的方式,因为 boto3 是 AWS 提供的官方 Python SDK。下面是使用 boto3 管理 AWS 服务的基本步骤,包括设置、操作和常见的 AWS 服务示例。 1. 安装 boto3 首先,确保你已经安装了 boto3。可以使用 pi…...

Java - 正则表达式

Java 提供了 java.util.regex 包,它包含了 Pattern 和 Matcher 类,用于处理正则表达式的匹配操作。 正则表达式的模式 正则表达式的模式可以包括以下内容: 字面值字符:例如字母、数字、空格等,可以直接匹配它们自身。…...

Vue一款流行的JavaScript前端框架

1.Vue简介 Vue是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和 JavaScript 构建,并提供了一套声明式的、组件化的编程模型,帮助你高效地开发用户界面。无论是简单还是复杂的界面,Vue 都可以胜任。 Vue所关注的核心是MVC…...

GPT-SoVITS

文章目录 model archS1 ModelS2 model model arch S1 model: AR model–ssl tokensS2 model: VITS,ssl 已经是mel 长度线性相关,MRTE(ssl_codes_embs, text, global_mel_emb)模块,将文本加强相关,学到一个参考结果 S1 Model cla…...

linux高级编程——文件IO(常用函数大全)

1.相关介绍及常用函数 Linux高级编程中的目录IO操作是文件系统编程的一个重要组成部分,主要涉及到目录的打开、读取、遍历和关闭等操作。以下是一些基本的目录IO操作和相关的系统调用函数 1.1 opendir函数 打开目录:使用opendir函数打开一个目录&#…...

matplotlib画图

Matplotlib 先写一个最简单的: import matplotlib.pyplot as plt plt.plot([1,4],[2,8]) #plot画折线图plt.show() 确定两个点画一条线 import matplotlib.pyplot as plt x[1,23,4,56,7,6] #x轴数据 y[22,44,56,67,43,2] #y轴数据 s[22,43,33,44,43,7] plt.p…...

Jetpack 各种框架简介

Jetpack是Google推出的一套为Android开发提供极大便利的组件、工具和指导集,旨在帮助开发者快速构建高质量的应用,并遵循最佳实践。 Jetpack不仅是一个提高开发效率的工具集,还是Android开发的未来方向。它通过整合各种组件和工具&#xff0…...

海康VisionMaster使用学习笔记5-开机自启动

开机自启动 在实际应用中,用户会希望机台上电开机后,软件能自启动避免现场人员误操作,减少机台重新上电时的操作步骤以提升效率。 设置 打开VM,点击设置,软件设置->开机自启动->勾选开机自启动->确定 默认运行界面 启动时以设定的…...

驾驭数据之序:SQL序列的奥秘与实现

标题:驾驭数据之序:SQL序列的奥秘与实现 摘要 在数据库管理中,保证数据的有序性和唯一性是至关重要的。SQL序列(Sequence)作为一种强大的数据库对象,为我们提供了一种在不同数据库系统中生成连续数字的手…...

【LeetCode】148. 排序链表

排序链表 题目描述: 给你链表的头结点 head ,请将其按 升序 排列并返回 排序后的链表 。 示例 1: 输入:head [4,2,1,3] 输出:[1,2,3,4]示例 2: 输入:head [-1,5,3,4,0] 输出:…...

阿里云-java调用短信服务,第三方接口的开启(傻瓜式教程)

第一步:在浏览器中,搜索阿里云 第二步:打开aly的主页 第三步:在最上方的导航栏中,找到云市场,注意不要点击,会自动有触发悬浮框出现,在悬浮框中找到 短信 第四步:点击 短…...

以node / link文件表征的道路网络-----基于南京公路公开数据做路径规划(下)------dijkstra算法的一些简单花样

在不改变dijkstra算法本身的情况下,完全可以从数据源的角度出发,解决我们的一些简单需求: 比较初级且粗暴的玩法,可以是强行赋予一些link极端的路段长度。 对于我们坚决不希望车辆行驶的道路、禁行区、或是危险区,就…...

计算机操作员中级理论知识试题

计算机操作员中级理论知识试题 一、单项选择题 在ASCII编码中,无法显示或打印的字符是()。 A.字符$,%,# B.运算符号*,.,/ C.空格 D.ASCII编码值在0-30间的控制符号将十进制数31.625转换成十六进制数是() A.115.10 B.If.a C.37.5 D.If.10在计算机中,同统一指挥和控制计…...

Redis主从同步配置

1: 安装Redis 参考 linux ubuntu安装redis_ubuntu离线安装redis7.2.5-CSDN博客 2:创建目录 到达redis 根目录 cd /usr/redis/# 创建主从工作目录 mkdir -p replication/6379 # master 节点 mkdir -p replication/6378 # 从节点 mkdir -p replication/6377 # 从节点…...

输出重定向

输出重定向是指将程序的输出(标准输出、错误输出等)重定向到指定的位置,而不是默认的输出设备(通常是终端/控制台)。在 Unix/Linux 系统中,输出重定向通过使用符号 >、>>、2> 等来实现。 常见…...

ubuntu20.04挂载机械硬盘

环境说明 1.基于清华源地址下载的ubuntu20.04制作的系统盘,然后安装在PC上(固态硬盘) 2.机械硬盘无法看见 目的 挂载机械硬盘,开机就能自动启动/挂载 参考链接 https://blog.csdn.net/qq_35624642/article/details/137713143…...

Python轻量级 NoSQL 数据库之tinydb使用详解

概要 在现代应用开发中,使用数据库来存储和管理数据是非常常见的需求。对于简单的数据存储需求,关系型数据库可能显得过于复杂。TinyDB 是一个纯 Python 实现的轻量级 NoSQL 数据库,专为嵌入式场景设计,适用于小型项目、原型开发和教学等场景。本文将详细介绍 TinyDB 库,…...

【数据结构】二叉树(二)遍历

上篇已经了解对二叉树有了大概了解,本篇学习二叉树的前序、中序、后序及层序遍历的递归与非递归共7种遍历方法,快收藏吧~ 目录 1、前序遍历 递归方式: 迭代方式: 2、中序遍历 递归方式: 迭代方式: …...

NGINX 常用内置变量

目录 $remote_addr 变量 $args 变量 $is_args 变量 $document_root 变量 $document_uri 变量 $host 变量 $limit_rate 变量 $remote_port 变量 $remote_port --显示客户端端口 $request_method 变量 --返回请求方式 $request_filename 变量 --返回请求实际路径 $request_uri…...

Windows采用VS2019实现Open3D的C++应用

1、参考链接 https://blog.csdn.net/qq_31254435/article/details/137799739 但是&#xff0c;我的方法和上述链接不大一样&#xff0c;我是采用VS2019进行编译的&#xff0c;方便在Windows平台上验证各种算法。 2、创建一个VS2019的C Console工程 #include <iostream>…...

冒泡排序、选择排序、插入排序,三种简单排序算法的区别?

1、冒泡排序 冒泡排序是从下标 1 遍历到 n&#xff0c;每当遇到大于下一个的&#xff0c;就和上一个交换位置&#xff0c;这样最大的就移动到了 n 的位置&#xff0c;然后从头再从 1 遍历到 n-1&#xff0c;把第二大的移动到 n-1 的位置&#xff0c;依此类推&#xff0c;每次从…...

Docker 日志管理

一、ELK -Filebeat Elasticsearch 数据的存储和检索 常用端口&#xff1a; 9100&#xff1a;elasticsearch-head提供web访问 9200&#xff1a;elasticsearch与其他程序连接或发送消息 9300&#xff1a;elasticsearch集群状态 Logstash 有三个组件构成input&#xff0c;fi…...

JavaScript初级——基础知识

一、JS的HelloWord 1、JS的代码需要编写到script标签中 2、JS的执行是根据语句从上到下一次执行的。 二、JS的编写位置 1、可以将js代码编写到标签的onclick属性中&#xff0c;当我们点击按钮时&#xff0c;js代码才会执行。 2、可以将js代码写在超链接的href属性中&#xff0…...

0817(持久层框架:JDBC,MyBatis)

三层架构&#xff08;表现层&#xff0c;业务层&#xff0c;持久层&#xff09; java中框架的概述&#xff08;表现层、业务层、持久层的关系&#xff09;_控制层业务层持久层的关系-CSDN博客 框架&#xff1a;框架一般处在低层应用平台&#xff08;如J2EE&#xff09;和高层…...