CMU-15445(4)——PROJECT#1-BufferPoolManager-Task#2
PROJECT#1-BufferPoolManager
Task #2 - Disk Scheduler
在前一节我实现了 TASK1 并通过了测试,在本节中,我将逐步实现 TASK2。
如上图,Page Table
(页表)通过哈希表实现,用于跟踪当前存在于内存中的页,将页 ID 映射到缓冲池中的帧位置(其实和虚拟内存中的页表一个思路,缓冲池的页表不应与页目录混淆,后者是页 ID 到数据库文件中页位置的映射)。LRU-K Replacement Policy
其实就是实现如何通过页表跟踪缓冲池并且记录页面的使用情况进行相应的淘汰过程。
而本节的Disk Scheduler
负责缓冲池和硬盘之间的读写,因为页表还维护了每页的额外元数据、dirty-flag
和 pin/reference counter
,每当线程修改页面时,dirty-flag
都会由线程设置;且线程在访问页面之前必须递增计数器,如果页面的计数大于零,则不允许存储管理器从内存中淘汰该页面。这些步骤都是需要我们在 Disk Scheduler
实现的,并且需要保证线程安全。
TASK#2 用到的文件:
src/include/storage/disk/disk_scheduler.h
src/storage/disk/disk_scheduler.cpp
Disk Scheduler
可供其他组件(TASK#3 里的缓冲池管理器 BufferPoolManager
)使用,用于将磁盘请求(由 DiskRequest
结构体表示,该结构体已在 src/include/storage/disk/disk_scheduler.h
中定义)放入队列。磁盘调度器会维护一个后台工作线程,由这个线程负责处理已调度的请求。其实就是维护了一个异步线程,如果有请求需要处理,生产者线程会通过std::condition_variable
的notify.one()
唤醒这个异步线程来进行消费,如果有关于并发和网络编程的知识,这部分会很容易理解。
磁盘调度器会借助一个共享队列来调度和处理 DiskRequest
。会有一个线程将请求添加到队列中,而磁盘调度器的后台工作线程则会处理队列里的请求。我们在 src/include/common/channel.h
中提供了 Channel
类,用于实现线程间数据的线程安全共享,不过要是你觉得有必要,也可以自行实现。简单来说,就是生产者往队列中添加需要处理的请求,然后通过 notify.one()
唤醒异步线程进行处理,在异步线程中,首先对队列判空然后将请求取出来进行处理,处理完之后通过 std::condition_variable
的 wait()
挂起等待唤醒。
实现
简单说一下 disk_scheduler.h
的框架和主要函数的功能,源代码如下:
namespace bustub {
struct DiskRequest {bool is_write_;char *data_;page_id_t page_id_;std::promise<bool> callback_;
};class DiskScheduler {public:explicit DiskScheduler(DiskManager* disk_manager);~DiskScheduler();void Schedule(DiskRequest r);void StartWorkerThread();using DiskSchedulerPromise = std::promise<bool>;auto CreatePromise() -> DiskSchedulerPromise { return {}; };void DeallocatePage(page_id_t page_id) { disk_manager_->DeletePage(page_id); }private:DiskManager *disk_manager_ __attribute__((__unused__));Channel<std::optional<DiskRequest>> request_queue_;std::optional<std::thread> background_thread_;
};
} // namespace bustub
头文件首先定义了一个结构体 DiskRequest
用于管理磁盘请求,一共有四个成员,分别是请求类型(读写)、数据缓冲区指针、页 ID 和完成回调。
is_write_
:区分读写操作data_
:指向内存缓冲区,用于读取或写入数据page_id_
:标识操作的页callback_
:使用std::promise
实现异步回调,当磁盘请求完成时设置为true
除了已经提供给我们的四个成员变量外,我们需要显式实现 DiskRequest
的拷贝构造、拷贝赋值运算符、移动拷贝构造、移动赋值运算符(此外还需要实现带有四参数的DiskRequest构造函数,这里一开始我没实现导致测试时报错)。
然后就是 Task #2 - Disk Scheduler
的主要内容 “实现 DiskScheduler
”,DiskScheduler
主要用于供其他组件(后续的PROJECT,在本PROJECT中是TASK#3)使用,将磁盘请求通过 DiskRequest 结构体进行封装然后通过一个线程将其放入请求队列 request_queue_
中,并且维护了一个后台线程用于负责处理请求队列中已调度的请求。
request_queue_
通过 Channel
类进行封装, Channel
类是bustub
自己封装的一个类,用于保护数据在多线程中共享,代码如下:
template <class T>
class Channel {public:Channel() = default;~Channel() = default;void Put(T element) {std::unique_lock<std::mutex> lk(m_);q_.push(std::move(element));lk.unlock();cv_.notify_all();}auto Get() -> T {std::unique_lock<std::mutex> lk(m_);cv_.wait(lk, [&]() { return !q_.empty(); });T element = std::move(q_.front());q_.pop();return element;}private:std::mutex m_;std::condition_variable cv_;std::queue<T> q_;
};
整体思路类似于管程,就是封装了共享数据和对这些数据的操作,确保同一时间只有一个线程可以执行其中的操作,维护线程安全。
Channel
类主要提供了两个方法,Put(T element)
用于向队列 q_
中添加数据,通过 std::unique_lock
保护支持并发操作,添加完元素后通过条件变量的 notify_all()
方法唤醒消费线程进行消费,支持并发操作(其实在 PROJECT#1 中,只有一个线程处理队列中的请求,这里的 notify_all()
没必要,使用 notify_one
可以提高效率);Get()
从队列 q_
中获取数据,若队列 q_
为空则通过条件变量 std::condition_variable
挂起防止消费系统资源,同样支持并发操作。
Channel
类的队列是无边界的,因此可能会造成一些内存溢出的风险,我们可以加一个容量 capacity 限制队列上限,然后添加TryPut
/TryGet
非阻塞方法提高性能。
除 request_queue_
外,DiskScheduler
还有两个私有成员disk_manager_
和background_thread_
,前者是BusTub已实现的负责底层磁盘 I/O 操作的核心组件,提供了与物理存储交互的接口,将高层的逻辑页操作转换为实际的磁盘读写,具体文件在 src/include/storage/disk/disk_manager.h
,可自行查看;后者是用于处理请求队列 request_queue_
数据的后台线程。
DiskScheduler
和 DiskManager
的关系如下所示:
+-------------------+ +------------------+ +------------------+
| BufferPoolManager | --> | DiskScheduler | --> | DiskManager |
| (缓存管理) | | (请求调度) | | (物理存储) |
+-------------------+ +------------------+ +------------------+| || v+--------------------------------> |调用 WriteLog 写入日志 | (日志管理)+------------------+
DiskScheduler
接收来自BufferPoolManager
的磁盘请求(包括读请求和写请求),并将这些请求放入一个请求队列中,其工作线程从请求队列中取出请求,并按照FCFS调度策略将请求发送给DiskManager
进行实际的磁盘 I/O 操作。- 对于读请求,
DiskScheduler
会等待DiskManager
完成读取操作,并将读取到的数据返回给BufferPoolManager
;DiskManager
根据请求的页面 ID 从磁盘中读取相应的页面数据,并返回给DiskScheduler
。 - 对于写请求,
DiskScheduler
会确保DiskManager
成功将数据写入磁盘后,通知BufferPoolManager
操作已完成;DiskManager
将接收到的数据写入磁盘中指定的页面位置(DiskManager
的ReadPage
方法会根据页面 ID 计算出在磁盘文件中的偏移量,然后从该位置读取数据;WritePage
方法则会将数据写入相应的偏移量位置)。
我们主要实现的DiskScheduler
函数如下:
Schedule(DiskRequest r)
:将一个请求(DiskRequest
结构体明确了该请求是读操作还是写操作、数据的读写位置以及操作对应的页 ID)调度给磁盘管理器执行。首先需要判断请求的 buffer 是否是 nullptr,然后判断页 id 是否是 INVALID_PAGE_ID
(INVALID_PAGE_ID
定义在 config.h
,表示无效页id),如果是直接 return;反之调用 Channel
的Put()
函数将请求 r
添加至请求队列中,然后唤醒工作线程处理请求。
这个过程中我们不需要考虑线程安全,因为我们将数据封装到了 Channel 类中,其相当于一个管程。
StartWorkerThread()
:这是后台工作线程的启动方法,该线程负责处理已调度的请求。工作线程在 DiskScheduler
的构造函数中创建,并且会调用这个方法。工作线程是一个死循环,循环中首先显式调用 Channel
的 Get()
函数获取队列中的请求(如果队列为空,工作线程会通过条件变量的wait() 函数挂起,同时解锁释放共享资源,直至被唤醒),如果请求是 std::nullopt
,工作线程的循环会直接退出;反之根据请求的类型(读或写)调用 DiskManager
的 WritePage()
和 ReadPage()
,执行完后将请求 的callback_
设为 true
(std::promise
是 C++中配合std::future
实现异步编程的,std::promise
用于在某一线程中设置某个值或异常,之后通过 std::promise
对象所创建的std::future
对象异步获得这个值或异常,具体使用可参考我的文章:并发编程(6)——future、promise、async,线程池 | 爱吃土豆的个人博客))。
test
首先将 test/storage/disk_scheduler_test.cpp 中测试函数第二个形参的前缀 DISABLE_取代,然后 cd 至 build 文件夹下执行下列命令:
make disk_scheduler_test -j `nproc`
./test/disk_scheduler_test
我这里报错如下:
测试函数在调用DiskRequest的构造函数时,没有匹配的构造函数,这里需要为 DiskRequest
添加一个接受四参数的构造函数。
DiskRequest(bool is_write, char *data, page_id_t page_id, std::promise<bool> callback)
添加完后编译成功,然后执行 ./test/disk_scheduler_test
,报错如下:
我们处理完请求一之后,DiskScheduler
的析构函数在执行第二个请求前被调用
debug代码发现,我需要在StartWorkerThread()
函数中,通过std::move
获取Schedule()
传入的请求r
,如果拷贝会导致提前调用 DiskScheduler
的析构函数:
auto request_opt = request_queue_.Get();
auto request = std::move(request_opt.value());
如果是 auto request = request_opt.value()
,会调用 DiskRequest
的赋值构造函数,在赋值构造函数中我创建了一个新的 promise
对象并覆盖原有的 callback_
,导致原 promise
被丢弃,测试代码中通过 future1 = promise1.get_future()
获取的 future
与新创建的 promise
不再关联,最终触发 Broken promise
。此外,request_opt.value()
返回的是一个临时对象,而临时对象在语句结束后立即析构,因此这里会发生下述情况:
025-05-16 22:25:34 [disk_scheduler.cpp:72:StartWorkerThread] DEBUG - 处理请求: page_id=0, is_write=1
2025-05-16 22:25:34 [disk_scheduler.cpp:81:StartWorkerThread] DEBUG - 请求处理完成,设置 promise 值
2025-05-16 22:25:34 [disk_scheduler.cpp:28:~DiskScheduler] DEBUG - DiskScheduler 析构函数被调用
2025-05-16 22:25:34 [disk_scheduler.cpp:31:~DiskScheduler] DEBUG - 等待工作线程退出...
请求一被成功执行,但是随后会触发 DiskScheduler 的析构函数。
这是因为我没有使用 std::move
时,request_opt.value()
返回的临时对象会调用DiskRequest
的拷贝构造 request
,然后继续执行Schedule(DiskRequest r)
的其他命令唤醒工作线程处理请求,因此会发现DEBUG时我们成功处理了请求一,但是在执行完请求后离开函数体时,原 promise
对象随着临时对象一起被销毁。此时,测试代码中的 future
仍然关联着已被销毁的原 promise
,而新创建的 promise
与 future
没有任何关系。
线程执行过程中,虽然成功处理了请求并设置了新 promise
的值,但这个操作对测试代码中的 future
没有任何影响。当测试代码调用 future.get()
时,由于关联的原 promise
从未被设置值且已被销毁,就会抛出 Broken promise
异常。这个异常会导致测试框架提前终止当前作用域,使得 DiskScheduler
对象被提前析构。这就是为啥在调用 future.get()
时会触发 DiskScheduler
的析构函数。
这里改为 auto request = std::move(request_opt.value())
后,future
和 promise
的关联就能够保持完整,线程对 promise
的操作可以正确地被 future
感知到,从而使测试能够正常执行到结束,避免了 DiskScheduler
的意外析构。
重新测试,测试成功。
相关文章:

CMU-15445(4)——PROJECT#1-BufferPoolManager-Task#2
PROJECT#1-BufferPoolManager Task #2 - Disk Scheduler 在前一节我实现了 TASK1 并通过了测试,在本节中,我将逐步实现 TASK2。 如上图,Page Table(页表)通过哈希表实现,用于跟踪当前存在于内存中的页&am…...

百度智能云千帆携手联想,共创MCP生态宇宙
5月7日,2025联想创新科技大会(Tech World)在上海世博中心举行,本届大会以“让AI成为创新生产力”为主题。会上,联想集团董事长兼CEO杨元庆展示了包括覆盖全场景的超级智能体矩阵,包括个人超级智能体、企业超…...
Python 中的 typing.ClassVar 详解
一、ClassVar 的定义和基本用途 ClassVar 是 typing 模块中提供的一种特殊类型,用于在类型注解中标记类变量(静态变量)。根据官方文档,使用 ClassVar[…] 注释的属性表示该属性只在类层面使用,不应在实例上赋值 例如&…...

【动态导通电阻】GaN HEMT动态导通电阻的精确测量
2023 年 7 月,瑞士洛桑联邦理工学院的 Hongkeng Zhu 和 Elison Matioli 在《IEEE Transactions on Power Electronics》期刊发表了题为《Accurate Measurement of Dynamic ON-Resistance in GaN Transistors at Steady-State》的文章,基于提出的稳态测量方法,研究了氮化镓(…...

java 使用zxing生成条形码(可自定义文字位置、边框样式)
最新工作中遇到生成条形码的需求,经过一番摸索之后找到了zxing这个工具类,实现效果如下: 首先引入依赖: <!-- 条形码生成器 --><dependency><groupId>com.google.zxing</groupId><artifactId&g…...

day19-线性表(顺序表)(链表I)
一、补充 安装软件命令: sudo apt-get install (软件名) 安装格式化对齐:sudo apt-get install clang-format内存泄漏检测工具: sudo apt-get install valgrind 编译后,使用命令 valgrind ./a.out 即可看内存是…...

CSS- 2.1 实战之图文混排、表格、表单、学校官网一级导航栏
本系列可作为前端学习系列的笔记,代码的运行环境是在HBuilder中,小编会将代码复制下来,大家复制下来就可以练习了,方便大家学习。 HTML系列文章 已经收录在前端专栏,有需要的宝宝们可以点击前端专栏查看! 点…...
Armijo rule
非精线搜索步长规则Armijo规则&Goldstein规则&Wolfe规则_armijo rule-CSDN博客 [原创]用“人话”解释不精确线搜索中的Armijo-Goldstein准则及Wolfe-Powell准则 – 编码无悔 / Intent & Focused...

从零搭建AI工作站:Gemma3大模型本地部署+WebUI配置全套方案
文章目录 前言1. 安装Ollama2.Gemma3模型安装与运行3. 安装Open WebUI图形化界面3.1 Open WebUI安装运行3.2 添加模型3.3 多模态测试 4. 安装内网穿透工具5. 配置固定公网地址总结 前言 如今各家的AI大模型厮杀得如火如荼,每天都有新的突破。今天我要给大家安利一款…...

贝叶斯优化Transformer融合支持向量机多变量时间序列预测,Matlab实现
贝叶斯优化Transformer融合支持向量机多变量时间序列预测,Matlab实现 目录 贝叶斯优化Transformer融合支持向量机多变量时间序列预测,Matlab实现效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.BO-TransformerSVM多变量时间序列预测,…...
执行apt-get update 报错ModuleNotFoundError: No module named ‘apt_pkg‘的解决方案汇总
Ubuntu版本ubuntu18.04 报错内容: //执行apt-get upgrade报错: Traceback :File “/usr/lib/cnf-update-db”, line 8, in <module>from CommandNotFound.db.creator import DbcreatorFile “/usr/lib/python3/dist-packages/CommandNotFound/db…...
maven中relativepath标签的含义及使用方法
在Maven中,<relativePath>标签用于指定子模块的父POM文件的相对路径,以便在构建时优先从本地项目结构中查找父项目,而非直接从仓库获取。以下是其含义和使用方法的详细说明: 含义 作用:在子模块的<parent>元素中,<relativePath>定义了父POM文件相对于当…...

C++_STL_map与set
1. 关联式容器 在初阶阶段,我们已经接触过STL中的部分容器,比如:vector、list、deque、 forward_list(C11)等,这些容器统称为序列式容器,因为其底层为线性序列的数据结构,里面 存储的是元素本身。那什么是…...

项目依赖版本修改
React项目 因UI库无法兼容React19版本,故此降低React版本至18.x (为什么不升级UI库版本,因为没有最新版,而且找不到好的替代品) package.json 先修改package.json文件中你想修改的依赖版本号 "dependencies": { - "react": "^19.1.0", - "…...

蚁群算法赋能生鲜配送:MATLAB 实现多约束路径优化
在生鲜农产品配送中,如何平衡运输效率与成本控制始终是行业难题。本文聚焦多目标路径优化,通过 MATLAB 实现蚁群算法,解决包含载重限制、时间窗约束、冷藏货损成本的复杂配送问题。代码完整复现了从数据生成到路径优化的全流程,助…...

机器学习与人工智能:NLP分词与文本相似度分析
自然语言处理 你有没有想过,生成式 AI 工具或大型语言模型背后究竟发生了什么?自然语言处理(NLP)是这些工具的核心,它使计算机能够理解人类语言。换句话说,NLP 是连接人类交流和机器(如计算机&…...

记录一下seata后端数据库由mariadb10切换到mysql8遇到的SQLException问题
文章目录 前言一、问题记录二、参考帖子三、记录store.db.driverClassName 前言 记录一下seata后端数据库由mariadb10切换到mysql8遇到的SQLException问题。 一、问题记录 17:39:23.709 ERROR --- [ionPool-Create-1134013833] com.alibaba.druid.pool.DruidDataSource : …...

CUDA学习笔记
CUDA入门笔记 总览 CUDA是NVIDIA公司对其GPU产品提供的一个编程模型,在2006年提出,近年随着深度学习的广泛应用,CUDA已成为针对加速深度学习算法的并行计算工具。 以下是维基百科的定义:一种专有的并行计算平台和应用程序编程接…...
Python爬虫实战:研究JavaScript压缩方法实现逆向解密
一、引言 在数字化信息爆炸的时代,网络数据已成为驱动各行业发展的核心资产。Python 凭借其丰富的库生态和简洁的语法,成为网络爬虫开发的首选语言。然而,随着互联网安全防护机制的不断升级,网站普遍采用 JavaScript 压缩与混淆技术保护其核心逻辑和数据传输,这使得传统爬…...
【Linux】Shell脚本中向文件中写日志,以及日志文件大小、数量管理
1、写日志 shell脚本中使用echo命令,将字符串输入到文件中 覆盖写入:echo “Hello, World!” > laoer.log ,如果文件不存在,则会创建文件追加写入:echo “Hello, World!” >> laoer.log转移字符:echo -e “Name:\tlaoer\nAge:\t18” > laoer.log,\t制表符 …...

c++ 类的语法3
测试下默认构造函数。demo1: void testClass3() {class Demo { // 没显示提供默认构造函数,会有默认构造函数。public:int x; // 普通成员变量,可默认构造};Demo demo1;//cout << "demo1.x: " << demo1.x << en…...
Rust 学习笔记:关于 String 的练习题
Rust 学习笔记:关于 String 的练习题 Rust 学习笔记:关于 String 的练习题选出描述正确的那一个。该程序最多可能发生多少次堆的内存分配?哪种说法最能解释为什么 Rust 不允许字符串索引?哪种说法最能描述字符串切片 &str 和字…...
Spring bean 的生命周期、注入方式和作用域
一、Spring Bean的生命周期 Spring Bean的生命周期是指从Bean的定义加载到最终销毁的整个过程,Spring框架在每个阶段都提供了钩子方法,允许开发者在特定时机执行自定义逻辑。 1. Bean定义加载阶段 容器启动时加载配置(XML/注解/JavaConfig)࿰…...
Python爬虫(26)Python爬虫高阶:Scrapy+Selenium分布式动态爬虫架构实践
目录 一、背景:动态爬虫的工程化挑战二、技术架构设计1. 系统架构图2. 核心组件交互 三、环境准备与项目搭建1. 安装依赖库2. 项目结构 四、核心模块实现1. Selenium集成到Scrapy(中间件开发)2. 分布式配置(settings.py࿰…...

Python 之类型注解
类型注解允许开发者显式地声明变量、函数参数和返回值的类型。但是加不加注解对于程序的运行没任何影响(是非强制的,且类型注解不影响运行时行为),属于 有了挺好,没有也行。但是大型项目按照规范添加注解的话ÿ…...

【linux】Web服务—搭建nginx+ssl的加密认证web服务器
准备工作 步骤: 一、 新建存储网站数据文件的目录 二、创建一个该目录下的默认页面,index.html 三、使用算法进行加密 四、制作证书 五、编辑配置文件,可以选择修改主配置文件,但是不建议 原因如下: 自定义一个配置文…...

基于HTTP头部字段的SQL注入:SQLi-labs第17-20关
前置知识:HTTP头部介绍 HTTP(超文本传输协议)头部(Headers)是客户端和服务器在通信时传递的元数据,用于控制请求和响应的行为、传递附加信息或定义内容类型等。它们分为请求头(Request Headers&…...

实战解析MCP-使用本地的Qwen-2.5模型-AI协议的未来?
文章目录 目录 文章目录 前言 一、MCP是什么? 1.1MCP定义 1.2工作原理 二、为什么要MCP? 2.1 打破碎片化的困局 2.2 实时双向通信,提升交互效率 2.3 提高安全性与数据隐私保护 三、MCP 与 LangChain 的区别 3.1 目标定位不同 3.…...
SRS流媒体服务器(5)源码分析之RTMP握手
1.概述 学习 RTMP 握手逻辑前,需明确两个核心问题: rtmp协议连接流程阶段rtmp简单握手和复杂握手区别 具体可以学习往期博客: RTMP协议分析_rtmp与264的关系-CSDN博客 2.rtmp握手源码分析 2.1 握手入口 根据SRS流媒体服务器(4)可知&am…...
内核性能测试(60s不丢包性能)
以xGAP-200-SE7K-L(双口10G)在飞腾D2000上为例(单通道最高性能约2.8Gbps) 单口测试 0口: tcp: taskset -c 4 iperf -c 1.1.1.1 -i 1 -t 60 -p 60001 taskset -c 4 iperf -s -i 1 -p 60001 udp: taskse…...