当前位置：首页 > news >正文

游戏引擎学习第124天

news 2026/2/10 0:17:11

仓库:https://gitee.com/mrxiao_com/2d_game_3

回顾/复习

今天是继续完善和调试多线程的任务队列。之前的几天，我们已经介绍了多线程的一些基础知识，包括如何创建工作队列以及如何在线程中处理任务。今天，重点是解决那些我们之前没有注意到的问题，并确保任务队列能在多线程环境下正确运行。

昨天，我们写了一个非常简单且不安全的工作队列版本，这个版本可以将任务（比如字符串）推入队列，并由工作线程来处理这些任务。但是，这个简单实现没有考虑到多线程的一些关键问题，结果在运行时出现了各种不稳定和错误的现象，比如多个线程同时处理同一个任务，或者有任务根本没有被处理。

具体来说，问题在于工作队列的设计缺乏多线程安全性。当多个线程并发访问共享资源时，如果没有适当的同步机制，就会发生数据竞争，导致某些任务被跳过或重复执行。这些问题在简单的实现中显现出来，并且表现得不稳定和不可预测。

现在，任务是改进这个不安全的实现，利用之前提到的多线程基础知识（如内存屏障、互锁操作等），来确保工作队列能够安全有效地在多线程环境中运行。目标是让所有的工作单元都能被线程正确处理，并且每个工作单元只处理一次，确保每个任务都能按预期执行。

通过这些改进，我们希望解决线程竞争和任务分配不均的问题，从而使多线程代码在实际应用中能够正常、高效地工作。
在这里插入图片描述

昨天的待办事项

首先，我们需要解决一个问题，这个问题在某些处理器上可能并不存在，比如在x64处理器上。这个问题本质上是一个编译器相关的问题，但不管怎样，它依然是一个实际的问题，我们需要解决。

具体来说，问题出在工作队列的写入顺序上。在现有的代码中，我们试图将任务写入工作队列。这包括将数据写入队列的内容部分，然后再对队列的入口计数进行递增，表示工作队列中有一个新的任务条目。但问题是，递增计数的操作发生在我们实际写入任务数据之前。这意味着，如果有其他线程正在检查工作队列，它们可能会看到这个计数器已经递增，但实际上任务数据还没有写入队列。也就是说，任务计数器的增量操作会先于任务数据的写入，这就可能导致其他线程错误地认为队列已经有了一个新的任务，而实际上任务还没有完全准备好。

为了避免这种情况，我们需要确保对工作队列的写入和计数的更新是严格按顺序执行的，确保计数器只在数据完全写入后才递增，这样可以避免其他线程读取到不一致的状态。这个问题涉及到操作的顺序性，需要通过适当的同步机制来保证数据的一致性。

待办事项 1：写入顺序

在这里插入图片描述

在这个过程中，要确保代码更加健壮，首先需要确保在执行任何操作之前，先把数据写入。这意味着，在写入工作队列之前，必须确保相关数据已经正确写入，然后再增加 EntryCount 的值。然而，尽管重新排列了代码行，这种做法仍然不完全有效。

原因在于，尽管处理器可能会保证按指令顺序执行写操作（即确保写操作按顺序进行），但是编译器并没有义务保持写操作的顺序。优化后的编译器可能会重新排序代码，比如将增加 EntryCount 的操作提前到写字符串之前，以提高效率或其他原因。这样的话，代码可能在编译阶段就被打破了，处理器的写顺序保证也就没有意义了。

这个问题源于不同处理器在处理写操作时的行为。并不是所有的处理器都能保证按顺序执行写操作。有些处理器可能会允许出于性能考虑将写操作乱序执行。因此，了解特定平台的处理器行为非常重要。

要解决这些问题，可以采用一些技术来确保编译器不会重排写操作。我们需要在代码中插入指示，告诉编译器不要将一个写操作推迟到已经发生的其他写操作之后。这通常可以通过内存屏障（memory barrier）或类似机制来实现，确保编译器按正确的顺序执行写操作，而不是做不必要的优化。

这样，通过保证写操作的顺序，可以确保多线程程序在处理共享数据时不会出现竞争条件和错误行为。

完成过去的写入操作，再进行未来的写入操作

为了确保代码在多线程环境下更加健壮，需要确保“过去的写操作”在“未来的写操作”之前完成。为了解决这个问题，可以采用宏来确保在不同平台上执行正确的操作。
在这里插入图片描述

首先，针对编译器，主要问题是它没有强制要求按顺序执行写操作。为了让编译器保持正确的写顺序，可以通过内存屏障（memory barrier）来解决。在某些平台上，处理器本身可能会执行写操作的强顺序，但编译器可能会优化代码，改变写操作的顺序，这样就可能导致问题。因此，在宏中，除了告诉编译器按顺序执行写操作外，如果在某些平台上处理器没有强顺序保证，我们还需要加入内存屏障指令。

例如，x64 处理器通常不需要额外的强制写顺序指令，因为它本身就保证写操作顺序。但在其他平台上（如某些旧的架构），可能需要显式告诉处理器按顺序执行写操作，这时就需要插入内存屏障指令来强制执行顺序。

在Visual Studio中，针对这类问题可以使用 atomic_thread_fence 或者 std::atomic 的 C++ 语言特性。然而，出于对C++特性的信任问题，决定使用更底层的写屏障指令来避免这些高层次的抽象，以确保在编译阶段不会对指令顺序做不必要的优化。

具体来说，可以通过 write barrier 来实现，它的作用是防止在该点之前的写操作被移动到之后，从而确保写操作顺序不被破坏。这个屏障并不是一个实际的函数调用，而只是一个标记，告诉编译器在这个点不能重排写操作。

最后，回到处理器本身，如果在一些平台上确实需要显式保证写顺序，可以使用内存屏障指令来告诉处理器序列化这些操作，确保写操作不会被重新排序。

atomic_thread_fence 是 C++ 中用于同步线程间操作的一种原子操作，它属于 C++11 标准引入的 std::atomic 库。这个操作不会改变内存的内容或数据，它的作用是保证在它之前的所有操作（如读写操作）都完成，并且它之后的操作不会被提前执行。

`atomic_thread_fence` 的作用

它主要用于在多线程环境中管理内存访问的顺序。通过插入屏障（memory fence），atomic_thread_fence 告诉编译器或处理器在该点之前和之后的操作必须按顺序执行。

主要用途

防止内存重排序： 在多线程程序中，操作可能会被编译器或处理器重排，从而导致不同线程间的同步问题。atomic_thread_fence 可以防止这些重排，确保执行的顺序。
内存屏障： 它可以用于创建内存屏障，防止在某些操作之后的指令被过早执行，或者某些操作的结果被推迟到屏障之后才执行。

参数

atomic_thread_fence 具有以下几种常用的内存顺序类型（memory order）：

memory_order_relaxed: 不强制任何顺序。
memory_order_consume: 只保证该操作的结果对后续操作有影响（消费性顺序）。
memory_order_acquire: 保证该操作之前的所有操作在该操作之前完成（获取顺序）。
memory_order_release: 保证该操作之后的所有操作在该操作之后完成（释放顺序）。
memory_order_acq_rel: 同时包含获取和释放顺序。
memory_order_seq_cst: 强制顺序，保证所有操作按照程序的顺序执行。

示例

#include <atomic>void producer() {// 发布数据前，使用内存屏障来确保写操作不会被重排序std::atomic_thread_fence(std::memory_order_release);shared_data = 42;  // 共享数据
}void consumer() {// 在读取共享数据之前，使用内存屏障来确保数据读取的正确性std::atomic_thread_fence(std::memory_order_acquire);int x = shared_data;  // 读取共享数据
}

在这个示例中，producer 在写入共享数据前使用了 memory_order_release，确保所有先前的写操作不会被重排到这之后。而 consumer 在读取共享数据前使用了 memory_order_acquire，确保数据读取操作不会被重排到这之前。

什么时候使用 `atomic_thread_fence`

atomic_thread_fence 是一个底层的同步工具，通常用于实现线程同步机制，比如条件变量、锁等。它确保线程之间的操作顺序符合程序的预期，防止内存顺序错误，尤其是在并发环境中，避免出现数据竞争或未定义行为。

需要注意的是，atomic_thread_fence 只是在线程之间同步内存访问顺序，并不会直接同步线程本身的执行。如果需要更复杂的线程同步（例如等待一个线程完成某个任务），需要使用诸如互斥锁、条件变量等更高层的同步机制。

总结

atomic_thread_fence 是一个确保在多线程程序中内存操作顺序的低级同步机制，能够防止操作被过早或延迟执行。通过它，可以更精细地控制线程之间的同步，避免潜在的内存访问错误。

在这里插入图片描述

警告
_ReadBarrier、_WriteBarrier、_ReadWriteBarrier 编译器内建函数以及 MemoryBarrier 宏都已被弃用，不应再使用。对于线程间通信，请使用 C++ 标准库中定义的机制，如 atomic_thread_fence 和 std::atomic<T>。对于硬件访问，请使用 /volatile:iso 编译器选项，并配合 volatile 关键字使用。
在这里插入图片描述

在这里插入图片描述

查找内存屏障

在这段过程中，首先提到了需要使用内存屏障（memory fence）来防止加载和存储操作的重新排序。实际操作中，期望能通过引入内存屏障来确保对内存的访问顺序。然而，遇到的问题是，虽然预期应该能看到内存屏障的相关指令（如在 Visual Studio 中的 _ReadBarrier、_WriteBarrier 等），但这些并没有按预期显示出来，导致无法成功地插入内存屏障指令。

在尝试解决这个问题时，发现有些标准的内存屏障函数或宏（如 _ReadWriteBarrier）已经被弃用。建议采用 C++ 标准库中的原子操作（如 atomic_thread_fence）来进行线程间的同步和内存屏障操作。由于一段时间没使用过这些库，导致在代码实现时，出现了对相关指令的遗忘，需要重新查阅文档。

此外，作者也表示，自己已经很久没有使用这些低级的内存屏障函数，因此现在需要重新学习并查找相关的指令，特别是在使用 x64 处理器时。对于内存屏障指令的使用，依赖于编译器对内存操作的优化处理，但由于使用的工具和库没有立即显示相关指令，因此需要进一步调查和修正问题。

插入一个实际的 CPU 屏障

如何确保编译器和处理器都不会重新排序存储操作。为了做到这一点，可以通过插入一个“内存屏障”来实现。这个内存屏障不仅仅是一个编译器指令，它实际上会被插入到指令流中，使得处理器也会看到这个屏障，进而确保不会对屏障前后的存储操作进行重排序。

内存屏障的作用是明确告诉编译器，在这个屏障的位置之前的存储操作不能被重新排序到后面。这对保证多线程程序中的同步性非常重要，因为不同线程之间的存储操作顺序需要得到正确的处理，避免出现不可预测的行为。

接着，提到了一些具体的代码实现细节，并计划检查是否需要插入具体的处理器屏障。最后，做了一个提醒，可能需要进一步确认这一做法是否适用于当前的情况，并留下了一个待办事项来处理相关的“存储顺序”的问题。

在这里插入图片描述

_mm_sfence() 和 _WriteBarrier 都是用来控制内存操作顺序的工具，但它们在功能、使用场景以及底层实现上有所不同。以下是这两者的区别：

1. 作用范围与功能

_mm_sfence():
- _mm_sfence() 是一个低级的内存屏障，属于 Intel 的 SSE 指令集（Streaming SIMD Extensions）。它是一个 store fence（写入屏障）。
- 它的作用是确保 所有在它之前的写操作 都会在它之后的写操作之前完成。这意味着，它不会让之后的写操作提前执行，而是强制先前的写操作完成并刷新到内存。
- 主要用于硬件级别的内存顺序控制，特别是在多处理器或多核心的环境下。
_WriteBarrier:
- _WriteBarrier 是一个 编译器指令，用于 告知编译器不要重排序 写操作。它并不直接插入硬件指令流，而是告诉编译器“不要优化”代码中指定位置的写操作顺序。
- 它通常用于 防止编译器对内存访问进行重排，尤其是在并发程序中，确保编译器不会乱序执行写操作，这对于多线程环境中的同步问题至关重要。

2. 使用层次

_mm_sfence():
- _mm_sfence() 是一个硬件相关的指令，直接插入到程序的执行流中，会影响 CPU 执行的顺序。它通常在 低级编程（如与硬件交互，或处理高性能计算）中使用。
- 它与硬件的内存顺序控制紧密相关，能够直接影响处理器如何执行内存操作。
_WriteBarrier:
- _WriteBarrier 是一种编译器屏障，通常用于 高级编程 中，尤其是在多线程程序中控制内存序列。它作用于编译阶段，告诉编译器在优化时不要改变指令的顺序，而不影响处理器底层的内存操作。
- 该指令用于控制编译器的优化行为，而不是直接干预内存操作的硬件层级。

3. 实现机制

_mm_sfence():
- 它实际上是一个 硬件指令，直接作用于 CPU 级别。在现代处理器中，_mm_sfence() 会确保所有的写操作按照程序中指定的顺序完成。它通常用于 多核处理器 或 多线程环境，确保多个 CPU 核心之间的一致性。
- 它的作用是强制执行 内存屏障，确保在它前后的写操作按顺序执行。
_WriteBarrier:
- 它是 编译器指令，影响的是 编译器优化 行为。它告诉编译器不要对写操作进行重排序，避免因为编译器的优化行为而改变程序的预期顺序。
- 它不会直接操作硬件，而是依赖于编译器生成的代码来避免潜在的重排。

4. 应用场景

_mm_sfence():
- 当需要强制 CPU 层面的内存屏障，尤其是在多核或多线程环境下，需要确保某些内存操作按顺序执行时使用。
- 适用于对性能要求极高的程序，尤其是 低级系统编程 或 硬件交互编程，如操作系统开发、驱动开发或高性能计算程序中。
_WriteBarrier:
- 在多线程程序中，确保 编译器不重排写操作。在编写并发程序时，尤其是 共享内存访问 时，使用 _WriteBarrier 来确保程序逻辑的正确性。
- 适用于 高层次的多线程同步，而不需要直接干预硬件的执行行为。

5. 平台相关性

_mm_sfence():
- 与 Intel/AMD x86 架构密切相关。它依赖于特定的硬件指令，因此在不同的硬件平台上可能会有不同的效果。
_WriteBarrier:
- 它是与编译器相关的指令，不依赖于特定的硬件架构。它的行为在不同的编译器和编译选项下可能有所不同，但其作用始终是防止编译器对内存操作进行重排。

6. 简洁对比

特性	`_mm_sfence()`	`_WriteBarrier()`
类型	硬件内存屏障（CPU指令）	编译器屏障指令
作用	保证写操作按顺序执行	防止编译器重排写操作
使用场景	低级编程，高性能系统开发，硬件交互	高层次多线程编程，避免编译器重排写操作
影响范围	直接影响 CPU 执行流	仅影响编译器的优化行为
平台相关性	与硬件平台相关，主要用于 x86 架构	与编译器和编译器选项相关
适用性	多核/多线程环境中的内存顺序控制	多线程编程中的编译器优化控制

总结：

_mm_sfence() 是硬件级别的内存屏障，直接影响 CPU 执行，保证内存操作按顺序完成，适用于低级系统编程和硬件交互。
_WriteBarrier 是编译器级别的屏障，控制编译器的优化行为，防止编译器重排写操作，适用于多线程环境中的同步操作。

_mm_sfence() 是一个内存屏障（memory fence）函数，属于 Intel 的 SIMD 指令集（Streaming SIMD Extensions, SSE）的一部分。它用于确保对存储器的写入操作按照指定的顺序完成。

具体来说，_mm_sfence() 是一个 store fence（写入屏障）。它的作用是确保在该指令之前的所有写操作（store 操作）都已经被写入到内存中，并且在该指令之后的写操作不会在它之前执行。

主要作用：

确保写入顺序： 当调用 _mm_sfence() 时，它会阻止之后的写操作（store 操作）被提前到这条指令之前执行，保证所有在它之前的写操作先完成。
保证内存一致性： 适用于多线程程序中，确保多线程之间的数据写入顺序符合预期，以避免出现内存访问的异常顺序。

使用场景：

在多线程编程中，如果存在多个线程同时对共享数据进行写入操作，_mm_sfence() 可以确保一个线程对共享内存的写入操作在另一个线程读取之前完成。
常见于硬件编程、系统级编程以及高性能计算中。

示例：

#include <xmmintrin.h>void example() {// 先进行一系列的写操作data1 = 42;data2 = 43;// 强制执行写入顺序_mm_sfence();// 后续的写操作保证在之前的写操作完成后执行data3 = 44;
}

注意事项：

_mm_sfence() 只影响 写操作 的顺序，对读操作（load 操作）没有影响。如果你需要确保读取操作的顺序，可能需要使用 _mm_lfence() 或 _mm_sfence() 的组合。
现代编译器通常会进行优化，因此需要谨慎使用内存屏障，确保它们只在必要时才使用。

总的来说，_mm_sfence() 主要用于确保多线程程序中的写操作顺序，从而避免并发执行时出现数据不一致的情况。

接下来我们该怎么办？

目前已经做了一些改进，但是依然存在一个尚未解决的问题——编译器方面的问题。虽然在代码中加入了内存屏障（如 _mm_sfence() 或 WriteBarrier），编译器已经知道这些屏障的存在，但依然有一个潜在的问题未得到解决。之所以会有这个问题，是因为编译器本身的行为没有完全被考虑到。

即便加入了这些指令，编译器可能仍然会对内存访问进行优化，导致潜在的重排序问题。这个问题本质上源于编译器优化和处理器执行的异步性，特别是在多线程环境下，编译器并不总是严格遵守内存顺序，甚至可能重新排列内存访问的顺序以提高执行效率。因此，尽管我们做了很多底层处理，仍然有可能出现竞争条件或同步错误。

同时，这里也提到，由于 C 语言本身并未专门为多线程设计，它本身的一些特性和行为会使得多线程编程更加复杂，特别是对于并发访问的内存操作。需要特别注意编译器如何优化代码以及它如何影响内存操作的顺序。

引入 volatile

在这里插入图片描述

在多线程编程中，编译器的优化行为可能导致一些意料之外的错误。具体来说，编译器在优化时可能会认为某些变量不会被其他线程修改，因此它可能会省略对这些变量的内存读取，甚至将它们缓存到寄存器中，而不再每次访问时都从内存中加载最新的值。这在多线程环境下会导致问题，因为另一个线程可能在执行过程中修改了这些变量。

为了解决这个问题，C 语言提供了一个关键字 volatile。当声明一个变量为 volatile 时，它告诉编译器该变量可能会在没有编译器控制的情况下被改变，通常是由外部因素（如其他线程）修改。因此，编译器不会对这个变量做优化，每次使用时都必须重新从内存加载它。这确保了多线程中变量的最新值不会被忽略，从而避免了线程间的数据竞争问题。

不过，并不是所有情况下都需要显式使用 volatile，因为在一些编译器的默认行为中，某些对 volatile 变量的写操作可能会自动插入写屏障。写屏障可以确保写操作按顺序执行，避免在多线程环境中重排操作。但需要注意的是，使用 volatile 并不直接插入任何机器级指令，它仅仅是告诉编译器不进行优化，并保证内存的访问顺序。

所以，当程序的某些部分需要在多线程环境下保证数据一致性时，可能需要使用 volatile 来避免编译器优化引发的错误，确保每次对共享变量的访问都是最新的，从而避免并发问题。

这段描述还提到了，虽然 volatile 已经可以在某些情况下插入写屏障，但在实际开发中，依然需要手动插入其他同步机制（如内存屏障），以确保在多线程环境下的正确性。

待办事项 2：互锁写入

在多线程编程中，如果没有使用适当的原子操作，就可能会出现竞态条件的问题。例如，假设有两个线程同时读取同一个变量的值并分别对其进行递增操作，最终它们可能都会读取到相同的初始值，进行自增后再写回，从而导致两个线程都写入相同的结果，造成数据不一致。

为了解决这个问题，需要使用原子操作（如互锁操作）。互锁操作是为了防止多个线程同时修改共享数据而引发冲突。具体来说，可以使用 InterlockedIncrement 函数来保证线程安全。

InterlockedIncrement 是一个非常简单的原子操作，它会对指定的变量执行加一操作，并确保在多线程环境下每次只有一个线程能够对这个变量进行修改。即使多个线程几乎同时尝试对变量进行加一操作，InterlockedIncrement 也会确保每个线程最终得到唯一的结果，从而避免了竞态条件的发生。

虽然 InterlockedIncrement 足以解决这个问题，但由于它的功能比较简单，有时也可以使用更复杂的 InterlockedCompareExchange 来替代它，这样可以在某些情况下提供更多的控制和灵活性。InterlockedCompareExchange 可以进行条件比较和交换，因此适用于更复杂的并发操作。不过，在本例中，为了简单起见，选择使用 InterlockedIncrement 来演示，因为它更直观且易于理解。

总结来说，InterlockedIncrement 确保了在多线程操作中，对同一变量的递增操作是安全的，不会引起数据冲突，从而有效避免了由于并发执行导致的错误。

在这里插入图片描述

InterlockedIncrement 是 Windows API 中用于实现原子性递增操作的函数，确保在多线程环境中多个线程并发修改同一变量时，不会出现竞态条件。它通过硬件支持的原子操作来完成这个任务，确保即使多个线程同时对同一个变量进行递增操作，也不会发生冲突，从而保持数据的一致性。

函数原型

LONG InterlockedIncrement(LONG volatile *Addend
);

参数

Addend: 指向一个 LONG 类型变量的指针，这个变量将被递增。此变量在函数执行过程中是原子操作的目标。

返回值

返回递增后的变量值。

说明

InterlockedIncrement 会原子地将 Addend 指向的值加 1，并返回递增后的值。该操作确保了：

即使多个线程并发执行 InterlockedIncrement，每个线程也会得到一个独立且正确的递增结果。
这个函数使用硬件支持的原子操作，因此不需要额外的锁机制。
适用于需要多个线程安全地对一个共享计数器进行递增的情况。

示例

#include <windows.h>
#include <iostream>int main() {LONG counter = 0;// 多线程环境下对 counter 进行原子递增操作InterlockedIncrement(&counter);std::cout << "Counter after increment: " << counter << std::endl;return 0;
}

应用场景

计数器管理：例如，在多线程环境中用于线程安全地递增计数器。可以确保每个线程在对计数器操作时，不会发生并发冲突，保证计数器的正确性。
任务分配：比如在任务调度系统中，多个线程同时请求任务时，使用 InterlockedIncrement 来确保任务编号递增是线程安全的。
内存访问控制：当多个线程需要在共享内存中进行原子性操作时，InterlockedIncrement 可以有效避免数据竞争问题。

总结

InterlockedIncrement 是一个简单、有效的原子操作函数，广泛用于多线程编程中，确保线程在操作共享数据时不会发生竞态条件，保持程序的线程安全性。

c++ 中atomic

在 C++ 中，std::atomic 提供了一些原子操作，包括原子递增操作。使用 std::atomic 可以确保在多线程环境中对同一数据的操作是原子的，即避免了竞态条件。

原子递增操作

C++11 引入了 std::atomic 类模板，提供了各种原子操作。std::atomic 提供的原子递增操作可以确保多个线程在并发访问时不发生数据竞争。

`std::atomic` 原子递增操作示例

1. 使用 `fetch_add` 进行原子递增

fetch_add 是 std::atomic 提供的原子递增函数，它会返回递增之前的值，并对原子变量执行递增操作。

#include <iostream>
#include <atomic>
#include <thread>std::atomic<int> counter(0);void increment_counter() {// 原子递增counter.fetch_add(1, std::memory_order_relaxed);
}int main() {// 启动多个线程进行递增std::thread t1(increment_counter);std::thread t2(increment_counter);std::thread t3(increment_counter);t1.join();t2.join();t3.join();std::cout << "Counter after incrementing: " << counter.load() << std::endl;return 0;
}

2. 使用 `operator++` 进行原子递增

std::atomic 还支持使用 ++ 操作符直接进行原子递增。操作符会自动调用 fetch_add 来实现原子递增。

#include <iostream>
#include <atomic>
#include <thread>std::atomic<int> counter(0);void increment_counter() {// 原子递增++counter;
}int main() {// 启动多个线程进行递增std::thread t1(increment_counter);std::thread t2(increment_counter);std::thread t3(increment_counter);t1.join();t2.join();t3.join();std::cout << "Counter after incrementing: " << counter.load() << std::endl;return 0;
}

主要函数与操作

fetch_add：用于进行原子加法操作，递增值并返回递增前的值。可以指定内存顺序（如 std::memory_order_relaxed、std::memory_order_acquire 等）来控制操作的顺序。
operator++：是对 fetch_add(1) 的封装，直接使用 ++ 操作符进行原子递增。
load 和 store：用于读取和写入原子变量的值。load 用于读取，store 用于设置值。
exchange：交换原子变量的值，返回交换前的值。

内存顺序（Memory Order）

std::atomic 提供的原子操作支持内存顺序的控制。默认的内存顺序是 std::memory_order_seq_cst，即顺序一致性，保证操作按顺序执行，但也可以使用其他内存顺序来优化性能，如：

std::memory_order_relaxed：不强制任何顺序，仅保证原子操作。
std::memory_order_acquire：保证所有之前的操作在该操作之前完成。
std::memory_order_release：保证该操作之后的所有操作在此操作之后执行。
std::memory_order_acq_rel：同时具有 acquire 和 release 的效果。
std::memory_order_seq_cst：默认内存顺序，确保全序一致性。

总结

使用 std::atomic 提供的原子递增操作，能够确保多线程环境下的数据一致性，并防止竞态条件。通过原子操作，我们可以安全地进行递增、交换等操作，而无需显式加锁。

查找 InterlockedIncrement

在这段讨论中，主要讲解了如何使用 InterlockedIncrement 函数来实现原子递增操作，以确保在多线程环境中不会出现数据竞争。

InterlockedIncrement 介绍：
- InterlockedIncrement 是一种原子操作，用于确保在多线程环境中对共享变量的递增操作不会出现竞态条件。它会确保操作是线程安全的，即便多个线程同时操作同一个变量。
- 它的工作原理是：该函数接收一个指向 volatile long 类型的指针，并对该变量进行原子递增。由于 volatile 关键字的使用，编译器知道该变量可能被其他线程修改，因此不会优化掉对该变量的访问。
递增操作的细节：
- InterlockedIncrement 会对指定的变量进行递增，并返回递增后的结果。然而，在某些情况下，我们需要知道递增之前的值，而不是递增之后的结果。这意味着在使用 InterlockedIncrement 之后，我们得到的是递增后的值，而不是递增前的值。
- 为了得到递增前的值，可以在调用 InterlockedIncrement 后，将返回值减去1。这样就能获得递增操作之前的原始值。
问题解决：
- 使用 InterlockedIncrement 确保了递增操作的原子性，从而避免了多线程环境中出现数据竞争问题。这样，即使多个线程同时进行递增操作，每个线程都会看到正确的、独立的值，避免了两个线程同时看到相同的递增结果。
总结：
- 使用 InterlockedIncrement 可以有效地解决多线程环境下的竞态条件问题，确保每个线程对共享变量的修改都是原子的。通过 volatile 关键字，编译器能够正确处理并发操作，避免因优化而出现问题。

待办事项 3：已经由 volatile 处理

在这里插入图片描述

在这段讨论中，主要讲解了如何通过使用 volatile 关键字解决了一个潜在的问题，使得编译器能够正确处理多线程环境中的数据变化。

使用 volatile 关键字：
- 通过在共享变量（如 NextEntryToDo 和 EntryCount）前加上 volatile 关键字，告诉编译器这些变量可能会在编译器无法预见的情况下被其他线程改变。因此，编译器不会优化掉对这些变量的访问，并会每次都从内存中加载它们的最新值。
- 这样做的好处是，即使编译器认为某些变量不会被修改，它也会确保每次访问这些变量时，都能获取到最新的值，从而防止因为编译优化导致的错误。
解决问题：
- 通过使用 volatile，成功消除了之前的待办事项，使得 NextEntryToDo 和 EntryCount 这两个变量的变化能够被正确处理，而不需要编译器提前做出假设或优化。
总结：
- 使用 volatile 关键字后，编译器能够正确识别和处理多线程中变量的变化，确保每次访问这些变量时都能获取到最新的值，从而避免了并发修改问题。

待办事项 4：读取顺序

在这段讨论中，主要讲解了如何确保多线程环境中读取操作的顺序性，避免由于编译器优化导致的潜在问题。
在这里插入图片描述

在这里插入图片描述

读取顺序问题：
- 讨论中提到，如果编译器在没有正确检查 EntryCount 的情况下提前加载了数据，可能会导致不正确的读取顺序。虽然这种情况看起来比较极端，但它揭示了一个潜在的风险，即编译器可能会优化掉某些指令的顺序，造成线程间的数据竞争和错误。
- 然而，作者认为这种情况实际上不太可能发生，或者说，它不是当前代码中的真正问题。尽管如此，理解编译器可能出现的极端优化情况仍然很重要。
InterlockedIncrement 的作用：
- InterlockedIncrement 函数本身就像一个处理器级的内存屏障（fence），它保证了操作的原子性，并确保内存中的读写顺序不会被破坏。因此，它已经起到了防止竞争条件的作用，确保在执行递增操作时不会出现线程之间的冲突。
- 即使如此，为了确保更高的安全性，仍然可以在读取数据之前加入额外的屏障（如 memory fence），确保所有的内存操作都已经完成，但实际上，这一步可能是冗余的，因为 InterlockedIncrement 已经做了足够的保证。
总结：
- 为了确保多线程环境中的数据读取顺序不被打乱，可以依靠 InterlockedIncrement 来保证内存访问的顺序和原子性。在大多数情况下，额外的内存屏障可能是不必要的，因为 InterlockedIncrement 已经起到了相应的保护作用。

检查我们的工作

运行程序后的行为和接下来的一些观察和改进。
在这里插入图片描述

程序行为验证：
- 在运行程序后，观察到线程按预期正确执行，输出了从 0 到 14 的序列，表示问题已经得到修复。之前的问题可能是由于多线程并发执行时出现了错误的操作顺序，现在已经通过修复确保了顺序正确。
线程数增加后的测试：
- 将线程数增加到 20 后，程序仍然能够正常运行，输出的序列从 0 到 14，表示多个线程并发时，程序的行为仍然是正确的，说明修复后的程序在更高的并发情况下表现得更好。

在这里插入图片描述

整体改进：
- 整体来看，程序的行为已经得到改进，特别是在多线程并发执行时，数据访问和顺序问题得到有效控制，表明程序的线程安全性有了显著提升。
后续的讨论：
- 接下来，还会讨论一些与程序性能和行为相关的细节问题，这些问题涉及到如何优化程序的线程处理，以便在更高的负载下仍然能够保持稳定和高效的运行。

任务完成

在渲染部分，当前的问题是虽然我们知道有多少个任务已经开始，但我们并不知道有多少任务已经完成。这是一个问题，因为如果不知道任务完成的数量，就无法确定渲染何时完成，也无法知道何时可以将位图返回并显示到屏幕上。

为了能解决这个问题，除了需要知道有多少个任务已经开始，还需要知道有多少个任务已经完成。解决方法有很多，但为了简化问题，这里使用最简单的方法。

有两种不同的需求：一种是需要知道任务完成的数量，另一种是需要知道具体哪些任务已经完成。这两者是不同的。如果只需要知道有多少任务完成了，解决方案相对简单。

具体的做法是，每当一个任务完成时，就对一个记录完成数量的变量（比如EntryCompletionCount）执行一次原子递增操作。这样，当EntryCompletionCount等于entry_count时，就表示所有任务都已经完成。

这个方法实现起来非常简单，实际上我们可以在每个任务完成时增加一个计数值，直到这个计数值达到任务总数（entry_count）。当这个条件满足时，我们就可以确定所有任务已经完成，从而可以继续进行后续的处理。

最终，可以通过检查EntryCompletionCount是否等于entry_count来决定是否可以进行下一步操作，确保所有任务在执行后续操作前都已经完成。这种方式为后续的操作提供了可靠的同步机制。
在这里插入图片描述

等待所有线程完成

在这里插入图片描述

我们可以使用一个简单的循环，比如 while (EntryCount != EntryCompletionCount); 来等待，直到所有任务都完成。这种做法会造成一个自旋锁，持续检查任务的完成状态，直到所有任务都完成。这样一来，我们就能确保所有任务都执行完之后再进行后续的操作，避免任何任务遗漏或者早期执行。

然而，这种做法也有一些缺点。虽然它能确保任务的正确执行顺序，但它会使处理器一直处于忙碌状态，浪费了处理器的时间和电力。尤其是在多核处理器和现代操作系统中，如果线程一直在循环检查任务状态，它就不会让处理器进入低功耗状态，导致资源浪费。

在早期的处理器中，这种做法或许没有问题，因为那时的处理器没有低功耗模式，不存在需要节省电力的需求。但现在，处理器有多种低功耗状态，且操作系统支持多任务处理，如果我们一直占用 CPU 资源进行无用的检查，会对系统的多任务处理能力造成负面影响，导致其他进程无法获得足够的 CPU 时间。

为了避免这种情况，我们可以采取一种更智能的方式，即让线程进入休眠状态，而不是一直忙等。只有当真正有任务需要处理时，才唤醒这些线程执行工作，这样可以显著减少 CPU 资源的浪费，同时也能提高系统的效率。

因此，我们需要重新考虑如何设计线程的等待机制，避免不必要的处理器占用，并确保在需要时才让线程唤醒执行任务。这样不仅能减少不必要的资源消耗，还能更好地适应现代操作系统的多任务处理。
在这里插入图片描述

挂起和恢复线程

在没有任务需要处理的情况下，我们需要设计一种机制来让线程“休眠”或者暂停工作，避免浪费 CPU 资源。当线程没有任务需要处理时，可以通过某种方式告诉操作系统，当前线程不需要执行工作，操作系统可以将其挂起，释放 CPU 资源给其他任务。这样做的目的是避免不必要的计算，降低对处理器的负担，提升系统的效率。

然而，线程“休眠”并不是指简单地让线程进入一种传统意义上的睡眠状态。我们实际上是告诉操作系统的调度器，当前线程已经完成了任务，可以暂时挂起，等待重新唤醒。为了实现这一点，我们需要设计一种机制，确保在没有工作时将线程挂起，并在有新的任务或工作需要时重新唤醒这些线程。

具体来说，当队列中没有任务时，我们需要通过某种方式将线程挂起。如果我们能够成功地将线程挂起，那么在后续的操作中，如果有新任务到来时，我们需要能够唤醒这些线程，让它们继续处理工作。为了做到这一点，我们需要提供一个机制来唤醒这些线程。

这个过程涉及到一些细节，主要是因为这是一种时间敏感的操作。举个例子，假设线程准备进入休眠状态，而同时另一个线程正在尝试唤醒它。如果唤醒的操作发生在线程还未进入休眠状态之前，那么唤醒操作就可能会失效，导致线程无法被唤醒，进而陷入一个死锁的状态。所以，设计这样的机制时需要小心处理不同线程之间的时序问题，以确保休眠和唤醒操作能够按预期顺利进行，避免线程长时间处于休眠状态而无法恢复。

因此，除了需要设计线程休眠和唤醒机制外，还需要确保系统在这些操作之间保持良好的时序同步，避免出现线程错过唤醒信号的情况。
在这里插入图片描述

信号量

我们将从一个叫做信号量（semaphore）的原语开始，Windows 提供了这些信号量对象。如果你愿意了解更多，可以自行查阅相关文档，尽管这里有很多文本需要阅读，但大致上来说，信号量是一种用于等待的原语。它不仅可以帮助你实现超时操作，还能用于让线程“休眠”和“唤醒”。信号量会跟踪一个计数，帮助避免之前提到的时间同步问题，例如某个线程在不适当的时候被唤醒或者永远处于休眠状态。

信号量的实现比单纯使用全局信号更加可靠，因为它能保证在特定的条件下控制线程的唤醒与休眠，从而避免时序上的问题。现在，我打算介绍如何使用信号量对象，这里有个函数 CreateSemaphore，它创建了一个信号量。

在创建信号量时，可以设置它的初始计数和最大计数。通常情况下，最大计数会设置为可用线程的最大数目，而初始计数则设置为启动时已经唤醒的线程数。信号量的目的是控制同时有多少个线程处于活跃状态，因此可以根据线程的数量来设置信号量的计数。

一旦创建了信号量，我们将获得一个句柄，这个句柄可以用来与 Windows 提供的各种同步功能一起使用。虽然 Windows 提供了大量的同步原语和函数，例如互斥锁、条件变量等，但这里我只打算从最基本的信号量开始讲解。

在这里插入图片描述

CreateSemaphoreExA 是 Windows API 中用于创建信号量（semaphore）对象的函数。这个函数的作用是初始化一个信号量，信号量是一种同步原语，用于控制对共享资源的访问，通常用于实现生产者-消费者问题或线程间的协作。

函数原型

HANDLE CreateSemaphoreExA(LPSECURITY_ATTRIBUTES lpSemaphoreAttributes, // 信号量的安全属性LONG                  lInitialCount,         // 信号量的初始计数LONG                  lMaximumCount,         // 信号量的最大计数LPCSTR                lpName,                // 信号量的名称DWORD                 dwFlags,               // 额外的标志，控制信号量的行为DWORD                 dwDesiredAccess        // 访问权限标志
);

参数说明

lpSemaphoreAttributes:
- 指向 SECURITY_ATTRIBUTES 结构的指针，它定义了信号量的安全描述符。通常，如果不需要设置特别的安全属性，可以传递 NULL。
lInitialCount:
- 信号量的初始计数，表示信号量在创建时可用的资源数量。可以理解为信号量的“初始值”，它定义了多少个线程可以同时访问受保护的资源。
lMaximumCount:
- 信号量的最大计数，表示信号量的最大资源数量，系统可以处理的最大线程数。如果达到最大计数，调用 ReleaseSemaphore 时就无法再增加信号量计数。
lpName:
- 指向信号量名称的指针。如果要创建一个命名信号量，则提供名称字符串。如果不需要命名的信号量，可以将此参数设置为 NULL。
dwFlags:
- 影响信号量创建的标志。通常情况下，该值为 0，但可以通过此字段控制一些特定行为（例如是否在创建信号量时立即释放）。
dwDesiredAccess:
- 用于指定访问信号量的权限。通常为 0，表示允许任何访问方式。

返回值

如果创建信号量成功，CreateSemaphoreExA 将返回信号量对象的句柄。
如果创建失败，返回 INVALID_HANDLE_VALUE，并且可以通过 GetLastError 获取错误信息。

使用示例

#include <windows.h>
#include <iostream>int main() {// 创建一个信号量，初始计数为0，最大计数为5HANDLE hSemaphore = CreateSemaphoreExA(NULL,            // 使用默认安全属性0,               // 初始计数为05,               // 最大计数为5"MySemaphore",   // 信号量名称0,               // 没有额外的标志0                // 默认访问权限);if (hSemaphore == INVALID_HANDLE_VALUE) {std::cerr << "CreateSemaphoreExA failed with error code " << GetLastError() << std::endl;return 1;}std::cout << "Semaphore created successfully!" << std::endl;// 释放信号量ReleaseSemaphore(hSemaphore, 1, NULL);// 关闭信号量句柄CloseHandle(hSemaphore);return 0;
}

说明

在上面的示例中，我们创建了一个信号量 MySemaphore，初始计数为 0，最大计数为 5。这意味着线程调用 ReleaseSemaphore 来增加信号量计数，直到达到 5。如果线程数大于最大计数，其他线程将被阻塞，直到信号量被释放。

这个示例展示了如何创建一个信号量，释放它，然后关闭句柄。

总结

CreateSemaphoreExA 是一个创建信号量的函数，允许开发者控制线程的同步。通过适当的信号量计数，可以让多个线程在某些情况下互斥地访问共享资源。

c++ 的创建信号量(c++20 才有信号量吗？)

在 C++ 标准库中，信号量是一个相对较新的特性，它是在 C++20 标准中引入的。C++20 中引入了 <semaphore> 头文件，并提供了 std::counting_semaphore 和 std::binary_semaphore 两种信号量类型。

1. C++20 标准库信号量

std::counting_semaphore：允许线程对一定数量的资源进行控制，类似于传统的信号量，可以控制多个线程访问有限的资源。
std::binary_semaphore：是一个二进制信号量，其计数值要么是 0，要么是 1，通常用于二进制互斥的场景。

2. `std::counting_semaphore` 示例

std::counting_semaphore 允许线程获取和释放多个资源，其计数可以大于 1。

示例代码：

#include <iostream>
#include <semaphore>
#include <thread>
#include <vector>std::counting_semaphore<3> sem(3); // 最多允许 3 个线程同时执行void worker(int id) {std::cout << "Worker " << id << " waiting for semaphore...\n";sem.acquire();  // 获取信号量std::cout << "Worker " << id << " acquired semaphore, working...\n";// 模拟一些工作std::this_thread::sleep_for(std::chrono::seconds(1));std::cout << "Worker " << id << " releasing semaphore...\n";sem.release();  // 释放信号量
}int main() {std::vector<std::thread> threads;// 创建多个线程来测试信号量for (int i = 0; i < 5; ++i) {threads.push_back(std::thread(worker, i));}// 等待所有线程完成for (auto& t : threads) {t.join();}return 0;
}

3. 代码说明

std::counting_semaphore<3> sem(3)：创建一个信号量，最大计数为 3，表示最多可以有 3 个线程同时访问资源。初始计数为 3，表示有 3 个资源可用。
sem.acquire()：调用 acquire() 来获取信号量。如果信号量计数为 0，线程将阻塞，直到信号量计数大于 0。
sem.release()：调用 release() 来释放信号量，增加信号量计数。每次调用 release() 都会唤醒一个被阻塞的线程（如果有的话）。
std::this_thread::sleep_for()：模拟工作，线程执行时会休眠一段时间，以便模拟实际工作负载。
多线程：通过创建多个线程来同时测试信号量，保证最多只有 3 个线程能同时进入工作状态。

4. `std::binary_semaphore` 示例

std::binary_semaphore 是一个二进制信号量，计数只能是 0 或 1，通常用于实现互斥锁。

示例代码：

#include <iostream>
#include <semaphore>
#include <thread>
#include <vector>std::binary_semaphore sem(1); // 最多允许 1 个线程同时执行，类似于互斥量void worker(int id) {std::cout << "Worker " << id << " waiting for semaphore...\n";sem.acquire();  // 获取信号量std::cout << "Worker " << id << " acquired semaphore, working...\n";// 模拟一些工作std::this_thread::sleep_for(std::chrono::seconds(1));std::cout << "Worker " << id << " releasing semaphore...\n";sem.release();  // 释放信号量
}int main() {std::vector<std::thread> threads;// 创建多个线程来测试信号量for (int i = 0; i < 5; ++i) {threads.push_back(std::thread(worker, i));}// 等待所有线程完成for (auto& t : threads) {t.join();}return 0;
}

5. 代码说明

std::binary_semaphore sem(1)：创建一个二进制信号量，初始计数为 1，这意味着最多只有一个线程可以获取信号量。它的行为类似于互斥量。
sem.acquire()：获取信号量，若信号量计数为 0，线程将阻塞，直到信号量可用。
sem.release()：释放信号量，增加信号量计数。调用 release() 后，如果有线程在等待信号量，它将被唤醒。

6. 小结

C++20 中引入的信号量 (std::counting_semaphore 和 std::binary_semaphore) 使得并发编程更加简洁和安全。std::counting_semaphore 适用于多个资源共享的场景，而 std::binary_semaphore 则更适合实现互斥锁。通过这两个信号量，开发者可以轻松地控制并发线程的数量，避免资源竞争和死锁等问题。
在这里插入图片描述

在这里插入图片描述

使用 WaitForSingleObject 挂起线程

在这里插入图片描述

在多线程编程中，WaitForSingleObject 的概念是指等待一个特定的对象状态变化，通常是等待某个同步对象（如信号量、事件、互斥量等）被触发。具体来说，这种等待机制会暂停当前线程的执行，直到指定的对象被“信号化”或满足某个条件为止。

在这种机制中，我们通常会调用一个函数，它需要一个“句柄”（handle），这是指向一个操作系统资源的指针（例如，信号量的句柄）。此外，这个函数还会接收一个时间参数，用来指定等待的最长时间，通常可以设定为无限等待，也就是一直挂起线程，直到某个条件触发。

函数行为分析

句柄参数：WaitForSingleObject 函数接受一个句柄，它代表了操作系统中的一个同步对象（例如信号量）。这个对象是操作系统为线程同步提供的资源，通过等待它被信号化来控制线程的执行。
时间参数：函数会接收一个时间参数，表示线程等待的最长时间。通常，如果这个时间设置为无限，线程就会一直等待，直到指定的同步对象被触发。也可以设定一个具体的时间，以便在超时后返回，允许线程进行其他操作。
返回值：函数会返回一个状态值，指示等待的结果。通常，返回值可以告诉我们是因为同步对象被信号化而使线程继续执行，还是因为超时而中止等待。虽然这部分内容可以被忽略，但在设置了超时的情况下，返回值会提供重要的信息，例如线程是因为同步对象的信号被触发而继续执行，还是因为超时导致线程被唤醒。
工作原理：当我们调用这个函数时，操作系统会将当前线程挂起，直到同步对象被触发。线程会进入休眠状态，释放其占用的CPU资源，让操作系统可以调度其他线程。对于设置为无限等待的情况，线程会持续休眠，直到目标同步对象被“信号化”或触发。
多种同步对象支持：这种等待机制的设计非常通用，不仅支持等待信号量，还可以支持等待其他类型的同步对象（如事件、互斥量等）。因此，它是一个非常灵活的机制，可以用于处理多种不同的同步需求。
节省资源：等待过程中，线程处于休眠状态，这意味着它不会占用CPU资源，允许操作系统将CPU时间分配给其他需要运行的线程或任务。在某些情况下，这也能帮助节省电池或系统的功耗，特别是在移动设备或需要长时间运行的程序中。
信号化与唤醒：当某个条件满足时，例如信号量被“信号化”，等待的线程会被唤醒，恢复执行。同步对象的“信号化”机制是多线程编程中的关键，控制着线程的启动、暂停和同步，保证了不同线程之间的正确协调和资源共享。

总结来说，这个等待机制为线程提供了一个高效的挂起与恢复机制，让线程在等待同步对象时能够释放资源、节省功耗，并且在同步对象被触发时恢复执行，保证了多线程操作的高效和协调。

在这里插入图片描述

创建信号量

在多线程编程中，首先我们需要创建一个信号量（semaphore）来同步线程的执行。创建信号量的过程通常涉及调用 CreateSemaphoreEx 或类似的函数，该函数返回一个信号量句柄，这个句柄将用于后续的线程同步操作。
在这里插入图片描述

1. 创建信号量

信号量的创建过程中，我们不需要特别的安全属性，因此可以将其设置为 NULL。此外，信号量也不一定需要命名，虽然如果为信号量命名，可以通过名字来查询信号量，但在这种情况下，我们可以直接将名称设为 NULL，因为我们已经有了信号量的句柄。

创建信号量时，通常会指定信号量的初始计数和最大计数。初始计数设定了信号量的初始状态，最大计数则限制了信号量的最大值。这里初始计数可以设置为 0，表示所有线程将被挂起，直到信号量被释放。

2. 线程数量与信号量的配合

假设我们有多个线程需要等待这个信号量的信号。在创建线程时，每个线程将获取信号量的句柄，并在执行过程中调用 WaitForSingleObjectEx 等函数来等待信号量的触发。每个线程将一直等待信号量的信号，直到它被释放。
在这里插入图片描述

3. 线程等待与信号量的作用

在线程的执行过程中，每个线程都会调用 WaitForSingleObjectEx，并传入信号量句柄。如果信号量没有被触发，线程将会挂起，直到信号量被其他线程释放。当信号量被释放时，挂起的线程会被唤醒并继续执行。

但是，如果所有线程在信号量释放之前就到达了 WaitForSingleObjectEx 并等待，且没有提前被信号量唤醒，那么这些线程会进入挂起状态，什么都不做。因此，这种情况下如果主线程没有先执行某些操作（例如推送工作到队列中），这些线程可能什么都不打印，直到信号量被正确信号化。

4. 信号量的初始值与线程行为

在信号量创建时，初始计数设为 0，这意味着线程会在信号量释放之前被挂起。这样，线程不会执行任何操作，直到信号量被其他线程触发。一旦信号量被触发，所有等待该信号量的线程就会被唤醒，继续执行。

信号量的这种机制可以有效地管理并发执行，确保只有在特定条件下线程才会继续执行。在本例中，线程会等待信号量的信号，并且只有在信号量被触发后，它们才会继续进行后续操作。

5. 线程竞争和输出

在这种多线程环境下，主线程和工作线程之间可能存在竞争条件。主线程在执行时可能会提前向队列中添加任务，或是触发信号量。而其他线程可能在主线程进行这些操作之前就已经到达了 WaitForSingleObjectEx，因此它们将会处于等待状态。如果信号量没有被及时释放，线程将一直挂起，直到被唤醒。

如果有线程提前被唤醒，它们可能会输出一些调试信息，具体输出内容取决于线程的执行顺序和信号量的触发时机。如果线程在信号量触发之前没有机会运行，那么它们就不会执行任何打印操作。

总结

创建信号量时，可以设置初始值为 0，这样所有线程会被挂起，直到信号量被释放。
线程通过 WaitForSingleObjectEx 等函数来等待信号量的触发，这样可以确保线程的执行顺序和同步。
通过信号量机制，线程可以在正确的时机进行工作，避免了资源的竞争和冲突。
在多线程程序中，线程的执行顺序和信号量的触发时机可能影响最终的输出结果，尤其是在竞争条件下，输出可能会有所不同。

这种多线程和信号量的配合模式非常适合用于处理需要精确同步的任务，确保线程按预定顺序或条件执行。
在这里插入图片描述

在这里插入图片描述

问题：线程从未醒来！

在多线程编程中，理解线程的执行顺序和同步机制非常重要。在这个过程中，创建多个线程并通过信号量或其他同步机制来控制线程的执行是一个关键点。以下是对上述内容的详细总结：

线程创建与执行顺序

在这个例子中，我们创建了多个线程（具体是 15 个线程）。在创建这些线程的过程中，主线程的执行并没有立即开始将字符串推入队列。主线程在创建每个线程时，都会执行一些初始化操作，包括创建线程并等待它们开始执行。

线程启动：线程的创建是并行进行的，每个线程都会进入它的启动例程（start routine）。然而，线程在执行的过程中会遇到一个“等待”操作，即它们会进入 WaitForSingleObjectEx 等待信号量或其他同步信号。此时，所有的线程都被挂起，直到它们收到信号量的信号。
线程竞争：由于主线程在创建所有线程后才开始推送字符串到队列，因此它在推送字符串之前需要确保所有线程已经被创建并进入等待状态。在这个过程中，主线程推送字符串的时机变得至关重要。

线程执行与等待

在所有线程创建完毕后，它们会进入各自的等待状态。特别是，线程在调用 WaitForSingleObjectEx 后会挂起，等待信号量的信号。而队列中的字符串推送操作则会由主线程控制。

线程 3和4 的特殊情况：由于主线程推送字符串的时机很关键，线程 3&4 成为了一个特殊的情况。线程 3&4 是最后一个被创建的线程，它在其他线程已经开始等待时，成功地到达了队列并执行了推送操作。因此，它能够在其他线程之前执行完任务并开始处理。这个过程会导致线程 3&4 能够比其他线程更早完成任务。
输出顺序：由于每个线程都在等待信号量并按顺序执行，输出的字符串会按照预期的顺序打印。因为只有一个线程在处理队列中的任务，其他线程都在等待，最终的输出顺序是确定的。

在这里插入图片描述

线程调度与等待的偶然性

如果所有线程在执行时都不进入等待状态，而是直接进行工作，它们就会在没有信号量的保护下并行执行，导致无法按预期顺序处理队列中的任务。这个情况是偶然的，因为它依赖于线程启动的顺序以及队列的处理情况。
在这里插入图片描述

在这里插入图片描述

线程延迟：如果线程在执行前有一定的等待时间，它们就有机会进行处理并执行工作。如果所有线程都等待并按顺序执行，那么队列中的任务就能够正常按顺序被处理。

信号量的作用

为了确保线程按预期顺序执行，并且避免引发竞争条件和错误，信号量的使用是必须的。信号量能够控制线程的唤醒时机，确保线程按预定的顺序执行。

信号量的使用：信号量用于控制线程的挂起和唤醒，确保线程在正确的时机被唤醒。通过信号量，线程可以在特定时刻被唤醒，避免线程在没有资源的情况下继续执行。

解决方案与改进

为了避免上述偶然性带来的问题，应该引入更精确的同步机制，确保线程能够按预定的顺序执行，而不会在执行过程中出现不可预测的情况。通过使用信号量或其他同步对象，可以确保线程在正确的时机开始工作，从而避免资源竞争和程序错误。

总之，线程的创建、同步和执行顺序是多线程编程中的核心内容，理解并正确使用信号量、互斥量等同步机制，可以帮助我们编写出更稳定和高效的多线程程序。

通过释放信号量唤醒线程

在这段讨论中，主要涉及到信号量（semaphore）的创建和使用。首先，通过 CreateSemaphoreExA 创建信号量，并设置初始计数为 0。初始计数为 0 意味着一开始没有任何线程会被唤醒，线程需要等待信号量计数增加才能继续执行。

信号量的创建与作用：
创建信号量时，信号量的初始计数被设置为 0，这意味着线程一开始无法获取信号量，因此会进入等待状态。信号量的作用是控制并发线程的执行，确保在某些条件下才允许线程执行，避免竞态条件或资源争用。
ReleaseSemaphore 的使用：
每当有新的工作项被添加到队列中时，会调用 ReleaseSemaphore 来增加信号量的计数，从而唤醒等待的线程。例如，当一个字符串被推送到队列时，调用 ReleaseSemaphore，此时信号量的计数会增加，可能会唤醒一个等待中的线程，让它继续处理工作。
信号量计数的递增与递减：
信号量计数的增加是通过 ReleaseSemaphore 来实现的，每当执行 ReleaseSemaphore 时，信号量的计数会增加。这表明有新的工作项可以被处理，等待的线程可以开始执行。而当线程通过 WaitForSingleObject 等函数等待信号量时，信号量的计数会被递减，因为线程会“消耗”掉一个信号量，表示它已经处理了一个工作项。
线程的唤醒与等待：
每个线程在开始执行前会调用 WaitForSingleObject 来等待信号量的释放。当信号量计数大于 0 时，线程可以获得信号量并开始执行。如果信号量的计数为 0，线程会一直阻塞，直到信号量计数增加为止。
信号量的同步：
信号量的计数决定了有多少个线程可以同时执行。通过控制信号量的计数值，可以精确地控制线程的同步。例如，多个线程可以同时访问一个共享资源，或者多个线程可以依次执行某些任务，确保不会出现资源争用或竞态条件。
潜在的同步问题：
如果信号量的计数没有正确管理，可能会导致线程无法被正确唤醒或导致线程进入死锁状态。例如，如果线程在获取信号量之前没有正确更新信号量计数，可能会导致线程永远处于等待状态。
WaitForSingleObject 与信号量计数：
WaitForSingleObject 函数本身不会改变信号量的计数值。它只是检查信号量的状态并使线程进入等待状态。信号量的计数值仅在信号量被释放（通过 ReleaseSemaphore）时才会增加。当一个线程成功获得信号量后，信号量的计数会减少，表示该线程已开始处理工作项。
信号量的正常工作流程：
- 当一个工作项被加入队列时，信号量计数会通过 ReleaseSemaphore 增加，唤醒一个等待的线程。
- 线程在等待信号量时，通过 WaitForSingleObject 阻塞自己，直到信号量的计数大于 0。
- 每个线程处理完一个任务后，会再次减少信号量计数，表示工作已经完成，其他线程可以继续执行。

总结起来，信号量的工作机制通过管理计数值来确保线程同步。当有新任务时，信号量计数增加，唤醒线程进行处理；当线程完成任务时，信号量计数减少，表示资源已经被释放。通过这种机制，可以确保线程之间的同步与资源的安全访问。
在这里插入图片描述

在这里插入图片描述

我们将如何使用信号量

在这段描述中，讨论了如何使用信号量来控制线程的睡眠状态。信号量通常用于指示队列中的工作量，但在这个例子中，并不直接用信号量来跟踪工作量，而是将它作为一个通用的机制来控制线程何时进入睡眠状态。

具体来说，信号量的计数并不会直接与工作量挂钩，而是仅用于确保在任意时刻，线程数量不会超过最大线程数。信号量的作用是暂停线程的执行，直到某些条件触发，例如某个线程完成了它的任务。

接下来，程序运行时，应该能够看到多个线程并行工作，处理不同的任务，这个过程会产生不同的输出。例如，在运行中，线程可能会依次输出类似 “0 1 2 3”、“1 2 3”、“4 5 6” 等结果，表示这些线程正在不同的时间点被唤醒并执行任务。

此外，程序还展示了有无信号量等待（wait）机制时的不同表现。如果不使用等待机制，线程可能无法按预期工作，从性能上看，程序的表现也会有所不同。在没有等待的情况下，线程没有进入睡眠状态，可能会出现线程资源的浪费或性能下降的现象。

测试信号量

在这段描述中，讨论了如何改进线程的管理，避免不必要的 CPU 占用和浪费，从而提高程序的效率和系统的多任务处理能力。

最初，如果线程没有被正确地控制，它们会处于一个“自旋”状态，即不断地检查某个条件，但由于没有工作要做，线程会反复无意义地进行检查。这种情况下，处理器的负载会飙升到 100%，因为许多 CPU 核心会被这些空转的线程占用，导致资源浪费，甚至对电池续航造成影响。这显然是低效的。

为了解决这个问题，采用了信号量和 WaitForSingleObject 来控制线程的行为。通过这种方式，线程只有在真正有工作需要执行时才会被唤醒，从而避免了之前的资源浪费。在优化后，程序的 CPU 使用率降低到 6%，这正是预期的效果，表明只在有工作的时候才使用处理器。

接着，还进行了另一个测试。测试的目的是确保线程在长时间休眠后能够正确地醒来并继续执行任务。通过模拟一个 5000 毫秒的休眠时间，确保所有线程都进入了睡眠状态。之后，当有新的工作（字符串）加入队列时，所有线程都能被正确地唤醒并处理这些任务。测试结果显示，线程能够按预期工作，输出正确的结果，表明线程管理已经达到了预期目标。

最终，通过这种方法，成功创建了一个工作队列，确保线程能够有效地处理任务，并在没有工作时将 CPU 时间让给操作系统，避免了不必要的资源浪费和竞争条件，从而提高了系统的整体效率。

在这里插入图片描述

在 Visual Studio 输出窗口中，你可以右键点击并取消选择一些内容

在这段对话中，讨论了 Visual Studio 中输出窗口的一些实用技巧。具体来说，提到了如何通过右键点击输出窗口来选择某些选项，这样可以帮助开发者更加方便地查看程序输出。虽然之前没有尝试过这种方法，但发现它非常实用，并且感觉这个功能非常棒。最后，表示希望能看到程序的输出结果，认为这对于调试和查看程序运行情况非常有帮助。

为什么这必须这么复杂？？

讨论了编程中使用队列的复杂性。对于一些人来说，队列的使用可能看起来有些复杂，但实际上并没有那么难理解。关键在于，它更容易出错，而不是非常复杂。一旦掌握了如何使用队列，通常可以
顺利地使用它。只要小心处理，问题不会很大。问题出现在需要处理复杂的互锁操作时，这类操作容易引发错误，因此最好尽量避免做过于复杂的互锁操作。

为什么你把内存屏障放在一个宏中，而这段代码是平台特定的？

虽然这段代码在某些平台上可能是特定的，但实际上，内存屏障的实现可能并不总是和平台绑定。最终，这些实现将被移到渲染部分，变成与平台无关的代码。因此，需要为每个平台在头文件中定义这些内存屏障，并根据不同的平台使用它们。这种做法类似于其他平台特定的内置函数。之后，一些线程会在经过一段睡眠后推送多个字符串到队列中。

在 sleep 之后，仍然有一些线程推送了多个字符串，遗漏了一些其他线程

首先，操作系统会根据信号量的状态决定何时唤醒线程。线程是否能够处理队列中的任务，取决于操作系统的调度程序如何分配资源。通常，最先被唤醒的线程会处理队列中的大部分任务，因为它会先获取任务并开始处理。而在某些情况下，当其他线程唤醒时，可能发现队列中已经没有任务可处理，这就导致它们无法执行任何工作。因此，线程是否能成功处理任务是由操作系统调度的复杂性和随机性决定的。

在你的自旋锁中使用 Sleep(0) 会有帮助吗？

自旋锁通常是在等待某个条件时不断检查某个标志位或信号量状态的，而使用 sleep(0) 可能不会有效地减少 CPU 的占用，因为它依旧会导致线程不断循环检查。

重点是，当所有的线程都进入睡眠状态时，信号量的值应该会变为零。因此，在信号量变为零时，应该能够通过等待该信号量的方式来避免继续自旋等待。这样，线程就不需要持续占用 CPU 资源，而是可以更高效地等待信号量的变化。换句话说，应该采用一种更高效的等待机制，而不是通过自旋锁不断检查。

总结来说，使用 sleep(0) 在自旋锁中并不是最理想的做法，可以通过更合理的等待机制来优化线程的等待和信号量的处理，从而避免浪费 CPU 资源，确保线程的高效管理。

我错过了今晚的大部分内容，volatile 关键字是什么意思？

volatile 关键字用于告诉编译器不要优化特定变量的读取操作。它的作用是确保每次都从内存中读取该变量的值，而不是使用寄存器中缓存的值。这是因为这个变量可能会被其他线程修改，因此它的值不应当被缓存或优化掉。使用 volatile 关键字可以保证程序每次访问该变量时都能够获得最新的值，而不是读取到被优化掉的旧值。

你打算如何维护处理器之间的缓存行一致性？物理 CPU 能共享一个缓存行吗？

关于如何在处理器之间保持缓存行的一致性，实际上已经不再使用传统的系统总线锁了。现在的技术使用的是更现代的机制，例如 MESI（修改、独占、共享、无效）协议。这个协议帮助确保多个处理器之间的缓存一致性，不需要使用传统的锁机制来协调缓存数据。

传统上，处理器间的数据共享和同步是通过锁来保证的，然而随着多核处理器和现代计算架构的发展，像 MESI 这样的缓存一致性协议能够通过协调缓存状态，避免了传统锁的使用。因此，现代处理器可以通过这些协议自动管理数据一致性，避免了性能瓶颈。

对于“无锁编程”（lock-free programming），也正是因为这种缓存一致性协议的存在，它实际上变得更可行。不同处理器的缓存可以在不通过锁的情况下进行有效同步和协调，这使得并发操作能够更高效。

尽管如此，了解这些机制和协议需要深入的硬件和系统架构知识，而这部分内容通常不容易掌握，因为涉及到底层硬件的工作原理。

黑板：MESI 和缓存一致性

在现代处理器架构中，多个处理器和核心之间保持缓存一致性是一个非常重要的任务。这个任务通常由处理器芯片组（如Intel芯片组）来自动管理。为了保证缓存的一致性，芯片组采用了名为MESI协议（Modified, Exclusive, Shared, Invalid）的机制。该协议通过缓存行的状态标志和“窥探”技术（snooping）来确保不同核心对共享内存的访问不会发生冲突。

MESI协议

MESI协议的核心思想是通过对缓存行进行标记，来管理缓存之间的数据同步。每个缓存行有四种状态：

Modified（修改状态）：该缓存行的内容已被修改，并且是唯一的副本。此时，缓存中的数据不同于主存中的数据。
Exclusive（独占状态）：该缓存行只存在于当前缓存中，且与主存中的数据一致。
Shared（共享状态）：该缓存行在多个核心中都存在，并且所有副本都与主存中的数据一致。
Invalid（无效状态）：该缓存行的数据已经无效，需要重新从主存或其他缓存获取数据。

缓存一致性的维护过程

当一个核心想要加载一个缓存行时，它会检查该缓存行的状态。如果缓存行已经被其他核心修改过，当前核心的缓存行会被标记为无效（Invalid），并且需要从其他核心或主存中获取最新数据。这个过程称为“窥探”（snooping）。

在多个核心同时访问相同内存地址的情况下，MESI协议确保：

当两个核心都读取同一缓存行时，缓存行会被标记为“共享”状态。
如果其中一个核心修改了该缓存行，它会将该缓存行标记为“修改”状态，并通知其他核心将该缓存行标记为“无效”，确保其他核心不再使用过时的数据。

为什么处理器自动管理缓存一致性

现代处理器的芯片组通过硬件机制来自动保证缓存的一致性，程序员无需手动干预。芯片组会负责检测和处理缓存行的状态变化，保证不同核心之间的数据一致性。因此，程序员只需要关注如何正确编写代码，确保在多个核心间的共享数据访问不会发生冲突。

注意事项

尽管芯片组能够处理大部分缓存一致性问题，但程序员仍然需要关注特定的细节，特别是在涉及到寄存器和内存之间的交互时。例如，当程序对某个寄存器进行操作，并期望这些操作反映到内存中时，处理器并不能自动确保所有核心能看到这些更新。因此，程序员需要使用合适的同步机制，如互斥锁、原子操作等，确保在进行“读取-修改-写入”操作时，数据的一致性和正确性。

总结

在现代多核处理器中，缓存一致性主要由处理器的芯片组自动管理，通过MESI协议和缓存“窥探”机制来保证多个核心之间的数据同步。程序员无需关注这些底层的细节，只需确保合理使用同步机制来处理寄存器和内存的交互，以避免数据竞争和不一致的问题。

volatile 是在 C99 中添加的吗？

volatile 关键字在 C 语言中的引入时间较为久远，通常被认为是在 C 语言标准较早的版本中就已经存在。这个关键字的作用是告诉编译器，不要对标记为 volatile 的变量进行优化。也就是说，每次访问这个变量时，都必须从内存中读取，而不能使用缓存中的值。这对于涉及硬件寄存器、并发编程或者操作外部设备等场景非常重要，因为在这些场景中，变量的值可能会在程序不执行任何操作的情况下发生变化，而编译器通常会进行优化，假设变量值不会发生变化，从而可能导致程序错误。

至于 volatile 是否在 C99 标准之前已经存在，很多人认为它早在 C 语言的标准化初期就已经引入，而不是在 C99 版本才出现。这意味着，即使在 C99 标准之前，volatile 也已经是 C 语言中的一部分，用于确保在特定情况下对内存中的变量进行可靠访问，避免编译器的优化行为影响程序的正确执行。

事务性内存通过允许一组加载/存储指令原子执行来简化并发编程。你有试过这个吗？

事务性内存（Transactional Memory，简称 TM）旨在简化并发编程，通过允许一段加载和存储指令在原子操作中执行，从而减少并发编程中的复杂性。事务性内存的核心思想是将一组指令作为一个“事务”进行处理，在事务内部的所有操作要么全部成功执行，要么完全不执行，这样可以避免传统锁机制带来的复杂性和性能问题。

不过，事务性内存的实现并不总是顺利的。当前有些处理器或平台支持事务性内存，但它们的实现可能并不完美，甚至有些可能存在bug或性能问题。因为事务性内存的复杂性，在一些桌面处理器上可能会被禁用，或者只是作为实验性功能存在，而并不是所有硬件都稳定支持这一技术。

因此，尽管事务性内存理论上提供了一种简化并发编程的方式，但在实际使用中，可能仍然会遇到一些问题或限制，特别是在硬件和驱动的支持上。

黑板：事务性内存

事务性内存（Transactional Memory）是一种旨在简化并发编程的技术，主要通过减少锁的使用来提升并发效率。它的核心概念是“锁消除”（Lock Elision），即在某些情况下可以避免使用锁，而是通过一个原子操作来确保多个线程访问共享内存时的一致性。

在事务性内存的机制中，程序会将一系列的内存操作包装成一个“事务”。事务开始时，程序标记该区域为“开始事务”，并开始执行对内存的修改。事务结束时，程序会检查在此期间是否有其他线程修改了相同的内存区域。如果没有其他线程修改数据，事务中的所有更改将被“提交”，否则将不会提交这些修改。

具体来说，事务性内存的工作原理类似于一个大型的互锁比较交换（Compare-and-Swap）操作。程序通过事务性内存来确保在修改一块内存区域时，期间没有其他线程写入过该内存区域。这样，如果没有冲突，所有修改将被提交；如果存在冲突，则程序会回滚这些修改，转而使用传统的锁机制来保护数据的更新。

事务性内存的优点在于，它能在没有显式锁的情况下执行多线程任务，从而提升性能和简化代码。然而，事务性内存的实现依赖于硬件支持，且并不是所有处理器都稳定支持该功能。有些处理器可能在硬件上存在问题，导致该功能被禁用，或在使用过程中出现不稳定的情况。因此，事务性内存的普及和稳定性仍然是一个挑战。

简而言之，事务性内存通过模拟一个单线程环境来避免显式锁的使用，并在没有冲突的情况下提交事务。这使得多线程编程更加简洁和高效，但具体实现和使用时依然需要注意硬件的支持情况。

事务性内存常被宣传为一种更易使用的替代锁的方法，避免任何死锁的可能性，我想听听你的想法。

事务性内存（Transactional Memory）常被提倡作为替代传统锁的简化方案，主要的优点是能够避免死锁问题。事务性内存在理论上比传统的锁机制更高效，尤其是在某些极限条件下。然而，实际应用中并不是所有场景都需要使用锁。特别是在游戏开发中，有很多情况下根本不需要使用真正的锁。

因此，首先应该尽量避免使用锁，而是通过设计尽量不依赖锁的代码。如果确实遇到必须使用事务性内存的情况，再去考虑它。对于一些需要并发的操作，事务性内存提供了一种较为简便的方式来管理并发访问，但也并不总是必需的。

需要注意的是，事务性内存本身是一个概念，而不是硬件功能。虽然现代处理器（如x86架构）提供了实现事务性内存的功能，但实际上，可以不依赖硬件支持，而通过程序逻辑来模拟事务性内存的操作。比如，在某些模拟程序中，可以在将计算结果提交到主存之前，检查是否有其他线程修改了相同的数据。如果发现冲突，可以中止当前操作，这种方式就类似于事务性内存的概念。

总的来说，事务性内存虽然在某些情况下提供了简化并发管理的方法，但并不是所有情况都需要依赖它。如果能够通过无锁编程或者其他方法避免锁，尽量不使用锁是更为理想的方案。只有在确实需要时，才考虑采用事务性内存的概念来处理并发操作。

为什么我们要构建一个通用的工作分发系统，而平铺渲染器本身就已经能够很干净地分割工作了？

我们构建一个通用的工作分发系统，是因为尽管平铺渲染已经设计好了将工作分割成多个小块（tiles），但是每个小块的处理时间是不确定的。有些小块可能需要很长时间来处理，而有些可能只需要极短的时间。这是因为一些小块可能涉及复杂的粒子系统，而其他小块可能只是简单的单棵树的渲染。

因此，我们需要将所有的小块放入一个工作队列中，然后让多个线程从队列中取出任务进行处理。这样，如果某个线程不幸取到了一个需要较长时间处理的任务（比如一个耗时较长的小块），它不会阻塞其他线程的工作，其他线程仍然可以继续处理剩下的小块，直到耗时较长的小块处理完成。这种方式保证了即使某个小块的处理时间较长，整体渲染也不会因为等待某个任务的完成而拖慢。

尽管我们已经将工作分割成了多个小块，但依然需要一个工作队列来管理这些任务。我们不需要非常复杂的工作队列系统，因此并没有设计一个特别复杂的队列，但我们确实需要一个工作队列来有效分配任务，这就是我们所构建的队列系统。

总结

我们已经完成了多线程的基础部分，包括如何构建一个工作队列，基本上这些内容已经做完。接下来，我们需要做的就是利用这个工作队列来调用渲染函数，这将是明天的任务。

不过，还有一件事情需要处理：我们要展示如何让主线程避免忙等待。虽然我们也可以选择在一开始不处理，等到后面再做，但为了完整性，还是应该在早期就处理掉。完成这个之后，我们会开始实际调用渲染函数，这涉及一些跨平台的代码优化工作。

除此之外，我们还需要清理渲染部分的一些问题，因为这些问题目前导致我们无法在多线程环境下运行。希望这些问题能够在调试过程中被发现，大家也能看到实际问题的存在，帮助更好地理解。

回顾/复习

昨天的待办事项

待办事项 1：写入顺序

完成过去的写入操作，再进行未来的写入操作

atomic_thread_fence 的作用

主要用途

参数

示例

什么时候使用 atomic_thread_fence

总结

查找内存屏障

插入一个实际的 CPU 屏障

1. 作用范围与功能

2. 使用层次

3. 实现机制

4. 应用场景

5. 平台相关性

6. 简洁对比

总结：

主要作用：

使用场景：

示例：

注意事项：

接下来我们该怎么办？

引入 volatile

待办事项 2：互锁写入

函数原型

参数

返回值

说明

示例

应用场景

总结

c++ 中atomic

原子递增操作

std::atomic 原子递增操作示例

1. 使用 fetch_add 进行原子递增

2. 使用 operator++ 进行原子递增

主要函数与操作

内存顺序（Memory Order）

总结

查找 InterlockedIncrement

待办事项 3：已经由 volatile 处理

待办事项 4：读取顺序

检查我们的工作

任务完成

等待所有线程完成

挂起和恢复线程

信号量

函数原型

参数说明

返回值

使用示例

说明

总结

c++ 的创建信号量(c++20 才有信号量吗？)

1. C++20 标准库信号量

2. std::counting_semaphore 示例

示例代码：

3. 代码说明

4. std::binary_semaphore 示例

示例代码：

5. 代码说明

6. 小结

使用 WaitForSingleObject 挂起线程

函数行为分析

创建信号量

1. 创建信号量

2. 线程数量与信号量的配合

3. 线程等待与信号量的作用

4. 信号量的初始值与线程行为

5. 线程竞争和输出

总结

问题：线程从未醒来！

线程创建与执行顺序

线程执行与等待

线程调度与等待的偶然性

信号量的作用

解决方案与改进

通过释放信号量唤醒线程

`atomic_thread_fence` 的作用

什么时候使用 `atomic_thread_fence`

`std::atomic` 原子递增操作示例

1. 使用 `fetch_add` 进行原子递增

2. 使用 `operator++` 进行原子递增

2. `std::counting_semaphore` 示例

4. `std::binary_semaphore` 示例