当前位置: 首页 > article >正文

被Linux内核用C写的kfifo无锁设计惊艳到了~

正文大家好我是bug菌~你一定遇到过这样的噩梦多线程共享一个队列为了线程安全不得不加锁结果锁竞争导致性能暴跌加锁确实是一门学问哈然后好不容易优化了锁又遇到了缓存伪共享想动态分配内存又怕在中断上下文里触发死锁。你可能像我一样手搓过无数个环形队列其实在Linux内核里有一个叫kfifo的无锁环形队列不到100行核心代码设计非常的巧妙几乎能够解决我上面提到的所有问题所以我被它的惊艳所折服所以必须写一篇文章来剥一下kfifo的神秘面纱了看看它是如何用几个简单的数学技巧和内存屏障在单生产者单消费者场景下实现真正的无锁并发。1为什么需要kfifo在嵌入式开发中生产者-消费者模型无处不在串口中断接收数据主线程处理传感器采集数据后台线程存储网络数据包接收应用层解析不管是在RTOS还是嵌入式linux中通常我们会定义一个环形缓冲区加一个互斥锁保护读写操作。但这种方式有三个比较麻烦的问题1、首先是锁竞争的开销每次读写都要加锁解锁在高频数据场景下锁的开销甚至超过了数据处理本身。2、然后是死锁的风险如果在中断上下文里尝试获取已经被持有的锁直接导致系统崩溃。3、最好是缓存伪共享这个主要是在带cache缓存时锁变量和队列变量放在同一个缓存行导致频繁的缓存失效。那么kfifo的出现几乎非常完美解决了这些问题。它在单生产者单消费者SPSC场景下不需要任何锁就能保证线程安全性能比加锁队列高出一个数量级。2核心设计技巧这里就要聊聊kfifo的设计哲学:通过限制使用场景来获得极致性能。这也是我为什么非常喜欢kfifo的原因它也是嵌入式软件设计中一个非常重要的思想。它只支持单生产者单消费者缓冲区大小必须是2的幂次方。正是这两个看似苛刻的限制换来了无与伦比的性能优势。技巧一unsigned int索引的自然回绕彻底告别取模运算传统环形队列最让人头疼的就是索引回绕问题。我们通常会这样写in (in 1) % size; out (out 1) % size;但取模运算%在CPU上是一个非常昂贵的操作需要几十个时钟周期kfifo是怎么做的呢它把in和out索引定义为unsigned int类型并且永远不让它们回绕让它们一直单调递增直到溢出。struct kfifo { unsigned char *buffer; unsigned int size; unsigned int in; // 写入索引一直递增 unsigned int out; // 读取索引一直递增 };那索引溢出了怎么办利用C语言中无符号整数的溢出特性当unsigned int超过最大值时会自动从0开始重新计数。这是C语言标准明确规定的行为不是未定义行为这正是kfifo最精妙的地方更神奇的是无论in和out怎么溢出in - out永远等于队列中已有的数据长度// 已用空间无论in和out怎么溢出结果永远正确 unsigned int used fifo-in - fifo-out; // 空闲空间 unsigned int free fifo-size - used; // 判断空满 bool is_empty (fifo-in fifo-out); bool is_full (used fifo-size);一个简单的减法就解决了传统环形队列中判断空满的复杂逻辑nice~那实际访问缓冲区时怎么办呢因为缓冲区大小是2的幂次方我们可以用位运算来代替取模前面bug菌也写过类似的文章当缓冲区大小必须是2的幂次方时候编译器都会帮我们优化不过需要注意前提条件:// 等价于 in % size但速度快10倍以上 unsigned int pos fifo-in (fifo-size - 1);位运算在CPU上是单周期指令比取模运算快得多。这就是为什么kfifo要求缓冲区大小必须是2的幂次方的原因。技巧二分离的in/out索引天然的安全区间分离你应该bug菌开始的时候一样会问:为什么两个线程同时修改in和out不会有竞态条件主要的原因是生产者只修改in消费者只修改out。生产者只读out只写in消费者只读in只写out这就像两个人用同一张环形便签纸留言写的人只负责在空白处写字然后把笔往前移读的人只负责在有字的地方读然后把笔往前移只要两个人不交叉操作同一个位置就不会有任何冲突。生产者看到的安全区间[in, out size)消费者看到的安全区间[out, in)这两个区间永远不会重叠因为in - out size。技巧三精准的内存屏障杜绝幽灵数据很多人以为kfifo不需要任何同步机制这是大错特错的。kfifo不需要锁但它需要内存屏障。现代CPU为了提高性能会对指令进行乱序执行编译器为了优化也会对代码进行重排。如果没有内存屏障可能会出现这样的情况// 生产者代码 memcpy(fifo-buffer pos, data, len); // 1. 写数据 fifo-in len; // 2. 更新索引CPU可能会把这两条指令的顺序颠倒过来先更新in索引再写数据。这会导致什么后果消费者看到in索引更新了以为有新数据可读结果读到的还是旧数据——这就是所谓的幽灵数据。那么kfifo是如何解决这个问题的呢在写数据和更新索引之间插入一个写内存屏障smp_wmb()。memcpy(fifo-buffer pos, data, len); smp_wmb(); // 写内存屏障保证前面的写操作全部完成 fifo-in len;同样在消费者这边也需要一个读内存屏障smp_rmb()memcpy(data, fifo-buffer pos, len); smp_rmb(); // 读内存屏障保证前面的读操作全部完成 fifo-out len;内存屏障就像一堵墙它不禁止所有乱序只禁止墙两边的内存操作互相穿越。这是一种非常轻量级的同步机制开销比锁小得多。3解读内核源码让我们来看看Linux内核中kfifo的核心实现说实在C真的优雅。我会去掉一些无关的宏定义保留最核心的逻辑。1、数据结构定义struct __kfifo { unsigned int in; // 写入索引 unsigned int out; // 读取索引 unsigned int mask; // size - 1用于位运算 unsigned int esize; // 每个元素的大小 void *data; // 缓冲区指针 };注意这里用了mask而不是size因为mask size - 1这样每次计算位置时就不用再减1了又是一个微小的性能优化。2、计算空闲空间static inline unsigned int kfifo_unused(struct __kfifo *fifo) { return (fifo-mask 1) - (fifo-in - fifo-out); }fifo-mask 1就是缓冲区大小fifo-in - fifo-out就是已用空间相减就是空闲空间够简洁吧。3、写入数据核心函数unsigned int __kfifo_in(struct __kfifo *fifo, constvoid *buf, unsignedint len) { unsignedint l; // 最多只能写入空闲空间大小的数据 len min(len, kfifo_unused(fifo)); // 第一步计算从当前in位置到缓冲区末尾的长度 l min(len, fifo-mask 1 - (fifo-in fifo-mask)); // 先拷贝尾部数据 memcpy(fifo-data (fifo-in fifo-mask), buf, l); // 如果还有剩余数据从缓冲区头部开始拷贝 memcpy(fifo-data, buf l, len - l); // 写内存屏障确保数据全部写入后再更新in索引 smp_wmb(); // 更新写入索引 fifo-in len; return len; }即使不需要回绕len - l等于0memcpy也什么都不做。这就是kfifo代码的优雅之处用统一的逻辑处理所有情况避免分支预测失败带来的性能损失所以你几乎看到if else。4、读取数据核心函数unsigned int __kfifo_out(struct __kfifo *fifo, void *buf, unsignedint len) { unsignedint l; // 最多只能读取已用空间大小的数据 len min(len, fifo-in - fifo-out); // 第一步计算从当前out位置到缓冲区末尾的长度 l min(len, fifo-mask 1 - (fifo-out fifo-mask)); // 先拷贝尾部数据 memcpy(buf, fifo-data (fifo-out fifo-mask), l); // 如果还有剩余数据从缓冲区头部开始拷贝 memcpy(buf l, fifo-data, len - l); // 读内存屏障确保数据全部读取后再更新out索引 smp_rmb(); // 更新读取索引 fifo-out len; return len; }和写入函数几乎对称同样几乎看不到if语句。下面是一个简化版的示例供参考:#include stdint.h #include string.h // 内存屏障定义根据你的平台修改 #if defined(__ARM_ARCH) // ARM Cortex-M系列使用__DMB()数据内存屏障 #define smp_wmb() __DMB() #define smp_rmb() __DMB() #elif defined(__GNUC__) // GCC编译器使用内置函数 #define smp_wmb() __sync_synchronize() #define smp_rmb() __sync_synchronize() #else // 其他平台至少需要一个编译器屏障 #define smp_wmb() asm volatile( ::: memory) #define smp_rmb() asm volatile( ::: memory) #endif // kfifo数据结构 typedefstruct { uint8_t *buffer; // 缓冲区指针 uint32_t size; // 缓冲区大小必须是2的幂次 uint32_t mask; // size - 1 uint32_t in; // 写入索引 uint32_t out; // 读取索引 } kfifo_t; // 初始化kfifo // 注意size必须是2的幂次 void kfifo_init(kfifo_t *fifo, uint8_t *buffer, uint32_t size) { fifo-buffer buffer; fifo-size size; fifo-mask size - 1; fifo-in 0; fifo-out 0; } // 写入数据 uint32_t kfifo_put(kfifo_t *fifo, const uint8_t *data, uint32_t len) { uint32_t l; // 计算可写入的最大长度 len len (fifo-size - (fifo-in - fifo-out)) ? len : (fifo-size - (fifo-in - fifo-out)); // 计算从当前位置到缓冲区末尾的长度 l len (fifo-size - (fifo-in fifo-mask)) ? len : (fifo-size - (fifo-in fifo-mask)); // 拷贝第一部分数据 memcpy(fifo-buffer (fifo-in fifo-mask), data, l); // 拷贝第二部分数据如果需要回绕 memcpy(fifo-buffer, data l, len - l); // 写内存屏障确保数据全部写入后再更新索引 smp_wmb(); // 更新写入索引 fifo-in len; return len; } // 读取数据 uint32_t kfifo_get(kfifo_t *fifo, uint8_t *data, uint32_t len) { uint32_t l; // 计算可读取的最大长度 len len (fifo-in - fifo-out) ? len : (fifo-in - fifo-out); // 计算从当前位置到缓冲区末尾的长度 l len (fifo-size - (fifo-out fifo-mask)) ? len : (fifo-size - (fifo-out fifo-mask)); // 拷贝第一部分数据 memcpy(data, fifo-buffer (fifo-out fifo-mask), l); // 拷贝第二部分数据如果需要回绕 memcpy(data l, fifo-buffer, len - l); // 读内存屏障确保数据全部读取后再更新索引 smp_rmb(); // 更新读取索引 fifo-out len; return len; } // 使用示例 int main(void) { // 定义一个大小为128字节的静态缓冲区 static uint8_t buffer[128]; static kfifo_t fifo; // 初始化 kfifo_init(fifo, buffer, sizeof(buffer)); // 生产者线程/中断中写入数据 uint8_t tx_data[] Hello, kfifo!; kfifo_put(fifo, tx_data, sizeof(tx_data)); // 消费者线程中读取数据 uint8_t rx_data[128]; uint32_t len kfifo_get(fifo, rx_data, sizeof(rx_data)); return0; }最后总结下使用注意事项1、缓冲区大小必须是2的幂次8, 16, 32, 64, 128...2、严格遵守单生产者单消费者模型3、内存屏障一定要正确实现否则会出现难以调试的幽灵数据问题4、在多核系统中需要使用硬件内存屏障而不仅仅是编译器屏障5、多生产者多消费者场景怎么办可以给kfifo加一把自旋锁变成轻量级加锁队列;或者使用多个kfifo每个生产者对应一个队列。最后分享一段话:最好的代码不是最复杂的代码而是用最简单的方法解决最复杂的问题。最后好了今天就跟大家分享这么多了如果你觉得有所收获一定记得点个赞~bug菌唯一、永久、免费分享嵌入式技术知识平台~推荐专辑 点击蓝色字体即可跳转☞MCU进阶专辑☞嵌入式C语言进阶专辑☞“bug说”专辑☞专辑|Linux应用程序编程大全☞专辑|学点网络知识☞专辑|手撕C语言☞专辑|手撕C语言☞专辑|经验分享☞专辑|电能控制技术☞专辑 | 从单片机到Linux

相关文章:

被Linux内核用C写的kfifo无锁设计惊艳到了~

正文大家好,我是bug菌~你一定遇到过这样的噩梦:多线程共享一个队列,为了线程安全不得不加锁,结果锁竞争导致性能暴跌,加锁确实是一门学问哈!然后好不容易优化了锁,又遇到了缓存伪共享&#xff1…...

快速上手:在Windows桌面端体验完整的酷安社区功能

快速上手:在Windows桌面端体验完整的酷安社区功能 【免费下载链接】Coolapk-UWP 一个基于 UWP 平台的第三方酷安客户端 项目地址: https://gitcode.com/gh_mirrors/co/Coolapk-UWP Coolapk-UWP是一款基于UWP平台的第三方酷安客户端,为Windows用户…...

抖音批量下载工具完全指南:快速获取无水印视频的终极解决方案

抖音批量下载工具完全指南:快速获取无水印视频的终极解决方案 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallbac…...

Claude Code 用户如何无缝迁移至 Taotoken 解决封号与额度焦虑

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Claude Code 用户如何无缝迁移至 Taotoken 解决封号与额度焦虑 对于依赖 Claude Code 进行开发的用户而言,直接使用官方…...

如何永久解除Navicat试用期限制:macOS用户的完整解决方案

如何永久解除Navicat试用期限制:macOS用户的完整解决方案 【免费下载链接】navicat_reset_mac navicat mac版无限重置试用期脚本 Navicat Mac Version Unlimited Trial Reset Script 项目地址: https://gitcode.com/gh_mirrors/na/navicat_reset_mac 还在为N…...

Qwerty Learner 终极指南:如何通过打字训练提升英语词汇记忆

Qwerty Learner 终极指南:如何通过打字训练提升英语词汇记忆 【免费下载链接】qwerty-learner 为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件 / Words learning and English muscle memory training software designed for keyboard workers 项目地址: https…...

wxauto微信自动化:5分钟快速搭建你的Windows微信机器人

wxauto微信自动化:5分钟快速搭建你的Windows微信机器人 【免费下载链接】wxauto Windows版本微信客户端(非网页版)自动化,可实现简单的发送、接收微信消息,简单微信机器人 项目地址: https://gitcode.com/gh_mirrors…...

DPlayer弹幕播放器:3分钟打造你的专属视频站

DPlayer弹幕播放器:3分钟打造你的专属视频站 【免费下载链接】DPlayer :lollipop: Wow, such a lovely HTML5 danmaku video player 项目地址: https://gitcode.com/gh_mirrors/dp/DPlayer 你是否曾想过为自己的博客或网站添加一个既美观又功能强大的视频播放…...

对比直接使用官方API体验Taotoken在多模型切换上的便利性

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比直接使用官方API体验Taotoken在多模型切换上的便利性 在构建需要集成多种大语言模型的应用时,开发者常常面临一个现…...

TQVaultAE终极指南:如何彻底解决《泰坦之旅》仓库管理难题

TQVaultAE终极指南:如何彻底解决《泰坦之旅》仓库管理难题 【免费下载链接】TQVaultAE Extra bank space for Titan Quest Anniversary Edition 项目地址: https://gitcode.com/gh_mirrors/tq/TQVaultAE 你是否曾在《泰坦之旅》中为仓库空间不足而烦恼&#…...

告别龟速下载!手把手教你配置PyTorch本地CIFAR10数据集(附数据集文件与避坑指南)

告别龟速下载!PyTorch本地CIFAR10数据集配置全攻略 当你在深夜调试代码时,是否曾被缓慢的数据集下载速度折磨得抓狂?作为机器学习入门的第一道门槛,CIFAR10这类经典数据集的获取本应是学习过程的助力,却常常因为网络问…...

xrdp会话管理进阶:从sesman.ini配置解读到打造稳定的多用户远程环境

xrdp会话管理进阶:从sesman.ini配置解读到打造稳定的多用户远程环境 远程桌面服务在现代IT基础设施中扮演着关键角色,特别是对于需要为团队提供Linux桌面访问的中小型企业和实验室环境。xrdp作为开源的远程桌面协议(RDP)服务器,以其轻量级和易…...

从P99延迟987ms到112ms:SITS 2026冠军方案全链路拆解——模型切分×内存映射×异步Prefill三阶协同优化

更多请点击: https://intelliparadigm.com 第一章:AI原生性能优化:SITS 2026 LLM推理加速实战技巧 在 SITS 2026 基准测试中,LLM 推理延迟与显存带宽利用率呈现强负相关。针对 7B–13B 参数量级模型,我们验证了三项 A…...

Windows系统部署OpenClaw AI智能体:从环境配置到微信自动化实战

1. 项目概述:为什么OpenClaw值得你投入时间?如果你对AI的印象还停留在“你问我答”的聊天机器人阶段,那OpenClaw可能会彻底颠覆你的认知。简单来说,它不是一个简单的对话工具,而是一个能“看”、能“想”、能“动手”的…...

想找升降货梯维修厂家电话?泰州群利起重设备有限公司告诉你!

在工业生产和物流运输中,升降货梯是不可或缺的设备。然而,长期使用后,升降货梯难免会出现各种故障,这时候就需要专业的维修厂家来解决问题。那么,如何找到靠谱的升降货梯维修厂家呢?泰州群利起重设备有限公…...

Zed编辑器全揭秘:产品资源导航、主题构建器及代码示例全呈现!

产品与资源导航包含产品相关(下载、定价等)、资源相关(常见问题解答、贡献者许可协议等)、公司相关(博客、关于我们等)以及社交平台(Twitter、Bluesky等)的导航信息。主题构建器仅支…...

2026奇点智能技术大会报名通道开启(仅开放前2000席·含AI芯片实机调试权限)

更多请点击: https://intelliparadigm.com 第一章:SITS 2026上海站定档4月:2026奇点智能技术大会报名通道开启 大会核心信息速览 SITS(Singularity Intelligence Technology Summit)2026上海站正式定档于2026年4月10…...

Python逆向工程库Gemini-API:解锁Google Gemini多模态与深度研究全功能

1. 项目概述与核心价值如果你正在寻找一个能让你在Python项目中无缝接入Google Gemini(就是那个以前叫Bard的AI)全部能力的库,并且希望它能像官方API一样优雅易用,同时又能绕过一些官方限制,直接使用网页版的高级功能&…...

AI项目从Demo到落地的8个关键突破

为什么我们用AI两周就能做出惊艳的Demo,却在接下来一个月里怎么也把它推不出去?我们团队在做微信支付数字员工时,就掉进了这个坑里。把 AI 从 Demo 做成数字员工:我们靠这 8 招,搞定了 AI 的“不靠谱”最近这半年&…...

Python 爬虫反爬突破:多维度风控综合对抗策略

前言 当下主流互联网平台的反爬体系,早已告别单一 IP 封禁、请求头校验的初级阶段,转而采用多维度联动风控体系,从访问行为、设备指纹、网络环境、请求特征、账号画像、流量链路六大维度构建多层防护屏障。单一的换 IP、伪造 UA、简单 Cooki…...

从告警风暴到自治闭环,AI原生运维到底卡在哪?SITS 2026专家团亲授4个致命断点与破局清单

更多请点击: https://intelliparadigm.com 第一章:从告警风暴到自治闭环,AI原生运维到底卡在哪?SITS 2026专家团亲授4个致命断点与破局清单 在SITS 2026现场,来自阿里云、字节跳动与工商银行的AI运维联合工作组披露了…...

如何用FreeRouting实现PCB自动布线:从新手到专家的完整指南

如何用FreeRouting实现PCB自动布线:从新手到专家的完整指南 【免费下载链接】freerouting Advanced PCB auto-router 项目地址: https://gitcode.com/gh_mirrors/fr/freerouting FreeRouting是一款功能强大的开源PCB自动布线工具,能够与KiCad、Ea…...

从CU、DU到AAU:手把手拆解一个O-RAN 5G小基站的软硬件架构

从CU、DU到AAU:手把手拆解一个O-RAN 5G小基站的软硬件架构 在5G网络建设的热潮中,开放无线接入网(O-RAN)正以其模块化、开放化的架构理念重塑着传统基站的形态。不同于传统封闭式基站设备由单一厂商提供"黑盒"解决方案的模式,O-RAN…...

开源技能市场:基于区块链与智能合约的去中心化自由职业平台构建

1. 项目概述:一个开源技能市场的构想与实践 最近几年,开源社区和自由职业者经济都在蓬勃发展,但两者之间似乎总隔着一层纱。开发者们乐于在GitHub上分享代码,解决技术难题,却很少将这种“解决问题”的能力直接、高效地…...

告别‘睡不醒’的车载网络:手把手教你用TJA1101 PHY芯片实现TC10休眠唤醒

告别‘睡不醒’的车载网络:手把手教你用TJA1101 PHY芯片实现TC10休眠唤醒 凌晨三点的实验室,示波器屏幕上跳动的波形仿佛在嘲笑我的无能——这已经是本周第七次尝试让TJA1101在TC10休眠模式下正常唤醒了。作为某新能源车企的ECU开发负责人,我…...

5分钟掌握layerdivider:终极AI图像分层工具完全指南

5分钟掌握layerdivider:终极AI图像分层工具完全指南 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 你是否曾为复杂的插画作品花费数小时手动…...

高效视频下载解决方案:VideoDownloadHelper插件完全指南

高效视频下载解决方案:VideoDownloadHelper插件完全指南 【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 在当今数字时代&#xff…...

容器镜像转虚拟机:container-vm项目原理、实战与场景解析

1. 项目概述:当容器遇见虚拟机最近在折腾一个挺有意思的项目,叫wy-z/container-vm。光看这个名字,你可能觉得有点矛盾——“容器”和“虚拟机”不是两种不同的虚拟化技术吗,怎么还能放一起?这正是这个项目的精妙之处。…...

为LLM注入联网能力:SuGPT-kexue项目的架构设计与工程实践

1. 项目概述与核心价值最近在开源社区里,一个名为“SuGPT-kexue”的项目引起了不少开发者和AI爱好者的注意。这个项目名本身就挺有意思,它指向了一个非常具体且实用的场景:如何让一个大型语言模型(LLM)具备科学上网的能…...

AMD锐龙SMU调试工具完整实用指南:从基础配置到高级调优

AMD锐龙SMU调试工具完整实用指南:从基础配置到高级调优 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://g…...