当前位置: 首页 > article >正文

如何设计一个扛住千万级流量的系统?

前面我们对 Kafka 的整体架构和一些关键的概念有了一个基本的认知本文主要介绍 Kafka 的一些配置参数。掌握这些参数的作用对我们的运维和调优工作还是非常有帮助的。写在前面Kafka 作为一个成熟的事件流平台有非常多的配置参数。详细的参数列表可以查看官方文档。本文我们列出一些个人认为比较重要的参数并对其进行详细的介绍。Broker 端参数第一个要介绍的参数是 log.dirs 它是 Broker 的一个最基本的参数用来指定数据存储的目录多个目录之间用逗号分隔。这个参数是必填参数且没有默认值。因此必须要手动配置。在生产环境中我们可以给这个目录配置挂载在多个不同磁盘的路径这样既可以提升读写性能又可以实现故障转移。Kafka 还提供了 log.dir 参数作为 log.dirs 的补充这个参数只能配置一个目录默认值是 /tmp/kafka-logs 通常情况下我们只需要配置 log.dirs 就好。第二个参数是 process.roles它用来指定 broker 的角色可以是 broker 或者 controller也可以同时指定为 broker,controller。第三个参数是 listeners它是 broker 的“耳朵”指定了 broker 如何监听外部连接。连接的配置是一个三元组包括协议名称主机名端口号。Kafka 目前支持四种安全协议PLAINTEXT明文传输SSL/TLS加密传输SASL_PLAINTEXT认证明文传输SASL_SSL认证加密传输为最高安全级别此外还可以自定义协议名称但需要配置 listener.security.protocol.map 参数。主机名可以指定为一个确定的主机名也可以是 0.0.0.0 这代表了 broker 会监听所有网卡。主机名也可以是空代表监听默认接口。第四个参数是 advertised.listeners 这组配置是 Broker 发布的监听也就是告诉别人“怎么找到我”。它的配置格式和 listeners 相同。再来看几个集群稳定性和元数据管理相关的参数。第五个是 auto.create.topics.enable表示是否允许自动创建 topic。在生产环境中一般设置为 false需要用户手动创建 topic方便管理。第六个是 unclean.leader.election.enable表示是否允许 unclean leader 选举。unclean 就是落后太多的副本如果允许这部分副本参与选举可能会造成数据丢失因此最好手动设置 false。在最新版本中它的默认值就是 false为什么还要手动设置呢因为不同的 Kafka 版本中这个参数的默认值是不一样的最开始是 false后来改成了 true现在又改回了 false。为了避免数据丢失我们还是手动设置成 false 比较放心。第七个参数是 auto.leader.rebalance.enable表示是否允许定期选举 leader这个参数最好也设置为 false如果设置为 true 的话即使当前 leader 一直运行的很稳定Kafka 也会重新选举出一个新的 leader 来替代它。替换 leader 的成本还是非常高的所有连接到旧 leader 的 client 都需要与新的 leader 重新建立连接。第八个参数是 min.insync.replicas 表示最小同步副本数它与生产者的 acksall 配合。如果存活的副本数小于这个值producer 在写入时会直接报错。这个配置可以保证我们在牺牲部分可用性的情况下确保数据的正确性。接下来我们再看几个数据生命周期相关的参数。第九个参数是 log.retention.hours / minutes / ms这其实是三个参数表示的意思一样都是数据留存时长只是时间单位不同。如果三个参数都配置了优先级是 ms minutes hours。第十个参数 log.retention.bytes它表示单个 broker 上存储的最大字节数默认是 -1也就是没有限制。在数据激增时它可以是保护磁盘不溢出的最后防线。第十一个参数是 log.segment.bytes它表示单个日志文件的大小默认是 1GB。Topic 参数Topic 级别的参数会覆盖 Broker 参数的值它的主要作用针对不同的 topic 灵活的配置参数。最常见的是我们在生产环境中针对不同的 topic 会配置不同的数据保留时长。这也是我们要介绍的第一个参数 retention.ms它对应的 broker 端的参数就是 log.retention.ms。第二个参数是 retention.bytes 它对应的是 log.retention.bytes。第三个参数是 cleanup.policy它对应的是 broker 端的 log.cleanup.policy这个参数代表了数据清理策略默认值是 delete即直接物理删除。也可以配置为 compact对每个 key 只保留最新的值这种策略比较适合一些状态保存的场景。第四个参数是 segment.bytes 与之对应的 broker 参数是 log.segment.bytes同样是控制 Log Segment 文件的大小默认是 1GB。调小可以让 Kafka 更及时的回收磁盘空间但容易产生大量小文件增大索引压力。一般保持默认值就好。第五个参数是 max.message.bytes 它限制了该 Topic 能接收的最大单条消息的大小默认是 1MB对个别业务可以适当调大。需要注意的是它和消费端参数 fetch.max.bytes 的大小应该合理配置。如果 max.message.bytes 设置为 10MBfetch.max.bytes 设置为 5MB当 Topic 中有超过 5MB 的消息时就会导致无法消费的问题。Producer 参数首先第一个参数是 acks它有几个值0不管是否写入成功1Leader 写入成功即可all / -1ISR 都要写入成功默认值是 all如果设置成 0 或 1 性能会提高但有可能丢失数据。第二个参数是 retries 它控制请求的重试次数默认是 2147483647约等于无限重试了。第三个参数是 batch.size默认是 16KB调大会提升吞吐量但是会增加内存占用。第四个参数是 linger.ms它用来控制发送等待时间也就是“攒批”的时间Kafka 4.0 把它的默认值从 0 调成了 5。它可以和 batch.size 配合使用同时调大会提高吞吐但数据会有一定的延迟。在生产环境中我们可以根据不同的场景对其进行调整如果数据量极大但对延迟要求不高则可以考虑调大这两个参数。最后第五个参数是 compression.type 生产端的压缩算法默认不开启压缩目前支持的值为none、gzip、snappy、lz4、zstd。Consumer 参数最后我们再来看几个 Consumer 端的参数。第一个是 group.id用来标识这个 consumer 属于哪个消费组。第二个是 auto.offset.reset它用来标识 offset 的重置策略。支持以下几个值earliest从最早的 offset 开始消费latest从最新的 offset 开始消费by_duration需要配置为 by_duration:ISO-8601 格式的时间例如 by_duration:PT1H 即从 1 小时前的位移开始消费none如果没找到消费组的 offset就会抛出异常第三个参数是 enable.auto.commit是否自动提交 offset默认是 true。在调用 poll 方法时会提交上一批次的 offset。也可以设置为 false这样就是手动提交自己控制在什么时候提交具体的细节我们以后再聊。第四个参数是 max.poll.records 表示单次拉取的消息条数默认是 500。如果单条数据的处理逻辑比较重可以调小这个值防止消费超时的情况。第五个参数是 session.timeout.ms表示心跳超时时间默认是 45000即 45 秒。如果 Broker 超过 45 秒没收到 Consumer 的心跳就认为这个 Consumer 挂了会将它踢出消费组然后进行 Rebalance。总结本文我们一起学习了涉及 Broker、Topic、Producer、Consumer 端的共 26 个配置参数这些都是我认为比较重要的。掌握之后可以对生产环境的调优有比较大的帮助。除了上面提到的这些你还知道有哪些比较重要的配置参数吗壬徘炒劫

相关文章:

如何设计一个扛住千万级流量的系统?

前面我们对 Kafka 的整体架构和一些关键的概念有了一个基本的认知,本文主要介绍 Kafka 的一些配置参数。掌握这些参数的作用对我们的运维和调优工作还是非常有帮助的。 写在前面 Kafka 作为一个成熟的事件流平台,有非常多的配置参数。详细的参数列表可以…...

从‘消费者-订单’到‘汽车-驾驶员’:用Mermaid erDiagram讲好你的业务模型故事

业务模型可视化的艺术:用ER图讲好你的领域故事 在数字化转型的浪潮中,清晰表达业务逻辑的能力已成为技术团队的核心竞争力。我曾参与过一个汽车共享平台的项目,当开发团队用"用户-订单"这样的通用术语讨论时,业务方频频…...

三步搞定百度文库付费文档:终极免费获取纯净PDF指南

三步搞定百度文库付费文档:终极免费获取纯净PDF指南 【免费下载链接】baidu-wenku fetch the document for free 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wenku 你是否经常在百度文库上找到心仪的文档,却发现需要付费或积分才能完整查…...

手把手教你:在Windows上用Node.js本地跑起DrawDB,并一键穿透到公网(保姆级避坑指南)

手把手教你:在Windows上用Node.js本地跑起DrawDB,并一键穿透到公网(保姆级避坑指南) 最近在GitHub上发现了一个颜值与实力并存的数据库设计工具——DrawDB。作为一个长期与数据库打交道的开发者,我立刻被它简洁的界面和…...

别墅装修工期到底多长算正常?一份给业主的项目排期对照表

有个事挺反直觉的:越大的房子,工期越不能催。前段时间在一个业主群里看到有人问“300平的联排,装修公司说至少要10个月,是不是在拖我时间”,底下回复五花八门,有人说“我家180平装了6个月就入住了”&#x…...

终极修复方案:QrazyBox如何拯救你的损坏二维码

终极修复方案:QrazyBox如何拯救你的损坏二维码 【免费下载链接】qrazybox QR Code Analysis and Recovery Toolkit 项目地址: https://gitcode.com/gh_mirrors/qr/qrazybox 想象一下,你精心准备的会议签到二维码因为打印质量问题变得模糊不清&…...

别再手动查颜色代码了!用Python+Pandas 5分钟自动生成你的专属颜色对照表

用PythonPandas打造智能颜色管理工具:从数据清洗到自动化查询 设计师和开发者在处理颜色代码时,常常陷入重复查找的困境——在CSS样式表、数据可视化图表或UI设计中频繁切换于各种颜色表示法之间。传统的手工查询不仅效率低下,还容易出错。其…...

iMeta短视频 | 最全可视化韦恩图和集合图工具EVenn使用手册

通讯点击蓝字 关注我们最全可视化集合工具EVenn使用手册iMeta主页:http://www.imeta.science研究论文● 期刊: iMeta (IF 33.2,中科院双一区TOP)● 原文链接DOI: https://doi.org/10.1002/imt2.184● 2024年4月11日,中国中医科学院陈同、黄璐…...

逆向分析ELF文件?用IDA远程调试Kali Linux,这份保姆级配置清单请收好(含linux_server64详解)

逆向工程实战:用IDA Pro远程调试Kali Linux的完整指南 当你面对一个Linux ELF可执行文件需要动态分析时,本地Windows环境往往无能为力。本文将带你搭建一套高效的远程调试环境,使用IDA Pro连接Kali Linux虚拟机,实现对ELF程序的深…...

Coze 怎么接入 GPT API?3 种方案实测,最后一种 5 分钟搞定

上个月有个朋友找我帮忙,他在 Coze 上搭了一套客服 Bot,用的是平台自带的模型,效果一般。他想换成 GPT-5.5 来跑,但折腾了两天没搞定——Coze 的插件配置界面改了好几版,网上的教程大部分还是 2024 年的截图&#xff0…...

保姆级教程:手把手教你用STM32F103自制一个带串口调试的STM32程序下载/复位控制板

从零打造STM32下载调试器:硬件设计到固件开发的完整实战指南 在嵌入式开发中,频繁地手动按压复位和BOOT按钮进行程序下载调试,不仅效率低下,还容易因操作失误导致芯片进入错误状态。本文将带你用STM32F103打造一款智能下载调试器&…...

如何用文本轻松绘制专业图表:Mermaid图表工具的完整指南

如何用文本轻松绘制专业图表:Mermaid图表工具的完整指南 【免费下载链接】mermaid Generation of diagrams like flowcharts or sequence diagrams from text in a similar manner as markdown 项目地址: https://gitcode.com/GitHub_Trending/me/mermaid 你…...

机器学习模型诊断:学习曲线的原理与应用

1. 学习曲线:机器学习模型性能诊断的利器第一次训练机器学习模型时,我盯着90%的训练准确率沾沾自喜,直到测试集上惨不忍睹的30%准确率给了我一记耳光。这种过拟合问题困扰了我整整两周,直到导师扔给我一句:"画个学…...

报名实操篇(07)——报名后做什么?备考启动清单(人工智能训练师三级)

报名后做什么?备考启动清单(人工智能训练师三级)恭喜,报名完成了。 但很多人在这一步就进入了"等待模式"——等考试,等培训,等通知……结果考前两周才临时抱佛脚,要么考砸&#xff0c…...

终极解决方案:如何彻底解决Steam下载后电脑空转的能源浪费

终极解决方案:如何彻底解决Steam下载后电脑空转的能源浪费 【免费下载链接】SteamShutdown Automatic shutdown after Steam download(s) has finished. 项目地址: https://gitcode.com/gh_mirrors/st/SteamShutdown 还在为Steam下载完成后电脑整夜运行而烦恼…...

Wayback Machine浏览器扩展:你的终极网页存档解决方案

Wayback Machine浏览器扩展:你的终极网页存档解决方案 【免费下载链接】wayback-machine-webextension A web browser extension for Chrome, Firefox, Edge, and Safari 14. 项目地址: https://gitcode.com/gh_mirrors/wa/wayback-machine-webextension Way…...

GIS数据处理避坑指南:字段别名混乱?教你用ArcGIS Pro属性映射工具5分钟搞定

GIS数据规范化实战:5分钟解决字段别名混乱的行业难题 打开电脑看到同事发来的十几个图层文件,每个字段别名要么是乱码、要么干脆空白——这种场景对GIS从业者来说再熟悉不过了。不同部门、不同系统导出的数据,字段命名规则千差万别&#xff0…...

从“路怒症”到“老司机”:在SUMO里用四种变道模型,模拟真实城市交通博弈

从“路怒症”到“老司机”:在SUMO里用四种变道模型模拟城市交通博弈 环岛入口处五辆车同时减速,最外侧车道的卡车突然打转向灯,后方三辆轿车同时做出不同反应:一辆急刹让行,一辆加速抢道,另一辆则微妙地调…...

Navicat无限试用终极指南:Mac用户必备的免费重置方案

Navicat无限试用终极指南:Mac用户必备的免费重置方案 【免费下载链接】navicat_reset_mac navicat mac版无限重置试用期脚本 Navicat Mac Version Unlimited Trial Reset Script 项目地址: https://gitcode.com/gh_mirrors/na/navicat_reset_mac 还在为Navic…...

AI 学习笔记:Agent 的能力体系

Qt是一个跨平台C图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本笔记将重点介绍QSpinBox数值微调组件的常用方法及灵活应用。…...

HTML中使用Canvas动态图形渲染:解锁Web交互新维度

在Web开发领域&#xff0c;动态图形渲染是构建沉浸式用户体验的核心技术之一。HTML5的<canvas>元素凭借其强大的JavaScript API&#xff0c;为开发者提供了在浏览器中直接操作像素的底层能力。从实时数据可视化到交互式动画&#xff0c;Canvas正在重新定义Web应用的视觉表…...

告别WPS保存报错:一份给Python开发者的pywin32与WPS兼容性配置清单

深度解析Python与WPS交互&#xff1a;pywin32兼容性配置全指南 当Python开发者尝试通过pywin32库与WPS进行自动化交互时&#xff0c;经常会遇到各种COM组件错误。这些错误往往源于复杂的版本依赖、系统权限配置和软件设置问题。本文将系统性地梳理pywin32与WPS的兼容性问题&…...

HTML中的Canvas可以干哪些事情

在Web开发的动态世界中&#xff0c;HTML5的<canvas>元素犹如一把瑞士军刀&#xff0c;凭借其强大的图形渲染能力&#xff0c;正在重塑网页交互的边界。从实时数据可视化到沉浸式游戏开发&#xff0c;从图像处理到增强现实应用&#xff0c;Canvas通过JavaScript的像素级控…...

基于向量数据库与LLM构建持久化记忆系统的工程实践

1. 项目概述&#xff1a;当AI学会“记笔记”最近在折腾一个挺有意思的开源项目&#xff0c;叫neural-memory。简单来说&#xff0c;它试图解决一个困扰很多AI应用开发者的核心问题&#xff1a;如何让大语言模型&#xff08;LLM&#xff09;拥有更持久、更结构化的“记忆”能力。…...

PHP 8.9 Fiber vs Swoole vs RoadRunner:横向压测对比报告(含CPU/内存/错误率/启动耗时6维数据)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;PHP 8.9 Fiber高并发架构演进与核心价值 PHP 8.9 并非官方已发布版本&#xff08;截至 2024 年&#xff0c;PHP 最新稳定版为 8.3&#xff09;&#xff0c;但作为技术前瞻性的概念演进&#xff0c;&quo…...

Windows风扇控制终极指南:如何用Fan Control实现智能散热与静音平衡

Windows风扇控制终极指南&#xff1a;如何用Fan Control实现智能散热与静音平衡 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHu…...

Video2X终极指南:如何用AI轻松实现视频4K超分辨率

Video2X终极指南&#xff1a;如何用AI轻松实现视频4K超分辨率 【免费下载链接】video2x A machine learning-based video super resolution and frame interpolation framework. Est. Hack the Valley II, 2018. 项目地址: https://gitcode.com/GitHub_Trending/vi/video2x …...

机器学习模型开发中的Tiny Test Models实践指南

1. Tiny Test Models 项目概述在机器学习模型开发过程中&#xff0c;我们经常需要快速验证算法思路或架构设计的可行性。传统做法是直接在大规模数据集上训练完整模型&#xff0c;这不仅耗时耗力&#xff0c;还可能因为早期设计缺陷导致大量计算资源浪费。Tiny Test Models&…...

FileBrowser配置太复杂?一份JSON配置文件搞定所有,附详细参数解读

FileBrowser配置进阶指南&#xff1a;JSON驱动的自动化管理实践 对于经常需要部署和调整FileBrowser的技术团队而言&#xff0c;反复通过命令行参数配置不仅效率低下&#xff0c;更难以实现配置的版本控制和批量部署。本文将揭示如何通过JSON配置文件实现声明式配置管理&#x…...

别再为Keil的printf发愁了!三种方法(含MicroLIB和半主机)保姆级配置指南

Keil环境下printf调试全攻略&#xff1a;从MicroLIB到自定义实现的深度解析 第一次在Keil MDK中尝试使用printf函数输出调试信息时&#xff0c;那种期待与现实的落差感至今记忆犹新。编译通过&#xff0c;程序运行&#xff0c;但串口助手却一片空白——这几乎是每个嵌入式开发者…...