当前位置: 首页 > article >正文

分片 vs 分布式:弹性与高可用性背后的数学原理

分片 vs. 分布式弹性与高可用性背后的数学原理Chris SmithJuly 14, 2025原文链接概率论Probability theory是数学中研究不确定性的分支。它帮助我们理解不同结果发生的可能性。在本文中我们将考虑两种水平扩展数据库的替代架构方案并运用概率论来评估每种架构对潜在故障的弹性resilience。垂直 vs. 水平数据库架构选项垂直扩展Vertical scaling涉及增加单台服务器的资源以提升其处理能力。这意味着为现有服务器添加更多 CPU、内存或存储资源。这种扩展方式受到单台服务器物理限制的影响并且在连接数、每秒事务数transactions per second和存储方面有着明确的上限。水平扩展Horizontal scalability涉及将工作负载分散到多台服务器上。这种方法允许向系统中添加额外的服务器提供了一条超越单台服务器能力的可扩展路径。水平数据库扩展架构选项本文考虑的两种水平扩展架构是应用层分片Application-Level Sharding和分布式 SQLDistributed SQL。应用层分片应用层分片是一种水平扩展策略它利用特定领域的知识将数据分区到运行在多台服务器上的多个数据库实例中。每个数据库实例都是隔离的使工作负载能够被扩展。这种架构需要自定义逻辑来处理路由、重新平衡和跨分片操作。分布式 SQL分布式 SQLDistributed SQL数据库如 YugabyteDB提供了一个单一的逻辑数据库可跨多台服务器水平扩展并具有内置的复制和基于法定人数quorum-based的逻辑来实现全局 ACID 事务。可以添加额外的服务器并集成到系统中从而扩展工作负载。自动路由、重新平衡和跨分片操作的处理简化了开发并加快了上市时间。但**高可用性high availability和弹性resilience**又如何呢这两种水平可扩展架构的正常运行时间特性如何比较在本次比较中我们假设两种架构都在 Google Cloud Platform 上运行使用作为 Compute Engine Service 一部分托管的 VM虚拟机。Google Cloud Platform 为单个 VM/实例提供 99.9% 的月度正常运行时间服务级别目标Service Level Objective, SLO。我们将在系统可用性计算中使用此 SLO详见https://cloud.google.com/compute/sla?hlen架构 1 – 应用层分片什么是应用层分片应用分片系统将数据分区到多台服务器上这些服务器随后半独立地运行。数据在服务器之间手动分区——例如客户 A–F 在服务器 1 上G–L 在服务器 2 上等等。每台服务器仅负责其数据切片。应用程序必须将查询路由到正确的服务器。如果一台服务器发生故障其数据将变得不可用即使其他服务器是健康的。该架构由多台独立运行的数据库服务器并行组成。每台服务器保留与底层单体架构相同的计算资源需求配置。6 节点应用层分片系统的可用性假设我们有 6 个数据库节点每个节点都在 GCP 中自己的虚拟机实例上运行。GCP 为每个 VM 提供 99.9% 的服务级别目标。我们知道节点可用的概率P(节点可用) 0.999节点彼此独立系统需要所有 6 个节点都可用在概率论中独立事件是指其结果互不影响的事件。例如当投掷四个骰子时每个骰子上显示的数字与其他三个骰子无关。类似地在 4 节点应用分片集群中每台服务器的可用性独立于其他服务器。这意味着每台服务器都有各自可用或不可用的概率一台服务器的故障不受集群中其他服务器故障与否的影响。实际上可能存在共享资源或共享基础设施将一台服务器的可用性与另一台服务器联系起来。用数学术语来说这意味着事件是相关的。然而我们认为这类故障的概率较低因此在本分析中不予考虑。从数学上讲如果两个事件 A 和 B 是独立的那么 A 和 B 同时发生的概率是它们各自概率的乘积P(A 和 B) P(A)*P(B)以骰子为例投掷一个骰子得到 6 的概率是1/6 0.16667。同时投掷出六个 6 的概率是(1/6)^6 0.00002回到我们的 6 节点数据库集群P(所有 6 个节点可用) P(1 个节点可用)^6 0.999^6 0.99401因此6 节点分片架构支持 99.4% 的服务级别目标这明显低于底层 VM 的 SLO。架构 2 – 分布式 SQL什么是分布式 SQL 集群分布式 SQL 数据库自动将单个逻辑数据库的数据分片到多台服务器上。此外为了弹性它为每个分片维护副本并通常使用基于法定人数的算法来协调更新确保读写操作的强一致性。每个数据分片在多个节点上复制其中一个副本被指定为 leader领导者。写入数据需要法定人数**多数**例如如果复制因子replication factor, RF为 3则需要 3 个中的 2 个。读取也需要法定人数这通过将请求路由到 leader 来优雅地实现避免了向所有 3 个副本发出读取并等待多数响应的需要。数据不绑定到单个节点。系统可以容忍节点故障并仍然提供服务请求。6 节点 RF3 分布式 SQL 集群的可用性假设我们有 6 个节点每个节点都在 GCP 中自己的虚拟机实例上运行。GCP 为每个 VM 提供 99.9% 的服务级别目标。每个节点管理一个或多个数据分片。每个分片都处于一个法定人数组中其数据复制到其他两个节点上假设复制因子RF为 3。为了防止可用区Availability Zone, AZ中断和单个节点故障集群通常分布在三个可用区中数据分布算法确保分片的副本始终放置在不同的可用区中。在概率论中二项分布binomial distribution对一系列试验或测试期间的预期结果数量进行建模。例如在投掷骰子时二项分布可用于计算投掷三个骰子时得到两个 6 的概率。我们知道掷出 6 的概率是1/6 0.16667。我们知道掷不出 6 的概率是5/6 0.83333。因此掷出两个 6 后跟一个非 6的概率是0.16667 * 0.16667 * 0.83333 0.02315 2.315%玩家可能以以下任意组合掷出一对 6掷出两个 6然后是一个非 6掷出一个 6一个非 6然后再一个 6掷出一个非 6然后是两个 6。3 种掷骰组合会产生一对 6。因此掷出一对 6 的概率是3 * 2.315% 6.944%计算二项分布的公式如下假设 p 是 1 次试验中成功的概率P(n 次试验中 k 次成功) n/k · p^k * (1-p)^(n-k)其中 n/k n 中选 k 的组合数 n!/(k!·(n-k)!)注意“n 中选 k 的组合是英国术语美国数学学生将其理解为n choose k”。因此计算投掷 3 个骰子时得到两个 6 的概率P(3 个骰子中两个 6) 3/2 · p^2 · (1-p) 3 · p · (1 – p) 3 * 0.16667^2 * 0.83333 0.06944回到我们的 6 节点数据库集群我们可以使用二项分布来计算 n 个节点的集群中 k 个服务器可用的概率。计算如下P(n 个服务器中 k 个可用) n/k · p^k * (1-p)^(n-k) 其中 n/k n!/(k!·(n-k)!)我们知道P(节点可用) 0.999节点彼此独立节点均匀分布在 3 个可用区中有许多法定人数组分布在服务器上Raft 组的组织方式确保副本始终位于不同的可用区中如果丢失 1 个节点只有 1 份数据副本受到影响因此集群保持可用如果丢失 2 个节点只要它们在同一 AZ 中只有 1 份数据副本受到影响因此集群保持可用。如果丢失 3 个或更多节点2 份或更多数据副本受到影响集群将变得不可用。换句话说6 节点系统在以下情况下可用所有 6 个节点都在线恰好 5 个节点在线恰好 4 个节点在线但两个下线的节点在同一 AZ 中。P(法定人数) P(6 个在线) P(5 个在线) P(4 个在线且 2 个下线在同一 AZ 中)在 6 节点集群中选择 4 个节点的组合加上 2 个不可用节点必须来自单个可用区的附加约束被称为约束组合集Constrained Combinatorial Sets。这是指从更大的组中选择项目但具有某些限制可能组合的规则或限制。这些约束可以基于元素之间的关系、资源限制或其他因素从而减少有效组合的数量。在我们的案例中我们只能从 1 个可用区中选择元素。通过在 6 节点集群中选择 4 个节点的具体案例我们有(6 选 4) 6!/4!(6-4)! 6!/(4!·2!) 720/(24·2) 15计算 6 节点集群中 4 个节点的组合加上另外 2 个节点必须来自单个可用区的附加约束在数学上较为复杂但直观地说另外 2 个节点在 AZ1、AZ2 或 AZ3 中因此有 3 种组合。所以我们有(6 约束选 4) 3我们将使用以下符号来描述约束组合集约束条件为未选择的项目来自 1 个 AZ(n 约束选 k) 表示在 RF3 配置中从 n 个中选择 k 个其中 (n – k) 个来自 1 个 AZ在 RF5 配置中来自 1 或 2 个 AZ。回到计算P(6 个在线) (6 约束选 6) · p^6 0.999^6 0.9940149800P(5 个在线) (6 约束选 5) · p^5 · (1-p) 6 · p^5 · (1 – p) 0.0059700599P(4 个在线) (6 约束选 4) · p^4 · (1-p)^2 3 · p^4 · (1-p)^2 0.0000029880P(法定人数) 0.9940149800 0.0059700599 0.0000029880 0.9999880279因此6 节点 RF3 基于法定人数的架构支持 99.998% 的服务级别目标这明显高于底层 VM 的 SLO。10 节点 RF5 分布式 SQL 集群的可用性假设我们有 10 个节点每个节点都在 GCP 中自己的虚拟机实例上运行。GCP 为每个 VM 提供 99.9% 的服务级别目标。每个节点管理一个或多个数据分片。每个分片都处于一个法定人数组中其数据复制到其他四个节点上假设复制因子RF为 5。为了防止可用区中断和单个节点故障集群通常分布在五个可用区中。数据分布算法确保分片的副本始终放置在不同的可用区中。我们知道P(节点可用) 0.999节点彼此独立节点均匀分布在 5 个可用区中有许多法定人数组分布在服务器上Raft 组的组织方式确保副本始终位于不同的可用区中如果丢失 1 个节点只有 1 份数据副本受到影响因此集群保持可用如果丢失 2 个节点只有 2 份数据副本受到影响因此集群保持可用如果丢失 3 个节点只要它们在 2 个或更少的 AZ 中只有 2 份数据副本受到影响因此集群保持可用。如果丢失 4 个节点只要它们在 2 个或更少的 AZ 中只有 2 份数据副本受到影响因此集群保持可用。如果丢失 5 个或更多节点3 份或更多数据副本受到影响集群将变得不可用。P(法定人数) P(10 个在线) P(9 个在线) P(8 个在线) P(7 个在线) P(6 个在线)以下所有组合都是约束组合集约束条件为未选择的项目来自两个或更少的可用区。P(10 个在线) (10 约束选 10) · p^10 · (1-p)^0 1 · p^10 · (1-p)^0 0.9900448802P(9 个在线) (10 约束选 9) · p^9 · (1-p)^1 10 · p^9 · (1-p)^1 0.0099103592P(8 个在线) (10 约束选 8) · p^8 · (1-p)^2 45 · p^8 · (1-p)^2 0.0000446413P(7 个在线) (10 约束选 7) · p^7 · (1-p)^3 40 · p^7 · (1-p)^3 0.0000000397P(6 个在线) (10 约束选 6) · p^6 · (1-p)^4 10 · p^6 · (1-p)^4 0.0000000000P(法定人数) 0.9999999204因此10 节点 RF5 基于法定人数的架构支持 99.999992% 的服务级别目标这显著高于 RF3 集群的 SLO。总结架构对可用性的影响传统架构受到单节点故障风险的限制。应用层分片加剧了这个问题因为如果一个节点宕机其分片以及整个系统将变得不可用。相比之下具有基于法定人数共识的分布式数据库如 YugabyteDB提供了容错能力和可扩展性从而实现更高的弹性和改进的可用性。直接比较架构服务级别目标单节点99.9%三个 96 节点应用层分片99.4%两个 96 节点 RF3 分布式 SQL 集群99.998%四个 910 节点 RF5 分布式 SQL 集群99.999992%七个 9宕机的业务影响数学概率可能是一个难以把握的概念。例如如果天气预报模型预测周三有 50% 的降雨概率这并不意味着半天都会下雨。然而如果预报说周四有 75% 的降雨概率该模型预测周三干燥的可能性是周四的两倍。我们计算如下P(周三干燥) 1 – P(周三降雨) 1 – 0.5 0.5P(周四干燥) 1 – P(周四降雨) 1 – 0.75 0.25周三与周四相比干燥的可能性 P(周三干燥) / P(周四干燥) 0.5 / 0.25 2上面的汇总表显示与 10 节点 RF5 分布式 SQL 集群相比使用 6 节点应用层分片架构时故障的可能性要大得多。具体而言6 节点应用分片与 10 节点 RF5 相比的故障可能性 (P(6 节点应用分片不可用)) / (P(10 节点 RF 不可用)) (100 – 99.4) / (100 – 99.999992) 75000弹性重要吗提供高吞吐量、实时交易服务的企业——如支付处理商和反洗钱anti-money laundering, AML平台——对其基础设施的弹性有着至关重要的依赖。每一分钟的宕机都是收入的损失。它会侵蚀信任并可能导致客户流失。例如一个每秒处理 10,000 笔交易、每笔 50 美元、收取 2% 费用的平台仅费用方面每分钟就会损失 600,000 美元的收入。Comply Advantage 的 CTP Mark Watson 表示该平台实时监控交易以检测欺诈和 AML 违规行为“一次 outage中断可能会让非法活动逃过检测为我们的客户带来监管风险可能产生数十万美元的连带责任。我们在严格的合同正常运行时间保证下运营因为一次中断可能触发罚款和立即的高层升级。”所以是的弹性很重要。这就是为什么运营弹性已经超越了在故障场景期间激活的有据可查的流程和 runbook运行手册现在通过分布式 SQL 等弹性自愈架构来解决。这就是 DORA《数字运营弹性法案》Digital Operational Resilience Act的目的该法案旨在通过确保企业能够承受、应对和从所有类型的技术中断和威胁中恢复来加强欧盟金融部门的数字弹性。结论传统架构特别是使用单节点或应用层分片的架构容易发生故障且可用性有限。相比之下具有基于法定人数复制的分布式 SQL 数据库如 YugabyteDB提供了显著更高的可用性、容错能力和弹性。这种差异不仅是技术性的更是业务关键性的宕机可能导致巨大的收入损失、声誉损害和监管风险。随着运营需求和监管期望的增加采用弹性自愈架构对于任何依赖高吞吐量、实时服务的企业来说都变得至关重要。阅读我们的新白皮书Architecting Apps for Ultra-Resilience with YugabyteDB了解更多关于超高弹性ultra-resilience的信息为什么它对现代应用程序至关重要以及 YugabyteDB 如何帮助您实现它。

相关文章:

分片 vs 分布式:弹性与高可用性背后的数学原理

分片 vs. 分布式:弹性与高可用性背后的数学原理 Chris Smith July 14, 2025 原文链接 概率论(Probability theory)是数学中研究不确定性的分支。它帮助我们理解不同结果发生的可能性。在本文中,我们将考虑两种水平扩展数据库的替…...

2026年量子计算与人工智能国际学术会议(ICQCAI 2026)

2026 年量子计算与人工智能国际学术会议(ICQCAI 2026)将于 2026 年5月8 - 10日在北京举行。本次会议聚焦量子计算与人工智能的融合发展趋势,为全球学者、研究人员和行业专家搭建交流平台。近年来,量子计算与人工智能的融合成为科技…...

《Python空间数据处理》教材发布了

由我主编的《Python空间数据处理》教材正式上架京东! 书中案例对应的数据、代码和教学中使用的课件可以在GitHub进行下载。 欢迎需要的朋友选购,欢迎批评指正!!!谢谢大家的支持!...

JavaScript窗口大小调整resize事件的适配方案

应节流控制并精准判断尺寸变化:设定100–250ms时间阈值限制resize触发频率,缓存并比对window.innerWidth/innerHeight避免无意义执行;局部变化优先用ResizeObserver;组件卸载时务必清除监听器防内存泄漏。监听窗口大小变化时&…...

设备维护系统功能拆解:它能解决哪些设备维护难题?

在现代工业生产中,高效的设备维护是企业生存的根本,但传统模式常面临响应慢、记录乱的困境,而数字化的设备维护系统正是解决这些难题的利器。以简道云为例,作为国内领先的零代码平台,它允许企业像搭积木一样快速搭建专…...

构建有益AI:价值对齐与工程实践框架

1. 项目概述"Building a Beneficial AI"这个标题背后蕴含着人工智能领域最前沿也最具挑战性的研究方向——如何确保AI系统的发展真正造福人类社会。作为一名在AI安全领域工作多年的从业者,我见证了太多技术突破带来的双刃剑效应。今天我想分享的&#xff…...

基于Simulink的无线充电系统LCC补偿网络建模与控制

目录 手把手教你学Simulink ——基于Simulink的无线充电系统LCC补偿网络建模与控制 一、引言:为什么需要LCC补偿? 二、LCC补偿原理与拓扑选择 1. 常见补偿拓扑对比 2. LCC等效电路分析 三、系统架构与控制逻辑 四、Simulink建模全流程 第一步:构建LCC主电路 1. 松耦…...

【大白话说Java面试题】【Java基础篇】第16题:HashMap中Key为null时,元素存放的位置

第16题:HashMap中Key为null时,元素存放的位置 📚 回答: 答案:当HashMap的key为null时,元素会被存放在数组的第0号位置(即索引为0)。 底层原理: HashMap在计算元素存储位…...

OpenEvolve:基于进化算法的AutoML实战指南

1. 项目背景与核心价值OpenEvolve这个开源项目复现了DeepMind提出的AlphaEvolve算法框架,这是一个基于群体智能的自动化机器学习(AutoML)系统。我在实际部署这类算法时发现,相比传统手工调参,它能将模型开发效率提升3-…...

突破物理界限:如何用scrcpy实现跨平台Android设备深度管理

突破物理界限:如何用scrcpy实现跨平台Android设备深度管理 【免费下载链接】scrcpy Display and control your Android device 项目地址: https://gitcode.com/gh_mirrors/sc/scrcpy 在移动开发、远程协助和多媒体演示的日常工作中,开发者和技术爱…...

移动端AI OCR模型选型

一、部署策略概览 在手机端部署AI OCR模型,核心挑战是在精度、速度、体积三者之间找到平衡点。传统OCR模型动辄上百MB,而移动端要求模型体积控制在10MB以内且保持毫秒级推理速度。完整的部署路径包括四个关键环节:模型选型(核心能…...

学Simulink——基于Simulink的无线充电系统LCC补偿网络建模与控制

目录 手把手教你学Simulink ——基于Simulink的无线充电系统LCC补偿网络建模与控制 一、引言:为什么需要LCC补偿? 二、LCC补偿原理与拓扑选择 1. 常见补偿拓扑对比 2. LCC等效电路分析 三、系统架构与控制逻辑 四、Simulink建模全流程 第一步:构建LCC主电路 1. 松耦…...

站在行业十字路口,中国营养土的下一个黄金十年该去向何方?

当前的中国营养土与栽培基质行业,正处在一个混沌与希望交织的十字路口。一边是市场规模以两位数速度膨胀,全球设施农业、智慧农业带来前所未有的基础设施需求;另一边却是劣质原料泛滥、标准缺失引发的信任低谷。低价内卷、以次充好正在反噬整…...

YOLO11语义分割注意力机制改进:全网首发--使用CASAB多层注入增强多尺度特征筛选(方案3)

1. 工程简介 🚀 本工程基于 Ultralytics 框架扩展,面向语义分割与 YOLO 系列模型改进实验。核心特点是通过切换 yaml 配置文件,即可快速完成不同网络结构的训练、对比与验证,无需为每个模型单独编写训练脚本。 当前已支持的主要…...

5分钟掌握TranslucentTB:让你的Windows任务栏瞬间变透明的终极美化方案

5分钟掌握TranslucentTB:让你的Windows任务栏瞬间变透明的终极美化方案 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 厌倦了…...

大模型技术路线图:Transformer已不再是唯一选择,多方博弈下的未来趋势解读!

文章分析了当前大模型的技术演进格局,指出其已不再是单一方向的线性推进,而是形成了多条相互竞争、借鉴且底层数学趋同的路线。文章从主干序列建模、记忆与上下文扩展、规模化与系统实现三个层次详细剖析了自注意力、状态空间模型、线性递推、长卷积等不…...

从零构建AI Agent:新手必看!5种核心工作流+实战避坑指南

本文从AI Agent的核心运作原理出发,详细解析了LLM、工具和记忆的角色,并区分了工作流与Agent的适用场景。文章重点介绍了五种核心工作流模式(提示词链、路由、并行化、编排者-工作者、评估者-优化者),为新手提供了构建…...

推荐系统中的轻量级适配器头技术与多兴趣建模

1. 轻量级适配器头的技术背景与核心价值在当今推荐系统领域,用户兴趣建模正面临三个关键挑战:兴趣多样性、计算效率和模型可解释性。传统单一向量表示法(如双塔模型)难以捕捉用户的多维度兴趣,而完全端到端的多兴趣模型…...

Cognita开源RAG框架实战:构建企业级智能知识库的模块化方案

1. 项目概述:当向量数据库遇上RAG,Cognita如何重塑企业知识管理?最近在折腾企业级知识库和智能问答系统时,我几乎把所有主流的RAG(检索增强生成)框架都试了个遍。从早期的LangChain、LlamaIndex&#xff0c…...

如何用FanControl在5分钟内彻底掌控电脑风扇:新手必看的完全指南

如何用FanControl在5分钟内彻底掌控电脑风扇:新手必看的完全指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_T…...

DeepSeek-V4 爆发!无预告开源,百万上下文+华为昇腾,中国AI破局之战!

没有发布会,没有预告片,甚至没有任何铺垫——就在一个普普通通的周四中午,DeepSeek 直接在官网甩出了 V4 预览版和全套开源权重。 这种感觉,像极了它一年前的风格。这一次,不一样了 如果说 2025 年 1 月的 R1 是 DeepS…...

DeepSeek-V4横空出世!AI巨头争相接入,国产大模型引领算力浪潮!

百度正式发布DeepSeek-V4大模型并开源,分为Pro和Flash两个版本。寒武纪、AccioWork、摩尔线程等巨头纷纷完成适配,展现国产大模型强大能力。DeepSeek-V4在上下文处理、推理性能等方面领先,预计将推动国产算力发展,券商看好国产算力…...

2026 收藏|大模型爆发期来袭!小白 程序员零基础转型全攻略

2026年,国内人工智能领域正式迈入高质量爆发期。行业早已告别“参数竞赛”的粗放增长,转向以效率优化、场景深耕、价值落地为核心的新阶段。从底层算法的持续迭代,到垂类大模型的井喷式落地,再到千行百业的深度渗透,整…...

深度解析Universal Android Debloater:无需Root的安卓系统瘦身终极指南

深度解析Universal Android Debloater:无需Root的安卓系统瘦身终极指南 【免费下载链接】universal-android-debloater Cross-platform GUI written in Rust using ADB to debloat non-rooted android devices. Improve your privacy, the security and battery lif…...

PoseFormerV2 训练完全指南:理论与实战

PoseFormerV2 训练完全指南:理论与实战 目录 引言:从 PoseFormer 到 PoseFormerV2 PoseFormerV2 核心技术原理 环境配置与项目结构 数据集准备与预处理 论文基线精度复现 目标精度 9.0 的优化策略 模型架构的定制与实现 训练配置的精细调优 完整训练代码详解 评估与验证 常见…...

AstronClaw+Loomy:云端AI大脑与本地智能终端的协同办公实践

1. 项目概述:从“能用”到“好用”的AI助手进化之路 如果你和我一样,在过去一年里尝试过各种AI工具,从ChatGPT到Claude,再到国内外的各类Agent框架,那你一定经历过一个典型的“过山车”式体验:一开始被它们…...

医学影像AI的幻觉问题与CCD解决方案

1. 医学影像AI的幻觉困境与临床需求放射科医生每天需要解读数十甚至上百张医学影像,这项高强度工作正面临AI技术的变革。多模态大语言模型(MLLMs)通过结合视觉编码器和语言模型,展现出令人惊艳的影像描述能力。但当我在实际测试最新模型时,发…...

OPNET城轨广播系统组网性能与可靠性仿真设计

OPNET城轨广播系统组网性能与可靠性仿真设计 摘要 城市轨道交通广播系统作为乘客信息系统(PIS)的重要组成部分,承担着日常客运广播、突发事件应急广播和运营调度指挥等关键功能,其网络性能与可靠性直接影响城市轨道交通的安全性、准点率和乘客满意度。本文针对城轨广播系…...

BPE算法解析:从原理到NLP实践

1. 从香蕉到班达纳:BPE算法核心解析第一次看到"banana"被拆解成"ban"和"ana"时,我正盯着屏幕上的BPE算法输出发呆。这种看似简单的子词划分方式,后来彻底改变了我对文本处理的理解。BPE(Byte Pair …...

5步掌握ExtractorSharp:终极游戏资源编辑与补丁制作工具

5步掌握ExtractorSharp:终极游戏资源编辑与补丁制作工具 【免费下载链接】ExtractorSharp Game Resources Editor 项目地址: https://gitcode.com/gh_mirrors/ex/ExtractorSharp ExtractorSharp是一款功能强大的开源游戏资源编辑器,专门用于编辑和…...