当前位置：首页 > article >正文

摩尔投票算法实战：从原理到多语言实现全解析

article 2026/4/15 6:35:56

1. 摩尔投票算法一个“少数服从多数”的巧妙游戏如果你经常刷算法题或者在工作中处理过海量数据肯定遇到过这么一类问题怎么从一个长长的列表里快速找出那个出现次数超过一半的“老大”最直接的想法可能是用个字典或者哈希表把每个数出现的次数都记下来然后看谁最多。这方法没错但需要额外的存储空间如果数据量特别大内存开销就是个问题。这时候摩尔投票算法Boyer-Moore Voting Algorithm就该登场了。我第一次接触这个算法时感觉它简直像变魔术——只用两个变量遍历一遍数组就能把答案“投”出来空间复杂度是常数 O(1)。这背后其实是一个非常生活化的“抵消”思想。想象一下有一群人在投票选村长候选人有好几个。但你知道最终赢家必须获得超过一半的票数。现在我们让所有人排成一队挨个说出自己支持的候选人名字。我们派一个记分员他手里只记两样东西当前暂时领先的候选人名字以及这个候选人的“净胜票数”。记分员从第一个人开始听。一开始他手里是空的所以第一个人说的名字他就记成当前领先者净胜票数设为1。接着听第二个人的如果第二个人说的名字和当前领先者一样那净胜票数就加1变成2如果不一样那就相当于投了反对票净胜票数减1变成0。一旦净胜票数减到0记分员就“忘掉”之前的领先者把当前这个人说的名字设为新的领先者净胜票数重置为1。就这么一直听下去。因为最终的赢家票数超过一半所以无论中间过程怎么抵消支持他的票总会比反对他的票多最后留在他手里的那个名字大概率就是真正的赢家。当然为了万无一失我们最后可以再重新数一遍这个人的总票数确认一下是否真的超过半数。这个“听投票、抵消、换人”的过程就是摩尔投票算法的精髓。它把统计“次数”的问题转化成了动态的“抵消”游戏省去了存储所有票数的开销非常巧妙。2. 算法核心拆解“投票”与“抵消”的每一步理解了生活化的比喻我们再来把算法的骨架拆开看看它的数学原理和具体是怎么运作的。这能帮助你在遇到变种问题时也能自己推导出解法。2.1 基本思想与变量维护算法的核心在于维护两个变量candidate候选人当前我们认为可能是“多数元素”的那个值。count计数这个候选人的“相对优势分数”它不是简单的出现次数而是经过抵消后的净胜值。整个算法流程就两步投票阶段和验证阶段。投票阶段就是上面那个记分员听投票的过程写成伪代码逻辑是这样的初始化candidate为None(或任意值)count为 0。遍历数组中的每一个数字num如果count为 0说明目前没有优势候选人那么就把candidate设为当前的num同时count设为 1。如果count不为 0则比较num和candidate如果相等count加 1支持票。如果不相等count减 1反对票抵消一票。遍历结束后candidate中存储的就是可能的多数元素。可选但推荐验证阶段再遍历一次数组统计candidate真实出现的次数看是否大于数组长度的一半。2.2 数学原理为什么它一定有效你可能会问这么简单的抵消最后剩下的就一定是那个超过半数的元素吗万一最后剩下的是个“运气好”的少数派呢我们可以从数学上简单论证一下。假设数组长度为n真正的多数元素是x它出现的次数是m且m n/2。那么非x的元素总数就是n - m n/2。在投票阶段每次遇到xcount可能加1每次遇到非xcount减1。我们可以把整个过程看作是x的票和非x的票在互相抵消。因为x的票数 (m) 比所有非x的票数总和 (n-m) 还要多所以即使最坏的情况——每一次非x出现都恰好抵消掉一个x——在全部抵消完后x仍然会剩下m - (n - m) 2m - n 0张票。这些“剩票”就保证了在算法运行过程中x永远不会被完全淘汰出局并且最终candidate一定会是x。这个论证也解释了为什么算法不保证在不存在多数元素时给出正确结果。如果没有任何一个元素的次数超过一半那么最后candidate中的值只是一个“幸存者”不一定是出现次数最多的那个。这就是验证阶段重要的原因尤其是在问题没有明确说明一定存在多数元素时。3. 手把手实现三种主流语言代码精讲理论懂了不写代码等于白搭。下面我用 Python、Java 和 C 分别实现一遍基础版的摩尔投票算法并附上详细的注释和测试案例。你会发现虽然语言语法不同但核心逻辑一模一样非常容易迁移。3.1 Python实现简洁与清晰Python 的代码写起来最贴近伪代码非常易于理解。我习惯在函数开头写个文档字符串说明功能和参数。def majority_element(nums): 使用摩尔投票算法寻找数组中的多数元素。前提假设数组中一定存在多数元素出现次数 n/2。参数: nums: List[int]输入的数字列表。返回: int找到的多数元素。 # 初始化候选人和计数 candidate None count 0 # 第一遍遍历投票阶段 for num in nums: if count 0: # 当前没有候选人占优当前数字成为新候选人 candidate num count 1 elif num candidate: # 遇到支持票计数增加 count 1 else: # 遇到反对票计数减少抵消 count - 1 # 第二遍遍历验证阶段在实际问题中如果题目保证有可省略 # 但养成验证的习惯更稳健 count_verify 0 for num in nums: if num candidate: count_verify 1 if count_verify len(nums) // 2: return candidate else: # 理论上不会走到这里因为假设存在多数元素 return None # 测试一下 if __name__ __main__: test_case1 [2, 2, 1, 1, 1, 2, 2] test_case2 [3, 3, 4, 2, 3] print(f测试数组 {test_case1} 的多数元素是: {majority_element(test_case1)}) # 输出 2 print(f测试数组 {test_case2} 的多数元素是: {majority_element(test_case2)}) # 输出 3几个实战细节candidate初始化为None比初始化一个数字如0更安全因为如果数组是[0,0,1,1,1]初始化0可能会引入歧义。验证阶段我用了//做整数除法确保阈值是整数。len(nums) // 2表示超过一半的下界。即使题目保证有解我也保留了验证步骤。这是一个好习惯特别是在生产代码中能防止意外数据导致错误。3.2 Java实现严谨与高效Java 作为静态类型语言的代表代码看起来会更“厚重”一些但逻辑完全一致。我们把它写在一个类里。public class BoyerMooreVoting { public static int majorityElement(int[] nums) { // 初始化 Integer candidate null; // 使用Integer以支持null int count 0; // 投票阶段 for (int num : nums) { if (count 0) { candidate num; count 1; } else if (num candidate) { count; } else { count--; } } // 验证阶段 int verifyCount 0; for (int num : nums) { if (num candidate) { verifyCount; } } // 返回结果假设输入合法 return (verifyCount nums.length / 2) ? candidate : -1; // 用-1表示无效值 } public static void main(String[] args) { int[] test1 {2, 2, 1, 1, 1, 2, 2}; int[] test2 {3, 3, 4, 2, 3, 3, 3}; System.out.println(测试数组1的多数元素是: majorityElement(test1)); // 输出 2 System.out.println(测试数组2的多数元素是: majorityElement(test2)); // 输出 3 } }Java实现的注意点我使用了Integer类型来声明candidate这样它可以被赋值为null比用int并选一个特殊值如Integer.MIN_VALUE更清晰。在验证通过后我用了三元运算符直接返回。如果验证失败返回-1作为一个错误信号。在实际应用中你可能想抛出一个异常或者返回一个OptionalInteger。for (int num : nums)这种增强型 for 循环让代码更简洁和 Python 的for num in nums很像。3.3 C实现追求极致的性能C 版本适合对性能有极致要求的场景。我们会使用标准库中的vector并注意引用传递以避免拷贝。#include iostream #include vector #include optional // C17 引入用于可能无值的情况 std::optionalint majorityElement(const std::vectorint nums) { // 使用 std::optional 可以更好地表示“可能无值” std::optionalint candidate std::nullopt; int count 0; // 投票阶段 for (int num : nums) { if (count 0) { candidate num; count 1; } else if (num candidate.value()) { // 注意使用value()前需确保candidate有值 count; } else { count--; } } // 验证阶段 if (!candidate.has_value()) { return std::nullopt; // 数组为空没有候选人 } int verifyCount 0; for (int num : nums) { if (num candidate.value()) { verifyCount; } } if (verifyCount nums.size() / 2) { return candidate; } else { return std::nullopt; } } int main() { std::vectorint test1 {2, 2, 1, 1, 1, 2, 2}; std::vectorint test2 {3, 3, 4}; auto result1 majorityElement(test1); auto result2 majorityElement(test2); std::cout 测试数组1的多数元素是: ; if (result1.has_value()) { std::cout result1.value() std::endl; // 输出 2 } else { std::cout 不存在 std::endl; } std::cout 测试数组2的多数元素是: ; if (result2.has_value()) { std::cout result2.value() std::endl; } else { std::cout 不存在 std::endl; // 输出不存在 } return 0; }C版本的技巧使用const std::vectorint传递参数避免不必要的数组拷贝提升效率。我采用了 C17 的std::optional作为返回值类型。这是一个很好的实践它能明确表示函数可能返回一个有效整数也可能返回“空值”比返回一个特殊的-1或抛异常更现代、更安全。在访问optional的值时使用.value()方法但之前最好用.has_value()检查一下。std::optional让意图更清晰代码更健壮。4. 算法扩展如何找出所有“重要”元素基础的摩尔投票法找的是“过半数”的老大。但现实中我们可能想找的是那些出现次数超过n/3的元素比如找出影响力最大的前两个话题或者更一般地超过n/k的元素。这时候算法就需要升级了。4.1 寻找出现次数超过 n/3 的元素这是 LeetCode 229 题的经典场景。思路是既然要找可能超过n/3的元素那么这样的元素最多只能有两个因为如果三个都超过1/3总和就超过1了。所以我们可以维护两个候选人和两个计数器。算法的投票阶段变得更像一场“三方博弈”如果当前数字等于候选人A给A加票。如果不等于A但等于候选人B给B加票。如果都不等于并且A或B的票数为0则替换掉那个票数为0的候选人并设其票数为1。如果都不等于且A和B都有票那么同时给A和B各减一票相当于当前数字同时反对A和B。遍历结束后我们得到了两个可能的候选人。但请注意这只是“可能”因为投票过程中的抵消更复杂最后剩下的不一定真的超过n/3。所以验证阶段是必须的我们需要重新统计这两个候选人的真实出现次数。下面是 Python 的实现def majority_element_ii(nums): 寻找所有出现次数超过 n/3 的元素。参数: nums: List[int] 返回: List[int]满足条件的元素列表。 if not nums: return [] # 初始化两个候选人和计数器 cand1, cand2 None, None count1, count2 0, 0 # 第一轮投票找出两个可能的候选人 for num in nums: if num cand1: count1 1 elif num cand2: count2 1 elif count1 0: cand1 num count1 1 elif count2 0: cand2 num count2 1 else: # 当前数不是cand1或cand2且两者都有票则同时抵消 count1 - 1 count2 - 1 # 第二轮验证这两个候选人是否真的超过 n/3 result [] threshold len(nums) // 3 # 需要去重因为如果cand1和cand2是同一个值在初始化时可能发生会重复添加 candidates_to_check set([cand1, cand2]) for cand in candidates_to_check: if cand is not None and nums.count(cand) threshold: result.append(cand) return result # 测试 test_nums [1, 1, 1, 3, 3, 2, 2, 2] print(f在数组 {test_nums} 中出现次数超过 n/3 的元素是: {majority_element_ii(test_nums)}) # 输出可能是 [1, 2] (取决于抵消过程但1和2都出现了3次超过 8/3 ≈ 2.67)这个扩展版本的理解难点在于抵消逻辑。你可以这样想数组中的每个数字都想“上位”成为候选人。当遇到一个既不是A也不是B的新数字时如果A或B有空位计数为0它就占位如果A和B都有人那么这个新数字就和A、B各“同归于尽”一次大家一起减一票。这个过程确保了任何出现次数真正很多的元素不可能被完全抵消掉。4.2 推广到 n/k 的通用思路从n/2到n/3我们可以总结出规律要找出所有出现次数超过n/k的元素最多可能有k-1个。因此我们需要维护k-1个候选人和对应的计数器。通用算法的框架如下初始化k-1个候选人变量和计数器均为空或0。遍历数组中的每个元素num如果num已经是某个候选人则给该候选人加票。如果num不是任何候选人但存在某个计数器为0则将num设为该候选人计数器设为1。如果num不是任何候选人且所有计数器都大于0则将所有候选人的计数器减1集体抵消。遍历结束后对剩下的这k-1个候选人进行验证统计其真实出现次数筛选出超过n/k的。当k变大时代码复杂度会增加但核心的“抵消”思想不变。在实际面试或应用中k2和k3是最常见的。5. 实战与避坑什么时候用要注意什么摩尔投票法很优雅但也不是万能的。用了这么多年我总结了一些它的适用场景和需要特别注意的“坑”。5.1 典型应用场景LeetCode 169 229这是最直接的练习题分别是找“多数元素”和“求众数 II”。用摩尔投票法几乎是标准答案。数据流中的频繁项查找这是摩尔投票法一个非常强大的应用。想象一下你有一个源源不断的数据流比如推特话题流你无法存储所有历史数据但想实时知道当前出现频率超过50%的元素是什么。摩尔投票法的 O(1) 空间复杂度在这里大放异彩你只需要维护常量的几个变量就能在数据流过时实时更新“当前可能的主流元素”。容错系统中的主节点选举在一些分布式系统的简化模型里可以用类似的思路来快速判断是否有节点获得了超过半数的确认消息。压缩与编码的预处理在一些数据压缩算法中如果能够快速识别出占主导地位的符号比如某个字节值出现频率极高可以针对它采用特殊的编码策略来提升压缩率。摩尔投票法能快速完成这个“主导符号”的检测。5.2 常见的“坑”与注意事项最大的坑忘记验证这是新手最容易出错的地方。摩尔投票法的投票阶段只保证如果存在一个次数超过n/k的元素那么它一定会留在最后的候选人集合中。但它不保证留在候选人集合里的元素一定满足条件。特别是当问题描述没有明确说“一定存在”时验证步骤绝对不能省略。我早期就曾因为偷懒省略验证在测试用例不满足前提时输出了错误答案。初始化的陷阱在实现n/3或通用版本时初始化候选人要小心。比如用None或一个不可能出现的值如float(inf)。在抵消环节如果候选人值是None比较num candidate可能会出错在Python中None 1是 False没问题但在一些强类型语言中需要处理。安全的做法是在比较前先判断候选人是否为初始状态。抵消逻辑的理解在n/3问题中else分支里的count1 - 1; count2 - 1;是同时抵消。有同学会疑惑为什么不是只抵消一个这是因为当前数字num同时反对cand1和cand2它自己也想“上位”但因为没有空位所以它选择“一换二”和两个现任者各抵消一票这样才公平也保证了算法的正确性。空间复杂度的误解我们常说摩尔投票法是 O(1) 空间。这里的 O(1) 是指额外空间不包括输入数组本身。对于n/k问题我们需要维护k-1个候选人和计数器当k是常数时空间仍是 O(1)。但如果k本身和n有关比如kn/2那空间复杂度就变了。不过实际问题中k通常很小。6. 性能对比为什么说它是“最优”我们总说摩尔投票法高效到底多高效和别的方法比比就知道了。解决“多数元素”问题通常还有另外两种思路方法一哈希表计数遍历数组用字典记录每个数字出现的次数最后再遍历字典找最大值。时间复杂度 O(n)空间复杂度 O(n)。在绝大多数情况下这已经很快了而且逻辑直观。但当数组元素值范围极大或数据量极大时哈希表的内存开销可能成为瓶颈。方法二排序后取中位数因为多数元素超过一半所以排序后数组中间位置第 n/2 个的元素一定是它。时间复杂度取决于排序算法通常是 O(n log n)空间复杂度 O(1) 或 O(n)取决于是否原地排序。当 n 很大时O(n log n) 比 O(n) 慢得多。摩尔投票法在时间上 O(n) 遍历一或两遍和哈希法打平在空间上 O(1) 碾压哈希法也优于需要额外空间的排序法。所以在时间最优且空间最优的意义上它确实是解决此类问题的“最优”算法之一。尤其是在嵌入式环境或对内存极其敏感的场景下它的优势非常明显。我自己的经验是在在线编程面试中如果你能先说出哈希法再引出摩尔投票法并解释其空间优势面试官通常会眼前一亮。这展示了你不仅会解决问题还会追求更优的解决方案。7. 举一反三算法思想的迁移摩尔投票法的精髓——“抵消”是一种非常有力的思想。它教会我们有时候不需要记录全部信息通过巧妙的抵消和归约就能提取出最核心的特征。这种思想可以迁移到其他问题上。例如在一些“寻找特殊元素”的问题中如果目标元素的性质是“数量上占绝对优势”就可以考虑能否用类似的抵消法。再比如在分布式计算或流式算法中有大量“空间亚线性算法”的设计都采用了类似“抽样-估计-验证”或“概率性淘汰”的思路目标都是在有限的内存下对海量数据做出推断。理解摩尔投票法不仅仅是学会了一个算法模板更重要的是掌握了一种“用时间换空间”或“用概率换确定性”的算法设计思维。下次当你遇到一个需要统计频率但又受限于空间的问题时不妨先想想这里的“多数派”能不能通过某种形式的“对决”和“抵消”被筛选出来

摩尔投票算法实战：从原理到多语言实现全解析

相关文章：

摩尔投票算法实战：从原理到多语言实现全解析

手把手教你用Walkie-Talkie数据集复现网站指纹攻击论文（附内存溢出解决方案）

从原理图到实战：深度解析电源、接口与显示模块的设计要点

MyBatis 行数返回机制深度解析：从匹配行到受影响行的实战优化

室内无人机也能稳如老狗？手把手教你用Livox Mid360雷达+光流传感器搞定无GPS定位（附避坑指南）

Python AI爬虫实战：爬取张雪峰微博并进行情感分析与词云可视化桶

深度拆解AnomalyDiffusion：用扩散模型破解工业缺陷检测的“数据荒”，每一步原理都讲透！

OpenClaw+优云智算Coding Plan：从灵感到成文，再到发布的全流程AI自动化绽

手把手教你用Saleae逻辑分析仪抓取STM32 SPI时序，调试ICM-42670陀螺仪ID

深入解析HTTP/2二进制分帧层：帧、流与多路复用的奥秘

基于RK3588打造高性能家用路由器：从netplan到hostapd的完整配置指南

告别轮询与中断：在STM32G0上用CubeMX配置ADC+DMA实现‘后台’连续采样的保姆级教程

MCP与Agent协同的智能体架构设计

devops系列(一) Nginx 反向代理与负载均衡：一台服务器扛不住怎么办

告别btoa编码困境：处理SVG中非Latin1字符的Base64转换实战

3分钟彻底解决Cursor试用限制：免费使用Pro功能的终极指南

别再混淆了！一文讲清工业质检中‘零样本’、‘无监督’和AA-CLIP的‘2样本训练’到底啥关系

从官网到终端：手把手教你解读PyTorch官网版本矩阵，找到最适合你显卡的torch组合

VGG16实战：用Perceptual Loss提升超分辨率图像细节（附代码对比）

Hive数据导出的四大实战技巧

手把手教你用TI InstaSPIN-FOC和TMS320F28027F驱动无刷电机（附SCI串口通信配置避坑指南）

Druid监控面板未授权访问实战：从发现到后台接管

从X-Bogus到X-Gnarly：拆解TikTok Web端反爬策略的演进与对抗思路

别再只会用授权码模式了！聊聊OAuth 2.0的四种授权类型（授权码/隐式/密码/客户端凭证）到底该怎么选？

小红书API避坑指南：常见错误排查与JSON数据结构解析

从GMM-HMM到DNN-HMM：语音识别技术栈的‘换芯’手术与工程实践指南

Cesium时间轴控制全解析：从加速减速到循环播放的实战技巧

从时序收敛困境到布线优化：set_multicycle_path多周期约束实战解析

TPS61088升压板实战：从3.7V到9V的电源设计、调试与优化全记录

显示器/电视接口检测实战：从HDMI的5V到Type-C的CC，聊聊那些“坑”与最佳实践