当前位置：首页 > news >正文

散列表：Word文档中的单词拼写检查功能是如何实现的？

news 2026/2/11 2:34:35

文章来源于极客时间前google工程师−王争专栏。

一旦我们在Word里输入一个错误的英文单词，它就会用标红的方式提示“编写错误”。Word的这个单词拼写检查功能，虽然很小但却非常实用。这个功能是如何实现的？

散列别（Hash Table），可以轻松实现这个功能。

散列思想

“Hash Table”我们平时也叫它“哈希表”或者“Hash表”。

散列表用的是数组支持按照下标随机访问数据的特性，所以散列表其实就是数组的一种扩展，由数组演化而来。可以说，如果没有数组，就没有散列表。

场景：假如我们有89名选手参加学校运动会，为了方便记录成绩，每个选手胸前都会贴上自己的参赛号码。89名选手的编号依次是1到89。我们希望编程实现这样一个功能，通过编号快速找到对应的选手信息。怎么做？

将选手放到数组中，编号为k放到数组中下标为k的位置。

需要查询参赛为x的直接取数组下标为x位置就可以，时间复杂度为O(1)。

在这个场景中，参赛编号为自然数，与数组下标形成一一映射，利用数组支持根据下标随机访问的特性，O(1)时间复杂度，就可以实现快速查找编号对应的选手信息。这就是散列的思想。

编号如果详细，比如051167，05表示年级，11表示班级，最后两位代表编号。可以截取参赛编号的后两位作为数组的下标，来存储选手信息。

散列思想：

参赛选手的编号我们叫做键（key）或者关键字。
参赛编号转化为数组下标的映射方法就叫做散列函数（或“Hash函数”“哈希函数”）。
散列函数计算得到的值就叫作散列值（或“Hash值”“哈希值”）。

规律总结：散列表用的就是数组支持按照下标随机访问，时间复杂度为O(1)的特性。我们通过散列函数把元素的键值映射为下标，然后将数据存储在数组中对应下标的位置。当我们按照键值查询元素时，我们用同样的散列函数，将键值转化为数组下标，从对应的数组下标的位置取数据。

散列函数

散列函数，我们可以把它定义成hash(Key)，其中key表示元素的键值，hash(Key)的值表示经过散列函数计算得到的散列值。

上述场景中，散列函数实现如下：

int hash(String key) {// 获取后两位字符string lastTwoChars = key.substr(length-2, length);// 将后两位字符转换为整数int hashValue = convert lastTwoChas to int-type;return hashValue;
}

如果参赛选手的编号是随机生成的6位数字，又或者用的是a到z之间的字符串，该如何构造散列函数呢？三类函数设计有三个基本要求：

散列函数计算得到的散列值是一个非负整数
如果key1 = key2，那么hash(key1) == hash(key2)
如果key1 ≠ key2，那么hash(key1) ≠ hash(key2)

第三点在真是的情况下，几乎是不可能的。著名的MD5、SHA、CRC等哈希算法，也无法避免这种散列冲突。而且，数组的存储空间有限，也会加大散列冲突的概率。

散列冲突

常见的散列冲突解决方法有两类，开放寻址法（open addressing）和链表法（chaining）。

开放寻址法

开放寻址法的核心思想是，如果出现了散列冲突，我们就重新探测一个空闲位置，将其插入。那么如何重新探测新的位置呢？线性探测（Linear Probing）。

当我们往散列表中插入数据时，如果某个数据经过散列函数散列之后，存储位置已经被占用了，我们就从当前位置开始，依次往后查找，看是否有空闲位置，直到找到为止。

如上图所示，黄色的色块表示空闲位置，橙色的色块表示已经存储了数据。x经过Hash算法之后，被散列到位置下标为7的位置，但是这个位置已经有数据了，所以就产生了冲突。于是我们就顺序地往后一个一个找，看有没有空闲的位置，遍历到尾部都没有找到空闲位置，于是我们再从表头开始找，直到找到空闲位置2，于是将其插入到这个位置。

在散列表中查找元素的过程有点类似插入过程。计算出散列值，然后比较数组中下标为散列值的元素和要查找的元素。如果相等，就说明是我们要找的元素；否则就顺序往后依次查找。如果遍历到数组中的空闲位置，还没有找到，就说明要查找的元素并没有在散列表中。（查找建立在插入的基础上）

删除操作，将删除的元素，特殊标记为deleted，不能直接置为空。当线性探测查找的时候，遇到标记为deleted的空间，并不是停下来，而是继续往下探测。

极端情况下，我们可能需要探测整个散列表，所以最坏情况下的时间复杂度为O(n)。

对于开放寻址冲突解决方法，除了线性探测方法之外，还有另外两种比较经典的探测方法，二次探测（Quadratic probing）和双重散列（Double hashing）。

二次探测，跟线性探测很像，线性探测每次探测的步长是1，那它探测的下标序列就是hash(key)+0，hash(key)+1，hash(key)+2……而二次探测探测的步长就变成了原来的“二次方”，也就是说，它探测的下标序列就是hash(key)+0，hash(key)+1^{2，hash(key)+2}2

双重散列，意思就是不仅要使用一个散列函数。使用一组散列函数hash1(key),hash2(key),hash3(key)…先用第一个散列函数，如果计算得到的存储位置已经被占用，再用第二个散列函数，直到找到空闲的存储位置。

不管哪种探测方法，当散列表中空闲位置不多的时候，散列冲突的概率就会大大提高。为了尽可能保证散列表的操作效率，一般情况下，我们会尽可能保证散列表中有一定比例的空闲槽位。使用**装载因子（load factor）**来表示空位的多少。

装载因子的计算公式是：

散列表的装载因子 = 填入表中的元素个数 / 散列表的长度

装载因子越大，说明空闲位置越少，冲突越多，散列表的性能会下降。

2.链表法

链表法是一种更加常用的散列冲突解决办法，相比开发寻址法，它要简单的多。在散列表中，每个“桶（bucket）”或者“槽（solt）”会对应一条链表，所有散列值相同的元素我们都放到相同槽位对应的链表中。

当插入的时候，我们只需要通过散列函数计算出对应的散列槽位，将其插入到对应链表中即可，所以插入的时间复杂度为O(1)。当查找、删除一个元素时，我们同样通过散列函数计算出对应的槽，然后遍历链表查找或者删除。查找删除的复杂度是多少？

查找删除时间复杂度跟链表的长度k成正比，也就是O(k)。对于散列比较均匀的散列函数来说，理论上k=n/m，其中n表示散列中数据的个数，m表示散列表中“槽”的个数。

解答开篇

Word文档中单词拼写检查功能是如何实现的？

常用的英文单词20万个左右，假设单词的平均长度是10个字母，平均一个单词也就是占用10个字节的内存空间，那么20万英文单词大约占2MB的存储空间，就算放大10倍也就是20MB。对于现在的计算机来说，这个大小完全可以放在内存里面。所以可以用散列表来存储整个英文单词词典。

总结

散列表来源于数组，它借助散列函数对数组这种数据结构进行扩展，利用的是数组支持按照下标随机访问元素的特性。散列表的两个核心问题是散列函数设计和散列冲突解决。散列函数设计的好坏决定了散列冲突的概率，也就决定了散列表的性能。

思考

1.假设我们有10万条URL访问日志，如何按照访问次数给URL排序？

遍历 10 万条数据，以 URL 为 key，访问次数为 value，存入散列表，同时记录下访问次数的最大值 K，时间复杂度 O(N)。

如果 K 不是很大，可以使用桶排序，时间复杂度 O(N)。如果 K 非常大（比如大于 10 万），就使用快速排序，复杂度 O(NlogN)。

2.有两个字符串数组，每个数组中大约有10万条字符串，如何快速找出两个数组中相同的字符串？

以第一个字符串数组构建散列表，key 为字符串，value 为出现次数。再遍历第二个字符串数组，以字符串为 key 在散列表中查找，如果 value 大于零，说明存在相同字符串。时间复杂度 O(N)。

散列表：Word文档中的单词拼写检查功能是如何实现的？

散列思想

散列函数

散列冲突

开放寻址法

2.链表法

解答开篇

总结

思考

相关文章：

散列表：Word文档中的单词拼写检查功能是如何实现的？

智慧公厕蜕变多功能城市智慧驿站公厕的创新

R语言清洗与处理数据常用代码段

centos 7.9 安装python 3.10的tls问题,

pytorch,tf维度理解RNN

算法刷题-数组

可视化数学分析软件 MATLAB R2021b mac中文版软件介绍

罗技摄像头左右翻转

【Linux】操作系统的认识

【论文阅读】(2023TPAMI)PCRLv2

大数据学习(17)-mapreduce task详解

HCIA --- DHCP服务、路由器、网络部署及基本配置

手把手入门Node框架Egg.js

百度智能云推出，国内首个大模型全链路生态支持体系

CUDA学习笔记（八）Branch Divergence and Unrolling Loop

Android MQTT连接阿里云使用Json解析数据

生成二维码

【C++入门一】学习C++背景、开启C++奇妙之旅

oracle 表空间详解以及配置操作

php判断是否是email格式

1688商品列表API与其他数据源的对接思路

多模态商品数据接口：融合图像、语音与文字的下一代商品详情体验

前端开发面试题总结-JavaScript篇(一)

智能分布式爬虫的数据处理流水线优化：基于深度强化学习的数据质量控制

多模态图像修复系统：基于深度学习的图片修复实现

Python学习(8) ----- Python的类与对象

js 设置3秒后执行

以太网PHY布局布线指南

使用 uv 工具快速部署并管理 vLLM 推理环境

【向量库】Weaviate 搜索与索引技术：从基础概念到性能优化