从零开始理解 Trie 树:高效字符串存储与查找的利器【自动补全、拼写检查】
题目分析
这道题让我们实现一个 Trie 类(也称为前缀树),以便高效地插入和查询字符串。前缀树是一种特殊的树形数据结构,适用于快速存储和检索字符串数据集中的键,比如实现 自动补全 和 拼写检查。
题目要求
Trie 类中有以下几个方法:
Trie()
: 初始化前缀树对象。insert(String word)
: 向前缀树中插入一个字符串word
。search(String word)
: 如果前缀树中包含word
,返回true
;否则,返回false
。startsWith(String prefix)
: 如果前缀树中存在以prefix
为前缀的字符串,则返回true
;否则,返回false
。
解题思路
为了解决这个问题,我们可以按照以下步骤来思考:
-
Trie 数据结构:前缀树用来存储字符串,字符间的共享前缀会共用路径,以减少空间消耗并提高查询效率。每个节点代表一个字符,树的根节点为空节点。沿着从根节点出发的路径到叶节点的字符组合表示存储的字符串。
-
TrieNode 类设计:前缀树中的每个节点可以使用一个
TrieNode
类来表示。每个TrieNode
保存两个信息:- 子节点列表:存储连接到当前节点的其他字符。
- 结束标志:用于标记当前节点是否是一个单词的结尾。
-
Trie 类设计:前缀树本身实现插入、查找和前缀匹配等功能。需要在
Trie
类中实现以下方法:- 插入(insert):从根节点开始,逐字符插入,如果字符节点不存在就创建新节点,最后一个字符节点标记为单词结尾。
- 查找(search):从根节点出发,逐字符查找,直到找到整个单词或发现单词不存在。
- 前缀匹配(startsWith):类似查找,只需检查前缀是否存在即可。
实现代码
以下是 Trie 类的 C++ 实现,包含插入、查找和前缀匹配功能。
#include <iostream>
#include <unordered_map>
#include <string>class TrieNode {
public:bool isEndOfWord; // 标记当前节点是否为一个单词的结尾std::unordered_map<char, TrieNode*> children; // 用于存储子节点TrieNode() : isEndOfWord(false) {} // 构造函数初始化
};class Trie {
private:TrieNode* root;public:Trie() {root = new TrieNode(); // 初始化 Trie,根节点为空节点}// 插入字符串void insert(const std::string& word) {TrieNode* node = root;for (char ch : word) {if (node->children.find(ch) == node->children.end()) {node->children[ch] = new TrieNode(); // 如果子节点不存在,则创建}node = node->children[ch]; // 移动到下一个子节点}node->isEndOfWord = true; // 最后一个节点标记为单词结尾}// 查找字符串bool search(const std::string& word) const {TrieNode* node = root;for (char ch : word) {if (node->children.find(ch) == node->children.end()) {return false; // 如果字符节点不存在,返回 false}node = node->children[ch]; // 移动到下一个子节点}return node->isEndOfWord; // 判断是否为单词结尾}// 查找前缀bool startsWith(const std::string& prefix) const {TrieNode* node = root;for (char ch : prefix) {if (node->children.find(ch) == node->children.end()) {return false; // 如果前缀节点不存在,返回 false}node = node->children[ch]; // 移动到下一个子节点}return true; // 所有字符都找到,返回 true}
};
示例讲解
假设我们运行以下代码:
Trie trie = Trie();
trie.insert("apple");
std::cout << trie.search("apple") << std::endl; // 返回 true
std::cout << trie.search("app") << std::endl; // 返回 false
std::cout << trie.startsWith("app") << std::endl; // 返回 true
trie.insert("app");
std::cout << trie.search("app") << std::endl; // 返回 true
执行步骤
为了更具象地展示前缀树的构建过程,我们可以用图形化的方式模拟每一步的节点构造。
1. 初始化 Trie
Trie trie = Trie();
- 创建了一个
Trie
对象。此时只有一个根节点,根节点本身是空的,不保存任何字符内容。
2. 插入字符串 "apple"
trie.insert("apple");
在插入 "apple"
时,前缀树会按字符逐个插入:a -> p -> p -> l -> e
。详细步骤如下:
-
第一步:根节点开始插入字符
'a'
。根节点没有子节点'a'
,于是创建一个节点表示'a'
并加入子节点。(root)|a
-
第二步:在
'a'
节点下插入字符'p'
。节点'a'
没有子节点'p'
,创建并添加节点表示'p'
。(root)|a|p
-
第三步:继续在
'p'
节点下插入字符'p'
。节点'p'
没有子节点'p'
,创建并添加节点表示'p'
。(root)|a|p|p
-
第四步:继续在第二个
'p'
节点下插入字符'l'
。节点'p'
没有子节点'l'
,创建并添加节点表示'l'
。(root)|a|p|p|l
-
第五步:在
'l'
节点下插入字符'e'
。节点'l'
没有子节点'e'
,创建并添加节点表示'e'
,并将其标记为单词结尾 (isEndOfWord = true
)。(root)|a|p|p|l|e (end)
到此为止,我们已经成功将 "apple"
插入到了前缀树中。"apple"
的路径为:a -> p -> p -> l -> e
。
3. 查找 "apple"
trie.search("apple");
- 从根节点逐字符查找
a -> p -> p -> l -> e
。 - 遇到节点
'e'
,并且'e'
被标记为单词的结尾 (isEndOfWord = true
),因此返回true
。
4. 查找 "app"
trie.search("app");
- 从根节点逐字符查找
a -> p -> p
。 - 到达最后一个
p
节点,但它没有被标记为单词的结尾(isEndOfWord = false
),表示"app"
虽然存在路径,但不是一个完整的单词,因此返回false
。
5. 查找前缀 "app"
trie.startsWith("app");
- 从根节点逐字符查找
a -> p -> p
。 - 找到
"app"
路径中的所有字符,所以返回true
表示"app"
是某个单词的前缀。
6. 插入 "app"
trie.insert("app");
这次插入 "app"
的过程如下:
-
从根节点逐字符插入
a -> p -> p
。 -
到达最后一个
p
节点,因为节点已存在,无需再创建节点。只需将该节点标记为单词结尾 (isEndOfWord = true
)。(root)|a|p|p (end)|l|e (end)
现在 "app"
路径已标记为一个完整的单词。
7. 查找 "app"
再次验证
trie.search("app");
- 从根节点逐字符查找
a -> p -> p
。 - 找到
p
节点,且p
已标记为单词的结尾 (isEndOfWord = true
),因此返回true
表示"app"
存在。
图示总结
通过逐字符的插入和标记,我们最终得到了如下的前缀树结构:
(root)|a|p|p (end)|l|e (end)
"app"
是一条有效路径,以p (end)
为结尾。"apple"
是另一条有效路径,以e (end)
为结尾。
小结
- 插入过程:逐字符插入,每次检查是否存在子节点,不存在则创建。单词结尾的字符节点会被标记为
isEndOfWord = true
。 - 查找过程:逐字符查找,直到找到整个单词路径。如果路径末尾的节点标记为单词结尾,则该单词存在。
- 前缀查找:逐字符查找路径中的前缀,只需验证路径存在,不要求路径末尾节点为单词结尾。
这种树形结构使得共享前缀的单词复用相同路径,节省存储空间并提高了查询效率。
复杂度分析
- 时间复杂度:
- 插入:O(m),其中 m 为字符串的长度。
- 查找:O(m)。
- 前缀查找:O(m)。
- 空间复杂度:插入 N 个字符串,每个长度为 m,最坏情况下空间复杂度为 O(N * m),但由于前缀共享,这个复杂度会降低。
好的,让我们通过更加通俗、易于理解的语言来解释 自动补全 和 拼写检查 的实现过程,便于大家理解。
应用场景
自动补全和拼写检查是前缀树(Trie)的两个经典应用,它们都需要在大量单词中快速查找具有相同前缀或类似拼写的单词。前缀树的结构使得这些功能可以在短时间内完成。
1. 自动补全
自动补全主要用于在用户输入一部分单词(前缀)时,推荐以该前缀开头的完整单词。例如,当用户输入 "app"
时,系统希望能迅速推荐像 "apple"
、"application"
这样的词。
自动补全的步骤:
-
第一步:查找前缀
通过startsWith
方法,从根节点开始,按用户输入的前缀逐字符向下查找。如果每个字符都能在前缀树中找到,说明该前缀存在;否则,表示 Trie 中没有以该前缀开头的单词。 -
第二步:找出所有可能的单词
一旦找到前缀的最后一个字符节点,接下来就是从这个节点开始,通过深度优先遍历(DFS)或广度优先遍历(BFS)找到所有以这个前缀开头的单词。在遍历过程中,只要遇到节点被标记为一个完整单词的结尾,就可以将当前路径组合成一个单词,加入到推荐结果中。
示例:
假设前缀树中存有 "apple"
、"app"
、"application"
、"apply"
等单词。当用户输入 "app"
时,系统将:
- 使用
startsWith
方法查找前缀"app"
,确认前缀存在。 - 从最后的
"p"
节点开始,遍历其子节点,逐一找到以"app"
开头的完整单词:"apple"
、"application"
和"apply"
。
这就是自动补全的基本过程,最终返回以 "app"
为开头的推荐单词。
2. 拼写检查
拼写检查用于纠正用户的拼写错误。当用户输入单词时,如果单词不存在,拼写检查会推荐一些拼写相似的正确单词。这里使用前缀树来检查是否存在某个单词,并生成近似的拼写推荐。
拼写检查的步骤:
-
第一步:检查单词是否存在
使用search
方法,直接在前缀树中查找用户输入的单词。如果找到,说明拼写正确;如果找不到,则需要生成拼写相似的候选词。 -
第二步:生成近似候选词
如果单词不存在,我们就使用一些简单的修改方式生成可能的“拼写相近”的词,然后逐一在前缀树中查找,看看哪些单词存在。常用的修改方式包括:- 替换字符:将单词中的某个字母替换为其他字母,生成新单词并查找。例如,将
"appl"
中的最后一个字符替换为"e"
,生成"apple"
。 - 删除字符:尝试删除单词的某个字符,生成新单词并查找。例如,删除
"appl"
中的最后一个字符生成"app"
。 - 添加字符:尝试在某个位置插入一个新字符,生成新单词并查找。例如,在
"appl"
后添加"e"
,生成"apple"
。 - 交换字符:尝试交换单词中的相邻字符,生成新单词并查找。
- 替换字符:将单词中的某个字母替换为其他字母,生成新单词并查找。例如,将
示例:
假设用户输入了 "appl"
(少了一个字母 e
)。Trie 会先尝试直接查找 "appl"
,发现不存在,然后生成近似词进行查找:
- 尝试添加字符
"e"
,生成"apple"
,在 Trie 中找到了该单词。 - 也可以通过删除字符生成
"app"
,在 Trie 中也存在。
最终,拼写检查可以将 "apple"
和 "app"
作为拼写建议返回给用户。
总结
这道题中的 Trie 数据结构为我们提供了一种快速存储和查询大量字符串的方法,特别适合具有公共前缀的字符串。通过这种数据结构,可以高效地完成自动补全、拼写检查等操作。在实现过程中,我们使用了 TrieNode
和 Trie
类分别表示节点和整个前缀树,采用 unordered_map
存储子节点关系,实现了 O(m) 时间复杂度的插入和查找功能。
相关文章:
从零开始理解 Trie 树:高效字符串存储与查找的利器【自动补全、拼写检查】
题目分析 这道题让我们实现一个 Trie 类(也称为前缀树),以便高效地插入和查询字符串。前缀树是一种特殊的树形数据结构,适用于快速存储和检索字符串数据集中的键,比如实现 自动补全 和 拼写检查。 题目要求 Trie 类…...
关于sse、websocket与流式渲染
一、SSE是什么? 网络中的 SSE (Server-Sent Events) 是一种服务器向浏览器单向推送数据的机制,常用于需要实时更新的数据传输,如新闻推送、股票行情、聊天应用等。 SSE 的特点: 单向通信:服务器向客户端推送数据&…...
Python 语法与数据类型详解
Python 语法与数据类型详解 Python 以其简洁易读的语法和丰富多样的数据类型在编程领域占据重要地位。深入理解 Python 的语法和数据类型是掌握这门语言的关键。 一、Python 语法概述 (一)缩进规则 Python 独特的缩进规则是其语法的重要特征之一。与…...
LeetCode题练习与总结:扁平化嵌套列表迭代器--341
一、题目描述 给你一个嵌套的整数列表 nestedList 。每个元素要么是一个整数,要么是一个列表;该列表的元素也可能是整数或者是其他列表。请你实现一个迭代器将其扁平化,使之能够遍历这个列表中的所有整数。 实现扁平迭代器类 NestedIterato…...

51单片机快速入门之 AD(模数) DA(数模) 转换 2024/10/25
51单片机快速入门之 AD(模数) DA(数模) 转换 2024/10/25 声明:本文图片来源于网络 A模拟信号特点: 电压或者电流 缓慢上升 随着时间连续缓慢上升或下降 D数字信号特点:电压或者电流 保持一段时间的高/低电平 状态 / 突变 (高电压瞬间低电压) 数字电路中 通常将0-1v电压称…...
Typora 、 Minio and PicGo 图床搭建
流程介绍 本地安装Typora笔记工具拥有一台装有docker的服务器配置minio云图床管理控制页面下载PicGo上传工具服务器Docker环境搭建—Ubuntu系统 删除旧docker的所有依赖(非root用户) # 删除docker及安装时自动安装的所有包 sudo apt-get autoremove docker docker-ce docker…...

【计网】UDP Echo Server与Client实战:从零开始构建简单通信回显程序
目录 前言: 1.实现udpserver类 1.1.创建udp socket 套接字 --- 必须要做的 socket()讲解 代码实现:编辑 代码讲解: 1.2.填充sockaddr_in结构 代码实现: 代码解析: 1.3.bind sockfd和…...

微服务网关Zuul
一、Zuul简介 Zuul是Netflix开源的微服务网关,包含对请求的路由和过滤两个主要功能。 1)路由功能:负责将外部请求转发到具体的微服务实例上,是实现外部访问统一入口的基础。 2)过滤功能:负责对请求的过程…...

BuildCTF线上赛WP
Build::CTF flag不到啊战队--WP 萌新战队,还请多多指教~ 目录 Build::CTF flag不到啊战队--WP Web ez!http find-the-id Pwn 我要成为沙威玛传奇 Misc what is this? 一念愚即般若绝,一念智即般若生 别真给我开盒了哥 四妹,你听…...
《使用Gin框架构建分布式应用》阅读笔记:p143-p207
《用Gin框架构建分布式应用》学习第10天,p143-p207总结,总计65页。 一、技术总结 1.auth0 本人实际工作中未遇到过,mark一下,参考:https://auth0.com/。 2.使用template (1)c.File() (2)router.Static() (3)rou…...

华为网络管理配置实例
目录 组网需求 数据规划 配置思路 操作步骤 结果验证 配置脚本 管理员可以通过eSight网管系统对FW进行监控和管理,接收FW的告警。 组网需求 如图1所示,某企业在网络边界处部署了FW作为安全网关,并部署了eSight网管系统对网络设备进行集中…...
大语言模型数据处理方法(基于llama模型)
文章目录 前言一、基于huggingface的DataCollatorForSeq2Seq方法解读1、DataCollatorForSeq2Seq方法2、batch最长序列填充3、指定长度填充二、构建大语言模型数据加工模块1、数据读取2、数据加工1、数据格式2、预训练(pretrain)数据加工3、微调(sft)数据加工①、sft数据加工…...

爱奇艺大数据多 AZ 统一调度架构
01# 导语 爱奇艺大数据技术广泛应用于运营决策、用户增长、广告分发、视频推荐、搜索、会员营销等场景,为公司的业务增长和用户体验提供了重要的数据驱动引擎。 多年来,随着公司业务的发展,爱奇艺大数据平台已积累了海量数据,这…...

【C++篇】栈的层叠与队列的流动:在 STL 的韵律中探寻数据结构的优雅之舞
文章目录 C 栈与队列详解:基础与进阶应用前言第一章:栈的介绍与使用1.1 栈的介绍1.2 栈的使用1.2.1 最小栈1.2.2 示例与输出 1.3 栈的模拟实现 第二章:队列的介绍与使用2.1 队列的介绍2.2 队列的使用2.2.1 示例与输出 2.3 队列的模拟实现2.3.…...

使用 Flask 实现简单的登录注册功能
目录 1. 引言 2. 环境准备 3. 数据库设置 4. Flask 应用基本配置 5. 实现用户注册 6. 实现用户登录 7. 路由配置 8. 创建前端页面 9. 结论 1. 引言 在这篇文章中,我们将使用 Flask 框架创建一个简单的登录和注册系统。Flask 是一个轻量级的 Python Web 框架…...

计算机毕业设计Python+大模型微博情感分析 微博舆情预测 微博爬虫 微博大数据 舆情分析系统 大数据毕业设计 NLP文本分类 机器学习 深度学习 AI
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 《Python大模型微博情感分析…...

CTF--Misc题型小结
(萌新笔记,多多关照,不足之处请及时提出。) 不定时更新~ 目录 密码学相关 文件类型判断 file命令 文件头类型 strings读取 隐写术 尺寸修改 文件头等缺失 EXIF隐写 thumbnail 隐写 文件分离&提取 binwalk foremo…...

深度学习系列——RNN/LSTM/GRU,seq2seq/attention机制
1、RNN/LSTM/GRU可参考: https://zhuanlan.zhihu.com/p/636756912 (1)对于这里面RNN的表示中,使用了输入x和h的拼接描述,其他公式中也是如此 (2)各符号图含义如下 2、关于RNN细节,…...

通过call指令来学习指令摘要表的细节
E8 cw cw 表示E8后面跟随2 字节 (什么数不知道) rel16 指在与指令同一代码段内的相对地址偏移 D ,指向Instruction Operand Encoding 表中的D列, 他告诉我们 操作数1 是一个0FFSET N.S. 在64位模式下,某些指令需要使用“地址覆盖前缀”(address over…...

10分钟使用Strapi(无头CMS)生成基于Node.js的API接口,告别繁琐开发,保姆级教程,持续更新中。
一、什么是Strapi? Strapi 是一个开源的无头(headless) CMS,开发者可以自由选择他们喜欢的开发工具和框架,内容编辑人员使用自有的应用程序来管理和分发他们的内容。得益于插件系统,Strapi 是一个灵活的 C…...

idea大量爆红问题解决
问题描述 在学习和工作中,idea是程序员不可缺少的一个工具,但是突然在有些时候就会出现大量爆红的问题,发现无法跳转,无论是关机重启或者是替换root都无法解决 就是如上所展示的问题,但是程序依然可以启动。 问题解决…...
利用ngx_stream_return_module构建简易 TCP/UDP 响应网关
一、模块概述 ngx_stream_return_module 提供了一个极简的指令: return <value>;在收到客户端连接后,立即将 <value> 写回并关闭连接。<value> 支持内嵌文本和内置变量(如 $time_iso8601、$remote_addr 等)&a…...

通过Wrangler CLI在worker中创建数据库和表
官方使用文档:Getting started Cloudflare D1 docs 创建数据库 在命令行中执行完成之后,会在本地和远程创建数据库: npx wranglerlatest d1 create prod-d1-tutorial 在cf中就可以看到数据库: 现在,您的Cloudfla…...
【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密
在实际项目中,用户注册、登录、修改密码等操作,都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输,在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...

聊聊 Pulsar:Producer 源码解析
一、前言 Apache Pulsar 是一个企业级的开源分布式消息传递平台,以其高性能、可扩展性和存储计算分离架构在消息队列和流处理领域独树一帜。在 Pulsar 的核心架构中,Producer(生产者) 是连接客户端应用与消息队列的第一步。生产者…...

STM32F4基本定时器使用和原理详解
STM32F4基本定时器使用和原理详解 前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

家政维修平台实战20:权限设计
目录 1 获取工人信息2 搭建工人入口3 权限判断总结 目前我们已经搭建好了基础的用户体系,主要是分成几个表,用户表我们是记录用户的基础信息,包括手机、昵称、头像。而工人和员工各有各的表。那么就有一个问题,不同的角色…...
C++八股 —— 单例模式
文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念 线程安全(Thread Safety) 线程安全是指在多线程环境下,某个函数、类或代码片段能够被多个线程同时调用时,仍能保证数据的一致性和逻辑的正确性…...
Mobile ALOHA全身模仿学习
一、题目 Mobile ALOHA:通过低成本全身远程操作学习双手移动操作 传统模仿学习(Imitation Learning)缺点:聚焦与桌面操作,缺乏通用任务所需的移动性和灵活性 本论文优点:(1)在ALOHA…...
重启Eureka集群中的节点,对已经注册的服务有什么影响
先看答案,如果正确地操作,重启Eureka集群中的节点,对已经注册的服务影响非常小,甚至可以做到无感知。 但如果操作不当,可能会引发短暂的服务发现问题。 下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...