Trie树模板与应用
文章和代码已经归档至【Github仓库:https://github.com/timerring/algorithms-notes 】或者公众号【AIShareLab】回复 算法笔记 也可获取。
文章目录
- Trie树(字典树)
- 基本思想
- 例题 Trie字符串统计
- code
- 关于idx的理解
- 模板总结
- 应用 最大异或对
- 分析
Trie树(字典树)
Trie树是用来快速存储和查找 字符串集合的数据结构。某个字符串集合对应的有根树。树的每条边上对应有恰好一个字符,每个顶点代表从根到该节点的路径所对应的字符串(将所有经过的边上的字符按顺序连接起来)。利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
基本思想
存储若干字符串(通常样本中的字符较少),然后根据字符串中字符出现的先后顺序建立树,把具有相同前缀的字符串按照其前缀归类在一个分支中,并且需要在字符串的最后一个位置进行标记(表明到此为一个完整的字符串)。

查找时只需要寻找是否有匹配的序列,并且是否已标记结尾即可。

例题 Trie字符串统计
维护一个字符串集合,支持两种操作:
I x向集合中插入一个字符串 x;Q x询问一个字符串在集合中出现了多少次。
共有 N 个操作,输入的字符串总长度不超过 1 0 5 10^5 105,字符串仅包含小写英文字母。
输入格式
第一行包含整数 N,表示操作数。
接下来 N 行,每行包含一个操作指令,指令为 I x 或 Q x 中的一种。
输出格式
对于每个询问指令 Q x,都要输出一个整数作为结果,表示 x 在集合中出现的次数。
每个结果占一行。
数据范围
1 ≤ N ≤ 2 ∗ 1 0 4 1≤N≤2∗10^4 1≤N≤2∗104
输入样例:
5
I abc
Q abc
Q ab
I ab
Q ab
输出样例:
1
0
1
code
#include<iostream>
using namespace std;const int N = 100010;
// 下标0代表根节点和空节点,cnt用于计数,idx代表当前的节点(和单链表一样)相当于是一个独一无二的递增编号,son[N][26]每个节点最多有26条边(小写英文字母)
int son[N][26], cnt[N], idx;
char str[N];
// 插入
void insert(char str[])
{int p = 0;// 根节点// 遍历字符串,cpp中str最后一位是\0for(int i = 0; str[i]; i ++){// 映射字母a-z为0-25int u = str[i] - 'a';// 若不存在该节点则创建一个if(!son[p][u]) son[p][u] = ++ idx;// 走到该子节点p = son[p][u];}cnt[p] ++ ;// 标记该子节点存在的单词个数 记住这里p = son[p][u];
}
// 查询
int query(char str[])
{int p = 0;for(int i = 0; str[i]; i++){int u = str[i] - 'a';if(!son[p][u]) return 0;p = son[p][u];}return cnt[p];
}int main()
{//ios::sync_with_stdio(false);//cin.tie(0);int n;scanf("%d", &n);while(n --){char op[2];scanf("%s%s", op, str);if(op[0] == 'I') insert(str);else printf("%d\n", query(str));}return 0;
}
关于idx的理解
不管是链表,Trie树还是堆,他们的基本单元都是一个个结点连接构成的,可以成为“链”式结构。这个结点包含两个基本的属性:本身的值和指向下一个结点的指针。按道理,应该按照结构体的方式来实现这些数据结构的,但是做算法题一般用数组模拟,主要是因为比较快。
原来这两个属性都是以结构体的方式联系在一起的,现在如果用数组模拟,如何才能把这两个属性联系起来呢,如何区分各个结点呢?答案是采用idx。
idx的操作总是 idx++,这就保证了不同的idx值对应不同的结点,这样就可以利用idx把结构体内两个属性联系在一起了。因此,idx可以理解为结点。
idx相当于一个分配器,如果需要加入新的结点就用++idx分配出一个下标,输入字符串的总长度不超过 1 0 5 10^5 105,因此最多会用到 1 0 5 10^5 105个idx。
Trie树中有个二维数组 son[N][26],表示当前结点的儿子,如果没有的话,可以等于++idx。Trie树本质上是一颗多叉树,对于字母而言最多有26个子结点。所以这个数组包含了两条信息。比如:son[1][0]=2表示1结点的一个值为a的子结点为结点2;如果son[1][0] = 0,则意味着没有值为a子结点。这里的son[N][26]相当于链表中的ne[N]。当然这里2仅仅是一个节点的编号而已。
参考:https://www.acwing.com/solution/content/5673/
模板总结
int son[N][26], cnt[N], idx;
// 0号点既是根节点,又是空节点
// son[][]存储树中每个节点的子节点
// cnt[]存储以每个节点结尾的单词数量// 插入一个字符串
void insert(char *str)
{int p = 0;for (int i = 0; str[i]; i ++ ){int u = str[i] - 'a';if (!son[p][u]) son[p][u] = ++ idx;p = son[p][u];}cnt[p] ++ ;
}// 查询字符串出现的次数
int query(char *str)
{int p = 0;for (int i = 0; str[i]; i ++ ){int u = str[i] - 'a';if (!son[p][u]) return 0;p = son[p][u];}return cnt[p];
}
应用 最大异或对
在给定的 N个整数 A 1 A_1 A1, A 2 A_2 A2…… A N A_N AN 中选出两个进行 x o r xor xor(异或)运算(一般异或运算是按位计算的),得到的结果最大是多少?
输入格式
第一行输入一个整数 N。
第二行输入 N 个整数 A 1 A_1 A1~ A N A_N AN。
输出格式
输出一个整数表示答案。
数据范围
1 ≤ N ≤ 1 0 5 1≤N≤10^5 1≤N≤105
0 ≤ A i < 2 31 0≤A_i<2^{31} 0≤Ai<231
输入样例:
3
1 2 3
输出样例:
3
分析
首先是暴力做法BF O ( n 2 ) O(n^2) O(n2):
for (int i = 0; i < n; i++)
{for (int j = 0; j < i; j++){// 但其实 a[i] ^ a[j] == a[j] ^ a[i], 所以内层循环 j < i // 因为 a[i] ^ a[i] == 0 所以事先把返回值初始化成0 不用判断相等的情况}
}
异或也可以理解为不进位加法,相同的话异或值为0。Trie树不仅可以存储整数,也可以存储二进制数。而计算机中所有文件都是以二进制的形式保存的,换句话说Trie数可以存储任何文件。异或后最大,这需要寻找出与原数每位不同的数,为保证最大值,需要从最高位开始依次寻找,过程如下所示:

可以不用先全部插入,因为这是有顺序的,避免多次枚举 a j a_j aj 和 a i a_i ai 以及 a i a_i ai 和 a j a_j aj 的情况。因此可以先查找再插入(可能最开始的情况下要写一个特判,因为最开始没有可以查找的内容),当然也可以先插入再查找(可能存在的问题就是每次自己和自己异或是0,没有意义)。
#include <iostream>
#include <algorithm>using namespace std;
// N是整数个数,M是树的总宽度
const int N = 100010, M = 3100010;int n;
int a[N], son[M][2], idx;void insert(int x)
{int p = 0;for (int i = 30; i >= 0; i -- ){// 从高到低依次取每一位int u = x >> i & 1;// 没有该节点则插入该节点if (!son[p][u]) son[p][u] = ++ idx;// 指针指向下一层p = son[p][u];}
}int query(int x)
{int p = 0, res = 0;for (int i = 30; i >= 0; i -- ){// 从最大位开始找int u = x >> i & 1;// 如果当前层有对应的不相同的数,p指针就指到不同数的地址if (son[p][!u]){p = son[p][!u];// 因为这一位不同,异或后为1,这里向前移位并且保留相反数即可。res = res * 2 + !u;}else {p = son[p][u];// 如果没有相异的数,则只能向前移一位然后保留该数即可。res = res * 2 + u;}}return res;
}int main()
{scanf("%d", &n);for (int i = 0; i < n; i ++ ) scanf("%d", &a[i]);int res = 0;for (int i = 0; i < n; i ++ ) {insert(a[i]);int t = query(a[i]);// 最后再进行异或处理res = max(res, a[i] ^ t);}printf("%d\n", res);return 0;
}
同时,这里关于代码有两个思路,一个是上面这种query需要寻找的对应的异或的整数,最后 max(res, a[i] ^ t) 得到结果。
此外还可以直接在 query 中提前进行比较计算,最后直接比较结果即可 max(res, t),过程如下:
int query(int x)
{int p = 0, res = 0;for (int i = 30; i >= 0; i -- ){// 从最大位开始找int u = x >> i & 1;// 如果当前层有对应的不相同的数,p指针就指到不同数的地址if (son[p][!u]){p = son[p][!u];// 因为这一位不同,异或后为1,只需要向前移并且加1即可res = res * 2 + 1;}else {p = son[p][u];// 这一位相同,xor后为0,向前移一位然后置0即可。res = res * 2 + 0;}}return res;
}
相关文章:
Trie树模板与应用
文章和代码已经归档至【Github仓库:https://github.com/timerring/algorithms-notes 】或者公众号【AIShareLab】回复 算法笔记 也可获取。 文章目录 Trie树(字典树)基本思想例题 Trie字符串统计code关于idx的理解 模板总结应用 最大异或对分…...
【华为OD统一考试B卷 | 200分】跳格子游戏(C++ Java JavaScript Python)
文章目录 题目描述输入描述输出描述用例C++javajavaScriptpython题目描述 地上共有N个格子,你需要跳完地上所有的格子,但是格子间是有强依赖关系的,跳完前一个格子后,后续的格子才会被开启,格子间的依赖关系由多组steps数组给出,steps[0]表示前一个格子,steps[1]表示st…...
该选哪个语言进修呢?
前言: 如今,计算机编程已经成为了许多工作领域中的必备技能。但是,现在的计算机语言有很多,这可能会让我们感到困惑:我应该从哪个语言开始呢?在这篇博客中,我们将详细分析当前流行的一些计算机…...
数据库实验三 数据查询一
任务描述 本关任务:按条件查询数据表的所有字段 为了完成本关任务,你需要掌握: 如何查询数据表的所有字段 相关知识 查询数据表 命令格式: select * from 数据表 where 查询条件 任务要求 打开province数据库 第一题 查询街…...
【Python百日进阶-Web开发-Peewee】Day244 - 数据库 Postgresql、CockroachDB
文章目录 六、数据库6.1 初始化数据库6.2 使用 Postgresql6.2.1 隔离级别 6.3 使用 CockroachDB 六、数据库 http://docs.peewee-orm.com/en/latest/peewee/database.html PeeweeDatabase对象表示与数据库的连接。该类Database使用打开数据库连接所需的所有信息进行实例化&…...
Vue 中的列表渲染
Vue 中的列表渲染 在 Vue 中,列表渲染是非常常见的操作。它允许我们将一个数组中的数据渲染为一个列表,从而实现数据的展示和交互。在本文中,我们将探讨 Vue 中的列表渲染的基本原理和用法,并给出一些实例代码来帮助读者更好地理…...
java 中的关键字
1. 面向对象编程(OOP) - 把程序中的实体看做对象,而不是过程或函数。OOP有3个基本特征:封装,继承和多态。 2. 类(Class) - 一个用于描述对象属性和方法的蓝图。 3. 对象(Object) - 类的实例化,也就是一个具体的实体。 4. 方法(Met…...
python序列化和结构化数据详解
序列化和结构化数据是计算机程序中非常重要的概念,它们的原理和应用在许多应用程序中都是必不可少的。Python作为一种高级编程语言,在序列化和结构化数据方面提供了很多优秀的解决方案。在本文中,我们将详细介绍Python中序列化和结构化数据的…...
PoseiSwap的趋势性如何体现?
DEX 代表了一种先进的意识形态,相对于 CEX 其更强调无许可、去中心化以及公开透明。然而随着 DeFi 赛道逐渐从 2021 年年底的高峰逐渐转向低谷,DEX 整体的交易量、TVL等数据指标也开始呈现下滑的趋势,DEX 正在面临发展的新瓶颈期。 在这样的背…...
西南交通大学智能监测 培训课程练习4
2023.056.07和09培训 项目实战 目录 一、infracore(基础核心层) 1.1database 1.2config 1.3util 二、业务领域模块 2.1structure模块 2.1.1domain层 2.1.2application层 2.1.3adapter层 2.2sensor模块 2.2.1domian层 2.2.2application层 2.2.…...
设备树的引入及简明教程
首先说明,设备树不可能用来写驱动。 设备树只是用来给内核里的驱动程序,指定硬件的信息。比如LED驱动,在内核的驱动程序里去操作寄存器,但是操作哪一个引脚?这由设备树指定。 需要编写设备树文件(dts: device tree s…...
MM32F3273G8P火龙果开发板MindSDK开发教程12 -获取msa311加速器的敲击事件
MM32F3273G8P火龙果开发板MindSDK开发教程12 -获取msa311加速器的敲击事件 1、功能描述 msa311可以识别单击、双击事件,类似手机上的点击返回,双击截屏功能。 单击,双击都能产生中断事件。 中断事件产生后,从对应的状态寄存器读…...
Maven聚合
在实际的开发过程中,我们所接触的项目一般都由多个模块组成。在构建项目时,如果每次都按模块一个一个地进行构建会十分得麻烦,Maven 的聚合功能很好的解决了这个问题。 聚合 使用 Maven 聚合功能对项目进行构建时,需要在该项目中…...
[架构之路-211]- 需求- 软架构前的需求理解:ADMEMS标准化、有序化、结构化、层次化需求矩阵 =》需求框架
目录 前言: 一、什么是ADMES: 首先,需求是分层次的: 其次,需求是有结构的,有维度的 再次,不同层次需求、不同维度需求之间可以相互转化(难点、经验积累) 最终,标准…...
基于前推回代法的连续潮流计算研究【IEEE33节点】(Matlab代码实现)
💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...
【双向链表】
双向链表 带头双向循环链表的实现1. 函数的声明2. 函数的实现3. 主函数测试 带头双向循环链表的实现 今天我们来实现一下带头双向循环链表,顾名思义,带头就是有哨兵位,哨兵位不是链表的头,它是连接头节点的一个节点,方…...
POSTGRESQL NEON - Serverless 式的POSTGRESQL 数据库的独特技能 分支数据
开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共…...
数据分布——长尾分布的处理
前言 长尾分布在分类任务中会提到这个名,这是因为长尾分布这个现象问题会导致在训练过程中会出现出错率高的问题,影响了实验结果。 这里要说的是,长尾分布是一种现象,有的地方说是一种理论或定律,我感觉这样说不太确切࿰…...
集合导题、刷题、考试全套完整流程,专业强大的功能,提高刷题学习效率和企业的培训效率
土著刷题微信小程序v1.15,主要是迭代了考试模块的进阶功能,对考试模块进行了一次升级改造。 由于在v1.15开发期间,收到了违规内容整改的通告,为了遵守相关法律法规,让小程序能够平稳安全地运营下去,我们特此…...
【机器学习】采样方法
文章目录 采样方法11.1 简介11.2 常见采样方法11.2.1 均匀分布采样11.2.2 逆变换采样11.2.3 拒绝采样11.2.4 重要采样11.2.5 Metropolis方法11.2.6 Metropolis-Hasting 算法11.2.7 吉布斯采样 采样方法 11.1 简介 什么是采样 从一个分布中生成一批服从该分布的样本,…...
Laravel DDD架构实践:使用Neuron Core构建可维护业务系统
1. 项目概述:一个为Laravel打造的现代化神经元网络核心如果你正在用Laravel构建一个中大型应用,并且已经受够了在控制器里塞满几百行业务逻辑,或者在模型里写满各种scope和accessor,让它们变得臃肿不堪,那么neuron-cor…...
Taotoken CLI工具一键配置开发环境与团队密钥共享指南
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Taotoken CLI工具一键配置开发环境与团队密钥共享指南 在团队协作开发中,统一大模型API的接入配置是一个常见痛点。每位…...
嵌入式软件测试的范式革命——技术体系与工程价值深度解析
第一章 引言:嵌入式软件质量危机的时代背景在汽车电子、航空航天、工业控制、医疗设备等安全关键领域,嵌入式软件的复杂度正以指数级速度增长。一辆高端智能电动汽车的代码量已突破两亿行,超越了波音787客机的软件规模。与此同时,…...
利用Taotoken模型广场为内容生成应用挑选合适模型
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 利用Taotoken模型广场为内容生成应用挑选合适模型 对于开发内容生成类应用的团队而言,选择合适的模型是项目成功的关键…...
【Claude API集成实战指南】:20年专家亲授FastAPI高效对接Claude的7大避坑法则
更多请点击: https://intelliparadigm.com 第一章:Claude API集成的核心原理与FastAPI技术选型 Claude API 采用基于 HTTP/2 的流式 REST 接口设计,核心通信模式为双向流(/v1/messages 端点),支持 event:…...
TI INA333数据手册没细说的5个细节:增益电阻怎么选?温漂怎么算?你的电路可能一直没优化
INA333电路设计进阶指南:数据手册没告诉你的5个关键优化点 在精密测量电路设计中,INA333作为TI经典的仪表放大器,被广泛应用于传感器信号调理、医疗设备和工业控制等领域。虽然数据手册提供了基本参数和典型应用电路,但许多工程师…...
【DeepSeek安全防护权威指南】:20年攻防专家亲授Prompt注入3大高危场景与7层防御体系
更多请点击: https://intelliparadigm.com 第一章:DeepSeek Prompt注入防护的演进与现状 随着 DeepSeek 系列大模型在企业级场景中的深度部署,Prompt 注入攻击已从理论威胁演变为高频真实风险。早期防护策略依赖于简单的关键词过滤和长度截断…...
开源的精神内核:是自由协作,还是商业公司的免费劳动力?
一、溯源:开源精神的三重底色——自由、共享与协作要理解开源的本质,我们必须先回到其精神原点。开源运动自诞生之日起,就携带着自由、共享与协作的基因,这三者共同构成了其精神内核的底色,缺一不可。自由,…...
Windows键盘记录器:为什么需要、它是什么、以及如何正确使用
Windows键盘记录器:为什么需要、它是什么、以及如何正确使用 【免费下载链接】keylogger Keylogger for Windows. 项目地址: https://gitcode.com/gh_mirrors/keylogg/keylogger 在当今数字化时代,键盘记录器作为系统监控和用户行为分析工具&…...
革新Mac软件管理体验:Applite智能图形化工具深度解析
革新Mac软件管理体验:Applite智能图形化工具深度解析 【免费下载链接】Applite User-friendly GUI macOS application for Homebrew Casks 项目地址: https://gitcode.com/gh_mirrors/ap/Applite 还在为繁琐的命令行安装而烦恼?是否曾因复杂的Hom…...
