当前位置: 首页 > news >正文

算法刷题笔记 KMP字符串(C++实现,并给出了求next数组的独家简单理解方式)

文章目录

    • 题目描述
    • 基本思路
    • 实现代码

题目描述

  • 给定一个字符串S,以及一个模式串P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
  • 模式串P在字符串S中多次作为子串出现。
  • 求出模式串P在字符串S中所有出现的位置的起始下标。

输入格式

  • 第一行输入整数N,表示字符串P的长度。
  • 第二行输入字符串P
  • 第三行输入整数M,表示字符串S的长度。
  • 第四行输入字符串S

输出格式

  • 共一行,输出所有出现位置的起始下标(下标从0开始计数),整数之间用空格隔开。

数据范围

  • 1 ≤ N ≤ 10^5
  • 1 ≤ M ≤ 10^6

基本思路

  • KMP算法是一个经典的字符串匹配算法。字符串匹配如果使用蛮力算法实现,则最坏情况下的时间复杂度是O(m*n),其中mn分别是母串和子串的长度;KMP算法将该时间复杂度优化到了O(m+n),可以说实现了一个重大的飞跃。
  • KMP算法可以分为求next数组和基于next数组的字符串匹配两部分,其中前一部分会更加困难一些。
  • 在字符串匹配部分,采用的方法是一种双指针算法,两个指针分别指向母串和子串中的一个待匹配字符。每次都比较两个指针所指向的字符,如果字符相同(发生匹配的情况),则同时将指针移动到下一个位置;如果字符不同(发生失配的情况),则进行分情况讨论:
    • 对于子串的首字符失配,则直接将母串的指针移动到下一个位置;
    • 对于子串的非首字符失配,则根据已经得到的next数组,修改子串指针所指向的位置,避免从头开始匹配带来的冗余消耗。
  • next数组的求解是KMP算法最困难的部分,下面进行介绍:
    • next数组中的每一个元素的值,表示从字符串的首个字符开始到当前元素对应的字符结束所构成的子串的最长相同前后缀的长度。注意,这里的最长相同前后缀不包含字符串本身。
    • next数组的首元素需要手动进行初始化,设置其值为0
    • next数组的构建同样是基于双指针算法完成的。起初,分别设置两个指针指向字符串的第一个字符和第二个字符,之后这两个指针都会向后移动。
      • 当两个指针指向的字符相同时,则当前右指针对应的字符的next数组元素值就是在上一个元素的next数组元素值上自增1
      • 当两个指针指向的字符不同时,则说明当前的最长相同前后缀分别加上左右指针所指向的字符后,无法继续构成相同的前后缀,因此就需要尝试寻找更短子串构成最长相同前后缀,即代码中的prefix_length = ne[prefix_length - 1]部分。这一部分理解起来比较复杂,因此下面通过一个实例进行介绍。
      • 假设需要构建对应的next数组的字符串是ABACABAB,且当前已经完成匹配的部分是第一个到第三个字符ABA和第五个到第七个字符ABA,第七个字符A对应的next数组值是3。现在左指针指向了第四个字符C,右指针指向了第八个字符B,显然两者不同,因此左右两边的字符串增加了新字符后,ABACABAB显然不是相同的前后缀,因此我们需要使用别的方式计算由这八个字符构成的字符串的最长相同前后缀。
      • 直观上我们发现,如果需要构建最长相同前后缀,那么就需要两个条件:加入的新字符完全相同、加入新字符前的前缀和后缀完全相同。这样,就可以产生一个巧妙的构思:既然当前字符串的最长相同前后缀分别增加一个新字符后无法继续构成最长相同前后缀,那么我们能不能退而求其次,不是使用当前的最长相同前后缀,而是第二长相同前后缀,来构建下一个最长相同前后缀呢?这是因为,第二长相同的前后缀也满足加入新字符前的前缀和后缀完全相同,并且修改了前缀和后缀后,前缀的下一个字符也会随着前缀更改一次,说不定就可以和右指针新插入的字符相同了。
      • 例如,对于ABACABA,最长的相同前后缀是ABA(前三个字符和后三个字符),但是最长的相同前后缀再增加第八个字符B后,构成的前后缀分别是ABACABAB,显然不相同。但是,如果使用第二长前后缀A(即第一个字符和第七个字符),增加一个字符B后,仍然可以构成相同前后缀AB。因此,在字符串当前的最长相同前后缀无法继续构成下一步的最长相同前后缀时,我们可以使用第二长的相同前后缀继续进行尝试,如果还不行则使用第三长的相同前后缀…直到找到可以继续构成相同前后缀的相同前后缀或确定不存在可以构成相同前后缀的相同前后缀(因为一个字符串的相同前后缀的个数是有限的)。现在的问题就是如何找出一个字符串的第二长相同前后缀。
      • 对于字符串ABABABA,其最长相同前后缀是ABA,包含三个字符,那么第二长的相同前后缀如果存在,则一定只包含两个字符或者一个字符,所以我们需要比较该字符串的前两个字符和后两个字符,以及第一个字符和最后一个字符。由于我们已经知道了ABA是最长相同前后缀,所以后两个字符实际上就是第二个和第三个字符,最后一个字符实际上就是第三个字符,因此问题就转换为了比较该字符串的前两个字符和第二个第三个字符,以及字符串的第一个字符和第三个字符是否相同的问题,其实也就是前三个字符构成的字符串ABA的最长相同前后缀问题!
      • 由于我们求解next数组的过程是顺序进行的,因此我们已经计算出了前三个字符ABA对应的next数组元素分别为001,因此我们可以得出对于ABA,其最长相同前后缀的长度为1,因此对于字符串ABABABA,其第二长相同前后缀的长度也是1。因此,在最长相同前后缀ABA无法继续构成最长相同前后缀时,我们使用第二长的相同前后缀尝试继续构建最长相同前后缀,构建出了AB,成功!

实现代码

#include <iostream>
using namespace std;// 创建一个静态数组ne作为next数组
const int n = 1e5 + 10;
int ne[n];// 获取next数组的函数
// 传入的参数分别是字符串的长度N和字符串P
// 函数根据传入的参数计算next数组
void get_next(int N, const string& P)
{// 首先将第一个元素对应的next值设置为0ne[0] = 0;// 定义并初始化两个指针int prefix_length = 0, j = 1;// 通过循环的方式求解next数组,直到完成对字符串的遍历while(j < N){// 情况1:两个指针所指向的字符相同,则说明最长相同前后缀可以同时自增,并记录结果if(P[prefix_length] == P[j]){++ prefix_length;ne[j] = prefix_length;++ j;}else{// 情况2:两个指针所指向的字符不同且第一个指针并不是指向字符串首字符,则根据next数组找出次最长相同前后缀if(prefix_length != 0) prefix_length = ne[prefix_length - 1];// 情况3:两个指针所指向的字符不同,且第一个指针指向字符串首元素,则直接将此处记录为0即可else{ne[j] = 0; ++ j;}}}
}// 进行KMP字符串匹配的函数
// 传入的参数分别是子串的长度N、子串P、母串的长度M、母串S
// 函数会在控制台输出子串P在母串S中所有出现位置的首字符下标
void KMP_search(int N, const string& P, int M, const string& S)
{// 首先根据子串P获取其对应的next数组get_next(N, P);// 定义并初始化母串和子串的指针int pp = 0, sp = 0;// 通过循环进行字符串匹配,当超出母串长度时停止循环while(sp < M){// 情况1:当前母串和子串的对应字符相同,则指针同时自增比较下一个元素if(P[pp] == S[sp]) {++ pp; ++ sp;}else{// 情况2:当前母串和子串的对应字符不同,且不是发生在子串第一个元素,则基于next数组修改子串指针if(pp != 0) pp = ne[pp - 1];// 情况3:当前母串和子串的对应字符不同,且发生在子串的第一个元素,则直接将母串指针自增else ++ sp;}// 每一次当子串遍历完成一次,则输出一次出现下标,并基于next数组修改子串指针if(pp == N){cout << sp - pp << " ";pp = ne[pp - 1];}}
}int main(void)
{int N, M;string P, S;cin >> N >> P >> M >> S;KMP_search(N, P, M, S);return 0;
}

相关文章:

算法刷题笔记 KMP字符串(C++实现,并给出了求next数组的独家简单理解方式)

文章目录 题目描述基本思路实现代码 题目描述 给定一个字符串S&#xff0c;以及一个模式串P&#xff0c;所有字符串中只包含大小写英文字母以及阿拉伯数字。模式串P在字符串S中多次作为子串出现。求出模式串P在字符串S中所有出现的位置的起始下标。 输入格式 第一行输入整数…...

SpringCloud架构师面试

一、微服务是什么 1、基本概念 微服务是一种架构风格&#xff08;区别于单体架构、垂直架构、分布式架构、SOA架构&#xff09;&#xff0c;应用程序被划分为更小的、流程驱动的服务。 2、微服务的特征 轻量化&#xff1a;将复杂的系统或者服务进行纵向拆分&#xff0c;每个…...

C语言 | Leetcode C语言题解之第228题汇总区间

题目&#xff1a; 题解&#xff1a; char** summaryRanges(int* nums, int numsSize, int* returnSize) {char** ret malloc(sizeof(char*) * numsSize);*returnSize 0;int i 0;while (i < numsSize) {int low i;i;while (i < numsSize && nums[i] nums[i …...

入职前回顾一下git-01

git安装 Linux上安装git 在linux上建议用二进制的方式来安装git&#xff0c;可以使用发行版包含的基础软件包管理工具来安装。 红帽系 sudo yum install gitDebian系 sudo apt install gitWindows上安装git 去官网下载和操作系统位数相同的安装包.或者可以直接安装GitHub…...

this指向解析

先看题目&#xff1a; 第一题&#xff1a; var name window var person1 { name: person1, show1: function () { console.log(this.name) }, show2: () > console.log(th show3: function () { return function () { …...

学习小记-Nacos的服务注册与发现原理

服务注册&#xff1a; 当一个服务实例启动时&#xff0c;它会向 Nacos 服务器注册自己的信息&#xff0c;包括 IP 地址、端口号、元数据&#xff08;如服务版本、区域信息等&#xff09;。服务实例使用 Nacos API 发送注册请求&#xff0c;Nacos 服务器接收请求并存储服务实例信…...

视频号矩阵系统源码,实现AI自动生成文案和自动回复私信评论,支持多个短视频平台

在当今短视频蓬勃发展的时代&#xff0c;视频号矩阵系统源码成为了自媒体人争相探索的宝藏。这一强大的技术工具不仅能帮助我们高效管理多个短视频平台&#xff0c;更能通过AI智能生成文案和自动回复私信评论&#xff0c;为自媒体运营带来前所未有的便利与效率。 一、视频号矩…...

[Spring] SpringBoot基本配置与快速上手

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏: &#x1f9ca; Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 &#x1f355; Collection与…...

tomcat的优化、动静分离

tomcat的优化 tomcat自身的优化 tomcat的并发处理能力不强&#xff0c;大项目不适应tomcat做为转发动态的中间件&#xff08;k8s集群&#xff0c;pytnon rubby&#xff09;&#xff0c;小项目会使用&#xff08;内部使用的&#xff09;动静分离 默认配置不适合生产环境&…...

Python与自动化脚本编写

Python与自动化脚本编写 Python因其简洁的语法和强大的库支持&#xff0c;成为了自动化脚本编写的首选语言之一。在这篇文章中&#xff0c;我们将探索如何使用Python来编写自动化脚本&#xff0c;以简化日常任务。 一、Python自动化脚本的基础 1. Python在自动化中的优势 Pyth…...

树与二叉树

前言&#xff1a; 树这个结构想必在日常生活中很常见到&#xff0c;而现在要介绍的是一种独特的数据结构--二叉树。 1.树 &#xff08;1&#xff09;定义&#xff1a; 是一种非线性结构&#xff0c;有一个特殊的节点叫做根节点&#xff0c;树没有前驱节点&#xff1b;树是递…...

SpringBoot+Vue实现简单的文件上传(Excel篇)

SpringBootVue实现简单的文件上传 1 环境 SpringBoot 3.2.1&#xff0c;Vue 2&#xff0c;ElementUI 2 页面 3 效果&#xff1a;只能上传xls文件且大小限制为2M&#xff0c;选择文件后自动上传。 4 前端代码 <template><div class"container"><el…...

科研绘图系列:R语言金字塔图(pyramid plot)

介绍 金字塔图(Pyramid chart)是一种用于展示人口统计数据的图表,特别是用于展示不同年龄段的人口数量。这种图表通常用于展示人口结构,比如性别和年龄的分布。 特点: 年龄分层:金字塔图按年龄分层,每一层代表一个年龄组。性别区分:通常,男性和女性的数据会被分别展…...

Tomcat多实例

一、Tomcat多实例 Tomcat多实例是指在同一台服务器上运行多个独立的tomcat实例&#xff0c;每个tomcat实例都具有独立的配置文件、日志文件、应用程序和端口&#xff0c;通过配置不同的端口和文件目录&#xff0c;可以实现同时运行多个独立的Tomcat服务器&#xff0c;每个服务…...

前端Vue组件化实践:自定义加载组件的探索与应用

在前端开发领域&#xff0c;随着业务逻辑复杂度的提升和系统规模的不断扩大&#xff0c;传统的开发方式逐渐暴露出效率低下、维护困难等问题。为了解决这些挑战&#xff0c;组件化开发作为一种高效、灵活的开发模式&#xff0c;受到了越来越多开发者的青睐。本文将结合实践&…...

半小时获得一张ESG入门证书【详细中英文笔记一】

前些日子&#xff0c;有朋友转发了一则小红书的笔记给我&#xff0c; 标题是《半小时获CFI官方高颜值免费证书 ESG认证》。这对考证狂魔的我来说&#xff0c;必然不能错过啊&#xff0c;有免费的羊毛不薅白不薅。 ESG课程的 CFI 官方网址戳这里&#xff1a;CFI 于是信心满满的…...

类形断言和和类型推导的区别是什么?

类型断言&#xff08;Type Assertion&#xff09;和类型推导&#xff08;Type Inference&#xff09;在TypeScript中的区别 如下&#xff1a; 定义&#xff1a; 类型断言&#xff1a;是程序员明确指定一个值的类型&#xff0c;即允许变量从一种类型更改为另一种类型。它不会进行…...

Spring-Spring、IoC、DI、注解开发

1、Spring是什么 Spring是一个轻量级的控制反转(IoC)和面向切面(AOP)的容器(框架)。 Spring整体架构 Spring优点&#xff1a; Spring属于低侵入设计。IOC将对象之间的依赖关系交给Spring,降低组件之间的耦合&#xff0c;实现各个层之间的解耦&#xff0c;让我们更专注于业务…...

Facebook的未来蓝图:从元宇宙到虚拟现实的跨越

随着科技的不断演进和社会的数字化转型&#xff0c;虚拟现实&#xff08;VR&#xff09;和增强现实&#xff08;AR&#xff09;作为下一代计算平台正逐渐走进人们的视野。作为全球领先的科技公司之一&#xff0c;Facebook正在积极探索并推动这一领域的发展&#xff0c;以实现其…...

Redis6.2.1版本集群新加副本

测试数据 通过redis-benchmark生成测试数据 ./bin/redis-benchmark -h 172.31.4.18 -p 6381 -a Redis_6.2.1_Sc --cluster -t set -d 128 -n 10000000 -r 100000000 -c 200新加节点 172.31.4.18:6381> AUTH Redis_6.2.1_Sc OK172.31.4.18:6381> cluster meet 172.31.4…...

Ubuntu系统下交叉编译openssl

一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机&#xff1a;Ubuntu 20.04.6 LTSHost&#xff1a;ARM32位交叉编译器&#xff1a;arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...

ES6从入门到精通:前言

ES6简介 ES6&#xff08;ECMAScript 2015&#xff09;是JavaScript语言的重大更新&#xff0c;引入了许多新特性&#xff0c;包括语法糖、新数据类型、模块化支持等&#xff0c;显著提升了开发效率和代码可维护性。 核心知识点概览 变量声明 let 和 const 取代 var&#xf…...

逻辑回归:给不确定性划界的分类大师

想象你是一名医生。面对患者的检查报告&#xff08;肿瘤大小、血液指标&#xff09;&#xff0c;你需要做出一个**决定性判断**&#xff1a;恶性还是良性&#xff1f;这种“非黑即白”的抉择&#xff0c;正是**逻辑回归&#xff08;Logistic Regression&#xff09;** 的战场&a…...

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

下面我将详细介绍如何使用HarmonyOS SDK在HarmonyOS 5中实现类似抖音的点赞功能&#xff0c;包括动画效果、数据同步和交互优化。 1. 基础点赞功能实现 1.1 创建数据模型 // VideoModel.ets export class VideoModel {id: string "";title: string ""…...

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

引言&#xff1a; 在人工智能快速发展的浪潮中&#xff0c;快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型&#xff08;LLM&#xff09;。该模型代表着该领域的重大突破&#xff0c;通过独特方式融合思考与非思考…...

Spring Boot+Neo4j知识图谱实战:3步搭建智能关系网络!

一、引言 在数据驱动的背景下&#xff0c;知识图谱凭借其高效的信息组织能力&#xff0c;正逐步成为各行业应用的关键技术。本文聚焦 Spring Boot与Neo4j图数据库的技术结合&#xff0c;探讨知识图谱开发的实现细节&#xff0c;帮助读者掌握该技术栈在实际项目中的落地方法。 …...

C++ 求圆面积的程序(Program to find area of a circle)

给定半径r&#xff0c;求圆的面积。圆的面积应精确到小数点后5位。 例子&#xff1a; 输入&#xff1a;r 5 输出&#xff1a;78.53982 解释&#xff1a;由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982&#xff0c;因为我们只保留小数点后 5 位数字。 输…...

NFT模式:数字资产确权与链游经济系统构建

NFT模式&#xff1a;数字资产确权与链游经济系统构建 ——从技术架构到可持续生态的范式革命 一、确权技术革新&#xff1a;构建可信数字资产基石 1. 区块链底层架构的进化 跨链互操作协议&#xff1a;基于LayerZero协议实现以太坊、Solana等公链资产互通&#xff0c;通过零知…...

大语言模型(LLM)中的KV缓存压缩与动态稀疏注意力机制设计

随着大语言模型&#xff08;LLM&#xff09;参数规模的增长&#xff0c;推理阶段的内存占用和计算复杂度成为核心挑战。传统注意力机制的计算复杂度随序列长度呈二次方增长&#xff0c;而KV缓存的内存消耗可能高达数十GB&#xff08;例如Llama2-7B处理100K token时需50GB内存&a…...

安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”(装配)

船舶制造装配管理现状&#xff1a;装配工作依赖人工经验&#xff0c;装配工人凭借长期实践积累的操作技巧完成零部件组装。企业通常制定了装配作业指导书&#xff0c;但在实际执行中&#xff0c;工人对指导书的理解和遵循程度参差不齐。 船舶装配过程中的挑战与需求 挑战 (1…...