当前位置: 首页 > news >正文

业务中如何过滤敏感词

在我们访问网站的时候,如果发现我们发布的内容有色情暴力的东西等等,会屏蔽掉,这种行为就是过滤敏感词。

从技术层面实现起来,其实比较简单,因为我们输入的内容就是一个大型的字符串,我们要调用某些api来判断这个字符串有没有敏感词,比如我们可以使用jdk自带的方法,比如String里面有个replace方法可以直接替换字符串。

但是网站在运行过程中,敏感词可能比较多,有几十个,甚至上百个。但是你发的如果是文章,字符串可能非常长,这种情况下,如果用replace一遍一遍替换,性能未免太差了,在实际开发过程中,我们往往会采用前缀树的数据结构

前缀树算法特点

  1. 根节点不包含任何字符,除了根节点以外的每个节点都只包含一个字符
  2. 从根节点到某一个节点经过的路上,经过的字符连接起来就是对应的字符串

从根节点到最末端才能算是敏感词,在我们检测的时候,需要三个指针。第一个指针指向树,默认的是指向根节点;第二个指针指向字符串,默认的是指向字符串中第一个字符;第三个指针依然指向字符串,默认的也是指向字符串中第一个字符。

这样在筛选或者过滤单词的时候,根据二三指针分别标记头尾就可以认为中间字符串是敏感词。二指针永远不回头,而第三个字符串到结尾会再次回到二字符串的新位置。最后用StringBuilder来接收

代码实现

创建存储敏感词的文件

在resources下创建txt文件,里面规定敏感词

 

创建工具类

为了便于使用,我们用@Component将他托管给容器,同时将数据结构封装到内部类中,因为除了这个类,别的类基本不会调用

 

创建前缀树

 

 前缀树的结构其实并不复杂,下一个环节就是根据敏感词文件,与前缀树关联

添加前缀树

 过滤敏感词

 当指针3到达结尾,说明已经可以进行下一次遍历,所以应该用指针3进行遍历

 

 判断是否是敏感词

 

 

相关文章:

业务中如何过滤敏感词

在我们访问网站的时候,如果发现我们发布的内容有色情暴力的东西等等,会屏蔽掉,这种行为就是过滤敏感词。 从技术层面实现起来,其实比较简单,因为我们输入的内容就是一个大型的字符串,我们要调用某些api来判…...

用服务器搭建网站需要做什么

网站建设是一个广义的术语,涵盖了许多不同的技能和学科中所使用的生产和维护的网站。不同领域的网页设计,网页图形设计,界面设计,创作,其中包括标准化的代码和专有软件,用户体验设计和搜索引擎优化。许多人…...

clickhouse 删除操作

OLAP 数据库设计的宗旨在于分析适合一次插入多次查询的业务场景,市面上成熟的 AP 数据库在更新和删除操作上支持的均不是很好,当然 clickhouse 也不例外。但是不友好不代表不支持,本文主要介绍在 clickhouse 中如何实现数据的删除&#xff0c…...

C 语言中,「.」与「->」有什么区别?

使用“.”的话,只需要声明一个结构体。格式是结构体类型名结构体名。然后通过结构体名加上“.”再加上域名,就可以引用结构体的域了。因为结构体的内存是自动分配的,就像使用int a;一样。而使用“->”的话,需要声明一个结构体的…...

github pages 用法详解 发布自己的网站

github pages 基础用法 URL 规则 假设你的 github 帐号为 mygithub,需要发布的仓库名为 myrepo,那么 pages 的 URL 为: https://mygithub.github.io/myrepo 添加内容 用任意编辑器写好(或者生成)标准的网页内容&a…...

坤简炫酷的JQuery轮播图插件

介绍: 找到了一个炫酷的JQuery轮播图插件,只需要配置三四行代码就可以实现很多二维三维炫酷的切换效果。 视频效果及教程: https://www.bilibili.com/video/BV1Fu4y1d776/ 代码: https://github.com/w-x-x-w/AwesomeWeb 使用…...

C# 条件编译

C# 条件编译 C# 条件编译:根据不同的需求,编译生成不同的程序版本,条件编译是一种编译预处理命令,它是在编译代码之前对源代码进行处理。它可以根据条件,决定是否编译某段代码 条件编译的三种形式: 第一种…...

IntelliJ IDEA如何重新弹出git身份验证窗口

1、点击File菜单—>点击Settings—>点击Appearance & Behavior—>点击System Settings—>点击Passwords—>选中Do not save, forget passwords after restart—>点击Apply—>点击OK,如下所示: 2、重启IntelliJ IDEA—>通过g…...

【雕爷学编程】Arduino动手做(200)---WS2812B幻彩LED灯带4

37款传感器与模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&#x…...

【雕爷学编程】Arduino动手做(201)---DFRobot 行空板03

37款传感器与模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&#x…...

Spring中Bean的“一生”(生命周期)

文章目录 一、图解二、文字解析总结 一、图解 >注:处于同一行的执行顺序是从左往右 二、文字解析 SpringBean的生命周期总体分为四个阶段:实例化>属性注入>初始化>销毁 Step1 实例化Bean:根据配置文件中Bean的定义,…...

安卓:LitePal操作数据库

目录 一、LitePal介绍 常用方法: 1、插入数据: 2、更新数据: 3、删除数据: 4、查询数据: 二、LitePal的基本用法: 1、集成LitePal: 2、创建LitePal配置文件: 3、创建模型类…...

【JavaEE初阶】了解JVM

文章目录 一. JVM内存区域划分二. JVM类加载机制2.1 类加载整体流程2.2 类加载的时机2.3 双亲委派模型(经典) 三. JVM垃圾回收机制(GC)3.1 GC实际工作过程3.1.1 找到垃圾/判定垃圾1. 引用计数(不是java的做法,Python/PHP)2. 可达性分析(Java的做法) 3.1.2 清理垃圾1. 标记清除2…...

基于vue2.0和elementUi的vue农历日期组件vue-jlunar-datepicker(插件)

vue-jlunar-datepicker(插件) vue实现农历日历插件——vue-jlunar-datepicker插件 这个插件本身是基于vue2.0和elementUi框架来实现的。 安装 vue-jlunar-datepicker 插件 npm install vue-jlunar-datepicker --save // 如果安装过程中,出现…...

Python爬虫——selenium_元素定位

元素定位:自动化要做的就是模拟鼠标和键盘来操作这些元素,点击,输入等等。操作这些元素前首先要找到它们,WebDriver提供很多定位元素的方法 from selenium import webdriver# 创建浏览器对象 path files/chromedriver.exe brows…...

短视频内容平台(如TikTok、Instagram Reel、YouTube Shorts)的系统设计

现在,短视频内容已成为新趋势,每个人都在从TikTok、Instagram、YouTube等平台上消费这些内容。让我们看看如何为TikTok创建一个系统。 这样的应用程序看起来很小,但在后台有很多事情正在进行。以下是相关的挑战: •由于该应用程序…...

【git】Git 回退到指定版本:

文章目录 方法一: 使用 git reset 命令方法二:使用 git revert 命令方法三:使用 git checkout 命令常见的错误及其解决办法如下: 方法一: 使用 git reset 命令 命令可以将当前分支的 HEAD 指针指向指定的提交,从而回退代码到指定版…...

kibana+nginx配置密码 ubuntu

JAVA进阶之路-nginx设置密码 Kibana——通过Nginx代理Kibana并实现登陆认证 需要配置一下nginx文件 nginx配置文件详解 密码生成安装软件 apt install apache2-utils...

Git仓关联多个远程仓路径

前言 Git仓如果需要将代码push到多个仓,常用的做法是添加多个远程仓路径,然后分别push。这样虽然可以实现目的,但是需要多次执行push指令,很麻烦。 本文介绍关联多个远程仓路径且执行一次push指令的方法:git remote …...

使用ffmpeg将m4a及wav等文件转换为MP3格式

要使用ffmpeg将m4a及wav等文件转换为MP3格式,您可以按照以下步骤进行操作: 安装 ffmpeg 确保您已经安装了ffmpeg软件。如果没有安装,请访问ffmpeg的官方网站https://ffmpeg.org/ 并按照说明进行安装。 Win10 / Win11 可以通过 winget 命令…...

【算法日记】Day 11 动态规划专题——区间DP之基于范围中划分点的讨论

Abstract:#动态规划 #区间DP #多边形剖分 1. 题目 题目:LeetCode 1039. 多边形三角剖分的最低得分核心思路:定义dp[i][j]表示从顶点i到顶点j构成的多边形(凸多边形,顶点按顺序排列)通过三角剖分能得到的最…...

终极DLSSTweaks配置指南:5步快速解锁NVIDIA DLSS隐藏画质

终极DLSSTweaks配置指南:5步快速解锁NVIDIA DLSS隐藏画质 【免费下载链接】DLSSTweaks Tweak DLL for NVIDIA DLSS, force DLAA on DLSS-supported titles, tweak scaling ratios & DLSS 3.1 presets, override DLSS versions without overwriting game files. …...

实验室安全必备:5种危险有机试剂的淬灭操作指南(含实操视频)

实验室安全必修课:5种高危有机试剂的精准淬灭实战手册 推开有机化学实验室的门,扑面而来的除了试剂特有的气味,还有潜藏在每个操作步骤中的安全挑战。氢化锂铝遇水瞬间释放的氢气、硼氢化钠与酸接触时产生的自燃性硼烷、三光气分解时可能生成…...

【OpenClaw】通过 Nanobot 源码学习架构---()总体乌

核心摘要:这篇文章能帮你 ?? 1. 彻底搞懂条件分支与循环的适用场景,告别选择困难。 ?? 2. 掌握遍历DOM集合修改属性的标准姿势与性能窍门。 ?? 3. 识别流程控制中的常见“坑”,并学会如何优雅地绕过去。 ?? 主要内容脉络 ?? 一、痛…...

深入 Hadoop 高可用:Leader、Follower 、Observer」角色详解

在 Hadoop 高可用(HA)架构中,Leader 选举是保障集群稳定的核心机制 —— 我们常听说 Leader(主节点)和 Follower(从节点),但很少有人深入聊第三种关键角色:Observer&…...

从视频孪生到空间计算:镜像视界以AI重构三维感知新范式

一、时代拐点:视频孪生的结构性瓶颈与升级刚需1.1 行业拐点已至Gartner最新报告显示,数字孪生技术已全面进入生产力成熟期,但公安、港口、低空经济等核心场景的规模化落地,正遭遇结构性天花板——传统视频孪生本质上是“二维像素的…...

最新版临时文件快传系统源码 全开源附教程

内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示一、详细介绍 9月更新 临时文件快传系统源码 全开源附教程 更新日志: 新增: 独立分享页面新增返回首页按钮 目录分享页面显示统计信息 会员等级中心显示是否默认永久存储 后台会员等级权限…...

短剧付费转化系统设计:试看 + 阶梯定价 + 会员锁客全链路

短剧赛道正从“流量驱动”转向“付费驱动”,但用户对付费短剧的信任门槛依然很高。一套科学的转化系统,能显著提升从试看到首充、从单集付费到会员订阅的转化率。本文结合实战经验,拆解短剧付费转化系统的核心设计。一、试看机制:…...

AidLux远程SSH连接实战 | 密钥与密码双模式详解

1. AidLux远程SSH连接入门指南 第一次接触AidLux的开发者可能会对远程连接感到困惑。其实这就像给手机开热点共享网络一样简单,只不过我们共享的是Linux系统的控制权。AidLux作为基于ARM架构的Linux系统,提供了完整的SSH服务支持,让开发者能够…...

零基础小白也能搞定!PyTorch 2.9-CUDA镜像保姆级入门教程

零基础小白也能搞定!PyTorch 2.9-CUDA镜像保姆级入门教程 你是不是也遇到过这样的情况:看到别人用PyTorch做AI项目很酷,自己也想试试,结果第一步就被“环境配置”给劝退了?CUDA版本、PyTorch版本、各种依赖包……光是…...