【从0做项目】Java搜索引擎(6) 正则表达式鲨疯了优化正文解析
阿华代码,不是逆风,就是我疯
你们的点赞收藏是我前进最大的动力!!
希望本文内容能够帮助到你!!
目录
文章导读
零:项目结果展示
一:导读&知识点回顾
二:遗留问题
三:正则表达式
1:目标
2:简单介绍正则表达
(1)简单使用
(2)贪婪匹配
(3)非贪婪匹配
四:解析正文回炉重造
1:实现readFile方法
2:过滤得正文
编辑
3:优化前后对比
文章导读
阿华将发布项目复盘系列的文章,旨在:
1:手把手细致带大家从0到1做一个完整的项目,保证每2~3行代码都有详细的注解
2:通过文字+画图的方式,对项目进行整个复盘,更好的理解以及优化项目
3:总结自己的优缺点,扎实java相关技术栈,增强文档编写能力
零:项目结果展示
项目目前已经上线,小伙伴们可以进行使用!!!
Java 文档搜索
简述:在我的搜索引擎网站,用户进行关键字搜索,就可以查询到与这个关键字相关的java在线文档,(包含标题,关键字附近的简述,url),用户点击标题,即可跳转到相关在线文档,适用于JDK17版本。

一:导读&知识点回顾
通过(1)~(3)项目的梳理,(4)项目的优化,(5)中DocSearch功能:根据搜索词,去索引中查询数据,并封装好我们要返回的结果。
我们基本上完成了,Parser类和Index类的工作——索引的制作和加载,那么这两个类之间的关系是怎样的呢?Parse类相当于制作索引的入口,Index类相当于实现了索引的数据结构,提供一些API来构建索引
二:遗留问题

分析:为什么我们解析html文档中,正文还会包含我们的js代码呢?
知道js代码是在我们的<script>标签中的
回顾一下我们之前写的解析正文的逻辑,是把标签去掉了,取得了两个标签夹着的内容,很明显我们把<script>标签夹着的内容也给解析出来了!!GG
public String parseContent(File f) {//try (BufferedReader bufferedReader = new BufferedReader(new FileReader(f), 1024 * 1024)) {//缓冲区设置为1M,默认的为8192字节太小
// FileReader fileReader = new FileReader(f);//这里是从硬盘读,我们改成提前读好,之后从内存中读效率会更高//是否拷贝的开关boolean isCopy = true;//用StringBuilder来保存结果,StringBuilder content = new StringBuilder();while (true) {
// int ret = fileReader.read();//读取文件,一个字符一个字符的读,不是字符返回-1;int ret = bufferedReader.read();if (ret == -1) {break;//读完了}//是字符执行以下逻辑char c = (char) ret;if (isCopy) {if (c == '<') {isCopy = false;continue;}if (c == '\n' || c == '\r') {//换行的两种方式注意回车键c = ' ';//换成空格}content.append(c);//其它字符直接进行拷贝到StringBuilder中} else {//直到遇见'>'这个字符我们才打开拷贝的开关if (c == '>') {isCopy = true;}}}
// fileReader.close();return content.toString();} catch (IOException e) {e.printStackTrace();}return "";}
三:正则表达式
1:目标

2:简单介绍正则表达
正则表达式,简单理解就是用一些特殊符号来代表我们正文中的指定的内容,并把这个内容替换成我们目标的内容(删掉也可)
(1)简单使用
在java中,String类里有很多方法都支持正则,比如index,replace,replaceAll,split等等

(2)贪婪匹配
可以看到我们的<.*>表示匹配一个可以出现若干次的非换行字符
就是说匹配到第一个<div>后,再遇到第一个</div>不会停下,会继续往后匹配,直到我们最后一个(也就是下面举例的第二个)</div>才会停下

(3)非贪婪匹配
这个就很好,匹配到了一个<div>就停下,再找第二个<div>。贪得无厌,取之有道~~~完美!

四:解析正文回炉重造
了解咱们的正则表达式后,下面我们开始实战!!重新写我们的parseContent
1:实现readFile方法
我们先把整个文件读到String当中,这里的bufferReader.read(),方法读到末尾会返回-1,返回类型为int类型,这里我们强转一下就行
private String readFile(File f){try(BufferedReader bufferedReader = new BufferedReader(new FileReader(f))){//从内存中读StringBuilder content = new StringBuilder();while(true){int ret = bufferedReader.read();if(ret == -1){break;}char c = (char)ret;if(c == '\n' || c == '\r'){c = ' ';}content.append(c);}return content.toString();} catch (IOException e) {e.printStackTrace();}return "";}
2:过滤得正文
第一步:我们先把<script>标签和这个标签当中的内容过滤掉
第二步:我们在把其他标签过滤掉第三步
第三步:我们把多个空格合并为一个空格
注:我们的String对象是一个不可变对象,所以要重新整一个String对象。第一步和第二步不能颠倒哈。
public String parseContentByRegex(File f){//1:先把整个文件读到String里面String content = readFile(f);//2:替换掉script 标签content = content.replaceAll("<script.*?>(.*?)</script>","");//匹配非换行字符若干次,最短结果(非贪婪)//3:替换掉普通的html标签content = content.replaceAll("<.*?>"," ");//2,3顺序不能换,不然先把scrip标签整没了,那script标签中的内容咋整?//4:合并多个空格为1个空格content = content.replaceAll("\\s+"," ");return content;}
用\s来匹配多个空白字符,这里我们要防转义再加一个\
3:优化前后对比

相关文章:
【从0做项目】Java搜索引擎(6) 正则表达式鲨疯了优化正文解析
阿华代码,不是逆风,就是我疯 你们的点赞收藏是我前进最大的动力!! 希望本文内容能够帮助到你!! 目录 文章导读 零:项目结果展示 一:导读&知识点回顾 二:遗留问题 …...
【论文技巧】Mermaid VSCode插件制作流程图保存方法
插流程图快点 利用Mermaid Preview插件自带功能 如果你的VSCode安装了支持导出图片的Mermaid预览插件(如 Mermaid Markdown Syntax Highlighting 等),可以按以下步骤进行: 打开Mermaid代码文件:在VSCode中打开包含M…...
【DeepSeek】如何将DeepSeek部署到本地?如何给本地 LLM 提供UI界面?CherryStudio 的使用
注:如果下面的所有操作,需要访问到 Github,可以先看这篇文章,了解如何流畅连接 Github 【Github】如何流畅链接Github.com-CSDN博客 一、下载 Ollama 1、访问网址 Ollama,点击下载 Ollama 到本地 选择自己计算机的系统…...
第1章:LangChain4j的聊天与语言模型
LangChain4J官方文档翻译与解析 目标文档路径: https://docs.langchain4j.dev/tutorials/chat-and-language-models/ 语言模型的两种API类型 LangChain4j支持两种语言模型(LLM)的API: LanguageModel:这种API非常简单,…...
【小游戏】C++控制台版本俄罗斯轮盘赌
制作团队:洛谷813622(Igallta) 989571(_ayaka_) Mod:_ayaka_ 双人模式:Igallta 公告: 原先的9.8改名为 Alpha 1.0,以后每次更新都增加 0.1。 Alpha 1.11 改为 Beta 1…...
【大语言模型_4】源码编译vllm框架cpu版
背景: 通过官方提供的pip install vllm安装的vllm框架不支持cpu加载模型。因此需要本地编译。 系统环境 操作系统:欧拉2203 python版本:3.10 编译步骤 一、安装gcc/g/cmake 1、下载源码:https://github.com/vllm-project/vllm 安…...
mac开发环境配置笔记
1. 终端配置 参考: Mac终端配置笔记-CSDN博客 2. 下载JDK 到 oracle官网 下载jdk: oracle官网 :Java Downloads | Oraclemac的芯片为Intel系列下载 x64版本的jdk;为Apple Mx系列使用 Arm64版本;oracle官网下载时报错:400 Bad R…...
交换机基本命令
目录 一、华为交换机基本命令 1、VRP视图层 2、命令帮助 3、配置设备名称 4、命令等级(一般生产过程没有下面的详细) 5、用户界面 6、配置Console认证 控制台接口(Console) 配置步骤示例 7、配置VTY登录(本文…...
PLC通信交互系统技术分享
目录 0、前言 1、模块划分 2、状态机 3、通信层增强 4、异常处理机制 5、核心代码 关键状态处理示例 6、部署与测试方案 1. 环境要求 2. 性能测试指标 0、前言 这是一个C程序,用于与西门子PLC进行通信,处理SN码、拍照信号、检测结果等流程。代码…...
PHP图书借阅小程序源码
📚 图书借阅小程序:一键开启智慧阅读新篇章 🌟 这是一款由ThinkPHP与UniApp两大技术巨擘强强联手精心打造的图书借阅微信小程序,它犹如一座随身携带的移动图书馆,让您无论身处何地都能轻松畅游知识的海洋。创新的多书…...
本地部署 DeepSeek + Dify,构建自己的AI能力
概述 DeepSeek 是一款开创性的开源大语言模型,凭借其先进的算法架构和反思链能力,为 AI 对话交互带来了革新性的体验。通过私有化部署,你可以充分掌控数据安全和使用安全。你还可以灵活调整部署方案,并实现便捷的自定义系统。 Dify 作为同样开源的 AI 应用开发平台,提供完…...
UE 播放视频
一.UI播放视频 1.导入视频文件至工程文件夹 2.文件夹内右健选择Media -> File Meida Source创建testFileMeidaSource文件。 编辑FilePath为当前视频 3.右键->Media->Media Player 创建testMediaPlayer文件 4.右键创建testMediaTexture。编辑MediaPlayer设置testMedia…...
拦截器VS过滤器:Spring Boot中请求处理的艺术!
目录 一、拦截器(Interceptor)和过滤器(Filter):都是“守门员”!二、如何实现拦截器和过滤器?三、拦截器和过滤器的区别四、执行顺序五、真实的应用场景六、总结 🌟如果喜欢作者的讲…...
科普:“Docker Desktop”和“Docker”以及“WSL”
“Docker Desktop”和“Docker”这两个概念既有紧密联系,又存在一定区别: 一、联系 核心功能同源:Docker Desktop 本质上是基于 Docker 核心技术构建的。Docker 是一个用于开发、部署和运行应用程序的开源平台,它利用容器化技术…...
react实例与总结(二)
目录 一、脚手架基础语法(16~17) 1.1、hello react 1.2、组件样式隔离(样式模块化) 1.3、react插件 二、React Router v5 2.1、react-router-dom相关API 2.1.1、内置组件 2.1.1.1、BrowserRouter 2.1.1.2、HashRouter 2.1.1.3、Route 2.1.1.4、Redirect 2.1.1.5、L…...
巧用GitHub的CICD功能免费打包部署前端项目
近年来,随着前端技术的发展,前端项目的构建和打包过程变得越来越复杂,占用的资源也越来越多。我有一台云服务器,原本打算使用Docker进行部署,以简化操作流程。然而,只要执行sudo docker-compose -f deploy/…...
使用 DeepSeek 生成商城流程图
步骤 1.下载 mermaid 2.使用 DeepSeek 生成 mermaid 格式 3.复制内容到 4.保存备用。 结束。...
Unity FBXExport导出的FBX无法在Blender打开
将FBX转换为obj: Convert 3D models online - free and secure...
VSCode自定义快捷键和添加自定义快捷键按键到状态栏
VSCode自定义快捷键和添加自定义快捷键按键到状态栏 📄在VSCode中想实现快捷键方式执行某些指令操作,可以通过配置组合式的键盘按键映射来实现,另外一种方式就是将执行某些特定的指令嵌入在面板菜单上,在想要执行的时候࿰…...
hive迁移补数脚本细粒度 表名-分区唯一键
假设我通过对数脚本发现,这些表对不上。 假设检测出来是这样的(这些表存在于源端,但不存在目标端) 我们需要从源端迁移过去。 diff.txt ads_xx1 dt20250219 ads_xx2 dt20250217 ads_xx2 dt20250218 ads_xx2 dt20250…...
SpringSecurity基于配置方法控制访问权限:MVC匹配器、Ant匹配器
Spring Security 是一个功能强大且高度可定制的身份验证和访问控制框架。在 Spring Security 中,可以通过配置方法来控制访问权限。认证是实现授权的前提和基础,在执行授权操作前需要明确目标用户,只有明确目标用户才能明确它所具备的角色和权…...
Ubuntu22.04 - gflags的安装和使用
目录 gflags 介绍gflags 安装gflags 使用 gflags 介绍 gflags 是Google 开发的一个开源库,用于 C应用程序中命令行参数的声明、定义和解析。gflags 库提供了一种简单的方式来添加、解析和文档化命令行标志(flags),使得程序可以根据不同的运行时配置进行调整。 它具…...
java | MyBatis-plus映射和golang映射对比
文章目录 Java实体类和数据库的映射1.默认驼峰命名规则2.自定义字段映射3.关闭驼峰命名规则4.JSON序列化映射 Golang1. 结构体与表的映射2. 字段与列的映射3. 关联关系映射4. 其他映射相关标签 这篇也是做数据库映射方面的对比: Java 实体类和数据库的映射 1.默认…...
使用 Redis 实现 RBAC 权限管理
1. 什么是 RBAC? RBAC(Role-Based Access Control,基于角色的访问控制)是一种常见的权限管理模型,它通过用户(User)、角色(Role)、权限(Permissionÿ…...
正则表达式–断言
原文地址:正则表达式–断言 – 无敌牛 欢迎参观我的个人博客:正则表达式特殊字符 – 无敌牛 断言assertions 1、(?...):正向预查(positive lookahead),表示某个字符串后面应该跟着什么。但这个字符串本身…...
Python常见面试题的详解14
1. 从变量 A 中匹配 JSON 字符串 在处理文本数据时,有时需要从变量里找出其中的 JSON 字符串。JSON 字符串一般以 { 或 [ 开头,以 } 或 ] 结尾,但简单的正则匹配可能不够严谨,所以还需用 json 模块进行验证。 要点 利用正则表达…...
电脑想安装 Windows 11 需要开启 TPM 2.0 怎么办?
尽管 TPM 2.0 已经内置在许多新电脑中,但很多人并不知道如何激活这一功能,甚至完全忽略了它的存在。其实,只需简单的几步操作,你就能开启这项强大的安全特性,为你的数字生活增添一层坚固的防护屏障。无论你是普通用户还…...
QT之改变鼠标样式
QT改变鼠标图片 资源路径如下 代码实现 QPixmap customCursorPixmap(":/images/mouse.png");QCursor customCursor(customCursorPixmap);QWidget::setCursor(customCursor); // 可以设置为整个窗口或特定控件QWidget::setCursor(); // 设置为透明光标,…...
Node IO操作
文章目录 Node IO操作概述流的基本类型可读流读取模式可读流状态创建可读流使用可读流暂停和恢复绑定可写流 可写流创建可写流使用可写流关闭流缓冲数据 可读可写流转换流 Node IO操作 概述 在 Node.js 中,I/O(输入/输出)操作是异步的&…...
零基础进阶人工智能——发展史、核心技术、前沿应用与未来展望
引言:从科幻走向现实,人工智能不再遥远 人工智能(AI),曾经是科幻小说和电影中遥不可及的未来科技,如今已悄然渗透到我们生活的方方面面。从智能家居的语音助手,到医疗诊断的辅助系统࿰…...


