当前位置: 首页 > news >正文

【文星索引】搜索引擎项目测试报告

目录

    • 一、项目背景
    • 二、 项目功能
        • 2.1 数据收集与索引
        • 2.2 API搜索功能
        • 2.3 用户体验与界面设计
        • 2.4 性能优化与维护
    • 三、测试报告
        • 3.1 功能测试
        • 3.2 界面测试
        • 3.3 性能测试
        • 3.4 兼容性测试
        • 3.5 自动化测试
    • 四、测试总结
        • 4.1 功能测试方面
        • 4.2 性能测试方面
        • 4.3 用户界面测试方面

在这里插入图片描述

一、项目背景

搜索引擎的项目背景有以下几个方面:

  1. 随着互联网的发展,网页、文档等各种信息呈指数级增长。在海量的信息中,用户难以快速准确地找到自己需要的相关代码函数内容。例如,每天有大量的技术文章等发布到网上,人们如果没有有效的搜索工具,就会在信息海洋中迷失。

  2. 无论是个人用户查找Java中的信息资讯,还是用户寻找代码信息,都迫切需要一种能够高效筛选和定位信息的工具。

  3. 对于互联网公司来说,搜索引擎是一个重要的流量入口。通过提供高质量的搜索服务,吸引大量用户访问,例如,百度的搜索页面上会展示各种与用户搜索关键词相关的技术文章,根据点击量或展示量呈现给搜索引擎公司。

二、 项目功能

搜索引擎的项目功能可以从多个方面进行分析,以下是一些常见的功能:

2.1 数据收集与索引

数据收集:搜索引擎需要从各种数据源收集数据,如网页、文档、图片、视频等。这些数据可以通过爬虫程序自动抓取,也可以通过手动提交或其他方式获取。

  • 数据清洗与预处理:在索引之前,需要对收集到的数据进行清洗和预处理,如去除噪声、标签、格式化等,以便提高搜索的准确性和效率。
  • 索引构建:搜索引擎使用索引技术将数据进行结构化处理,以便快速检索。常见的索引结构包括倒排索引、正排索引等。
2.2 API搜索功能

关键词搜索:用户输入关键词后,搜索引擎能够快速返回与关键词相关的搜索结果。搜索结果通常包括网页标题、摘要、链接等信息。

  • 模糊搜索与纠错:搜索引擎能够处理用户输入的模糊关键词,并提供纠错建议,以提高搜索的准确性和用户体验。
2.3 用户体验与界面设计

简洁的搜索界面:搜索界面设计简洁明了,方便用户输入关键词和查看搜索结果。搜索框通常放置在页面的显眼位置,并提供输入提示和自动补全功能。

  • 搜索结果展示:搜索结果以清晰、易读的方式展示给用户,通常包括标题、摘要、链接等信息。搜索结果可以按照相关性、时间、热度等进行排序。
2.4 性能优化与维护

性能优化:搜索引擎需要不断优化其性能,以提高搜索速度和响应时间。这可以通过优化索引结构、查询算法等方式实现。

三、测试报告

3.1 功能测试

在这里插入图片描述

输入测试
因为该项目不支持模糊匹配,查找结果是根据查询词是否包含在文档内容中来筛选的,因此等价类的划分如下:

有效等价类无效等价类
英文字符中文字符
数字字符停用词字符
英文和数字混杂字符其他特殊字符

测试输入数据:

测试用例期望结果
String(有效)能被查找到并正确显示
ArrayList(有效)能被查找到并正确显示
12(有效)能被查找到并正确显示
a123b(有效)能被查找到并正确显示
数组(无效)查找不到结果
,X,S,z(无效)查找不到结果
1=1,&&&%$23(无效)查找不到结果
空格(无效)查找不到结果

附上部分测试截图:

有效等价类:

  • 输入字母
    在这里插入图片描述

预期结果:搜索成功,显示与字母相关的结果.

实际结果:搜索成功,显示带有字母的结果.

  • 输入数字

在这里插入图片描述

预期结果:搜索成功,显示与数字相关的结果.

实际结果:搜索成功,显示带有数字的结果.

无效等价类:

  • 输入汉字
    在这里插入图片描述

预期结果:搜索失败,查找不到结果

实际结果:搜索失败,查找不到结果

  • 输入空格
    在这里插入图片描述

预期结果:搜索失败,查找不到结果

实际结果:搜索失败,查找不到结果

3.2 界面测试

在这里插入图片描述

显示搜索结果总数是否和实际展示保持一致

这里搜索一个条目比较少的方便展示:如图可以看到确实保持一致

在这里插入图片描述

数量大之后就需要定位页面元素编写代码来统计具体实际展示出的结果总数,这里贴上部分代码:

private String parseHtmlContentByRegex(File file ){String content=readFile(file);//通过正则表达式去掉正文中的<script>标签content=content.replaceAll("<script.*?>(.*?)</script>"," ");//通过正则表达式去掉正文中的其它标签content=content.replaceAll("<.*?>"," ");通过正则表达式合并多个空格content = content.replaceAll("\\s+", " ");content.replaceAll("  "," ");content.replaceAll("   "," ");return  content;}

标题、描述、URL是否正确显示

如图,可以看到三者正确显示:

在这里插入图片描述

3.3 性能测试

在这里插入图片描述

单线程构建正排和倒排索引

代码如下:

public void run(){List<File> fileList=new ArrayList<>();//枚举所有以.html结尾的文件enumFile(INPUT_FILE,fileList);long start=System.currentTimeMillis();//解析每一个html文件for(File file:fileList){//解析每一个html文件parseHtml(file);System.out.println(file.getName());if(file.getName().equals("ArrayList")){System.out.println("===============================================================");}}index.save();long end=System.currentTimeMillis();log.info("单线程所消耗的时间:"+(end-start)+"ms");}

单线程消耗时间如下图所示:

在这里插入图片描述

多线程构建正排和倒排索引

代码如下:

public void runByThread() throws InterruptedException {List<File> fileList=new ArrayList<>();//枚举所有以.html结尾的文件enumFile(INPUT_FILE,fileList);long start=System.currentTimeMillis();//创建一个包含10个线程的线程池ExecutorService executorService= Executors.newFixedThreadPool(10);//创建一个计数器来表示文件的数量CountDownLatch countDownLatch=new CountDownLatch(fileList.size());for(File file:fileList){executorService.submit(new Runnable() {@Overridepublic void run() {parseHtml(file);log.info("文件名:"+file.getName()+"文件路径:"+file.getAbsolutePath());countDownLatch.countDown();}});}countDownLatch.await();executorService.shutdown();index.save();long end=System.currentTimeMillis();log.info("多线程所消耗的时间:"+(end-start)+"ms");}

多线程消耗时间如下图所示:

在这里插入图片描述

这里可以看到多线程的处理速度比单线程快了许多,时间也大概快了一倍

下面是10个线程的处理性能:

在这里插入图片描述

在这里插入图片描述

10个线程短时间内的吞吐量:

在这里插入图片描述

多线程下单短时间响应时间折线图:
在这里插入图片描述

在这里插入图片描述

下图是界面的响应速度:

在这里插入图片描述

3.4 兼容性测试

在这里插入图片描述

![在Windows11环境下:
联想浏览器:正常运行]

在这里插入图片描述
![在Windows11环境下:
谷歌浏览器:正常运行、

在这里插入图片描述

![在Windows11环境下:
Edge浏览器:正常运行]

在这里插入图片描述

小米手机环境:
手机QQ浏览器:正常运行

在这里插入图片描述

3.5 自动化测试

自动化测试代码如下:

 void searchResult() throws InterruptedException {//找到搜索框,输入查询词driver.findElement(By.cssSelector("body > div > div.header > input[type=text]")).sendKeys("static");//点击搜索按钮driver.findElement(By.cssSelector("#search-btn")).click();Thread.sleep(3000);//找到搜索结果的标题并进行点击driver.findElement(By.cssSelector("body > div > div.result > div:nth-child(2) > a")).click();//获取当前页面的句柄String curHandle=driver.getWindowHandle();Set<String> handles=driver.getWindowHandles();for (String handle:handles){if (handle!=curHandle){driver.switchTo().window(handle);}}Thread.sleep(3000);//查找在线文档页面的元素验证跳转成功driver.findElement(By.cssSelector("#allclasses_navbar_top > li > a"));}

如下效果图展示:

自动化视频 2025-01-26 145252

四、测试总结

以下是搜索引擎测试总结的结构化内容:

4.1 功能测试方面
  1. 搜索准确性
    • 测试了不同类型的关键词,包括常见词汇、专业术语、模糊表述等。发现大部分常见词汇能准确找到相关结果,但对于一些非常模糊或者具有多义性的表述,搜索引擎的结果准确性会有所下降。例如,搜索“苹果”,除了水果类结果,还会出现苹果公司相关结果,在某些特定需求下可能不够精准。
  2. 搜索结果多样性
    • 检查搜索结果是否涵盖了多种来源,如网页、新闻、学术论文、图片、视频等。总体上,现代搜索引擎在这方面表现较好,能提供较为丰富的结果类型。但在一些特定领域,如小众的学术研究方向,结果多样性可能会受到数据源数量的限制。
  3. 搜索排序合理性
    • 评估搜索结果的排序是否符合相关性原则。一般来说,搜索引擎会根据关键词匹配度、网页权重等因素进行排序。然而,有时会发现商业推广内容的排序可能会影响到自然搜索结果的展示顺序,对用户体验有一定的干扰。
4.2 性能测试方面
  1. 响应速度
    • 在不同网络环境下(如高速宽带、移动网络)测试搜索请求的响应时间。在良好网络环境下,响应速度较快,能在1 - 2秒内给出结果。但在网络信号较差的移动网络环境中,响应时间可能会延长到5 - 10秒甚至更久。
  2. 资源占用
    • 监控搜索引擎在运行过程中对设备资源(如CPU、内存)的占用情况。在长时间使用或者进行大量搜索时,搜索引擎的客户端可能会占用较多内存,导致设备运行速度变慢,尤其是在配置较低的设备上。
4.3 用户界面测试方面
  1. 界面布局
    • 检查搜索引擎界面的布局是否简洁、直观。良好的界面布局应该能够让用户快速找到搜索框、筛选工具等重要元素。部分搜索引擎在界面上存在广告位过多,影响用户对搜索结果的查看体验的问题。
  2. 易用性
    • 测试用户操作的便捷性,如输入关键词、选择搜索结果、使用高级搜索功能等。一些搜索引擎的高级搜索功能隐藏较深,普通用户很难发现和使用,降低了搜索的精准性和效率。

相关文章:

【文星索引】搜索引擎项目测试报告

目录 一、项目背景二、 项目功能2.1 数据收集与索引2.2 API搜索功能2.3 用户体验与界面设计2.4 性能优化与维护 三、测试报告3.1 功能测试3.2 界面测试3.3 性能测试3.4 兼容性测试3.5 自动化测试 四、测试总结4.1 功能测试方面4.2 性能测试方面4.3 用户界面测试方面 一、项目背…...

低代码系统-产品架构案例介绍、轻流(九)

轻流低代码产品定位为零代码产品&#xff0c;试图通过搭建来降低企业成本&#xff0c;提升业务上线效率。 依旧是从下至上&#xff0c;从左至右的顺序 名词概述运维层底层系统运维层&#xff0c;例如上线、部署等基础服务体系内置的系统能力&#xff0c;发消息、组织和权限是必…...

二叉树(补充)

二叉树 1.二叉树的基本特性2.堆2.1.堆的基本概念2.2.堆的实现2.2.1.基本结构2.2.2.堆的初始化 2.2.3.堆的销毁2.2.4.堆的插入2.2.5.取出堆顶的数据2.2.6.堆的删除2.2.7.堆的判空2.2.8.堆的数据个数2.2.9.交换2.2.10.打印堆数据2.2.11.堆的创建2.2.12.堆排序 1.二叉树的基本特性…...

(DM)达梦数据库基本操作(持续更新)

1、连接达梦数据库 ./disql 用户明/"密码"IP端口或者域名 2、进入某个模式&#xff08;数据库,因达梦数据库没有库的概念&#xff0c;只有模式&#xff0c;可以将模式等同于库&#xff09; set schema 库名&#xff1b; 3、查表结构&#xff1b; SELECT COLUMN_NAM…...

CRM 微服务

文章目录 项目地址一、项目地址 教程作者:教程地址:代码仓库地址:所用到的框架和插件:dbt airflow一、 用户与认证服务 主要功能: 用户注册、登录、注销。 认证(OAuth、JWT 等)。 权限和角色管理(RBAC/ABAC)。 单点登录(SSO)。 技术亮点: 集成第三方身份认证(如 …...

AI软件外包需要注意什么 外包开发AI软件的关键因素是什么 如何选择AI外包开发语言

1. 定义目标与需求 首先&#xff0c;要明确你希望AI智能体做什么。是自动化任务、数据分析、自然语言处理&#xff0c;还是其他功能&#xff1f;明确目标可以帮助你选择合适的技术和方法。 2. 选择开发平台与工具 开发AI智能体的软件时&#xff0c;你需要选择适合的编程语言、…...

DBSyncer开源数据同步中间件

一、简介 DBSyncer(英[dbsɪŋkɜː(r)]&#xff0c;美[dbsɪŋkɜː(r) 简称dbs)是一款开源的数据同步中间件&#xff0c;提供MySQL、Oracle、SqlServer、PostgreSQL、Elasticsearch(ES)、Kafka、File、SQL等同步场景。支持上传插件自定义同步转换业务&#xff0c;提供监控全量…...

< OS 有关 > 阿里云 几个小时前 使用密钥替换 SSH 密码认证后, 发现主机正在被“攻击” 分析与应对

信息来源&#xff1a; 文件&#xff1a;/var/log/auth.log 因为在 sshd_config 配置文件中&#xff0c;已经定义 LogLevel INFO 部分内容&#xff1a; 2025-01-27T18:18:55.68272708:00 jpn sshd[15891]: Received disconnect from 45.194.37.171 port 58954:11: Bye Bye […...

react-bn-面试

1.主要内容 工作台待办 实现思路&#xff1a; 1&#xff0c;待办list由后端返回&#xff0c;固定需要的字段有id(查详细)、type(本条待办的类型)&#xff0c;还可能需要时间&#xff0c;状态等 2&#xff0c;一个集中处理待办中转路由页&#xff0c;所有待办都跳转到这个页面…...

1. Java-MarkDown文件创建-工具类

Java-MarkDown文件创建-工具类 1. 思路 根据markdown语法&#xff0c;拼装markdown文本内容 2. 工具类 import java.util.Arrays; import java.util.List;/*** Markdown生成工具类* Author: 20004855* Date: 2021/1/15 16:00*/ public class MarkdownGenerator {private Str…...

全连接神经网络(前馈神经网络)

一、全连接神经网络介绍 在多层神经网络中&#xff0c; 第 N 层的每个神经元都分别与第 N-1 层的神经元相互连接。 1、神经元 这个神经元接收的输入信号为向量 &#xff0c; 向量为输入向量的组合权重&#xff0c; 为偏置项&#xff0c; 是一个标量。 神经元的作用是对输入向…...

【llm对话系统】什么是 LLM?大语言模型新手入门指南

什么是 LLM&#xff1f;大语言模型新手入门指南 大家好&#xff01;欢迎来到 LLM 的奇妙世界&#xff01;如果你对人工智能 (AI) 的最新进展&#xff0c;特别是那些能像人类一样阅读、写作甚至进行对话的 AI 感兴趣&#xff0c;那么你来对地方了。这篇文章将带你认识 LLM 的基…...

【Linux】互斥锁、基于阻塞队列、环形队列的生产消费模型、单例线程池

⭐️个人主页&#xff1a;小羊 ⭐️所属专栏&#xff1a;Linux 很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~ 目录 1、互斥锁2、生产消费模型2.1 阻塞队列2.2 环形队列 3、单例线程池4、线程安全和重入问题 1、互斥锁 临界资源&#xff1a;多线程…...

【学术会议征稿】第五届能源、电力与先进热力系统学术会议(EPATS 2025)

能源、电力与先进热力系统设计是指结合物理理论、工程技术和计算机模拟&#xff0c;对能源转换、利用和传输过程进行设计的学科领域。它涵盖了从能源的生产到最终的利用整个流程&#xff0c;旨在提高能源利用效率&#xff0c;减少能源消耗和环境污染。 重要信息 官网&#xf…...

ES6 类语法:JavaScript 的现代化面向对象编程

Hi&#xff0c;我是布兰妮甜 &#xff01;ECMAScript 2015&#xff0c;通常被称为 ES6 或 ES2015&#xff0c;是 JavaScript 语言的一次重大更新。它引入了许多新特性&#xff0c;其中最引人注目的就是类&#xff08;class&#xff09;语法。尽管 JavaScript 一直以来都支持基于…...

Sprintboot原理

配置优先级 Springboot中支持的三种配置文件&#xff1a; application.propertiesapplication.ymlapplication.yaml java系统属性&#xff1a;-Dxxxxxx 命令行参数&#xff1a;-xxxxxx 优先级&#xff1a;命令行参数>java系统属性>application.properties>applicat…...

OpenHarmony 5.0.2 Release来了!

版本概述 OpenHarmony 5.0.2 Release版本对标准系统的能力进行持续完善&#xff0c;以快速迭代的方式推出API 14&#xff0c;相比5.0.1 Release版本&#xff0c;重点做出了如下特性新增或增强&#xff1a; 进一步增强ArkUI、图形图像的能力&#xff0c;提供更多组件的高级属性…...

Qt 控件与布局管理

1. Qt 控件的父子继承关系 在 Qt 中&#xff0c;继承自 QWidget 的类&#xff0c;通常会在构造函数中接收一个 parent 参数。 这个参数用于指定当前空间的父控件&#xff0c;从而建立控件间的父子关系。 当一个控件被设置为另一控件的子控件时&#xff0c;它会自动成为该父控…...

使用小尺寸的图像进行逐像素语义分割训练,出现样本不均衡训练效果问题

在使用小尺寸图像进行逐像素语义分割训练时&#xff0c;确实可能出现样本不均衡问题&#xff0c;且这种问题可能比大尺寸图像更显著。 1. 小尺寸图像如何加剧样本不均衡&#xff1f; (1) 局部裁剪导致类别分布偏差 问题&#xff1a;遥感图像中某些类别&#xff08;如道路、建…...

0.91英寸OLED显示屏一种具有小尺寸、高分辨率、低功耗特性的显示器件

0.91英寸OLED显示屏是一种具有小尺寸、高分辨率、低功耗特性的显示器件。以下是对0.91英寸OLED显示屏的详细介绍&#xff1a; 一、基本参数 尺寸&#xff1a;0.91英寸分辨率&#xff1a;通常为128x32像素&#xff0c;意味着显示屏上有128列和32行的像素点&#xff0c;总共409…...

《Qt C++ 与 OpenCV:解锁视频播放程序设计的奥秘》

引言:探索视频播放程序设计之旅 在当今数字化时代,多媒体应用已渗透到我们生活的方方面面,从日常的视频娱乐到专业的视频监控、视频会议系统,视频播放程序作为多媒体应用的核心组成部分,扮演着至关重要的角色。无论是在个人电脑、移动设备还是智能电视等平台上,用户都期望…...

HTML 列表、表格、表单

1 列表标签 作用&#xff1a;布局内容排列整齐的区域 列表分类&#xff1a;无序列表、有序列表、定义列表。 例如&#xff1a; 1.1 无序列表 标签&#xff1a;ul 嵌套 li&#xff0c;ul是无序列表&#xff0c;li是列表条目。 注意事项&#xff1a; ul 标签里面只能包裹 li…...

ffmpeg(四):滤镜命令

FFmpeg 的滤镜命令是用于音视频处理中的强大工具&#xff0c;可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下&#xff1a; ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜&#xff1a; ffmpeg…...

linux 下常用变更-8

1、删除普通用户 查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行&#xff0c;YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID&#xff1a; YW3…...

leetcodeSQL解题:3564. 季节性销售分析

leetcodeSQL解题&#xff1a;3564. 季节性销售分析 题目&#xff1a; 表&#xff1a;sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...

AI编程--插件对比分析:CodeRider、GitHub Copilot及其他

AI编程插件对比分析&#xff1a;CodeRider、GitHub Copilot及其他 随着人工智能技术的快速发展&#xff0c;AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者&#xff0c;分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...

PAN/FPN

import torch import torch.nn as nn import torch.nn.functional as F import mathclass LowResQueryHighResKVAttention(nn.Module):"""方案 1: 低分辨率特征 (Query) 查询高分辨率特征 (Key, Value).输出分辨率与低分辨率输入相同。"""def __…...

MySQL JOIN 表过多的优化思路

当 MySQL 查询涉及大量表 JOIN 时&#xff0c;性能会显著下降。以下是优化思路和简易实现方法&#xff1a; 一、核心优化思路 减少 JOIN 数量 数据冗余&#xff1a;添加必要的冗余字段&#xff08;如订单表直接存储用户名&#xff09;合并表&#xff1a;将频繁关联的小表合并成…...

MyBatis中关于缓存的理解

MyBatis缓存 MyBatis系统当中默认定义两级缓存&#xff1a;一级缓存、二级缓存 默认情况下&#xff0c;只有一级缓存开启&#xff08;sqlSession级别的缓存&#xff09;二级缓存需要手动开启配置&#xff0c;需要局域namespace级别的缓存 一级缓存&#xff08;本地缓存&#…...

高防服务器价格高原因分析

高防服务器的价格较高&#xff0c;主要是由于其特殊的防御机制、硬件配置、运营维护等多方面的综合成本。以下从技术、资源和服务三个维度详细解析高防服务器昂贵的原因&#xff1a; 一、硬件与技术投入 大带宽需求 DDoS攻击通过占用大量带宽资源瘫痪目标服务器&#xff0c;因此…...