使用Rust开发小型搜索引擎
一、概述
用Rust创建搜索引擎是探索该语言在性能和安全性方面具有优势的绝佳方式。
这个项目将索引和搜索概念转移到Rust的生态系统中,由于Rust独特的语法和范式,这是一个挑战,但也是有益的。
二、构建搜索引擎
步骤1,创建项目
使用如下命令创建一个Rust新项目:
cargo new shrimp_engine
cd shrimp_engine
code .
步骤2,加入依赖项
需要一些crate来帮助解析和数据处理。例如:
tantivy:用于索引和搜索文本(类似于Java世界中的Lucene)
serde和serde_json:用于JSON解析
将这两个库加入到Cargo.toml文件中:
[dependencies]
tantivy = "0.17"
serde = "1.0"
serde_json = "1.0"
步骤3,定义数据结构
定义我们要索引的文档的结构。定义一个简单的结构体,它表示带有标题和正文的文档。
use serde::{Serialize, Deserialize};#[derive(Serialize, Deserialize, Debug)]
struct Document {title: String,body: String,
}
步骤4,创建索引
使用tantivy,根据数据结构创建索引模式,然后将文档添加到索引中。
use tantivy::{doc, schema::*, Index};fn create_index() -> Index {// 定义Schemalet mut schema_builder = Schema::builder();schema_builder.add_text_field("title", TEXT | STORED);schema_builder.add_text_field("body", TEXT);let schema = schema_builder.build(); // 在目录中创建索引let index = Index::create_in_ram(schema.clone()); // 获取索引写入器let mut index_writer = index.writer(50_000_000).unwrap(); // 添加文档let title = schema.get_field("title").unwrap();let body = schema.get_field("body").unwrap();let doc = doc!(title => "Example Title", body => "This is the body of the document.");let _ = index_writer.add_document(doc); // 将文档提交到索引let _ = index_writer.commit();index
}
Schema定义索引的结构,指定应该索引哪些字段(这里是标题和正文)以及如何(例如,存储、文本分析)创建一个内存索引,并将文档添加到该索引中。添加的每个文档都由Document结构体定义,然后对其进行序列化以进行索引。将更改提交到索引中,使其可搜索。
步骤5,搜索
实现一个搜索索引的函数。我们需要创建一个搜索器和查询解析器。
use tantivy::query::QueryParser;
use tantivy::collector::TopDocs;fn search_index(index: &Index, query_str: &str) -> tantivy::Result<()> {let reader = index.reader()?;let searcher = reader.searcher();let schema = index.schema();let title = schema.get_field("title").unwrap();let body = schema.get_field("body").unwrap();let query_parser = QueryParser::for_index(index, vec![title, body]);let query = query_parser.parse_query(query_str)?;let top_docs = searcher.search(&query, &TopDocs::with_limit(10))?;for (_, doc_address) in top_docs {let retrieved_doc = searcher.doc(doc_address)?;println!("{:?}", retrieved_doc);}Ok(())
}
步骤6,测试搜索引擎,修改main函数
fn main() -> Result<(), TantivyError> {println!("Hello, Shrimp!");// 创建索引并存储它let index = create_index();// 在创建的索引中搜索search_index(&index, "Example")?;Ok(())
}
运行结果如下:
Hello, Shrimp!
Document { field_values: [FieldValue { field: Field(0), value: Str("Example Title") }] }
tantivy crate中的组件用于构建搜索引擎的核心功能,从创建索引到查询索引。
tantivy crate中的组件用于构建搜索引擎的核心功能,从创建索引到查询索引。
搜索引擎的核心机制
1,索引读取器和搜索器:
为了搜索索引,将实例化一个索引读取器,创建一个能够对索引执行查询的搜索器。
2,查询解析和执行
查询解析器解释查询的字符串,并根据已定义的Schema将其转换为查询对象。然后,搜索者使用该查询来查找相关文档并对其进行排序。
3,检索和显示结果
检索并显示最匹配的文档(在一定范围内)。基于搜索查询、提取和审查索引内容。
总结
本示例旨在为你提供构建搜索引擎的起点。Rust的所有权和并发模型,以及它的类型系统,为构建更复杂和高性能的搜索引擎提供了坚实的基础。
我们可以通过添加实时索引、高级文本处理和自定义评分算法等特性来扩展这个项目。
相关文章:
使用Rust开发小型搜索引擎
一、概述 用Rust创建搜索引擎是探索该语言在性能和安全性方面具有优势的绝佳方式。 这个项目将索引和搜索概念转移到Rust的生态系统中,由于Rust独特的语法和范式,这是一个挑战,但也是有益的。 二、构建搜索引擎 步骤1,创建项目…...
2024.3.13
1.顺序表去重 代码: //顺序表去重 void dele(seq_p L) {if(LNULL){printf("入参为空,请检查\n");return;}for(int i0;i<L->len-1;i){for(int ji1;j<L->len;j){if(L->data[i]L->data[j]){dele_data(L,L->data[j]);j--;}…...
schedule() , schedule_work() 以及schedule_timeout_interruptible()区别
schedule() 和 schedule_work() 是 Linux 内核中用于任务调度的两个函数,它们的作用和使用场景有所不同。 schedule() 函数: * 作用:将当前任务放入睡眠状态并调度其他可运行任务的函数。当调用 schedule() 时,当前任务会放弃 CPU…...
AWS入门实践-AWS CLI工具的使用介绍
AWS CLI(Amazon Web Services Command Line Interface)是一个强大的工具,它允许您直接从命令行与AWS服务进行交互。这不仅可以加快许多任务的处理速度,而且还可以通过脚本自动化。 一、AWS CLI工具的安装 1、Windows 安装下载…...
Xterminal:未来的终端体验
✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏: 开发环境篇 ✨特色专栏: M…...
“光谱视界革新:ChatGPT在成像光谱遥感中的智能革命“
遥感技术主要通过卫星和飞机从远处观察和测量我们的环境,是理解和监测地球物理、化学和生物系统的基石。ChatGPT是由OpenAI开发的最先进的语言模型,在理解和生成人类语言方面表现出了非凡的能力。本文重点介绍ChatGPT在遥感中的应用,人工智能…...
Docker Register 搭建私有镜像仓库
1 安装 docker (1)更新软件源 sudo apt update (2)安装 docker 组件 sudo apt install docker.io (3)启动 docker 服务 sudo systemctl start docker (4)设置 docker 服务开机自启动 sudo systemctl enable docker (5)验证 docker 功能 sudo docker contai…...
蓝桥杯真题讲解:三国游戏(贪心)
蓝桥杯真题讲解:三国游戏(贪心) 一、视频讲解二、正解代码 一、视频讲解 蓝桥杯真题讲解:三国游戏(贪心) 二、正解代码 //三国游戏:贪心 #include<bits/stdc.h> #define int long lon…...
docker之自己制作jdk镜像
一,下载想要制作的镜像的对应jdk(自行下载),本文使用jdk17(因为自己的springboot项目时在jdk17下开发的,悲!!!,再加上没有在官网上找到对应镜像,只…...
基于SpringBoot的农产品特色供销系统(蔬菜商城)
基于SpringBoot的农产品特色供销系统(蔬菜商城) 系统介绍 该系统使用Java、MySQL、Redis、Spring Boot和HTML等技术作为系统的技术支撑,实现了以下功能模块: (1)后台管理模块,包括权限、日志、…...
【性能】如何计算 Web 页面的 TTI 指标
什么是 TTI 指标 TTI(Time To Interactive),即从页面加载开始到页面处于完全可交互状态所花费的时间。页面处于完全可交互状态时,满足以下 3 个条件: 页面已经显示有用内容。页面上的可见元素关联的事件响应函数已经…...
大模型交互-超拟人合成
1、超拟人合成:将文字转化为自然流畅的人声,在实时语音合成的基础上,精准模拟人类的副语言现象,如呼吸、叹气、语速变化等,使得语音不仅流畅自然,更富有情感和生命力。 2、唤醒的持久运行--->合成能力加…...
第十四届蓝桥杯蜗牛
蜗牛 线性dp 目录 蜗牛 线性dp 先求到达竹竿底部的状态转移方程 求蜗牛到达第i根竹竿的传送门入口的最短时间编辑 题目链接:蓝桥杯2023年第十四届省赛真题-蜗牛 - C语言网 关键在于建立数组将竹竿上的每个状态量表示出来,并分析出状态转移方程 in…...
分布式定时任务调度xxl-job
1. xxl-job基本介绍 1.1 Quartz的体系结构 Quartz中最重要的三个对象:Job(作业)、Trigger(触发器)、Scheduler(调度器)。 xxl-job的调度原理:调度线程在一个while循环中不断地获取一定数量的即将触发的Tr…...
自动化运维利器Ansible基础(环境部署)
Ansible 介绍及安装 1. 介绍 Ansible 是⼀个 IT ⾃动化⼯具。它能配置系统、部署软件、编 排更复杂的 IT 任务,如连续部署或零停机时间滚动更新。 Ansible ⽤ Python 编写,尽管市⾯上已经有很多可供选择的 配置管理解决⽅案(例如 Salt、Pupp…...
微服务自动化管理初步认识与使用
目录 一、ETCD 1.1、ETCD简介 对于实施工程师: 1.2、特点 1.3. 使用场景 1.4、 关键字 1.5 工作原理 二、ETCD的安装 2.1、下载路径 2.2、介绍 2.3、具体操作 安装服务端 安装etcd客户端 测试 三、ETCD使用 3.1、前奏具体操作 3.2、 常用操作 一、ET…...
使用Docker管理linux容器
文章目录 一、使用docker管理镜像 二、使用docker管理容器 一、使用docker管理镜像 1、安装操作系统,我安装的是centOS 7 ,因为centos7有着非常丰富的软件仓库,方便后续安装与docker相关的软件。 2、初始化设置, 关闭防火墙 关闭…...
CTR之行为序列建模用户兴趣:DIEN
前言 在上一篇文章中 CTR之行为序列建模用户兴趣:DIN,开启了用户行为序列建模用户兴趣的篇章。DIN引入了Attention机制,对于不同的候选item,可以根据用户的历史行为序列,动态地学习用户的兴趣表征向量。但是ÿ…...
1960-2020年全球双边迁移数据库(Global Bilateral MigrationDatabase)
1960-2020年全球双边迁移数据库(Global Bilateral MigrationDatabase) 1、时间:1960-2000年,每10年一次具体为:1960年、1970年、1980年、1990年、2000年 2、来源:世界银行 3、指标:Country O…...
OpenGL-贴纸方案
OpenGL-贴纸方案 普通贴纸(缩放、Z轴旋转、平移) OpenGL环境说明 OpenGL渲染区域使用正交投影换算,正常OpenGL坐标是vertexData,这样的 Matrix.orthoM 进行换算 //顶点坐标(原点为显示区域中心店)private final float[] vertex…...
交互弹窗设计避坑指南:Toast、Dialog、Actionbar和Snackbar的常见错误与优化建议
交互弹窗设计避坑指南:Toast、Dialog、Actionbar和Snackbar的常见错误与优化建议 在移动应用和网页设计中,交互弹窗是用户界面中不可或缺的元素。它们像数字世界中的交通信号灯,引导用户完成各种操作流程。然而,设计不当的弹窗不仅…...
MogFace人脸检测工具实测:16GB显存下支持最高4096×2160分辨率单图检测
MogFace人脸检测工具实测:16GB显存下支持最高40962160分辨率单图检测 1. 引言:当高清图片遇上精准人脸检测 你有没有遇到过这样的场景?拿到一张几千人合影的高清大图,想快速找出某个特定人物,或者需要从监控录像的4K…...
MDK5.39编译报错Error:#268?手把手教你切换C99模式解决变量声明问题
MDK5.39编译报错Error:#268的深度解析与C99模式实战指南 当你在Windows 11环境下使用MDK5.39进行ARM嵌入式开发时,突然遇到"Error:#268: declaration may not appear after executable statement in block"这样的编译错误,确实会让人感到困惑。…...
Qwen3.5-9B-AWQ-4bit视觉理解实战:10个高频办公场景的图文处理案例
Qwen3.5-9B-AWQ-4bit视觉理解实战:10个高频办公场景的图文处理案例 1. 认识这个强大的视觉助手 想象一下,当你面对一堆杂乱的文件、会议记录和产品图片时,有一个智能助手能帮你快速理解这些内容。这就是Qwen3.5-9B-AWQ-4bit能为你做的事情。…...
RK3568的Type-C接口设计,不止正反插:EMC防护、限流与关机遥控的细节实战
RK3568 Type-C接口设计实战:从EMC防护到关机遥控的进阶技巧 Type-C接口早已成为现代电子设备的标配,但真正将其设计得既可靠又智能却并非易事。对于基于RK3568平台的嵌入式设备开发者而言,一个优秀的Type-C方案不仅需要解决正反插这种基础问题…...
EmonLibCM:嵌入式电能监测连续采样库解析
1. EmonLibCM:面向嵌入式电能监测的连续采样库深度解析EmonLibCM(Energy Monitoring Continuous Sampling Library)是一个专为资源受限嵌入式平台设计的开源电能监测库,其核心目标是实现高精度、低开销、免中断依赖的交流电参数连…...
illa-helper开发者深度教程:如何扩展新的翻译服务提供商
illa-helper开发者深度教程:如何扩展新的翻译服务提供商 【免费下载链接】illa-helper 浸入式学语言助手 (Immersive Language Learning Assistant) 项目地址: https://gitcode.com/gh_mirrors/il/illa-helper 浸入式学语言助手是一个基于"i1"可理…...
玉米脱粒机的毕业设计(论文+12张CAD图纸+开题报告+任务书……)
玉米脱粒机作为农业机械化的重要设备,其核心作用在于通过机械结构与动力系统的协同,实现玉米果穗与籽粒的高效分离。传统人工脱粒效率低、劳动强度大,而机械化脱粒通过旋转滚筒与筛网的配合,可显著提升处理速度,同时降…...
[具身智能-231]:OpenCV的库文件为啥是cv2, 而不是cv?
这是一个非常经典的问题!很多初学者在写代码时都会感到困惑:明明安装的是 opencv-python,为什么导入时却要写 import cv2?而且这个 "2" 到底代表 OpenCV 2 还是 OpenCV 3/4?简单直接的回答是:cv2…...
MATLAB频谱分析:从fft到fftshift的实战解读
1. 为什么我们需要频谱分析? 想象一下你正在调试一段音频,听到里面有奇怪的嗡嗡声。作为工程师,你不仅想知道"有杂音",更想知道这个杂音具体是哪个频率成分。这就是频谱分析的用武之地——它像是一把声音的显微镜&#…...
