当前位置：首页 > news >正文

大数据-172 Elasticsearch 索引操作与 IK 分词器自定义停用词 Nginx 服务

news 2026/5/19 7:34:05

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（已更完）
Flink（已更完）
ClickHouse（已更完）
Kudu（已更完）
Druid（已更完）
Kylin（已更完）
Elasticsearch（正在更新…）

章节内容

上节我们完成了如下的内容：

ES-head 插件配置使用
Kibana 插件配置使用

在这里插入图片描述

索引操作

创建索引库

Elasticsearch采用Rest风格API，因此其API就是一次HTTP请求，你可以用任何工具来发起HTTP请求。
语法：

PUT /索引名称
{"settings": {"属性名": "属性值"}
}

settings：就是索引库设置，其中可以索引库的各种属性，比如分片数、副本数等。目前我们不设置，先默认即可。
示例：

PUT /wzkicu-index

执行结果如下图：
在这里插入图片描述

判断索引是否存在

单个索引

语法：

GET /索引名称

示例：

GET /wzkicu-index

执行结果如下图所示：
在这里插入图片描述

多个索引

语法：

GET /索引名称1,2,3,4,5...

示例：

GET /wzkicu-index,wzkicu,wzk

执行结果如下图所示：（这里有不存在的索引，所以404了）
在这里插入图片描述

所有索引

方式1：

GET _all

执行结果如下图所示：
在这里插入图片描述
方式2：

GET /_cat/indices?v

执行结果如下图所示：
在这里插入图片描述
这里的health列，表示：

绿色：索引的所有分片都正常分配
黄色：至少有一个副本没有得到正确的分配
红色：至少有一个主分片没有得到正常的分配

打开索引

语法：

POST /索引名称/_open

示例：

POST /wzkicu-index/_open

执行结果如下图：
在这里插入图片描述

关闭索引

语法：

POST /索引名称/_close

示例：

POST /wzkicu-index/_close

执行结果如下图：
在这里插入图片描述

删除索引

语法：

DELETE /索引名称1,2,3,4,5...

示例：

DELETE /wzkicu-index

执行结果如下图所示：
在这里插入图片描述

IK分词器

下载项目

官方地址在这里，是GitHub开源的项目，安装方式很多，我这里就直接用官方的方式安装了：

https://github.com/infinilabs/analysis-ik/releases/tag/Latest

页面是这样的：
在这里插入图片描述

安装插件

cd /opt/servers/elasticsearch-7.3.0/
bin/elasticsearch-plugin install https://get.infini.cloud/elasticsearch/analysis-ik/7.3.0

执行结果如下图所示，我们需要重启ES：
在这里插入图片描述

重启ES

重启过程，启动完毕：
在这里插入图片描述

分词测试

IK分词器两种分词模式：

ik_max_word 模式（最常用）（会将文本最细粒度的拆分）
ik_smart 模式（会做最粗粒度的拆分）

暂时不细追究语法，先学习测试，再后续研究。

ik_max_word

POST _analyze
{"analyzer": "ik_max_word","text": "山东省青岛市黄岛区"
}

我们的到的结果是：

{"tokens": [{"token": "山东省","start_offset": 0,"end_offset": 3,"type": "CN_WORD","position": 0},{"token": "山东","start_offset": 0,"end_offset": 2,"type": "CN_WORD","position": 1},{"token": "省","start_offset": 2,"end_offset": 3,"type": "CN_CHAR","position": 2},{"token": "青岛市","start_offset": 3,"end_offset": 6,"type": "CN_WORD","position": 3},{"token": "青岛","start_offset": 3,"end_offset": 5,"type": "CN_WORD","position": 4},{"token": "市","start_offset": 5,"end_offset": 6,"type": "CN_CHAR","position": 5},{"token": "黄岛区","start_offset": 6,"end_offset": 9,"type": "CN_WORD","position": 6},{"token": "黄岛","start_offset": 6,"end_offset": 8,"type": "CN_WORD","position": 7},{"token": "区","start_offset": 8,"end_offset": 9,"type": "CN_CHAR","position": 8}]
}

执行的结果如下图所示：
在这里插入图片描述

ik_smart

POST _analyze
{"analyzer": "ik_smart","text": "山东省青岛市黄岛区"
}

执行的结果是：

{"tokens": [{"token": "山东省","start_offset": 0,"end_offset": 3,"type": "CN_WORD","position": 0},{"token": "青岛市","start_offset": 3,"end_offset": 6,"type": "CN_WORD","position": 1},{"token": "黄岛区","start_offset": 6,"end_offset": 9,"type": "CN_WORD","position": 2}]
}

执行的结果如下图所示：
在这里插入图片描述

提出问题

在实际环境中，有很多时候并不能够准确的理解我们断词断句，有时候有些词我们想要它拆分，有些词我们希望它不拆分。
那我们怎么办呢？

词典使用

扩展词

不进行分词，告诉引擎这是一个词。

停用词

有些词在文本中出现的频率非常高，但对本文的语义会产生很大的影响，例如：呢、了、啊等等，英语中也有类似于 a 、the、of 等等。这样的词称为停用词。
停用词经常会过滤掉，不会被索引，在检索过程中，如果用户的查询词中含有停用词，系统会自动过滤掉。
停用词可以加快索引的速度、减少索引库的大小。

扩展词、停用词应该统一维护，避免集群中多台导致节点各自维护自己的一份。这里我们计划使用Web的方式，将dict词库共享给分词器等。

分词服务

配置Web
我这里使用 Nginx，你也可以使用 Tomcat：

apt install nginx

安装过程如下图所示：
在这里插入图片描述
访问页面：http://h121.wzk.icu，可以看到Nginx顺利运行：

编写dict内容：

vim /var/www/html/stop_dict.dic

向其中写入的内容如下：

的
了
啊
呢

同理，我们写入 ext_dict.dic：

vim /var/www/html/ext_dict.dic

我们访问对应的页面，可以拿到对应的Web文件：
在这里插入图片描述

配置分词器

# 这里看自己的版本 我选了好几个
cd /opt/servers/elasticsearch-8.15.0/plugins/analysis-ik
mkdir config
vim IKAnalyzer.cfg.xml

写入如下的内容：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict"></entry><!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords"></entry><!--用户可以在这里配置远程扩展字典 --><entry key="remote_ext_dict">http://h121.wzk.icu/ext_dict.dic</entry><!--用户可以在这里配置远程扩展停止词字典--><entry key="remote_ext_stopwords">http://h121.wzk.icu/stop_dict.dic</entry>
</properties>

对应的截图如下所示：
在这里插入图片描述

重启服务

重启ES服务，测试效果。

大数据-172 Elasticsearch 索引操作与 IK 分词器自定义停用词 Nginx 服务

点一下关注吧！！！非常感谢！！持续更新！！！ 目前已经更新到了： Hadoop（已更完）HDFS（已更完）MapReduce（已更完&am…...

编程日记 2024/10/22 3:20:42

【Java后端】之 ThreadLocal 详解

想象一下，你有一个工具箱，里面放着各种工具。在多人共用这个工具箱的时候，很容易出现混乱，比如有人拿走了你的锤子，或者你找不到合适的螺丝刀。为了避免这种情况，最好的办法就是每个人都有自己独立的工具箱…...

编程日记 2024/10/22 3:17:38

2.链表（代码随想录——python版本）

2.链表（代码随想录——python版本） 链表的概念： 链表是由指针串联在一起的线性结构，一个节点（node）由两部分组成： 数据域——用来存储数据；指针域——用来指向下一个节点&#xf…...

编程日记 2024/10/22 3:15:36

6个解决“由于找不到vcruntime140_1.dll无法继续执行代码”问题的方法

vcruntime140_1.dll丢失的问题在Windows操作系统中相对常见，它通常与Microsoft Visual C Redistributable有关。本文将详细解读vcruntime140_1.dll丢失的原因、解决方法以及预防措施，帮助用户更好地应对这一问题。一，vcruntime140_1.dll文件…...

编程日记 2024/10/22 3:11:32

常用数据库获取表，视图，列，索引信息

一、分页获取数据库用户的所有表 (1)、Oracle，OceanBase(Oracle内核版)，DM 使用ALL_TABLES，需要添加当前用户作为查询条件 select a3.* from (select a2.* from (select a1.*, rownum rn1 from ( select t1.table_name, t2.comments fro…...

编程日记 2024/10/22 3:10:31

架构设计笔记-16-嵌入式系统架构设计理论与实践

目录知识要点嵌入式微处理器存储器（memory） 内（外）总线逻辑嵌入式操作系统（Embedded Operating System，EOS） 通用中间件嵌入式中间件的一般架构典型嵌入式中间件系统案例分析 1…...

编程日记 2024/10/22 3:09:28

SpringSecurity使用介绍

1、SpringSecurity 1.1 SpringSecurity简介 Spring Security是基于Spring的安全框架,提供了包含认证和授权的落地方案；Spring Security底层充分利用了Spring IOC和AOP功能，为企业应用系统提供了声明式安全访问控制解决方案；SpringSecurity可…...

编程日记 2024/10/22 3:08:27

# Js 回调函数

Js 回调函数文章目录 Js 回调函数回调函数的定义和使用回调函数的常见用途异步操作事件处理回调函数的优点和缺点优点缺点回调地狱解决回调地狱的方法使用 Promise使用 async/await 应用函数式编程中的回调函数高阶函数函数柯里化异步编程中的回调函数回调函数的错误处理传…...

编程日记 2024/10/22 3:04:23

COOLSHELL文章：从Code Review 谈如何做技术【阅读笔记】

从Code Review 谈如何做技术原文链接：https://coolshell.cn/articles/11432.html#google_vignette 工程师需要有责任心和修养，不是做出来就了事，而是要做漂亮。这也是山寨和工业的区别，只以做出来为标准是劳动密集型的装配生产线…...

编程日记 2024/10/22 3:03:22

3.1.1 ReactOS系统中二叉树创建一个MEMORY_AREA节点

二叉树中创建一个MEMORY_AREA节点： 二叉树中创建一个MEMORY_AREA节点： MmCreateMemoryArea() 参数AddressSpace是MADDRESS SPACE结构指针，所指向的数据结构代表着一个进程的用户空间。参数BaseAddress是个指针，用来给定和返回内…...

编程日记 2024/10/22 3:01:18

三、Linux 安装全攻略

Linux 安装全攻略在当今的科技时代，Linux 操作系统以其稳定性、安全性和高度的可定制性而备受青睐。本文将详细介绍 Linux 的安装过程，包括关键步骤和下载资源获取方式，帮助你顺利踏上 Linux 之旅。一、为什么选择 Linux Linux 有许多优…...

编程日记 2024/10/22 3:00:16

Ansible自动化工具

一、Ansible概述 1.1 什么是Ansible Ansible 是一个开源的自动化工具，用于配置管理、应用程序部署和任务自动化。它让你可以通过编写简单的 YAML 文件（剧本，Playbooks），轻松管理和配置多个服务器。Ansible 的特点是无…...

编程日记 2024/10/22 2:59:15

Over the past few years, I’ve been fortunate to collaborate with interior designers, and there’s a distinct flair to their approach to crafting captivating interiors. It’s not just about arranging furniture randomly; they meticulously plan layouts, sele…...

编程日记 2024/10/22 2:57:12

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

章节内容

索引操作

创建索引库

判断索引是否存在

单个索引

多个索引

所有索引

打开索引

关闭索引

删除索引

IK分词器

下载项目

安装插件

重启ES

分词测试

ik_max_word

ik_smart

提出问题

词典使用

扩展词

停用词

分词服务

配置分词器

重启服务

相关文章：