Elasticsearch 全文搜索引擎 ---- IK分词器
原理:分词的原理:二叉树
首先讲一下为什么要出这个文章,前面我们讲过分词方法:中文分词搜索 pscws(感兴趣的同学可以去爬楼看一下),那为什么要讲IK分词?最主要的原因是:pscws分词颗粒度不如IK分词的颗粒度高,现在的需求要求颗粒度细一点,以便提高搜索进度,所以我们今天讲一下IK分词
第一步:安转Elasticsearch,这个在博主原来的文章里面有,所以不在讲述,安装完成后运行结果:
访问地址:http://localhost:9200
第二步:安转IK扩展(现在下载扩展包):需要选择和自己的Elasticsearch对应的版本,我的Elasticsearch版本是7.3.2,下载后存放在:/plugins 目录下:
下载地址:https://gitcode.net/mirrors/medcl/elasticsearch-analysis-ik/-/tree/v7.3.2
直接运行会发现闪退情况:为什么会出现这样的情况,主要有两个原因:
1.版本不配
2.未修改配置 ,配置如何修改?
需要安装 maven 包管理工具,这个是JAVA开发的,所以需要安装JAVA的环境(IK 分词器需要 Java 8 或者以上的版本)
一、下载&安装
1. 下载地址
maven下载地址如下,各位请选择对应系统的maven版本进行下载。
https://maven.apache.org/download.cgi
2. 解压maven安装包
maven安装包下载之后,对其进行解压。
二、配置环境变量:
系统变量新增:变量名:MAVEN_HOME 值:maven存放目录
系统变量追加:变量名:path 值:%MAVEN_HOME%\bin
测试maven是否配置完毕:输入mvn -v命令,如果出现maven版本号,就表明安装成功。
如果报错:
配合:The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME should point to a JDK not a JRE
没有安装Java的运行环境或者JAVA_HOME的环境变量没有配置,安装好JAVA的运行环境后记得配置JAVA_HOME环境变量,安装好后,再运行mvn -v命令
查看命令:elasticSearch-plugin list:安装成功
第三步:使用分词(PHP版本):
//引入自动加载文件
require_once APPPATH.'../vendor/es/autoload.php';
//使用命名空间引用
use Elasticsearch\ClientBuilder;
class Test extends CI_Controller
{
//初始化
public function __construct()
{
parent::__construct();
//拼接参数
$params = [
[
'host' => '地址',
'port' => '端口号',
'scheme' => 'http',
'user' => '用户名',
'pass' => '密码'
]
];
//初始化对象
$this->client = ClientBuilder::create()->setHosts($params)->setConnectionPool('连接池地址(相对地址)', []) ->setRetries(10)->build();
}
//分词器
public function ik(){
$params = [
'body' => [
'text' => '中国上海市直辖市静安区',
//ik_max_word 精细 ik_smart 粗略
'analyzer'=>'ik_max_word'
]
];
//请求分词
$res = $this->client->indices()->analyze($params);
var_dump($res);die;
}
}
IK精细分词输出结果:
array(11) {
[0]=>array(5) {
["token"]=>string(6) "中国"["start_offset"]=>int(0)["end_offset"]=>int(2)
["type"]=>string(7) "CN_WORD"["position"]=>int(0)
}
[1]=>array(5) {
["token"]=>string(9) "上海市"["start_offset"]=>int(2)["end_offset"]=>int(5)
["type"]=>string(7) "CN_WORD"["position"]=>int(1)
}
[2]=>array(5) {
["token"]=>string(6) "上海"["start_offset"]=>int(2)["end_offset"]=>int(4)
["type"]=>string(7) "CN_WORD"["position"]=>int(2)
}
[3]=>array(5) {
["token"]=>string(6) "海市" ["start_offset"]=>int(3)["end_offset"]=>int(5)
["type"]=>string(7) "CN_WORD"["position"]=>int(3)
}
[4]=>array(5) {
["token"]=>string(6) "市直" ["start_offset"]=>int(4)["end_offset"]=>int(6)
["type"]=> string(7) "CN_WORD"["position"]=>int(4)
}
[5]=>array(5) {
["token"]=>string(9) "直辖市"["start_offset"]=>int(5)["end_offset"]=>int(8)
["type"]=>string(7) "CN_WORD"["position"]=>int(5)
}
[6]=>array(5) {
["token"]=> string(6) "直辖"["start_offset"]=> int(5)["end_offset"]=>int(7)
["type"]=>string(7) "CN_WORD"["position"]=>int(6)
}
[7]=>array(5) {
["token"]=>string(3) "市"["start_offset"]=>int(7)["end_offset"]=>int(8)
["type"]=>string(7) "CN_CHAR"["position"]=>int(7)
}
[8]=> array(5) {
["token"]=>string(9) "静安区" ["start_offset"]=>int(8)["end_offset"]=> int(11)
["type"]=>string(7) "CN_WORD"["position"]=>int(8)
}
[9]=>array(5) {
["token"]=>string(6) "静安" ["start_offset"]=>int(8)["end_offset"]=>int(10)
["type"]=>string(7) "CN_WORD" ["position"]=>int(9)
}
[10]=>array(5) {
["token"]=>string(3) "区"["start_offset"]=>int(10)["end_offset"]=>int(11)
["type"]=>string(7) "CN_CHAR"["position"]=>int(10)
}
}
}
IK粗略分词:
array(1) {
["tokens"]=>
array(11) {
[0]=>array(5) {
["token"]=>string(6) "中国"["start_offset"]=>int(0)["end_offset"]=>int(2)
["type"]=>string(7) "CN_WORD"["position"]=>int(0)
}
[1]=>array(5) {
["token"]=>string(9) "上海市"["start_offset"]=>int(2)["end_offset"]=>int(5)
["type"]=>string(7) "CN_WORD"["position"]=>int(1)
}
[2]=>array(5) {
["token"]=>string(9) "直辖市"["start_offset"]=>int(5)["end_offset"]=>int(8)
["type"]=>string(7) "CN_WORD"["position"]=>int(5)
}
[3]=> array(5) {
["token"]=>string(9) "静安区" ["start_offset"]=>int(8)["end_offset"]=> int(11)
["type"]=>string(7) "CN_WORD"["position"]=>int(8)
}
}
}
中文分词搜索 pscws
array(4) {
["中国"]=> array(4) {
["word"]=> string(6) "中国"
["times"]=> int(1) ["weight"]=> float(6.2600002288818) ["attr"]=> string(3) "ns"
}
["上海市"]=> array(4) {
["word"]=> string(9) "上海市"
["times"]=> int(1) ["weight"]=> float(7.8200001716614) ["attr"]=> string(3) "ns"
}
["直辖市"]=> array(4) {
["word"]=> string(9) "直辖市"
["times"]=> int(1) ["weight"]=> float(6.8499999046326) ["attr"]=> string(3) "n"
}
["静安区"]=> array(4) {
["word"]=> string(9) "静安区"
["times"]=> int(1) ["weight"]=> float(12.140000343323) ["attr"]=> string(3) "ns"
}
}
至此IK分词器讲解完成,可以对比一下IK与pscws的区别,后续操作可以根据自己的业务来确定
相关文章:

Elasticsearch 全文搜索引擎 ---- IK分词器
原理:分词的原理:二叉树 首先讲一下为什么要出这个文章,前面我们讲过分词方法:中文分词搜索 pscws(感兴趣的同学可以去爬楼看一下),那为什么要讲IK分词?最主要的原因是&…...

Layer 2盛夏已至,StarkNet如何实现价值跃迁?
作者|Jason Jiang Layer 2概念在2023年夏天迎来爆发。Coinbase、ConsenSys等加密巨头纷纷下场,其部署的原生L2解决方案Base、Linea在过去两个月内相继完成主网上线;被誉为L2 四大天王之一的StarkNet也在夏天顺利完成“量子跃迁”升级&#x…...

KaiwuDB 受邀亮相 2023 中国国际“软博会”
8月31日,第二十五届中国国际软件博览会(以下简称“软博会”)在天津盛大开幕。KaiwuDB 受邀亮相展会,围绕“塑造软件新生态,赋能发展新变革”主题,重点展示自研分布式多模数据库及各大行业解决方案ÿ…...

RS-485/RS-422收发器电路 DP3085 国产低成本替代MAX3085
DP3085是5V、半双工、15kV ESD 保护的 RS-485/RS-422 收发器电路,电路内部包含一路驱动器和一路接收器。 DP3085具有增强的摆率限制,助于降低输出 EMI 以及不匹配的终端连接引起的反射,实现 500kbps 的无误码数据传输。 DP3085芯片接收器输入…...

R-which函数(带有arr.ind参数)
目录 一、which()函数 二、元素位置 一、which()函数 which()函数是R语言中的一个基础函数,用于返回满足指定条件的元素的位置或索引。 语法:which(x, arr.ind FALSE, useNames TRUE) 参数: - x:一个向量、数组或矩阵&#x…...

单片机通用学习-什么是时钟?
什么是时钟? 时钟是同步单片机系统各个部件工作时序的最小时间单位,时钟通过 CPU 控制,产生其他与时钟保持一定关系的同步控制信号,协调各部件的工作时序,没有时钟系统就崩溃了。 如 CPU 与存储器(RAM&am…...

PCL入门(二):初识点云数据
目录 1. 点云数据2. 对点云数据的简单操作3. 结果 1. 点云数据 在pcl里面,定义了很多点云数据类型,比如PointXYZ、PointXYZI、PointXYZRGBA等等,每一个都可以看做是点云的一个点的数据。而整个点云的数据类型被定义为PointCloud。 以pcl::P…...

LeetCode 面试题 03.01. 三合一
文章目录 一、题目二、C# 题解 一、题目 三合一。描述如何只用一个数组来实现三个栈。 你应该实现push(stackNum, value)、pop(stackNum)、isEmpty(stackNum)、peek(stackNum)方法。stackNum表示栈下标,value表示压入的值。 构造函数会传入一个stackSize参数&#x…...

【WebSocketIndexedDB】node+WebSocketIndexedDB开发简易聊天室
序幕介绍: WebSocket 是 HTML5 开始提供的一种在单个 TCP 连接上进行全双工通讯的协议。 讲人话就是说:WebSocket 使得客户端和服务器之间的数据交换变得更加简单,在 WebSocket API 中,浏览器和服务器只需要完成一次握手&#x…...

【01】弄懂共识机制PoW
基于工作量证明机制的共识机制PoW(Proof of Work) 特点就是多劳多特 共识过程 一个区块链系统中,交易历经多个步骤才能得以上链,并且需要经过多个节点的验证。以下是这些步骤的详细叙述: 交易进入交易池(内…...

QT C++ 基于TCP通信的网络聊天室
一、基本原理及流程 1)知识回顾(C语言中的TCP流程) 2)QT中的服务器端/客户端的操作流程 二、代码实现 1)服务器 .ui .pro 在pro文件中添加network库 .h #ifndef WIDGET_H #define WIDGET_H#include <QWidget>…...

SpringMVC入门详细介绍
一. SpringMVC简介 Spring MVC是一个基于Java的实现了MVC设计模式的请求驱动类型的轻量级Web框架,通过把Model,View,Controller分离,将web层进行职责解耦,把复杂的web应用分成逻辑清晰的几部分,简化开发&a…...

R3LIVE源码解析(9) — R3LIVE中r3live_lio.cpp文件
目录 1 r3live_lio.cpp文件简介 2 r3live_lio.cpp源码解析 1 r3live_lio.cpp文件简介 在r3live.cpp文件中创建LIO线程后,R3LIVE中的LIO线程本质上整体流程和FAST-LIO2基本一致。 2 r3live_lio.cpp源码解析 函数最开始会进行一系列的声明和定义,发布的…...

如何高效的解析Json?
Json介绍 Json是一种数据格式,广泛应用在需要数据交互的场景Json由键值对组成每一个键值对的key是字符串类型每一个键值对的value是值类型(boo1值数字值字符串值)Array类型object类型Json灵活性他可以不断嵌套,数组的每个元素还可以是数组或者键值对键值…...

MySQL——分组查询
2023.9.4 MySQL 分组查询的学习笔记如下: #分组查询 /* 分组查询中的筛选条件分为两类:数据源 位置 关键字 分组前筛选 原始表 group by前面 where 分组后筛选 分组后的结果集 group by后面 having */ #查询每…...

thinkphp 使用 easypay 和 easywechat
easypay 是3.x easywechat 是6.x 引入: use Yansongda\Pay\Pay;//easypayuse EasyWeChat\MiniApp\Application as MiniApp;//easywechat use EasyWeChat\Pay\Application as Payapp;//easywechat public function suborder(){$order [out_trade_no > time(…...

无涯教程-JavaScript - DVARP函数
描述 DVARP函数通过使用列表或数据库中符合您指定条件的记录的字段(列)中的数字,基于整个总体计算总体的方差。 语法 DVARP (database, field, criteria)争论 Argument描述Required/Optionaldatabase 组成列表或数据库的单元格范围。 数据库是相关数据的列表,其中相关信息的…...

Databend 开源周报第 108 期
Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。 Whats On In Databend 探索 Databend 本周新进展,遇到更贴近你心意的 Databend 。 多源数据目录 …...

Android-Intent实现数据传递
在activityA中使用putExtras(bundle)传递数据,在activityB中使用getExtras()获取数据 MainActivity.java及其xml package com.example.intentactivity;import androidx.appcompat.app.AppCompatActivity;import android.content.ComponentName; import android.co…...

系统学习Linux-zabbix监控平台
一、zabbix的基本概述 zabbix是一个监控软件,其可以监控各种网络参数,保证企业服务架构安全运营,同时支持灵活的告警机制,可以使得运维人员快速定位故障、解决问题。zabbix支持分布式功能,支持复杂架构下的监控解决方…...

基于MediaPipe的人体摔倒检测
1 简介 1.1 研究背景及意义 现如今随着经济等各方面飞速发展,社会安全随之也成为必不可少的话题。而校园安全则是社会安全的重中之重,而在我们的校园中,湿滑的地面、楼梯等位置通常会发生摔倒,尽管有“小心脚下”的告示牌…...

WebDAV之π-Disk派盘 + 无忧日记
无忧日记,生活无忧无虑。 给用户专业的手机记录工具,用户可以很轻松地通过软件进行每天发生事情的记录,可以为用户提供优质的工具与帮助,用户还可以通过软件来将地理位置,天气都记录在日记上,用户也可以通过软件来进行图片的导入,创建长图日记, 心情报表:用户写日记…...

Docker 相关操作,及其一键安装Docker脚本
一、模拟CentOS 7.5上安装Docker: 创建一个CentOS 7.5的虚拟机或使用其他方式准备一个CentOS 7.5的环境。 在CentOS 7.5上执行以下命令,以安装Docker的依赖项: sudo yum install -y yum-utils device-mapper-persistent-data lvm2 添加Doc…...

【Microsoft Edge】如何彻底卸载 Edge
目录 一、问题描述 二、卸载 Edge 2.1 卸载正式版 Edge 2.2 卸载非正式版 Edge 2.2.1 卸载通用的 WebView2 2.2.2 卸载 Canary 版 Edge 2.2.3 卸载其他版本 2.3 卸载 Edge Update 2.4 卸载 Edge 的 Appx 额外安装残留 2.5 删除日志文件 2.6 我就是想全把 Edge 都删了…...

2023-09-04力扣每日一题
链接: 449. 序列化和反序列化二叉搜索树 题意: 把一个二叉搜索树变成字符串,还要能变回来 解: 和剑指 Offer 37. 序列化二叉树差不多,那个是二叉树的序列化/反序列化-Hard 直接CV了,懒: ( 如果是二叉…...

jQuery成功之路——jQuery事件和插件概述
一、jQuery的事件 1.1常用事件 jQuery绑定事件,事件名字没有on。 事件名称事件说明blur事件源失去焦点click单击事件源change内容改变keydown接受键盘上的所有键(键盘按下)keypress接受键盘上的部分键(ctrl,alt,shift等无效)(键盘按下)key…...

Java ArrayList类详解
基本定义 ArrayList 是 Java 中的一个动态数组数据结构,属于 Java 集合框架的一部分(java.util 包中的类)。它提供了一个基于数组的可变长度列表,允许你在运行时添加、删除和访问元素,而不需要提前指定数组的大小。 简…...

快速排序学习
由于之前做有一题看到题解用了快排提升效率,就浅学了一下快速排序,还是似懂非懂。 首先快排的核心有两点,哨兵划分和递归。 哨兵划分:以数组中的某个数(一般为首位)为基准数,将数组划分为两个部…...

【Vue3 知识第二讲】Vue3新特性、vue-devtools 调试工具、脚手架搭建
文章目录 一、Vue3 新特性1.1 重写双向数据绑定1.1.1 Vue2 基于Object.defineProperty() 实现1.1.2 Vue3 基于Proxy 实现 1.2 优化 虚拟DOM1.3 Fragments1.4 Tree shaking1.5 Composition API 二、 vue-devtools 调试工具三、环境配置四、脚手架目录介绍五、SFC 语法规范解析附…...

pytorch 基于masking对元素进行替换
描述 pytorch 基于masking对元素进行替换. 代码如下. 先展平再赋值. 代码 # map.shape [64,60,128] # infill.shape [64,17,128] # mask_indices.shape [64,60]map map.reshape(map.shape[0] * map.shape[1],map.shape[2]) [mask_indices.reshape(mask_indices.shape[0]*ma…...