当前位置: 首页 > news >正文

analysis-ik分词器

analysis-ik分词器

  • 1、安装
    • 离线
    • 在线
  • 2、使用
    • 配置
    • 拓展词典
  • 3、测试
    • ik_smart
    • ik_max_word

1、安装

离线

使用离线安装下载地址https://release.infinilabs.com/analysis-ik/stable/找到对应es版本的ik分词器、下载zip后放到/elasticsearch/plugins/ik文件夹下。重启es即可生效

在线

bin目录下执行脚本/elasticsearch/bin/elasticsearch-plugin install https://get.infini.cloud/elasticsearch/analysis-ik/es版本号(服务器能连通外网)

2、使用

参考官方地址:https://github.com/infinilabs/analysis-ik/blob/master/README.md

配置

ik_smart:最少切分模式。该模式会尽可能少地切分文本
ik_max_word:最细粒度划分模式。该模式会尽可能多地切分文本,将文本中的每个可能的词语都切分

curl -XPOST "http://localhost:9200/test/_mapping" -H 'Content-Type: application/json' -d
'{        "properties": {            "content": {                "type": "text",                "analyzer": "ik_max_word",                "search_analyzer": "ik_smart"            }        }}'

参数说明将索引 testcontent字段类型为text设置为创建时使用ik_max_word创建相关索引、搜索时用ik_smart

拓展词典

elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml配置文件进行相关修改
在这里插入图片描述
参考链接:
扩展字典
官网

3、测试

注意:已经建好索引

ik_smart

curl -XPOST "http://localhost:9200/_analyze" -H 'Content-Type: application/json' -d'{    "analyzer": "ik_smart",    "text": "中华人民共和国"  }'

分词结果

{"tokens": [{"token": "中华人民共和国","start_offset": 0,"end_offset": 7,"type": "CN_WORD","position": 0}]
}

ik_max_word

curl -XPOST "http://localhost:9200/_analyze" -H 'Content-Type: application/json' -d'{    "analyzer": "ik_max_word",    "text": "中华人民共和国"  }'

分词结果

{"tokens": [{"token": "中华人民共和国","start_offset": 0,"end_offset": 7,"type": "CN_WORD","position": 0},{"token": "中华人民","start_offset": 0,"end_offset": 4,"type": "CN_WORD","position": 1},{"token": "中华","start_offset": 0,"end_offset": 2,"type": "CN_WORD","position": 2},{"token": "华人","start_offset": 1,"end_offset": 3,"type": "CN_WORD","position": 3},{"token": "人民共和国","start_offset": 2,"end_offset": 7,"type": "CN_WORD","position": 4},{"token": "人民","start_offset": 2,"end_offset": 4,"type": "CN_WORD","position": 5},{"token": "共和国","start_offset": 4,"end_offset": 7,"type": "CN_WORD","position": 6},{"token": "共和","start_offset": 4,"end_offset": 6,"type": "CN_WORD","position": 7},{"token": "国","start_offset": 6,"end_offset": 7,"type": "CN_CHAR","position": 8}]
}

相关文章:

analysis-ik分词器

analysis-ik分词器 1、安装离线在线 2、使用配置拓展词典 3、测试ik_smartik_max_word 1、安装 离线 使用离线安装下载地址https://release.infinilabs.com/analysis-ik/stable/找到对应es版本的ik分词器、下载zip后放到/elasticsearch/plugins/ik文件夹下。重启es即可生效 …...

开源的、基于内存的键值存储数据库redis详细介绍

目录 一、Redis的概述 1、概述 2、特点 (1)基本特性 (2)数据结构 (3)运行环境 二、Redis的重要作用 1、缓存 2、会话存储 3、消息队列 4、计数器 5、分布式锁 6、排行榜 7、实时数据处理 三、…...

三种容器 std::vector、std::map、std::unordered_set 的对比分析

目录 1.添加元素 1.1 std::vector 1.2 std::map 1.3 std::unordered_set 2. 查找元素 2.1 std::vector 2.2 std::map 2.3 std::unordered_set 3. 遍历容器 3.1 std::vector 使用范围基for循环(range-based for loop) 使用迭代器: 3.2 std::map 3.3 std::unord…...

Nuxt3 SSR 服务端渲染部署 PM2 全流程(Nest.js 同理)

项目打包 我们以 Nuxt3 项目为例子: 项目打包 执行 npm run build , 生成的 .output 文件夹就是部署产物(目前不支持中文路径)执行 npm run preview 可以本地预览效果 方式一:使用 Node 部署 需要服务器安装 Nod…...

如何轻松使用pip安装Git仓库中的私有Python模块(使用pip和Git仓库发布和安装私有Python模块)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 Git模块 📒📝 Git仓库要求🔖 项目目录结构🔖 文件说明📝 编写setup.py📝 配置MANIFEST.in📝 推送代码到Git仓库📝 使用pip安装模块🔖 使用用户名和密码🔖 使用Personal Access Token (PAT)🔖 示例📝 更…...

写 R 包教程

R R 包开发 | 保姆级教程-CSDN博客 https://www.prestevez.com/post/r-package-tutorial/ 1、加载开发所需 R 包 library(usethis) library(devtools) library(roxygen2) 2、在当前工作路径创建 R 包 usethis::create_package("myRpkg") # 在当前路径创建 my…...

【java】数组(超详细总结)

目录 一.一维数组的定义 1.创建数组 2.初始化数组 二.数组的使用 1.访问数组 2.遍历数组 3.修改数据内容 三.有关数组方法的使用 1.toString 2. copyOf 四.查找数组中的元素 1.顺序查找 2.二分查找binarySearch 五.数组排序 1.冒泡排序 2.排序方法sort 六.数组逆置…...

@KafkaListener注解

KafkaListener(topics "${xxxx}", containerFactory "xxx") public void consume(String message) {service.save(xx); }在 Spring Boot 中,使用 KafkaListener 注解消费 Kafka 消息时,如果 service.save(cleanWikiSource) 抛出异…...

2025年计算机视觉研究进展与应用国际学术会议 (ACVRA 2025)

2025年计算机视觉研究进展与应用国际学术会议 (ACVRA 2025) 2025 International Conference on Advances in Computer Vision Research and Applications 重要信息 2025年3月28-30日 南京 一轮截稿日期:2024年11月30日 EI检索稳定 早投稿,早审稿&a…...

第二代GPT-SoVITS V2:让声音克隆变得简单

随着人工智能技术的飞速发展,AI声音克隆已经成为一种趋势,广泛应用于各个领域。为了满足更多用户的需求,第二代GPT-SoVITS V2应运而生,它由RVC变声器创始人“花儿不哭”与AI音色转换技术Sovits开发者Rcell联合开发,是一…...

基于x86_64汇编语言简单教程6: 变量,常量,与运算

目录 变量 为未初始化的数据分配存储空间 多重初始化 常量 equ指令 %assign 指令 %define指令 算数指令 inc 自增指令 dec指令 ADD和SUB指令 imul/mul和idiv/div 实践:我们来写一个简单的一位数加法器 NASM逻辑指令 AND 指令 …...

Vue-router 路由守卫执行流程图

vue-router 路由守卫执行的流程图(个人理解) 图1 - 图2...

ES6 中函数参数的默认值

概述&#xff1a; ES 允许给函数的参数赋初始值&#xff1b; 代码示例及相关说明&#xff1a; <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>函数参数默认值</title> </head> <body> <script&g…...

Redis知识应用索引指南

Redis&#xff0c;全称为Remote Dictionary Server&#xff0c;是一个开源的高性能键值对数据库。它以其卓越的性能、丰富的数据结构和灵活的持久化机制&#xff0c;在现代应用中扮演着至关重要的角色 1 什么是redis Redis是一个使用ANSI C语言编写的开源、跨平台的键值存储系…...

ES6扩展运算符

1.介绍&#xff1a; ... 扩展运算符能将数组转换为逗号分隔的参数序列&#xff1b; 扩展运算符&#xff08;spread&#xff09;也是三个点&#xff08;...&#xff09;。它好比 rest 参数的逆运算&#xff0c;将一个数组转为用逗号分隔的 参数序列&#xff0c;对数组进…...

【树莓派 5B】Python 版本切换

【树莓派 5B】Python 版本切换 前言整体思路具体步骤常见问题Python 无法建立与 Python3 的软连接 前言 本文基于树莓派5B 32-bit 树莓派OS&#xff0c;以 Python-3.11.2 降级到 3.9.2 为例&#xff0c;总结了在树莓派上切换 Python 版本的步骤&#xff0c;帮助大家轻松完成 P…...

windows C++-有效使用PPL(五)

如果可能&#xff0c;避免错误共享 当在不同处理器上运行的多个并发任务写入位于同一高速缓存行上的变量时&#xff0c;会发生错误共享。 当一个任务写入一个变量时&#xff0c;这两个变量的缓存行将会失效。 每当缓存行失效时&#xff0c;每个处理器必须重新加载缓存行。 因此…...

【排序】——1.冒泡排序法(含优化)

冒泡排序 1.原理 左边大于右边交换一趟排下来最大的交换到右边来(接下来所以文章用升序举例) 从左到右&#xff0c;相邻元素进行比较。 每次比较一轮&#xff0c;就会找到序列中最大的一个&#xff08;最小的一个——降序&#xff09;。这个数就会从序列的最右边冒出来。 以…...

在MySQL中创建数据库和表

在MySQL中&#xff0c;创建数据库和表是数据库管理的基础操作。下面我将详细解释如何先创建一个数据库&#xff0c;然后在该数据库中创建一个或多个表。 ### 1. 创建数据库 首先&#xff0c;你需要登录到MySQL服务器。然后&#xff0c;使用CREATE DATABASE语句来创建一个新的…...

Hadoop 安装教程——单节点模式和分布式模式配置

文章目录 一、预备知识1.1 Hadoop 发行版本1.2 部署方式 二、预备条件2.1 环境准备2.2 创建新用户(可选)2.3 配置 SSH 无密码登录2.4 下载 Hadoop2.5 编辑 hadoop-env.sh 脚本2.6 编辑 dfs 和 yarn 脚本 三、单节点模式部署3.1 官方使用案例3.2 查看运行结果 四、伪分布模式部署…...

Win10/11 系统出问题?安全模式一键进入,故障排查必备技巧

使用 Win10 或 Win11 电脑时&#xff0c;难免会遇到系统蓝屏、开机卡死、软件冲突导致无法正常进入桌面&#xff0c;或是中病毒、驱动异常的情况&#xff0c;此时常规操作根本无法解决问题&#xff0c;而安全模式就是系统故障排查和修复的 “救命神器”。它能让电脑以最基础的配…...

告别复杂配置!Fish Speech 1.5 开箱即用,3步搭建你的专属语音合成工具

告别复杂配置&#xff01;Fish Speech 1.5 开箱即用&#xff0c;3步搭建你的专属语音合成工具 1. 为什么选择Fish Speech 1.5&#xff1f; 语音合成技术正在改变我们与数字世界的交互方式&#xff0c;但传统TTS系统往往需要复杂的音素标注和专业配置。Fish Speech 1.5通过创新…...

5分钟搞定!B站视频下载神器BilibiliDown完整使用指南

5分钟搞定&#xff01;B站视频下载神器BilibiliDown完整使用指南 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader &#x1f633; 项目地址: https://gitcode.com/gh_mirrors/bi…...

Android Topeka数据模型设计终极指南:Quiz、Category与Player类深度解析

Android Topeka数据模型设计终极指南&#xff1a;Quiz、Category与Player类深度解析 【免费下载链接】topeka A fun to play quiz that showcases material design on Android 项目地址: https://gitcode.com/gh_mirrors/to/topeka Topeka是一款基于Material Design的An…...

oicq 高级技巧:如何构建企业级 QQ 机器人应用架构

oicq 高级技巧&#xff1a;如何构建企业级 QQ 机器人应用架构 【免费下载链接】oicq Tencent QQ Bot Library for Node.js 项目地址: https://gitcode.com/gh_mirrors/oi/oicq oicq 是一个基于 Node.js 的 QQ 协议库&#xff0c;专为构建稳定、高效的 QQ 机器人应用而设…...

Adobe Illustrator 2026 v30(AI2026)安装教程及下载

我用夸克网盘给你分享了「矢量绘图Adob...已激活版」&#xff0c;点击链接或复制整段内容&#xff0c;打开「夸克APP」即可获取。筷莱蜴蝮鰉鰗鰘夺郝/~b12b3Y1kyM~:/链接&#xff1a;https://pan.quark.cn/s/38566e6aec26Adobe矢量绘图软件Adobe Illustrator 2026(AI2026)是一款…...

别再手动调字号了!用algorithm宏包搞定LaTeX伪代码排版(附完整代码)

LaTeX伪代码排版进阶指南&#xff1a;从字体调整到专业级算法展示 在学术论文写作中&#xff0c;尤其是计算机科学和人工智能领域&#xff0c;算法的清晰呈现几乎与算法本身同等重要。许多研究者花费大量时间优化算法性能&#xff0c;却常常忽视算法描述的可读性——这就像精心…...

LPDDR6的DVFS模式详解:如何用VDD2C/D和四种新策略优化手机续航与性能?

LPDDR6的DVFS模式详解&#xff1a;如何用VDD2C/D和四种新策略优化手机续航与性能&#xff1f; 当你在玩手机游戏时突然电量告急&#xff0c;或是观看高清视频时设备发烫降频&#xff0c;这背后其实是一场关于内存功耗的精密博弈。LPDDR6作为下一代移动设备内存标准&#xff0c…...

openpilot终极指南:快速实现300+车型自动驾驶辅助的完整方案

openpilot终极指南&#xff1a;快速实现300车型自动驾驶辅助的完整方案 【免费下载链接】openpilot openpilot is an operating system for robotics. Currently, it upgrades the driver assistance system on 300 supported cars. 项目地址: https://gitcode.com/GitHub_Tr…...

告别虚拟机!在Win11的WSL2里用Rust给STM32点灯,保姆级避坑指南(含CMSIS-DAP配置)

在Win11的WSL2中用Rust点亮STM32&#xff1a;全流程避坑指南 当传统虚拟机因性能损耗和资源占用成为开发瓶颈时&#xff0c;WSL2的出现为嵌入式开发者提供了全新选择。本文将带你体验如何在Windows 11环境下&#xff0c;通过WSL2构建完整的Rust嵌入式开发工具链&#xff0c;并解…...