ElasticSearch数据类型和分词器
一、数据类型
1、Text (文本数据类型)
2、Keyword(关键字数据类型)
3、Alias(别名类型)
4、Arrays (集合类型)
5、Boolean(布尔类型)
6、日期类型
7、Numeric (数值数据类型)
8、IP (数据类型)
9、Range (范围数据类型)
10、Binary (二进制类型)
11、Object (对象数据类型)
12、Dense vector (密集矢量数据类型)
13、Flattened (扁平化数据类型)
14、Geo-point (地理位置数据类型)
15、Join (链接数据类型)
16、Nested (嵌套数据类型)
17、Token count (令牌计数数据类型)
二、索引
1、正排索引和倒排索引的区别
正排索引:是文档(ID)到关键词的映射(从文档找关键词)
倒排索引:是关键词到文档(ID)的映射(从关键词到文档)
三、分词
1、分词:是将文本字符串拆分成独立的词汇和术语的过程。
四、分词器
1、Character Filters(字符过滤器):对原始文本进行预处理,对文本修改或者删除等。比如删除html标签、特定词替换等。
2、Tokenizer (分词器):对字符过滤器处理过的文本切分成一个个词条,形成词条流。切分规则可以是空格、标点符号等。
3、Token Filters(词汇过滤器):对切分后的词条进一步处理,大小写替换、启用停用词(没有意义的词)。词汇过滤器处理文本以适应索引和查询需求非常重要。
五、常见分词器
1、Standard Analyzer(分词依据:空格、标点符号)(特点:小写化处理,过滤符号)
2、Whitespace Analyzer (分词依据:空格)(特点:不进行小写处理、保留所有字符)
3、Keyword Analyzer (分词依据:无)(特点:将这个输入作为一个词条)
4、Simple Analyzer(分词依据:非字母(符号、数字))(特点:小写化处理、过滤符号、支持中文拼音分词)
5、Stop Analyzer (分词依据:空格)(特点:小写化处理,过滤停用词)
6、IK Analyzer(分词依据:词典)(特点:中文分词)
7、Edge Ngram Analyzer(分词依据:n-gram)(特点:按指定步长进行分词)
8、Pattern Analyzer (分词依据:正则匹配字符)(特点:灵活)
9、Custom Analyzer (分词依据:自定义)(特点:灵活)
相关文章:
ElasticSearch数据类型和分词器
一、数据类型 1、Text (文本数据类型) 2、Keyword(关键字数据类型) 3、Alias(别名类型) 4、Arrays (集合类型) 5、Boolean(布尔类型) 6、日期类型 7、Numeric (数…...
【云原生监控】Prometheus之PushGateway
Prometheus之PushGateway 文章目录 Prometheus之PushGateway介绍作用资源列表基础环境一、部署PushGateway1.1、下载软件包1.2、解压软件包1.3、编辑配置systemctl启动文件1.4、创建日志目录1.5、加载并启动1.6、监控端口1.7、访问PushGateway 二、 配置Prometheus抓取PushGate…...
sqlalchemy JSON 字段写入时中文序列化问题
JSON字段定义 from sqlalchemy import Column, JSONclass Table(Base):__tablename__ "table"__table_args__ ({"comment": "表名称"})...extra Column(JSON, comment"其他属性")...局部序列化 def create(extra):table Table()#…...
C++ 类域+类的对象大小
个人主页:Jason_from_China-CSDN博客 所属栏目:C系统性学习_Jason_from_China的博客-CSDN博客 所属栏目:C知识点的补充_Jason_from_China的博客-CSDN博客 概念概述 类定义了一个新的作用域,类的所有成员都在类的作用域中ÿ…...
QT开发:深入详解QtCore模块事件处理,一文学懂QT 事件循环与处理机制
Qt 是一个跨平台的 C 应用程序框架,QtCore 模块提供了核心的非 GUI 功能。事件处理是 Qt 应用程序的重要组成部分。Qt 的事件处理机制包括事件循环和事件处理,它们共同确保应用程序能够响应用户输入、定时器事件和其他事件。 1. 事件循环(Ev…...
小米,B站网络安全岗位笔试题目+答案
《网安面试指南》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484339&idx1&sn356300f169de74e7a778b04bfbbbd0ab&chksmc0e47aeff793f3f9a5f7abcfa57695e8944e52bca2de2c7a3eb1aecb3c1e6b9cb6abe509d51f&scene21#wechat_redirect 《Java代码审…...
微信小程序中巧妙使用 wx:if 和 catchtouchmove 实现弹窗禁止页面滑动功能
大家好,今天我要和大家分享的是在微信小程序开发过程中,如何利用 wx:if 或 wx:elif 来条件性地渲染不同的元素,并结合 catchtouchmove 事件处理函数来解决弹窗弹出时禁止背后页面滑动,而弹窗消失时恢复滑动的功能。 在微信小程序…...
唯徳知识产权管理系统 DownloadFileWordTemplate 文件读取漏洞复现
0x01 产品简介 唯徳知识产权管理系统,由深圳市唯德科创信息有限公司精心打造,旨在为企业及代理机构提供全方位、高效、安全的知识产权管理解决方案。该系统集成了专利、商标、版权等知识产权的全面管理功能,并通过云平台实现远程在线办公,提升工作效率。是一款集知识产权申…...
我在高职教STM32——准备HAL库工程模板(2)
新学期已开始,又要给学生上 STM32 嵌入式课程了。这课上了多年了,一直用的都是标准库来开发,已经驾轻就熟了。人就是这样,有了自己熟悉的舒适圈,就很难做出改变,老师上课也是如此,排斥新课和不熟悉的内容。显然,STM32 的开发,HAL 库已是主流,自己其实也在使用,只不过…...
数字化转型的实战法则:全面剖析《数字化专业知识体系》中的落地策略与最佳实践
开启数字化成功的实践路径 随着全球经济加速迈向数字化,企业不再仅仅依赖传统商业模式,而是通过技术创新提升竞争力与市场地位。然而,数字化转型的成功不仅依赖于战略思维,更需要精准的实战执行。《数字化专业知识体系》…...
远程桌面内网穿透是什么?有什么作用?
远程桌面内网穿透指的是通过特定技术手段,将处于内网中的电脑或服务器,通过外部网络(互联网)进行访问。内网穿透的主要作用是解决在内网环境下,远程设备与外部互联网之间的连接问题,允许用户从外部访问内网…...
【算法专场】分治(上)
目录 前言 什么是分治? 75. 颜色分类 算法分析 算法步骤 算法代码 912. 排序数组 - 力扣(LeetCode) 算法分析 算法步骤 算法代码 215. 数组中的第K个最大元素 - 力扣(LeetCode) 算法分析 算法步骤 编辑…...
腾讯云软件工程师面试问题收集记录-数据库
SQL是什么:结构化查询语言,是一种专门用于管理关系型数据库管理系统的编程语言 MySQL操作命令 数据库操作 登陆数据库:mysql -u 用户面 -p创建数据库:CREATE DATABASE testdb; SQLite操作命令 数据库操作 创建数据库:…...
Sourcetree安装教程及使用
下载链接:源代码树 |适用于 Mac 和 Windows 的免费 Git GUI (sourcetreeapp.com) Sourcetree安装教程及使用_sourcetree 安装使用-CSDN博客...
TryHackMe 第1天 | Introduction to Cyber Security
偶然之间了解到了TryHackMe这个网站,尝试跟着其中的学习路径进行学习,发现还是挺适合入门网络安全这一领域的。但是这个网站包含了很多内容,如果不用一些东西记录下来,那么很容易忘记,所以打算在此记录一下学习过程。 …...
ASP.NET MVC 迅速集成 SignalR
在现代 Web 应用程序中,实时更新数据是一个常见需求。本文将详细介绍如何在 ASP.NET MVC 项目中使用 SignalR 实现定时任务操作数据库并将数据更新到网页。我们将逐步讲解如何配置 SignalR、创建定时任务、操作数据库以及在前端显示实时数据。 目录 项目初始化安装…...
[数据集][目标检测]葡萄成熟度检测数据集VOC+YOLO格式1123张3类别
数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):1123 标注数量(xml文件个数):1123 标注数量(txt文件个数):1123 标注…...
【Python 数据分析学习】Matplotlib 的基础和应用
题目 1 Matplotlib 主要特性2 Matplotlib 基础知识2.1 导入模块2.2 图形构成2.2.1 图形(Figure)2.2.2 轴 (Axes)2.2.3 轴线(axis) 2.5 中文设置2.5.1 借助rcParams修改字体实现设置2.5.2 增加一个fontprope…...
HarmonyOS应用开发者基础认证
目录 一、判断二、单选三、多选 一、判断 1、HarmonyOS提供了基础的应用加固安全能力,包括混淆、加密和代码签名能力。正确 2、可以通过ohpm uninstall 指令下载指定的三方库。错误 3、支持模块化开发是指一个应用通常会包含多种功能,将不同的功能特性…...
gin基本使用
中文文档:https://gin-gonic.com/zh-cn/docs/ 下载和安装gin模块 go get -u github.com/gin-gonic/gin简单接口demo package mainimport "github.com/gin-gonic/gin"func main() {r := gin.Default() // 创建一个默认的路由引擎r.GET("/pin…...
WarcraftHelper:经典游戏现代化的创新解决方案 - 玩家实用指南
WarcraftHelper:经典游戏现代化的创新解决方案 - 玩家实用指南 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 当你在4K显示器上启动《魔兽…...
3秒破解百度网盘提取码:告别资源获取困扰的智能解决方案
3秒破解百度网盘提取码:告别资源获取困扰的智能解决方案 【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 你是否曾经面对一个急需的学习资料或软件资源,却因为不知道百度网盘提取码而束手无策࿱…...
[Python] venv、pip、解释器到底什么关系?一篇讲清环境管理
在学习 Python 的过程中,很多开发者都会遇到这样一个“经典困惑”: 为什么我用 pip install 安装了包,但代码里却 import 失败? 为什么有多个 Python? venv 到底在干嘛?它是不是“虚拟 Python”? 如果你也有这些疑问,那么这篇文章就是为你准备的。 本文将从底层逻辑出…...
保姆级教程:在PHPStudy环境下复现CTFHub MySQL注入题(附WAF绕过Payload分析)
从零构建MySQL注入实验环境:PHPStudy靶场搭建与Quine攻击实战 第一次接触SQL注入时,我盯着屏幕上那个看似简单的登录框,完全无法理解黑客是如何通过几个特殊字符就能突破系统防线的。直到亲手搭建环境、逐行调试代码后,才真正明白…...
调试直流电机位置环PID时,我踩过的那些坑和解决思路
直流电机位置环PID调试实战:从振荡到精准控制的进阶指南 调试直流电机的位置环PID控制器就像在钢丝上跳舞——稍有不慎就会陷入振荡、超调或响应迟缓的困境。作为一名经历过无数次深夜调试的工程师,我想分享那些让我抓狂的问题和最终找到的解决方案。这不…...
C++ STL 容器扩容与内存分配机制
C STL容器作为现代C编程的核心组件,其高效的动态内存管理机制一直是开发者关注的焦点。当vector需要容纳更多元素时,它是如何优雅地扩展容量的?unordered_map又是如何平衡哈希冲突与内存消耗的?本文将深入剖析STL容器扩容与内存分…...
Z-Image Turbo本地化部署:数据安全与隐私保护方案
Z-Image Turbo本地化部署:数据安全与隐私保护方案 1. 项目概述与核心价值 Z-Image Turbo是一个基于Gradio和Diffusers构建的高性能AI绘图Web界面,专门为Z-Image-Turbo模型优化设计。在当今数据安全意识日益增强的环境下,本地化部署成为保护…...
程序实现仪器故障时,自动保存当前数据,方便维修时分析故障原因。
一、实际应用场景描述在某高校《智能仪器》实验中,使用一台高精度温度采集仪:- 仪器长期运行(24h 连续采样)- 偶发异常:- 传感器断线- ADC 超限- 通信超时- 一旦故障:- 当前采样数据丢失- 维修人员只能“凭…...
Windows系统安装OpenClaw详解:千问3.5-9B模型联调避坑指南
Windows系统安装OpenClaw详解:千问3.5-9B模型联调避坑指南 1. 为什么选择OpenClaw千问3.5-9B组合 去年我在尝试自动化办公流程时,发现市面上的RPA工具要么功能臃肿,要么需要将敏感数据上传到云端。直到遇到OpenClaw这个开源框架,…...
中央空调组态王6.55版本脚本程序动画仿真系统
中央空调组态王脚本程序动画仿真系统,组态王6.55版本凌晨三点盯着组态王工程画面里的虚拟风机打哈欠时,突然发现温度曲线开始抽风——这大概就是每个做过工业组态的老哥都经历过的魔幻时刻。今天咱们要折腾的是中央空调系统的动画仿真,用组态…...
