ElasticSearch数据类型和分词器
一、数据类型
1、Text (文本数据类型)
2、Keyword(关键字数据类型)
3、Alias(别名类型)
4、Arrays (集合类型)
5、Boolean(布尔类型)
6、日期类型
7、Numeric (数值数据类型)
8、IP (数据类型)
9、Range (范围数据类型)
10、Binary (二进制类型)
11、Object (对象数据类型)
12、Dense vector (密集矢量数据类型)
13、Flattened (扁平化数据类型)
14、Geo-point (地理位置数据类型)
15、Join (链接数据类型)
16、Nested (嵌套数据类型)
17、Token count (令牌计数数据类型)
二、索引
1、正排索引和倒排索引的区别
正排索引:是文档(ID)到关键词的映射(从文档找关键词)
倒排索引:是关键词到文档(ID)的映射(从关键词到文档)
三、分词
1、分词:是将文本字符串拆分成独立的词汇和术语的过程。
四、分词器
1、Character Filters(字符过滤器):对原始文本进行预处理,对文本修改或者删除等。比如删除html标签、特定词替换等。
2、Tokenizer (分词器):对字符过滤器处理过的文本切分成一个个词条,形成词条流。切分规则可以是空格、标点符号等。
3、Token Filters(词汇过滤器):对切分后的词条进一步处理,大小写替换、启用停用词(没有意义的词)。词汇过滤器处理文本以适应索引和查询需求非常重要。
五、常见分词器
1、Standard Analyzer(分词依据:空格、标点符号)(特点:小写化处理,过滤符号)
2、Whitespace Analyzer (分词依据:空格)(特点:不进行小写处理、保留所有字符)
3、Keyword Analyzer (分词依据:无)(特点:将这个输入作为一个词条)
4、Simple Analyzer(分词依据:非字母(符号、数字))(特点:小写化处理、过滤符号、支持中文拼音分词)
5、Stop Analyzer (分词依据:空格)(特点:小写化处理,过滤停用词)
6、IK Analyzer(分词依据:词典)(特点:中文分词)
7、Edge Ngram Analyzer(分词依据:n-gram)(特点:按指定步长进行分词)
8、Pattern Analyzer (分词依据:正则匹配字符)(特点:灵活)
9、Custom Analyzer (分词依据:自定义)(特点:灵活)
相关文章:
ElasticSearch数据类型和分词器
一、数据类型 1、Text (文本数据类型) 2、Keyword(关键字数据类型) 3、Alias(别名类型) 4、Arrays (集合类型) 5、Boolean(布尔类型) 6、日期类型 7、Numeric (数…...
【云原生监控】Prometheus之PushGateway
Prometheus之PushGateway 文章目录 Prometheus之PushGateway介绍作用资源列表基础环境一、部署PushGateway1.1、下载软件包1.2、解压软件包1.3、编辑配置systemctl启动文件1.4、创建日志目录1.5、加载并启动1.6、监控端口1.7、访问PushGateway 二、 配置Prometheus抓取PushGate…...
sqlalchemy JSON 字段写入时中文序列化问题
JSON字段定义 from sqlalchemy import Column, JSONclass Table(Base):__tablename__ "table"__table_args__ ({"comment": "表名称"})...extra Column(JSON, comment"其他属性")...局部序列化 def create(extra):table Table()#…...
C++ 类域+类的对象大小
个人主页:Jason_from_China-CSDN博客 所属栏目:C系统性学习_Jason_from_China的博客-CSDN博客 所属栏目:C知识点的补充_Jason_from_China的博客-CSDN博客 概念概述 类定义了一个新的作用域,类的所有成员都在类的作用域中ÿ…...
QT开发:深入详解QtCore模块事件处理,一文学懂QT 事件循环与处理机制
Qt 是一个跨平台的 C 应用程序框架,QtCore 模块提供了核心的非 GUI 功能。事件处理是 Qt 应用程序的重要组成部分。Qt 的事件处理机制包括事件循环和事件处理,它们共同确保应用程序能够响应用户输入、定时器事件和其他事件。 1. 事件循环(Ev…...
小米,B站网络安全岗位笔试题目+答案
《网安面试指南》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484339&idx1&sn356300f169de74e7a778b04bfbbbd0ab&chksmc0e47aeff793f3f9a5f7abcfa57695e8944e52bca2de2c7a3eb1aecb3c1e6b9cb6abe509d51f&scene21#wechat_redirect 《Java代码审…...
微信小程序中巧妙使用 wx:if 和 catchtouchmove 实现弹窗禁止页面滑动功能
大家好,今天我要和大家分享的是在微信小程序开发过程中,如何利用 wx:if 或 wx:elif 来条件性地渲染不同的元素,并结合 catchtouchmove 事件处理函数来解决弹窗弹出时禁止背后页面滑动,而弹窗消失时恢复滑动的功能。 在微信小程序…...
唯徳知识产权管理系统 DownloadFileWordTemplate 文件读取漏洞复现
0x01 产品简介 唯徳知识产权管理系统,由深圳市唯德科创信息有限公司精心打造,旨在为企业及代理机构提供全方位、高效、安全的知识产权管理解决方案。该系统集成了专利、商标、版权等知识产权的全面管理功能,并通过云平台实现远程在线办公,提升工作效率。是一款集知识产权申…...
我在高职教STM32——准备HAL库工程模板(2)
新学期已开始,又要给学生上 STM32 嵌入式课程了。这课上了多年了,一直用的都是标准库来开发,已经驾轻就熟了。人就是这样,有了自己熟悉的舒适圈,就很难做出改变,老师上课也是如此,排斥新课和不熟悉的内容。显然,STM32 的开发,HAL 库已是主流,自己其实也在使用,只不过…...
数字化转型的实战法则:全面剖析《数字化专业知识体系》中的落地策略与最佳实践
开启数字化成功的实践路径 随着全球经济加速迈向数字化,企业不再仅仅依赖传统商业模式,而是通过技术创新提升竞争力与市场地位。然而,数字化转型的成功不仅依赖于战略思维,更需要精准的实战执行。《数字化专业知识体系》…...
远程桌面内网穿透是什么?有什么作用?
远程桌面内网穿透指的是通过特定技术手段,将处于内网中的电脑或服务器,通过外部网络(互联网)进行访问。内网穿透的主要作用是解决在内网环境下,远程设备与外部互联网之间的连接问题,允许用户从外部访问内网…...
【算法专场】分治(上)
目录 前言 什么是分治? 75. 颜色分类 算法分析 算法步骤 算法代码 912. 排序数组 - 力扣(LeetCode) 算法分析 算法步骤 算法代码 215. 数组中的第K个最大元素 - 力扣(LeetCode) 算法分析 算法步骤 编辑…...
腾讯云软件工程师面试问题收集记录-数据库
SQL是什么:结构化查询语言,是一种专门用于管理关系型数据库管理系统的编程语言 MySQL操作命令 数据库操作 登陆数据库:mysql -u 用户面 -p创建数据库:CREATE DATABASE testdb; SQLite操作命令 数据库操作 创建数据库:…...
Sourcetree安装教程及使用
下载链接:源代码树 |适用于 Mac 和 Windows 的免费 Git GUI (sourcetreeapp.com) Sourcetree安装教程及使用_sourcetree 安装使用-CSDN博客...
TryHackMe 第1天 | Introduction to Cyber Security
偶然之间了解到了TryHackMe这个网站,尝试跟着其中的学习路径进行学习,发现还是挺适合入门网络安全这一领域的。但是这个网站包含了很多内容,如果不用一些东西记录下来,那么很容易忘记,所以打算在此记录一下学习过程。 …...
ASP.NET MVC 迅速集成 SignalR
在现代 Web 应用程序中,实时更新数据是一个常见需求。本文将详细介绍如何在 ASP.NET MVC 项目中使用 SignalR 实现定时任务操作数据库并将数据更新到网页。我们将逐步讲解如何配置 SignalR、创建定时任务、操作数据库以及在前端显示实时数据。 目录 项目初始化安装…...
[数据集][目标检测]葡萄成熟度检测数据集VOC+YOLO格式1123张3类别
数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):1123 标注数量(xml文件个数):1123 标注数量(txt文件个数):1123 标注…...
【Python 数据分析学习】Matplotlib 的基础和应用
题目 1 Matplotlib 主要特性2 Matplotlib 基础知识2.1 导入模块2.2 图形构成2.2.1 图形(Figure)2.2.2 轴 (Axes)2.2.3 轴线(axis) 2.5 中文设置2.5.1 借助rcParams修改字体实现设置2.5.2 增加一个fontprope…...
HarmonyOS应用开发者基础认证
目录 一、判断二、单选三、多选 一、判断 1、HarmonyOS提供了基础的应用加固安全能力,包括混淆、加密和代码签名能力。正确 2、可以通过ohpm uninstall 指令下载指定的三方库。错误 3、支持模块化开发是指一个应用通常会包含多种功能,将不同的功能特性…...
gin基本使用
中文文档:https://gin-gonic.com/zh-cn/docs/ 下载和安装gin模块 go get -u github.com/gin-gonic/gin简单接口demo package mainimport "github.com/gin-gonic/gin"func main() {r := gin.Default() // 创建一个默认的路由引擎r.GET("/pin…...
百度网盘直链解析:告别龟速下载的Python利器
百度网盘直链解析:告别龟速下载的Python利器 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 你是否曾面对百度网盘几十KB的下载速度感到无奈?当别人都在…...
1940-2025年各省市区县乡镇各月100m高空平均风速及风向角计算结果
各省市区县乡镇各月100m 高空平均风速及风向角计算结果1940~2025 各省市区县的平均风速_100m、平均风向角度_100m、平均风向16方位分类_100m: 1940~2025年各乡镇各月100m高空平均风速及风向角计算结果.dta 1940~2025年各城市各月100m高空平均风速及风…...
【高清视频】PCIe 5.0 144 Lane 8槽位 PCIe Switch卡实拍讲解
我们之前拍摄了一个基于Broadcom的PCIe 5.0 PEX89144的144 lane的PCIe 5.0的扩展板 - “一张144 lane Gen5 switch卡,如何在桌面上扩出8个x16 PCIe测试环境?”,但是当时没有连接主机进行lspci的演示,今天的视频补上,感…...
WebDataset数据增强库:集成Albumentations与自定义变换的终极指南
WebDataset数据增强库:集成Albumentations与自定义变换的终极指南 【免费下载链接】webdataset A high-performance Python-based I/O system for large (and small) deep learning problems, with strong support for PyTorch. 项目地址: https://gitcode.com/gh…...
程序实现多参数联动判断,单一参数异常不报警,多参数契合才报警,零误报。
一、实际应用场景描述某高校《智能仪器》综合实验项目中,有一套电机运行状态监测系统:- 监测参数:- 电流(A)- 振动(mm/s)- 温度(℃)现场现象:- 电机启动时&am…...
系统盘空间释放之-Gradle 的默认缓存迁移
最近开发过程中磁盘空间频繁报红,解决一下这两个缓存吧。(以我的电脑为例)一、先明确:这个文件夹是什么?C:\Users\lt\.gradle(1.16GB)作用:Gradle 全局缓存目录,存储所有…...
SpringBoot 数据库连接池配置(HikariCP)最佳实践
在 SpringBoot 里,数据库连接池早就不是可选项,从 2.x 版本开始,SpringBoot 已经把 HikariCP 设为默认连接池,它以“极快、轻量、稳定”著称,也是目前线上最主流的选择。本篇文章就来讲讲HikarcCP的配置参数、调优思路…...
wso~.升级到.需要更新的数据表
我为什么会发出这个疑问呢?是因为我研究Web开发中的一个问题时,HTTP请求体在 Filter(过滤器)处被读取了之后,在 Controller(控制层)就读不到值了,使用 RequestBody 的时候。 无论是字…...
水产养殖自动控制系统:远程操控,鱼塘24小时在线守护
在我国水产养殖产业快速发展的今天,“产量高、品质优、成本低、更环保”已成为养殖从业者的核心追求。但传统养殖模式中,人工巡检效率低、水质调控凭经验、投喂施肥不精准等问题,不仅增加了劳动强度,还易导致养殖生物应激、病害频…...
开源 + 国产算力:香橙派AIpro打通ROS与大模型,具身智能不再属于少数实验室
从能帮你拿快递的服务机器人,到能在工厂里灵活装配的机械臂,人们不满足于AI只会聊天——我们想要的是能看、能听、能行动的智能体,也就是具身智能机器人。问题来了:要做出一个具身智能机器人,是不是还得像几年前一样&a…...
