当前位置：首页 > news >正文

【Elasticsearch】文本分类聚合Categorize Text Aggregation

news 2026/5/17 23:30:01

响应参数讲解:

key （字符串）由 categorization_analyzer 提取的标记组成，这些标记是类别中所有输入字段值的共同部分。 doc_count （整数）与类别匹配的文档数量。 max_matching_length （整数）从较短消息中生成的类别也可能与从较长消息中生成的类别匹配。 max_matching_length 表示应被视为属于该类别的消息的最大长度。在搜索属于该类别的消息时，任何长度超过 max_matching_length 的消息都应被排除。使用此字段可以防止对短消息类别的搜索匹配到更长的消息。

regex （字符串）一个正则表达式，它将匹配类别中包含的所有输入字段值。在类别中包含的值的顺序不同时， regex 可能不会包含 key 中的每个术语。然而，在简单情况下， regex 将是按顺序连接的术语组成的正则表达式，允许在它们之间有任意部分。不建议将 regex 作为搜索原始被分类文档的主要机制，因为正则表达式搜索非常慢。相反，应该使用 key 字段中的术语来搜索匹配的文档，因为术语搜索可以利用倒排索引，因此速度要快得多。然而，在某些情况下，使用 regex 字段来测试未被索引的少量消息是否属于该类别，或者确认 key 中的术语在所有匹配文档中按正确顺序出现，可能是有用的。

总结:

重新分析大型结果集将需要大量的时间和内存。应将此聚合与异步搜索（Async search）结合使用。此外，你还可以考虑将该聚合作为采样器（sampler）或多样化采样器（diversified sampler）聚合的子聚合使用。这通常可以提高速度和内存使用效率。

POST log-messages/_search

{

"aggs": {

"categories": {

"categorize_text": {

"field": "message"

}

输出

{

"aggregations": {

"categories": {

"buckets": [

{

"doc_count": 3,

"key": "Node shutting down",

"regex": ".*?Node.+?shutting.+?down.*?",

"max_matching_length": 49

{

"doc_count": 1,

"key": "Node starting up",

"regex": ".*?Node.+?starting.+?up.*?",

"max_matching_length": 47

}

]

}

使用 categorization_analyzer 的示例配置：

{

"aggs": {

"categories": {

"categorize_text": {

"field": "message",

"categorization_analyzer": {

"char_filter": ["html_strip"],

"tokenizer": "ml_standard",

"filter": ["lowercase", "stop"]

}

使用 categorization_filters 的示例配置：

{

"aggs": {

"categories": {

"categorize_text": {

"field": "message",

"categorization_filters": [

"\\w+\\_\\d{3}", // 过滤掉类似 "foo_123" 的模式

"ERROR:.*" // 过滤掉以 "ERROR:" 开头的日志

]

}

【Elasticsearch】文本分类聚合Categorize Text Aggregation

相关文章：

【Elasticsearch】文本分类聚合Categorize Text Aggregation

算法随笔_40: 爬楼梯

【Linux探索学习】第二十七弹——信号（一）：Linux 信号基础详解

【数学】矩阵、向量（内含矩阵乘法C++）

设置git区分大小写

排序算法与查找算法

Github 2025-01-31Java开源项目日报 Top10

Java进阶笔记（中级）

2025游戏行业的趋势预测

4-ET框架demo的运行

kamailio源文件modules.lst的内容解释

亚远景-从SPICE到ASPICE：汽车软件开发的标准化演进

vue3 + ElementPlus 封装列表表格组件包含分页

挑战项目 --- 微服务编程测评系统（在线OJ系统）

Med-R2：基于循证医学的检索推理框架：提升大语言模型医疗问答能力的新方法

Oh3.2项目升级到Oh5.0(鸿蒙Next)具体踩坑记录(一)

【自动化办公】批量图片PDF自定义指定多个区域识别重命名，批量识别铁路货物运单区域内容改名，基于WPF和飞桨ocr深度学习模型的解决方案

Spring Boot篇

Unity3D学习笔记（二）

个人毕业设计--基于HarmonyOS的旅行助手APP的设计与实现（挖坑）

别再乱装CUDA了！用Anaconda为你的3060 Ti一键搞定PyTorch GPU环境（含CUDA 11.3实战）

从零构建可定制对话系统：模块化架构与RAG实战指南

Redis高效开发工具集：从SCAN迭代到数据迁移的Python实践

嵌入式测试学习第 12天：串口基础概念：UART、波特率、数据位、校验位

免费开源鼠标连点器终极指南：5分钟掌握高效自动化技巧

AI智能体分类学：从原理到实践，构建高效Agent系统的设计指南

Redis分布式锁进阶第二十二篇拆解

ESP-SR深度解析：嵌入式语音识别系统的架构设计与性能优化实战指南

模块六-数据合并与连接——32. merge 合并（上）

雷达目标检测与成像算法实时实现【附代码】