当前位置: 首页 > news >正文

Elasticsearch 相似度评分模型介绍

前言

Elasticsearch 是基于 Lucene 的世界范围内最流行的全文检索框架,其文档相似度算法包含 TF/IDF 和 BM25,从 ES 5.0开始 BM25 算法已经成为 ES 默认的相似度评分模块。

TF-IDF 与 BM25 的区别

TF-IDF 和 BM25 都是计算文本相似性的常用算法。TF-IDF 的计算方法简单,计算复杂度低,但对高频词不敏感,参数难以调节。BM25 是在 TF-IDF 的基础上进行改进的,它考虑了文档的长度和查询词在文档中出现的次数,在大多数情况下都能够产生比 TF-IDF 更准确的相关性评分

TF-IDF 和 BM25 的主要区别在于计算方法的不同。TF-IDF 的计算方法为:

TF-IDF(t,d) = TF(t,d) * IDF(t)

其中:

  • TF(t,d) 表示词 t 在文档 d 中的词频
  • IDF(t) 表示词 t 的逆文档频率

BM25 的计算方法为:

BM25(t,d) = (k1 + 1) * TF(t,d) / (k1 * (1 - b + b * df / docLength) + TF(t,d))

其中:

  • k1 是控制词频对权重的贡献的参数
  • b 是控制逆文档频率对权重的贡献的参数
  • d 是控制文档长度对权重的贡献的参数

TF-IDF 和 BM25 的区别主要体现在以下几个方面:

  • 参数数量:TF-IDF 只需要一个参数,即逆文档频率。BM25 需要三个参数,即 k1、b 和 d,可以根据实际需求进行调节,以提高相关性评分的准确性
  • 计算复杂度:TF-IDF 的计算复杂度为 O(n),其中 n 是文档中的词数。BM25 的计算复杂度与 TF-IDF 相当,即 O(n)。
  • 相关性评分:BM25 在大多数情况下都能够产生比 TF-IDF 更准确的相关性评分。
评分在查询业务场景中的应用

在实际业务中,有关查询场景的评分可以分为如下四类:

不关注评分

这类场景下,纯粹把 ES 当作检索库使用,不关注相似度评分,那么可以使用 constant query 或者使用 bool query 中的 filter 来进行过滤即可,这样可以提高检索性能

默认评分

默认评分,也就是框架默认评分。这类场景下,仅使用最简单的查询方式,比如 查询 name:"tom",并没有人为额外干预评分的机制,仅靠默认的评分算法的得到 rank 列表 ,做为检索结果

业务评分 + 框架评分

此种场景下比较常见,比如查询 name:"tom"^10 name:"cat"^5, 或者更加复杂的结合通过 Function Score Query 来完成更加复杂的业务

仅业务评分

这种场景下,一般在推荐业务中比较常见,其完全忽略框架的评分策略,而采纳业务方或者产品方定义的评分规则,实现起来一般比较复杂,看一个例子:

GET /pi_ent_work/_search
{"query": {"function_score": {"query": {"bool": {"must": [{"query_string": {"boost": 0, # 注意此处禁用框架评分"query": "prov:(33 OR 36)"}}], "must_not": [{"terms": {"id": ["123"]}}], "filter": [{"term": {"count": {"value": "1"}}}]}}, "score_mode": "sum", "boost_mode": "replace", "functions": [{"script_score": {"script": {"lang": "expression", # 完全采用自定义评分并与数据中的某个字段关联"source": " _score*0.8 + doc['custom_score'].value*0.4"}}}, {"weight": 6, "filter": {"query_string": {"query": "prov:(33 OR 36)"}}}, {"weight": 4, "filter": {"query_string": {"query": " product_id:112900 "}}}, {"weight": 2, "filter": {"query_string": {"query": "price:[* TO 3]"}}}]}}, "size": 100, "_source": {"includes": ["id","_score","prov","product_id","custom_score","count"]}
}

上面的例子完全忽略了框架评分,而全部采用自己指定的规则评分,在 ES 中可以结合 Function Score Query来实现

总结

在实际工作中,搜索和推荐业务会比较依赖全文检索框架,很多情况下框架的默认的评分机制并不能很好的满足我们的需求,所以需要结合一些自定义评分策略来完善我们的 rank 效果

相关文章:

Elasticsearch 相似度评分模型介绍

前言 Elasticsearch 是基于 Lucene 的世界范围内最流行的全文检索框架,其文档相似度算法包含 TF/IDF 和 BM25,从 ES 5.0开始 BM25 算法已经成为 ES 默认的相似度评分模块。 TF-IDF 与 BM25 的区别 TF-IDF 和 BM25 都是计算文本相似性的常用算法。TF-ID…...

视频生成的发展史及其原理解析:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

前言 考虑到文生视频开始爆发,比如11月份就是文生视频最火爆的一个月 11月3日,Runway的Gen-2发布里程碑式更新,支持4K超逼真的清晰度作品(runway是Stable Diffusion最早版本的开发商,Stability AI则开发的SD后续版本)11月16日&a…...

SQL Server 2016(基本概念和命令)

1、文件类型。 【1】主数据文件:数据库的启动信息。扩展名为".mdf"。 【2】次要(辅助)数据文件:主数据之外的数据都是次要数据文件。扩展名为".ndf"。 【3】事务日志文件:包含恢复数据库的所有事务…...

Linux C语言 30-套接字操作

Linux C语言 30-套接字操作 本节关键字:C语言 网络通信、套接字操作、TCP、UDP、服务端、客户端 相关C库函数:socket, bind, listen, accept, setsockopt, recv, send, recvfrom, sendto, close 什么是网络通信? 通信是人与人之间通过某种…...

RPC和REST对比

RPC和REST对比 参考学习 RPC 和 REST 之间有什么区别? 当我们对比RPC和REST时,其实是在对比RPC风格的API和REST风格的API,后者通常成为RESTful API。 远程过程调用(RPC)和 REST 是 API 设计中的两种架构风格。API …...

外包干了2年,技术退步明显。。。

前言 简单的说下,我大学的一个同学,毕业后我自己去了自研的公司,他去了外包,快两年了我薪资、技术各个方面都有了很大的提升,他在外包干的这两年人都要废了,技术没一点提升,学不到任何东西&…...

深度学习——第1章 深度学习的概念及神经网络的工作原理

1.1 序言——探索智能机器 千百年来,人类试图了解智能的机制,并将它复制到思维机器上。 人类从不满足于让机械或电子设备帮助做一些简单的任务,例如使用滑轮吊起沉重的岩石,使用计算器做算术。 人类希望计算机能够自动化执行更…...

爬虫爬取百度图片、搜狗图片

通过以下代码可以爬取两大图片网站(百度和搜狗)的图片,对于人工智能、深度学习中图片数据的搜集很有帮助! 一、爬取百度图片 该代码可以爬取任意百度图片中自定义的图片: import requests import re import time imp…...

Android Camera2使用

一 简介 1.1 Camera API: 这是旧版本的相机API,也称为Camera1 API。它提供了较简单的使用方式,适用于旧版Android设备。但它存在一些限制,如性能不佳、操作复杂等 1.2 Camera2 API: 这是新版本的相机API&#xff0…...

IOS/安卓+charles实现抓包(主要解决证书网站无法打开问题)

安装 官网下载 https://www.charlesproxy.com/latest-release/download.do 安装charles文档 流程 上述链接解决下图问题 使用介绍 Charles介绍 上述链接看一至三即可,了解首页各个按钮的作用 charles全面使用教程及常见功能详解(较详细&#xff09…...

七、Lua字符串

文章目录 一、字符串(一)单引号间的一串字符(二)local str "Hello, "(三)[[ 与 ]] 间的一串字符(四)例子 二、字符串长度计算(一)string.len&…...

0基础学java-day13

一、包装类 1. 包装类的分类 1) 针对八种基本数据类型相应的引用类型【对象】—包装类 2) 有了类的特点,就可以调用类中的方法。 3) 如图: 2 包装类和基本数据的转换 3 案例演示 Integer01.java package com.hspedu.wrapper;/*** author 林然* version 1.0*/ p…...

好题记录:

好题记录&#xff1a; 1:2:3&#xff1a;三级目录 1: 下面代码的结果是&#xff1a;&#xff08; &#xff09; 下面代码的结果是&#xff1a;&#xff08; &#xff09;#include <stdio.h> int main() {int arr[] {1,2,3,4,5};short *p (short*)arr;int i …...

web前端之JavaScrip中的闭包

MENU 闭包--笔试-11defineReactive函数&#xff0c;利用闭包封装Object.defineProperty()闭包--节流函数--笔试-10闭包的定义JavaScript闭包的9大经典使用场景 闭包–笔试-11 function fun() { var n 9; // js 中强行给一个未声明的变量赋值&#xff0c;// 程序不会报错// 并…...

Windows下命令行启动与关闭WebLogic的相关服务

WebLogic 的服务器类型 WebLogic提供了三种类型的服务器&#xff1a; 管理服务器节点服务器托管服务器 示例和关系如下图&#xff1a; 对应三类服务器&#xff0c; 就有三种启动和关闭的方式。本篇介绍使用命令行脚本的方式启动和关闭这三种类型的服务器。 关于WebLogic 的…...

LeetCode Hot100 169.多数元素

题目&#xff1a; 给定一个大小为 n 的数组 nums &#xff0c;返回其中的多数元素。多数元素是指在数组中出现次数 大于 ⌊ n/2 ⌋ 的元素。 你可以假设数组是非空的&#xff0c;并且给定的数组总是存在多数元素。 方法一&#xff1a;哈希表 ​ class Solution {public int…...

数据结构:堆的实现思路

我们之前写过堆的实现代码&#xff1a;数据结构&#xff1a;堆的实现-CSDN博客 这篇文章我们了解一下堆到底是如何实现的 1.堆向下调整算法 现在我们给出一个数组&#xff0c;逻辑上看做一颗完全二叉树。我们通过从根节点开始的向下调整算法可以把它调整成一个小堆 向下调…...

结合 DBSCAN 示例代码介绍 DBSCAN

前文为JoyT的科研之旅第一周——科研工具学习及论文阅读收获-CSDN博客 DBSCAN 介绍 DBSCAN&#xff08;Density-Based Spatial Clustering of Applications with Noise&#xff09;是一种基于密度的聚类算法&#xff0c;它能够识别出任意形状的簇&#xff0c;并有效地处理噪声…...

vscode 调试jlink

文章目录 软件使用说明1、启动GDB Server2、下载gdb3、vscode配置4、调试 软件 vscodejlink - (JLinkGDBServer.exe)gcc-arm-none-eabi-10-2020-q4-major (arm-none-eabi-gdb.exe) 使用说明 vscode通过TCP端口调用JLinkGDBServer通过jlink连接和操作设备&#xff0c;vscode不…...

微前端实战:打造高效、灵活的前端应用架构

文章目录 一、微前端简介二、微前端的优势1. 高度模块化2. 独立部署3. 易于扩展4. 技术栈无关5. 独立升级 三、微前端的原理四、微前端案例思路《微前端实战》编辑推荐内容简介作者简介目录前言/序言 随着互联网行业的快速发展&#xff0c;前端应用的规模和复杂度也在不断增加。…...

Go语言中的文件操作:从os到ioutil

Go语言中的文件操作&#xff1a;从os到ioutil 1. 文件操作的基本概念 文件操作是编程中常见的任务&#xff0c;包括创建、读取、写入、删除文件&#xff0c;以及操作目录等。在Go语言中&#xff0c;文件操作主要通过 os、io、ioutil 和 io/fs 等包来实现。 Go语言的文件操作设计…...

别再为YOLOv5标签格式发愁了!手把手教你从COCO128.yaml到txt标签文件的完整配置流程

YOLOv5数据标注全流程实战&#xff1a;从配置文件解析到标签文件生成 刚接触目标检测的新手开发者们&#xff0c;常常在数据准备阶段就陷入迷茫——官方文档过于简略&#xff0c;社区教程又零散不全。本文将彻底解决这个痛点&#xff0c;带你一步步完成YOLOv5数据标注全流程&am…...

Sora全面下线,AI界背后的商业逻辑是什么?

你敢相信吗&#xff1f;那个曾以一己之力震撼全球影视圈、让无数视频创作者彻夜难眠、被视为AI视频生成之王的Sora&#xff0c;被它的亲生父母OpenAI&#xff0c;亲手按下了停止键。一觉醒来&#xff0c;没有降级&#xff0c;没有合并&#xff0c;Sora独立App的API接口直接下线…...

BT33F双基二极管的基本特性

简 介&#xff1a; 本文测试了BT33F双基二极管的特性&#xff0c;发现其发射极对两个基极呈现不同导通电压&#xff08;0.86V和1.6V&#xff09;&#xff0c;B1、B2间电阻约13KΩ。实验表明&#xff0c;只有当B1接地、B2接5V电源时&#xff0c;电路才能产生46Hz的振荡信号&…...

断更 9 天放大招!OpenClaw 3.22 版全维度升级,龙虾这次真的变超强

各位技术圈的小伙伴&#xff0c;学长来给大家同步个重磅消息&#xff01;火遍全网的 OpenClaw 断更 9 天之后&#xff0c;直接甩出王炸 ——2026.3.22-beta.1 预览版正式上线&#xff0c;这次可不是小修小补&#xff0c;而是从插件架构到安全防护、从模型配置到交互体验的底层大…...

导出浏览器网络日志 har 后缀的日志是什么 怎么打开

导出浏览器网络日志 har 后缀的日志是什么 怎么打开 一、实机演示二、har 后缀的日志是什么 .har 后缀的日志文件是一种专门用于记录和分析网页网络活动的文件格式。 &#x1f4c4; HAR 文件是什么&#xff1f; HAR 的全称是 HTTP ARchive。它本质上是一个标准的 JSON 文件&…...

告别发热!用TPS54360改造你的LM317线性电源(效率提升300%)

告别发热&#xff01;用TPS54360改造你的LM317线性电源&#xff08;效率提升300%&#xff09; 在电子设计领域&#xff0c;线性稳压电源因其简单可靠而广受欢迎&#xff0c;但效率低下导致的发热问题始终困扰着工程师们。以LM317为代表的经典线性稳压器&#xff0c;在输入输出电…...

金蝶K3生产任务单状态查询SQL全解析:从计划到结案

1. 金蝶K3生产任务单状态查询SQL入门指南 第一次接触金蝶K3的生产任务单查询时&#xff0c;我也被那些复杂的SQL语句搞得头晕眼花。后来才发现&#xff0c;只要理解了系统设计逻辑&#xff0c;这些查询其实就像查快递单号一样简单。生产任务单在系统中会经历计划、确认、下达、…...

深入解析STM32 SysTick定时器:从原理到时间片轮询实战

1. SysTick定时器的前世今生 第一次接触STM32的开发板时&#xff0c;我就被这个叫做SysTick的神秘定时器吸引了。当时我正为如何实现精确延时发愁&#xff0c;GPIO翻转测试显示软件延时误差高达30%&#xff0c;直到一位资深工程师提醒我&#xff1a;"内核里就藏着个高精度…...

从ThreadLocal到TransmittableThreadLocal:手把手解决线程池上下文传递难题

从ThreadLocal到TransmittableThreadLocal&#xff1a;线程池上下文传递的终极解决方案 在分布式系统和微服务架构盛行的今天&#xff0c;异步编程已成为Java开发者日常工作中不可或缺的一部分。无论是处理高并发请求、优化系统性能&#xff0c;还是实现复杂的业务流程&#xf…...