当前位置: 首页 > news >正文

第十八章 番外 余弦相似度

余弦相似度(Cosine Similarity)是一种衡量两个非零向量之间角度的度量方式,用于评估它们之间的相似性。它的值范围从 -1 到 1,其中 1 表示完全相同的方向(即向量完全相同),0 表示正交(没有相似性),而 -1 表示完全相反的方向。

假设我们有两个向量 A 和 B,它们的余弦相似度可以通过以下公式计算:

$ \text{similarity} = \cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{|\mathbf{A}| |\mathbf{B}|} $

其中:

  • $ \mathbf{A} \cdot \mathbf{B} $ 是向量 A 和 B 的点积(内积)。
  • $ |\mathbf{A}| 和 和 |\mathbf{B}| $ 分别是向量 A 和 B 的模长(长度)。

具体来说:

  • 点积(内积):$ \mathbf{A} \cdot \mathbf{B} = \sum_{i=1}^{n} A_i B_i $,其中 (n) 是向量的维度。
  • 模长(长度):$ |\mathbf{A}| = \sqrt{\sum_{i=1}{n} A_i^2} $。

公式可以进一步展开为:

$ \text{similarity} = \frac{\sum\limits_{i=1}^{n} A_i B_i}{\sqrt{\sum\limits_{i=1}^{n} A_i^2} \sqrt{\sum\limits_{i=1}^{n} B_i^2}} $

示例计算

假设我们有两个向量 A 和 B,其中:

  • $ \mathbf{A} = [1, 2, 3] $
  • $ \mathbf{B} = [4, 5, 6] $

我们可以按照上述公式计算它们之间的余弦相似度:

  1. 点积
    $ \mathbf{A} \cdot \mathbf{B} = 14 + 25 + 3*6 = 4 + 10 + 18 = 32 $
  2. 模长
    • $ |\mathbf{A}| = \sqrt{12 + 22 + 3^2} = \sqrt{1 + 4 + 9} = \sqrt{14} $
    • $ |\mathbf{B}| = \sqrt{42 + 52 + 6^2} = \sqrt{16 + 25 + 36} = \sqrt{77} $
  3. 余弦相似度
    $ \text{similarity} = \frac{32}{\sqrt{14} \sqrt{77}} = \frac{32}{\sqrt{1078}} $

我们可以使用 Python 来计算这个值:

import numpy as np# 定义两个向量
vector_a = np.array([1, 2, 3])
vector_b = np.array([4, 5, 6])# 计算点积
dot_product = np.dot(vector_a, vector_b)# 计算模长
norm_a = np.linalg.norm(vector_a)
norm_b = np.linalg.norm(vector_b)# 计算余弦相似度
cosine_similarity = dot_product / (norm_a * norm_b)print("Cosine similarity:", cosine_similarity)

相关文章:

第十八章 番外 余弦相似度

余弦相似度(Cosine Similarity)是一种衡量两个非零向量之间角度的度量方式,用于评估它们之间的相似性。它的值范围从 -1 到 1,其中 1 表示完全相同的方向(即向量完全相同),0 表示正交&#xff0…...

HPA和helm

HPA pod的数量进行扩缩容 针对控制器创建的pod deployment: replica: 静态:edit yaml:apply -f HPA:基于cpu的利用率来实现pod数量的自动伸缩。 Horizontal pod autoscaling yaml文件————主流——————…...

基于人工智能的智能语音助手

语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块,系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入,并将其转换为系统可以理解的命令或指令。在本项目中,我们将结合语音识别、自然语言处理…...

java实际开发——数据库存储金额时用什么数据类型?(MySQL、PostgreSQL)

目录 java开发时金额用的数据类型——BigDecimal MySQL存储金额数据时用的数据类型是——decimal PostgreSQL存储金额数据时用的数据类型是——decimal 或 money java开发时金额用的数据类型——BigDecimal https://blog.csdn.net/Jilit_jilit/article/details/142180903?…...

Java 设计模式-状态模式

目录 一. 概述 二. 主要角色 三. 代码示例 四. 优缺点 优点: 缺点: 五. 常见应用场景 一. 概述 状态模式是一种行为设计模式,它允许一个对象在其内部状态改变时改变它的行为。对象看起来好像修改了它的类。状态模式把所有的与一个特定…...

2024.9.13 Python与图像处理新国大EE5731课程大作业,索贝尔算子计算边缘,高斯核模糊边缘,Haar小波计算边缘

1.编写一个图像二维卷积程序。它应该能够处理任何灰度输入图像,并使用以下内核进行操作: %matplotlib inline import numpy as np import matplotlib.pyplot as plt from scipy import linalg import random as rm import math import cv2# import and …...

动态IP池的IP都是纯净IP吗?

在当今互联网时代,动态IP池作为一种网络资源管理策略,被广泛应用于数据抓取、市场调研、广告验证等多种场景中。动态IP池能够提供大量可轮换的IP地址,以帮助用户避免因频繁访问同一网站而被封禁IP的情况。然而,一个关键的问题是&a…...

【MySQL】查询表中重复数据、模糊查询列信息、快速copy表数据(1)

一、SQL查询重复的数据: 1、SQL格式: Select * From 数据表 Where 重复记录字段 in ( select 重复记录字段 From 数据表 Group By 重复记录字段 Having Count(重复记录字段)>1) 2、举例: 在这个patient_member_info表中,我们…...

计算机操作系统之并行性与并发性笔记

目录 在计算机操作系统中,并行性与并发性是两个既相似又有区别的重要概念 并行性: 并发性: 可以通过多任务处理和资源共享来具体说明 并发性的例子 并行性的例子 总结 在计算机操作系统中,并行性与并发性是两个既相似又有区别…...

顶级高效的ChatGPT论文润色提示词和使用技巧

在学术研究中,精确和高效地对文本进行润色和修改是一个必不可少的重要环节。随着学术论文篇幅的增长和内容的复杂度上升,找到一种能够有效整理和优化修改内容的方法变得尤为关键。本文将探讨如何利用ChatGPT作为工具,通过具体的指令和策略,来优化文本的修改过程,提高学术写…...

WebAPI (一)DOM树、DOM对象,操作元素样式(style className,classList)。表单元素属性。自定义属性。间歇函数定时器

文章目录 Web API基本认知一、 变量声明二、 DOM1. DOM 树2. DOM对象3. 获取DOM对象(1)、选择匹配的第一个元素(2)、选择匹配多个元素 三、 操作元素1. 操作元素内容2. 操作元素属性(1)、常用属性(href之类的)(2)、通过style属性操作CSS(3)、通过类名(cl…...

若依框架开发

若依环境 介绍 ‌若依是一款快速开发平台(低代码),用于快速构建企业级后台管理系统,它提供了许多常用的功能模块和组件,包括权限管理、代码生成、工作流、消息中心等 官方地址: https://www.ruoyi.vip/ ‌基于Spring Boot和Spring Cloud‌…...

局域网windows下使用Git

windows下如何使用局域网进行git部署 准备工作第一步 ,ip设置设置远程电脑的ip设置,如果不会设置请点击[这里](https://blog.csdn.net/Black_Friend/article/details/142170705?spm1001.2014.3001.5501)设置本地电脑的ip:验证 第二步&#x…...

Redis访问工具

使用Redis存储缓存数据,如何通过Java去访问Redis? 防止后面看晕,先来张图。 1. Redis的客户端库 Redis的客户端库是Redis官方提供的,用于让Java等编程语言与Redis服务器进行通信的工具包。常见的Redis客户端库有多个&#xff0c…...

vue3+ant design vue动态实现级联菜单~

1、这里使用的是ant design vue 的TreeSelect 树选择来实现的。 <a-form-item name"staffDept" label"责任部门" labelAlign"left"><a-tree-selectv-model:value"formState.staffDept"show-search//允许在下拉框中添加搜索框…...

软件可维护性因素例题

答案&#xff1a;C 知识点&#xff1a; 系统可维护性因素决定 可理解性 可测试性 可修改性 选项C可移植性错误...

git的一些操作

参考视频: git分支详解&#xff08;约10分钟掌握分支80%操作&#xff09;&#xff0c;git-branch&#xff0c;git分支管理&#xff0c;git分支操作&#xff0c;git分支基础和操作&#xff0c;2023年git基础使用教程 不同的分支相当于不同的平行世界 合并分支 两个分支是我们项…...

opencv实战项目二十三:基于BEBLID描述符的特征点匹配实现表盘校正

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、特征点匹配介绍二、特征点检测三、特征描述符计算四&#xff0c;描述符的匹配筛选五&#xff0c;根据匹配结果映射图片六&#xff0c;整体代码&#xff1a;…...

数据库是全表扫描是怎么扫描法?

全表扫描是数据库服务器用来搜寻表的每一条记录的过程&#xff0c;直到所有符合给定条件的记录返回为止。‌ 在执行全表扫描时&#xff0c;数据库会逐行扫描表中的所有记录&#xff0c;以找到符合查询条件的记录。这种扫描方式适用于没有为查询条件中的字段建立索引的情况。全…...

认准这10款人力资源系统,90%的企业都在用!

本文将为大家推荐十款主流的人力资源系统&#xff0c;为企业选型提供参考&#xff01; 想象一下&#xff0c;企业在不断发展壮大的过程中&#xff0c;员工数量逐渐增多&#xff0c;人事管理变得越来越复杂。如果没有一个高效的人力资源系统&#xff0c;就如同在大海中航行却没有…...

野火指南者开发板+LVGL实战:3.2寸电阻屏GUI移植全流程(附避坑指南)

野火指南者开发板LVGL实战&#xff1a;3.2寸电阻屏GUI移植全流程&#xff08;附避坑指南&#xff09; 在嵌入式开发中&#xff0c;为设备添加美观的用户界面往往能大幅提升产品体验。对于STM32开发者而言&#xff0c;野火指南者开发板搭配3.2寸电阻触摸屏是一个性价比极高的硬件…...

告别手动配置!CCSv9.3一键导入MSP430F5529LP驱动库的两种高效方法

CCSv9.3高效配置指南&#xff1a;MSP430F5529LP驱动库的自动化管理方案 每次新建CCS工程都要重复添加库文件路径&#xff1f;这种低效操作早该被淘汰了。作为TI官方推荐的开发环境&#xff0c;Code Composer Studio其实隐藏着许多能大幅提升工作效率的高级功能。本文将彻底改变…...

如何做好网站SEO关键词优化_如何快速提升网站在 Google 上的排名

<h3 id"seo_google">如何做好网站SEO关键词优化_如何快速提升网站在 Google 上的排名</h3> <p>在当今数字化时代&#xff0c;网站的成功很大程度上取决于其在搜索引擎上的表现。搜索引擎优化&#xff08;SEO&#xff09;是一个复杂而又极其重要的领…...

Navicat Mac版试用期解除解决方案:3种方法实现永久试用

Navicat Mac版试用期解除解决方案&#xff1a;3种方法实现永久试用 【免费下载链接】navicat_reset_mac navicat16 mac版无限重置试用期脚本 项目地址: https://gitcode.com/gh_mirrors/na/navicat_reset_mac 问题引入&#xff1a;Navicat试用期限制的技术破解需求 对于…...

Python 3.14 JIT编译器实测对比:启动耗时降63%、内存开销压减41%,你的服务还在用默认配置?

第一章&#xff1a;Python 3.14 JIT编译器实测性能跃迁全景Python 3.14 引入的实验性 JIT 编译器&#xff08;基于 Pyjion 与 CPython 运行时深度集成&#xff09;首次在标准发行版中启用可配置的即时编译通道&#xff0c;显著改变了传统解释执行的性能边界。我们通过统一基准套…...

从FreeRTOS到VxWorks:手把手教你根据项目预算和芯片选型,挑对那个最合适的RTOS

从FreeRTOS到VxWorks&#xff1a;嵌入式项目RTOS选型实战指南 当你拿到一份新的产品需求文档&#xff0c;面对琳琅满目的实时操作系统&#xff08;RTOS&#xff09;选项时&#xff0c;是否曾陷入选择困难&#xff1f;FreeRTOS免费但功能有限&#xff0c;VxWorks强大却价格不菲&…...

2026年家用投影仪品牌怎么选?聚焦画质准度的工程师推荐

2026年高端家用投影仪哪个品牌最好&#xff1f;基于评分卡模型的权威品牌排行备选标题&#xff1a;2026年高端家用投影仪哪个品牌最好&#xff1f;四大品牌量化评分终极排行从色彩科学到口碑&#xff1a;2026年高端家用投影仪品牌深度评测榜预算2万到5万&#xff1a;2026年明基…...

SAP BP客户主数据批量修改实战:从Excel导入到ALV报表展示全流程

SAP BP客户主数据批量修改实战&#xff1a;Excel导入与ALV报表全流程解析 当企业客户规模达到数万甚至数十万级别时&#xff0c;手动逐个修改客户主数据无异于一场噩梦。我曾参与过某跨国零售集团的SAP系统升级项目&#xff0c;仅客户地址变更就需要处理超过8万条记录。传统方式…...

如何快速使用wiliwili:Switch本地视频播放完全指南

如何快速使用wiliwili&#xff1a;Switch本地视频播放完全指南 【免费下载链接】wiliwili 专为手柄控制设计的第三方跨平台B站客户端&#xff0c;目前可以运行在PC全平台、PSVita、PS4 和 Nintendo Switch上 项目地址: https://gitcode.com/GitHub_Trending/wi/wiliwili …...

PyKitti终极指南:三步搞定KITTI自动驾驶数据处理

PyKitti终极指南&#xff1a;三步搞定KITTI自动驾驶数据处理 【免费下载链接】pykitti Python tools for working with KITTI data. 项目地址: https://gitcode.com/gh_mirrors/py/pykitti 你是否正在为复杂的KITTI数据集处理而头疼&#xff1f;面对激光雷达点云、立体相…...