当前位置: 首页 > article >正文

如何计算两个向量的余弦相似度

参考笔记:

https://zhuanlan.zhihu.com/p/677639498

日常学习之:如何计算两个向量或者矩阵的余弦相似度-CSDN博客

1.余弦相似度定理

百度的解释:余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间

我们都学过向量的内积公式:

a\bullet b=|a|\times|b|\times cos(\Theta) 

a:向量,可以是高维向量,例如 a = [a_1,a_2,...,a_n]

b:向量,可以是高维向量,例如 b = [b_1,b_2,...,b_n]

|a|:\sqrt{\sum_{i=1}^{n}a_i^2}

|b|:\sqrt{\sum_{i=1}^{n}b_i^2}

\Theta:a 向量与 b 向量的夹角

因此,两向量的余弦值为:

简单理解

所谓的相似是什么,假设有两个向量 AB

  • 如果 A 可以通过乘以常数来代表 B ,那么我们可以说 A,B 是高度相似,如果忽略长度,相关系数就是 1
  • 如果向量 A 只能代表向量 B 上的一部分,也就是 AB 上有投影,那么 A,B 有一定的相关性
  • 两个向量正交,意味着它们在空间中是垂直的,AB 上没有投影,两个向量没有相关性
  • 两个向量方向完全相反,即它们在空间中的方向是完全不同的,相关系数是 -1

而余弦值恰恰可以表示这种关系

  • 当两个向量在同一方向上时,夹角为 0 度,余弦值为 1 ,称为相似向量(Similar vectors).如下图中的(a)
  • (b)中 y 向量可以代表 x 向量上的一部分,所以 x,y 有一定的相似性
  • 当两个向量正交时,夹角为 90 度,余弦值为 0 ,表示两个向量在空间中垂直,没有相关性,称为正交向量(Orthogonal Vectors). 如下图中的(c)
  • 当两个向量在完全相反的方向上时,夹角为 180 度,余弦值为 -1,表示负相关,称为相反向量(Opposite Vectors). 如下图中的(d)

2.误区解读

余弦相似度衡量的是两个向量在方向上的相似性,而非长度或绝对位置。其取值范围是【-1,1】,其具体含义需要结合方向性应用场景来理解

可能存在的一个误区是,很多人认为相似性必须是非负的,但实际上余弦相似度的负值同样包含信息。例如,在推荐系统中,负相似度可能表示用户喜好的对立面(后面会举例子),这对推荐也是有意义的

2.1 通常情况下的理解

  • 当 \color{red}cos(\Theta) 介于 [0, 1]:表示两向量方向相近(夹角在 0 到 90 之间)。例如:

    • 0.8:高度相似(方向接近一致)

    • 0.3:低度相似(方向部分相关)

  • 当 \color{red}cos(\Theta) 介于 [-1, 0]:表示两向量方向相反(夹角在 90 到 180 之间)。例如:

    • -0.5:方向相反,但有一定程度的反向相关性

    • -0.9:高度反向相关(接近完全相反方向)

负值是否表示“相似”?
取决于具体场景!在多数应用中(如文本相似性、推荐系统),相似性更关注方向是否一致(正值),负值可能表示“对立”或“不相关”

2.2 实际应用中的处理

(1)推荐系统

  • 负值的意义:用户 A 喜欢的商品与用户 B 讨厌的商品可能有负相似度,可用于避免推荐

  • 示例

    • 用户 A 的向量:[1, 0.5, 0.3](喜欢科技产品)

    • 用户 B 的向量:[-1, -0.5, -0.3](讨厌科技产品)

    • 计算可得两个向量的余弦相似度为 -1,表示完全相反的兴趣

(2)文本/图像相似性

  • 仅关注正值:通常认为余弦相似度 > 0.5 表示显著相似,接近 1 为高度相似。

  • 负值的处理:可能直接忽略(或视为无关),例如在搜索引擎中,负相似度的文档不会被返回

(3)情感分析

  • 正向评论向量:[1, 0.8, 0.6]

  • 负向评论向量:[-1, -0.7, -0.5]

  • 计算可得两个向量的余弦相似度为 -0.95,表明两者情感强烈对立,但“相似”在反映情感极性的强度上

3.总结

4.代码实现

import numpy as npdef cosine_similarity(a, b):return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))# 示例1:方向相同
A = np.array([1, 2, 3])
B = np.array([2, 4, 6])
print(cosine_similarity(A, B))  # 输出:1.0# 示例2:方向相反
C = np.array([-1, -2, -3])
print(cosine_similarity(A, C))  # 输出:-1.0# 示例3:部分相似
D = np.array([1, 1, 1])
E = np.array([2, 2, 3])
print(cosine_similarity(D, E))  # 输出约0.98# 示例4:弱相关性
F = np.array([1, 0, 0])
G = np.array([0, 0.5, 0.5])
print(cosine_similarity(F, G))  # 输出:0.0

补充:还有很多两个向量的相似度度量方法,比如欧式距离,曼哈顿距离,切比雪夫距离等,等后面有时间再补充了

相关文章:

如何计算两个向量的余弦相似度

参考笔记: https://zhuanlan.zhihu.com/p/677639498 日常学习之:如何计算两个向量或者矩阵的余弦相似度-CSDN博客 1.余弦相似度定理 百度的解释:余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估…...

OkHttp:工作原理 拦截器链深度解析

目录 一、OKHttp 的基本使用 1. 添加依赖 2. 发起 HTTP 请求 3. 拦截器(Interceptor) 4. 高级配置 二、OKHttp 核心原理 1. 责任链模式(Interceptor Chain) 2. 连接池(ConnectionPool) 3. 请求调度…...

python: DDD+ORM using oracle 21c

sql script: create table GEOVINDU.School --創建表 ( SchoolId char(5) NOT NULL, -- SchoolName nvarchar2(500) NOT NULL, SchoolTelNo varchar(8) NULL, PRIMARY KEY (SchoolId) --#主鍵 );create table GEOVINDU.Teacher ( TeacherId char(5) NOT NULL , TeacherFirstNa…...

基于 LeNet 网络的 MNIST 数据集图像分类

1.LeNet的原始实验数据集MNIST 名称:MNIST手写数字数据集 数据类型:灰度图 (一通道) 图像大小:28*28 类别数:10类(数字0-9) 1.通过torchvision.datasets.MNIST下载并保存到本地…...

Day4 C语言与画面显示练习

文章目录 1. harib01a例程2. harib01b例程3. harib01e例程4. harib01f例程5. harib01h例程 1. harib01a例程 上一章主要是将画面搞成黑屏,如果期望做点什么图案,只需要再VRAM里写点什么就好了,使用nask汇编语言实现一个函数write_mem8&#…...

一周热点-OpenAI 推出了 GPT-4.5,这可能是其最后一个非推理模型

在人工智能领域,大型语言模型一直是研究的热点。OpenAI 的 GPT 系列模型在自然语言处理方面取得了显著成就。GPT-4.5 是 OpenAI 在这一领域的又一力作,它在多个方面进行了升级和优化。 1 新模型的出现 GPT-4.5 目前作为研究预览版发布。与 OpenAI 最近的 o1 和 o3 模型不同,…...

《UE5_C++多人TPS完整教程》学习笔记34 ——《P35 网络角色(Network Role)》

本文为B站系列教学视频 《UE5_C多人TPS完整教程》 —— 《P35 网络角色(Network Role)》 的学习笔记,该系列教学视频为计算机工程师、程序员、游戏开发者、作家(Engineer, Programmer, Game Developer, Author) Stephe…...

手写简易Tomcat核心实现:深入理解Servlet容器原理

目录 一、Tomcat概况 1. tomcat全局图 2.项目结构概览 二、实现步骤详解 2.1 基础工具包(com.qcby.util) 2.1.1 ResponseUtil:HTTP响应生成工具 2.1.2 SearchClassUtil:类扫描工具 2.1.3 WebServlet:自定义注解…...

ES Filter Query 区别

在 Elasticsearch(ES) 中,Filter 和 Query 是两种常用的数据检索方式,它们的主要区别在于 是否计算相关性分数(Score) 以及 是否使用缓存。以下是它们的详细区别和应用场景: 1. 核心区别 特性F…...

Java多线程与高并发专题——关于CopyOnWrite 容器特点

引入 在 CopyOnWriteArrayList 出现之前,我们已经有了 ArrayList 和 LinkedList 作为 List 的数组和链表的实现,而且也有了线程安全的 Vector 和Collections.synchronizedList() 可以使用。 首先我们来看看Vector是如何实现线程安全的 ,还是…...

春节面对大流量并发,系统该如何设计

基于6个层次进行系统设计以解决大流量瞬时并发问题:CDN层,Nginx层,服务层,缓存层,数据库层,全链路压测监控。以下为具体设计参考 1. CDN(内容分发网络) 作用:静态资源&…...

mac本地安装运行Redis-单机

记录一下我以前用的连接服务器的跨平台SSH客户端。 因为还要准备毕设...... 服务器又过期了,只能把redis安装下载到本地了。 目录 1.github下载Redis 2.安装homebrew 3.更新GCC 4.自行安装Redis 5.通过 Homebrew 安装 Redis 安装地址:https://git…...

77.ObservableCollection使用介绍1 C#例子 WPF例子

可观察集合ObservableCollection using System; using System.Collections.ObjectModel;class Program {static void Main(){// 创建一个可观察集合ObservableCollection<string> list new ObservableCollection<string>();// 注册集合变化事件list.CollectionCh…...

【ThreeJS Basics 09】Debug

文章目录 简介从 dat.GUI 到 lil-gui例子安装 lil-gui 并实例化不同类型的调整改变位置针对非属性的调整复选框颜色 功能/按钮调整几何形状文件夹调整 GUI宽度标题关闭文件夹隐藏按键切换 结论 简介 每一个创意项目的一个基本方面是能够轻松调整。开发人员和参与项目的其他参与…...

在 k8s中查看最大 CPU 和内存的极限

在 Kubernetes&#xff08;k8s&#xff09;中&#xff0c;你可以从不同层面查看最大 CPU 和内存的极限&#xff0c;下面为你详细介绍从节点和集群层面查看的方法。 查看节点的 CPU 和内存极限 节点的 CPU 和内存极限是指单个节点上可分配的最大资源量&#xff0c;可通过以下几…...

【笔记】STM32L4系列使用RT-Thread Studio电源管理组件(PM框架)实现低功耗

硬件平台&#xff1a;STM32L431RCT6 RT-Thread版本&#xff1a;4.1.0 目录 一.新建工程 二.配置工程 ​编辑 三.移植pm驱动 四.配置cubeMX 五.修改驱动文件&#xff0c;干掉报错 六.增加用户低功耗逻辑 1.设置唤醒方式 2.设置睡眠时以及唤醒后动作 ​编辑 3.增加测试命…...

类和对象:

1. 类的定义&#xff1a; 1. 类定义格式&#xff1a; 对于我们的类的话&#xff0c;我们是把类看成一个整体&#xff0c;我们的函数里面没有找到我们的成员变量&#xff0c;我们就在我们的类里面找。 我们看我们的第二点&#xff1a; 我们的类里面&#xff0c;我们通常会对…...

【十三】Golang 通道

&#x1f4a2;欢迎来到张胤尘的开源技术站 &#x1f4a5;开源如江河&#xff0c;汇聚众志成。代码似星辰&#xff0c;照亮行征程。开源精神长&#xff0c;传承永不忘。携手共前行&#xff0c;未来更辉煌&#x1f4a5; 文章目录 通道通道声明初始化缓冲机制无缓冲通道代码示例 带…...

对接RAGflow的API接口报错

对接RAGflow的API接口&#xff0c;报错&#xff1a; {"status":"success","message":"API连接正常","response":{"code":109,"data":false,"message":"Authentication error: API key …...

软考中级_【软件设计师】知识点之【面向对象】

简介&#xff1a; 软件设计师考试中&#xff0c;面向对象模块为核心考点&#xff0c;涵盖类与对象、继承、封装、多态等基础概念&#xff0c;重点考查UML建模&#xff08;类图/时序图/用例图&#xff09;、设计模式&#xff08;如工厂、单例模式&#xff09;及SOLID设计原则。要…...

Excel中COUNTIF用法解析

COUNTIF 是 Excel 中一个非常实用的函数&#xff0c;用于统计满足某个条件的单元格数量。它的基本语法如下&#xff1a; 基本语法 COUNTIF(范围, 条件) 范围&#xff1a;需要统计的单元格区域&#xff0c;例如 A1:A10 或整列 A:A。 条件&#xff1a;用于判断哪些单元格需要被…...

分布式锁—7.Curator的分布式锁一

大纲 1.Curator的可重入锁的源码 2.Curator的非可重入锁的源码 3.Curator的可重入读写锁的源码 4.Curator的MultiLock源码 5.Curator的Semaphore源码 1.Curator的可重入锁的源码 (1)InterProcessMutex获取分布式锁 (2)InterProcessMutex的初始化 (3)InterProcessMutex.…...

《UE5_C++多人TPS完整教程》学习笔记35 ——《P36 武器类(Weapon Class)》

本文为B站系列教学视频 《UE5_C多人TPS完整教程》 —— 《P36 武器类&#xff08;Weapon Class&#xff09;》 的学习笔记&#xff0c;该系列教学视频为计算机工程师、程序员、游戏开发者、作家&#xff08;Engineer, Programmer, Game Developer, Author&#xff09; Stephen …...

【SpringMVC】SpringMVC的启动过程与原理分析:从源码到实战

SpringMVC的启动过程与原理分析&#xff1a;从源码到实战 SpringMVC是Spring框架中用于构建Web应用的核心模块&#xff0c;它基于MVC&#xff08;Model-View-Controller&#xff09;设计模式&#xff0c;提供了灵活且强大的Web开发能力。本文将深入分析SpringMVC的启动过程、核…...

出现“ping不通但可以远程连接”的情况可能由以下原因导致

出现“ping不通但可以远程连接”的情况可能由以下原因导致&#xff1a; 1.防火墙或安全软件限制 • 原因&#xff1a;防火墙或安全软件可能阻止了ICMP数据包&#xff08;ping使用的协议&#xff09;&#xff0c;但允许了远程连接所需的协议&#xff08;如TCP&#xff09;。 …...

MySQL表空间碎片原理和解决方案

一、表空间与碎片的基本概念 表空间&#xff1a;MySQL中存储表数据和索引的物理文件&#xff08;如InnoDB的.ibd文件&#xff09;。分为系统表空间和独立表空间。碎片&#xff1a;数据在物理存储上不连续&#xff0c;分为行级碎片&#xff08;单行跨多页&#xff09;和页级碎片…...

[密码学实战]Java实现国密TLSv1.3单向认证

一、代码运行结果 1.1 运行环境 1.2 运行结果 1.3 项目架构 二、TLS 协议基础与国密背景 2.1 TLS 协议的核心作用 TLS(Transport Layer Security) 是保障网络通信安全的加密协议,位于 TCP/IP 协议栈的应用层和传输层之间,提供: • 数据机密性:通过对称加密算法(如 AE…...

最小栈 _ _

一&#xff1a;题目 二&#xff1a;思路 解释&#xff1a;一个栈名为st&#xff0c;其用来正常的出入栈&#xff0c;一个栈名为minst&#xff0c;其的栈顶元素一定是最小的元素 入栈&#xff1a;第一个元素&#xff0c;两个栈一起入&#xff0c;后面再入栈&#xff0c;只有入栈…...

HTTPS加密原理详解

目录 HTTPS是什么 加密是什么 HTTPS的工作流程 1.使用对称加密 2.引入非对称加密 3.引入证书机制 客户端验证证书真伪的过程 签名的加密流程 整体工作流程 总结 HTTPS是什么 HTTPS协议也是一个应用程协议&#xff0c;是在HTTP的基础上加入了一个加密层&#xff0c;由…...

黑金风格人像静物户外旅拍Lr调色教程,手机滤镜PS+Lightroom预设下载!

调色教程 针对人像、静物以及户外旅拍照片&#xff0c;运用 Lightroom 软件进行风格化调色工作。旨在通过软件中的多种工具&#xff0c;如基本参数调整、HSL&#xff08;色相、饱和度、明亮度&#xff09;调整、曲线工具等改变照片原本的色彩、明度、对比度等属性&#xff0c;将…...