当前位置: 首页 > news >正文

PyTorch 中的距离函数深度解析:掌握向量间的距离和相似度计算

目录

Pytorch中Distance functions详解

pairwise_distance

用途

用法

参数

数学理论公式

示例代码

cosine_similarity

用途

用法

参数

数学理论

示例代码 

输出结果

pdist

用途

用法

参数

数学理论

示例代码

总结 


Pytorch中Distance functions详解

pairwise_distance

torch.nn.functional.pairwise_distance 是 PyTorch 中的一个函数,用于计算两组向量之间的成对距离。这个函数广泛应用于机器学习和深度学习中,尤其是在处理距离相关的任务,如聚类、相似度计算等。

用途

  • 计算两组向量间的成对距离,常用于度量向量间的相似性或差异性。
  • 用于机器学习中的距离度量,如k-最近邻 (k-NN)、聚类等。

用法

torch.nn.functional.pairwise_distance(x1, x2, p=2.0, eps=1e-6, keepdim=False)

 

  • x1, x2: 输入的两组向量,必须有相同的维度。
  • p: 距离计算的幂指数,默认为2,即欧几里得距离。
  • eps: 一个小的数值,用于保证数值稳定性。
  • keepdim: 是否保持输出的维度。

参数

  • x1: 第一组向量的张量。
  • x2: 第二组向量的张量。
  • p: 距离度量的幂指数,默认为2(欧几里得距离)。
  • eps: 避免除零错误的小数,默认为1e-6。
  • keepdim: 在输出中保持原始输入的维度结构。

数学理论公式

对于向量 x1_{i}​ 和 x2_{i}pairwise_distance 计算的是 p 范数下的距离:

d(x1_{i},x2_{i})=(\sum_{j}|x1_{ij}-x2_{ij}|^{p}+eps)^{\frac{1}{p}}

 其中,x1_{ij} 和 x2_{ij} 分别是x1_{i}x1_{i}x2_{i} ,的第j个元素。

示例代码

import torch
import torch.nn.functional as F# 定义两个向量组
x1 = torch.tensor([[1, 2, 3], [4, 5, 6]], dtype=torch.float32)
x2 = torch.tensor([[1, 3, 5], [2, 4, 6]], dtype=torch.float32)# 计算成对距离
dist = F.pairwise_distance(x1, x2, p=2)# 输出结果  tensor([2.2361, 2.4495]) 这里,输出的是每一对向量之间的欧几里得距离。print(dist)

cosine_similarity

torch.nn.functional.cosine_similarity 是 PyTorch 中的一个函数,用于计算两个张量之间的余弦相似度。这个函数在机器学习和深度学习领域中非常有用,尤其是在处理文本、图像或任何类型的特征向量时,用于度量它们之间的相似性。

用途

  • 计算两个向量或向量组之间的余弦相似度。
  • 广泛应用于自然语言处理、计算机视觉、推荐系统等领域。

用法

torch.nn.functional.cosine_similarity(x1, x2, dim=1, eps=1e-8)
  • x1, x2: 输入的两个张量,必须能够广播到相同的形状。
  • dim: 计算相似度的维度。
  • eps: 避免除零错误的小数值。

参数

  • x1 (Tensor): 第一个输入张量。
  • x2 (Tensor): 第二个输入张量。
  • dim (int, 可选): 计算相似度的维度,默认为1。
  • eps (float, 可选): 用于避免除零的小数值,默认为1e-8。

数学理论

余弦相似度的计算公式为:

similarity = \frac{x1}{max(||x1||_{2},\varepsilon )\times max(||x2||_{2},\varepsilon )}

 

  • x1⋅x2 表示两个张量的点积。
  • ||x1||_{2} 和 ||x2||_{2}​ 分别是 x1 和 x2 的2范数。
  • ε 是一个小的数值,用来保证除数不为零。

示例代码 

import torch
import torch.nn.functional as F# 随机生成两个张量
input1 = torch.randn(100, 128)
input2 = torch.randn(100, 128)# 计算余弦相似度
output = F.cosine_similarity(input1, input2)# 打印结果
print(output)

输出结果

此代码将计算 input1input2 每行之间的余弦相似度,并输出一个长度为100的张量,每个元素对应于两个输入张量相应行的余弦相似度值。由于输入是随机生成的,输出也会随机变化。

pdist

torch.nn.functional.pdist 是 PyTorch 中的一个函数,它用于计算输入张量中每对行向量之间的 p 范数距离。此函数在统计分析、机器学习和数据科学中非常有用,尤其是在涉及距离度量和空间关系的场景中。

用途

  • 计算给定张量中每对行向量之间的距离。
  • 应用于聚类分析、多维缩放和其他需要距离度量的算法。

用法

torch.nn.functional.pdist(input, p=2)
  • input: 输入张量,其形状为 N×M,其中 N 是行数,M 是列数(特征数)。
  • p: 用于计算的 p 范数,默认为 2,即欧几里得距离。

参数

  • input (Tensor): 形状为 N×M 的输入张量。
  • p (float): p 范数的值,用于计算向量对之间的距离。可取值为 0 到 ∞ 之间的任何实数。

数学理论

对于输入张量的每一对行向量 x_{i}x_{j}pdist 计算它们之间的 p 范数距离:​d(x_{i},x_{j})=(\sum_{k}|x_{ik}-x_{jk}|^{p})^{\frac{1}{p}} 其中,x_{ik}​ 和 x_{jk} 分别是 x_{i} 和x_{j}的第 k 个元素。

示例代码

import torch
import torch.nn.functional as F# 定义输入张量
input_tensor = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]], dtype=torch.float32)# 计算 p 范数距离
distances = F.pdist(input_tensor, p=2)# 输出结果 tensor([5.1962, 10.3923, 5.1962]) 这里,输出的是输入张量中每一对行向量之间的欧几里得距离。print(distances)

总结 

本文解析了 PyTorch 中三个关键的距离函数:pairwise_distancecosine_similaritypdist。这些函数在深度学习和机器学习中非常重要,用于计算向量之间的距离和相似度,从而支持各种算法如聚类、k-最近邻、特征相似度度量等。每个函数都有其特定的应用场景和数学原理。pairwise_distance 计算两组向量间的成对欧几里得距离,cosine_similarity 计算两个张量间的余弦相似度,而 pdist 则计算一个张量内各行向量间的 p 范数距离。通过这些函数,我们能有效地分析和处理数据,特别是在高维空间中。

相关文章:

PyTorch 中的距离函数深度解析:掌握向量间的距离和相似度计算

目录 Pytorch中Distance functions详解 pairwise_distance 用途 用法 参数 数学理论公式 示例代码 cosine_similarity 用途 用法 参数 数学理论 示例代码 输出结果 pdist 用途 用法 参数 数学理论 示例代码 总结 Pytorch中Distance functions详解 pair…...

【Vue技巧】vue3中不支持.sync语法糖的解决方案

海鲸AI-ChatGPT4.0国内站点,支持设计稿转代码:https://www.atalk-ai.com 在 Vue 3 中,.sync 修饰符已经被移除。在 Vue 2 中,.sync 修饰符是一个语法糖,用于简化子组件和父组件之间的双向数据绑定。在 Vue 3 中&#x…...

设计模式⑦ :简单化

文章目录 一、前言二、Facade 模式1. 介绍2. 应用3. 总结 三、Mediator 模式1. 介绍2. 应用3. 总结 一、前言 有时候不想动脑子,就懒得看源码又不像浪费时间所以会看看书,但是又记不住,所以决定开始写"抄书"系列。本系列大部分内容…...

Java:选择哪个Java IDE好?

Java:选择哪个Java IDE好? 在开始前我有一些资料,是我根据网友给的问题精心整理了一份「java的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!&…...

unity打包apk后网络请求提示unknown error处理

近期同事的一个比较老的版本的unity项目在电脑上运行都正常,但是打包成android后安装到手机上就提示unknown error 让我帮他排查一下问题。由于是涉密项目不能发图就简单介绍下处理过程吧! 一、故障原因 请求的地址ssl证书过期了。 二、处理过程 更改请…...

力扣 | 11. 盛最多水的容器

双指针解法–对撞指针 暴力解法public int maxArea1(int[] height) {int n height.length;int ans 0;for (int i 0; i < n; i) {for (int j i 1; j < n; j) {int area Math.min(height[i], height[j]) * (j - i);ans Math.max(ans, area);}}return ans;}双指针解法…...

史上最全EasyExcel

一、EasyExcel介绍 1、数据导入&#xff1a;减轻录入工作量 2、数据导出&#xff1a;统计信息归档 3、数据传输&#xff1a;异构系统之间数据传输 二、EasyExcel特点 Java领域解析、生成Excel比较有名的框架有Apache poi、jxl等。但他们都存在一个严重的问题就是非常的耗内…...

MySQL---事务的四大特性详解(高频面试题)

在MySQL中&#xff0c;事务具有以下四个基本特性&#xff1a; 原子性&#xff08;Atomicity&#xff09;、一致性&#xff08;Consistency&#xff09;、隔离性&#xff08;Isolation&#xff09;和持久性&#xff08;Durability&#xff09;。这些特性通常被称为ACID特性。 一…...

为 OpenCV 编写文档(二)

常用命令 这里通过简短的示例描述了最常用的 doxygen 命令。有关可用命令的完整列表和详细说明&#xff0c;请访问命令参考。 基本命令 brief - 带有简要实体描述的段落 param - 函数参数的描述。 多个相邻语句合并到一个列表中。如果在实际函数签名中找不到具有此名称的参数…...

HUAWEI华为MateStation S台式机电脑12代PUC-H7621N,H5621N原装出厂Windows11.22H2系统

链接&#xff1a;https://pan.baidu.com/s/1QtjLyGTwMZgYiBO5bUVPYg?pwd8mx0 提取码&#xff1a;8mx0 原厂WIN11系统自带所有驱动、出厂主题壁纸、系统属性专属联机支持标志、Office办公软件、华为电脑管家等预装程序 文件格式&#xff1a;esd/wim/swm 安装方式&#xf…...

机器学习:holdout法(Python)

import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncoder, StandardScaler # 类别标签编码&#xff0c;标准化处理 from sklearn.decomposition import PCA # 主成分分析 import matplotlib.pyplot as plt from sklearn.model_selection impor…...

【GaussDB数据库】序

参考链接1&#xff1a;国产数据库华为高斯数据库&#xff08;GaussDB&#xff09;功能与特点总结 参考链接2&#xff1a;GaussDB(DWS)介绍 GaussDB简介 官方网站&#xff1a;云数据库GaussDB GaussDB是华为自主创新研发的分布式关系型数据库。该产品支持分布式事务&#xff0c;…...

代码随想录算法训练营第三十八天|理论基础、509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯

题目&#xff1a;理论基础 文章链接&#xff1a;代码随想录 视频链接&#xff1a;动态规划理论基础 动态规划五部曲&#xff1a; 确定dp数组&#xff08;dp table&#xff09;以及下标的含义确定递推公式dp数组如何初始化确定遍历顺序举例推导dp数组 题目&#xff1a;509. 斐…...

大数据开发之Hadoop(优化新特征)

第 1 章&#xff1a;HDFS-故障排除 注意&#xff1a;采用三台服务器即可&#xff0c;恢复到Yarn开始的服务器快照。 1.1 集群安全模块 1、安全模式&#xff1a;文件系统只接收读数据请求&#xff0c;而不接收删除、修改等变更请求 2、进入安全模式场景 1&#xff09;NameNod…...

在使用go语言开发的时候,程序启动后如何获取程序pid

在Go语言中&#xff0c;标准库并没有直接提供获取进程ID&#xff08;PID&#xff09;的函数。通常&#xff0c;你可以使用os包和syscall包来调用底层的操作系统函数来获取PID。 以下是一个获取程序PID的示例代码&#xff1a; package mainimport ("fmt""os&qu…...

HFSS笔记/信号完整性分析(二)——软件仿真设置大全

文章目录 1、多核运算设置1.1 如何设置1.2 如何查看自己电脑的core呢&#xff1f;1.3 查看求解的频点 2、求解模式设置Driven Terminal vs Driven modal 3、Design settings4、自适应网格划分5、更改字体设置 仅做笔记整理与分享。 1、多核运算设置 多核运算只对扫频才有效果&…...

mysql主从报错:Last_IO_Error: Error connecting to source解决方法

目录 报错 处理方法 1.从库停止同步 2.主库修改my.cnf 生效配置default-authentication-pluginmysql_native_password 3.重启服务重新创建复制用户 4.重新同步 5.测试主从 报错 Last_IO_Error: Error connecting to source repl_user192.168.213.15:3306. This was atte…...

AOI与AVI:在视觉检测中的不同点和相似点

AOI&#xff08;关注区域&#xff09;和AVI&#xff08;视觉感兴趣区域&#xff09;是视觉检测中常用的两个概念&#xff0c;主要用于识别和分析图像或视频中的特定区域。虽然这两个概念都涉及到注视行为和注意力分配&#xff0c;但它们在定义和实际应用等方面有一些差异。 AOI…...

Python爬虫 - 网易云音乐下载

爬取网易云音乐实战&#xff0c;仅供学习&#xff0c;不可商用&#xff0c;出现问题&#xff0c;概不负责&#xff01; 分为爬取网易云歌单和排行榜单两部分。 因为网页中&#xff0c;只能显示出歌单的前20首歌曲&#xff0c;所以仅支持下载前20首歌曲&#xff08;非VIP音乐&…...

yarn包管理器在添加、更新、删除模块时,在项目中是如何体现的

技术很久不用&#xff0c;就变得生疏起来。对npm深受其害&#xff0c;决定对yarn再整理一遍。 yarn包管理器 介绍安装yarn帮助信息最常用命令 介绍 yarn官网&#xff1a;https://yarn.bootcss.com&#xff0c;学任何技术的最新知识&#xff0c;都可以通过其对应的网站了解。无…...

RestClient

什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端&#xff0c;它允许HTTP与Elasticsearch 集群通信&#xff0c;而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点 轻量级&#xff…...

Chapter03-Authentication vulnerabilities

文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...

业务系统对接大模型的基础方案:架构设计与关键步骤

业务系统对接大模型&#xff1a;架构设计与关键步骤 在当今数字化转型的浪潮中&#xff0c;大语言模型&#xff08;LLM&#xff09;已成为企业提升业务效率和创新能力的关键技术之一。将大模型集成到业务系统中&#xff0c;不仅可以优化用户体验&#xff0c;还能为业务决策提供…...

ubuntu搭建nfs服务centos挂载访问

在Ubuntu上设置NFS服务器 在Ubuntu上&#xff0c;你可以使用apt包管理器来安装NFS服务器。打开终端并运行&#xff1a; sudo apt update sudo apt install nfs-kernel-server创建共享目录 创建一个目录用于共享&#xff0c;例如/shared&#xff1a; sudo mkdir /shared sud…...

golang循环变量捕获问题​​

在 Go 语言中&#xff0c;当在循环中启动协程&#xff08;goroutine&#xff09;时&#xff0c;如果在协程闭包中直接引用循环变量&#xff0c;可能会遇到一个常见的陷阱 - ​​循环变量捕获问题​​。让我详细解释一下&#xff1a; 问题背景 看这个代码片段&#xff1a; fo…...

在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中,手势开发全攻略:

在 HarmonyOS 应用开发中&#xff0c;手势交互是连接用户与设备的核心纽带。ArkTS 框架提供了丰富的手势处理能力&#xff0c;既支持点击、长按、拖拽等基础单一手势的精细控制&#xff0c;也能通过多种绑定策略解决父子组件的手势竞争问题。本文将结合官方开发文档&#xff0c…...

3.3.1_1 检错编码(奇偶校验码)

从这节课开始&#xff0c;我们会探讨数据链路层的差错控制功能&#xff0c;差错控制功能的主要目标是要发现并且解决一个帧内部的位错误&#xff0c;我们需要使用特殊的编码技术去发现帧内部的位错误&#xff0c;当我们发现位错误之后&#xff0c;通常来说有两种解决方案。第一…...

【Go】3、Go语言进阶与依赖管理

前言 本系列文章参考自稀土掘金上的 【字节内部课】公开课&#xff0c;做自我学习总结整理。 Go语言并发编程 Go语言原生支持并发编程&#xff0c;它的核心机制是 Goroutine 协程、Channel 通道&#xff0c;并基于CSP&#xff08;Communicating Sequential Processes&#xff0…...

Spring AI 入门:Java 开发者的生成式 AI 实践之路

一、Spring AI 简介 在人工智能技术快速迭代的今天&#xff0c;Spring AI 作为 Spring 生态系统的新生力量&#xff0c;正在成为 Java 开发者拥抱生成式 AI 的最佳选择。该框架通过模块化设计实现了与主流 AI 服务&#xff08;如 OpenAI、Anthropic&#xff09;的无缝对接&…...

Web 架构之 CDN 加速原理与落地实践

文章目录 一、思维导图二、正文内容&#xff08;一&#xff09;CDN 基础概念1. 定义2. 组成部分 &#xff08;二&#xff09;CDN 加速原理1. 请求路由2. 内容缓存3. 内容更新 &#xff08;三&#xff09;CDN 落地实践1. 选择 CDN 服务商2. 配置 CDN3. 集成到 Web 架构 &#xf…...