当前位置: 首页 > article >正文

用PyTorch的F.cosine_similarity实现文本/向量两两相似度计算:以推荐系统为例

PyTorch向量相似度计算的工程实践从原理到推荐系统实战在推荐系统和自然语言处理领域向量相似度计算是最基础也最频繁的操作之一。想象一下这样的场景你的推荐系统需要实时为百万级用户计算他们可能感兴趣的物品而每个用户和物品都由数百维的嵌入向量表示。这时候如何高效计算用户向量与海量物品向量之间的相似度就成了系统性能的关键瓶颈。1. 余弦相似度的核心原理与PyTorch实现余弦相似度衡量的是两个向量在方向上的差异而不受其大小模长影响。数学上定义为两个向量点积除以它们模的乘积cos(θ) (A·B) / (||A|| * ||B||)PyTorch的F.cosine_similarity函数封装了这一计算但其dim参数的设计常常让初学者困惑。让我们通过一个简单例子理解其工作机制import torch import torch.nn.functional as F # 创建两个2D张量 user_embeddings torch.tensor([[1.0, 2.0], [3.0, 4.0]]) item_embeddings torch.tensor([[5.0, 6.0], [7.0, 8.0]]) # 计算行间相似度默认dim1 row_sim F.cosine_similarity(user_embeddings, item_embeddings) print(f行间相似度: {row_sim}) # 计算列间相似度 col_sim F.cosine_similarity(user_embeddings, item_embeddings, dim0) print(f列间相似度: {col_sim})注意当dim1时函数会比较两个张量对应行的相似度dim0则比较对应列的相似度。这在处理不同形状的输入时尤为关键。2. 批量相似度矩阵计算的高级技巧实际工程中我们往往需要计算两组向量两两之间的相似度矩阵。比如在推荐系统中计算所有用户与所有物品的相似度。直接使用循环计算效率极低这时就需要利用PyTorch的广播机制def batch_cosine_sim(x1, x2): 计算两个批次向量间的相似度矩阵 x1 x1.unsqueeze(1) # 形状变为 [batch1, 1, dim] x2 x2.unsqueeze(0) # 形状变为 [1, batch2, dim] return F.cosine_similarity(x1, x2, dim-1) # 模拟真实数据 users torch.randn(100, 256) # 100个用户每个256维 items torch.randn(1000, 256) # 1000个物品每个256维 # 计算相似度矩阵 (100用户 × 1000物品) sim_matrix batch_cosine_sim(users, items) print(f相似度矩阵形状: {sim_matrix.shape})这种方法的性能优势非常明显。下表对比了不同方法在RTX 3090上的计算耗时方法向量数量维度耗时(ms)循环计算100×10002561250向量化计算100×100025612向量化半精度100×100025663. 推荐系统中的实战优化策略在实际推荐系统开发中直接计算全量相似度矩阵往往不可行。我们需要结合以下策略进行优化分块计算当物品数量极大时如百万级可以将物品分块加载到GPU内存def chunked_cosine_sim(users, items, chunk_size10000): sims [] for i in range(0, len(items), chunk_size): chunk items[i:ichunk_size] sim batch_cosine_sim(users, chunk) sims.append(sim) return torch.cat(sims, dim1)近似最近邻(ANN)对于超大规模向量检索可以使用FAISS等工具# FAISS的GPU实现示例 import faiss # 构建索引 dim users.shape[1] index faiss.IndexFlatIP(dim) index.add(items.cpu().numpy()) # 搜索Top-K相似物品 k 10 D, I index.search(users.cpu().numpy(), k) # D为相似度I为索引混合精度计算利用FP16提升计算速度with torch.cuda.amp.autocast(): sim_matrix batch_cosine_sim(users.half(), items.half())4. 性能调优与常见陷阱即使掌握了向量化计算方法在实际工程中仍可能遇到各种性能问题。以下是几个关键优化点内存布局优化确保输入张量是连续的.contiguous()优先使用行主序C-order布局计算图优化在推理时使用torch.no_grad()避免在循环中重复创建计算图torch.no_grad() def efficient_inference(users, items): return batch_cosine_sim(users, items)常见错误排查维度不匹配错误检查输入张量的最后一维是否相同NaN值问题对零向量做归一化处理数值稳定性添加微小epsilon防止除零def safe_cosine_sim(x1, x2, eps1e-8): x1 x1 / (x1.norm(dim-1, keepdimTrue) eps) x2 x2 / (x2.norm(dim-1, keepdimTrue) eps) return x1 x2.T在真实项目中我曾遇到一个有趣的案例相似度计算突然变慢10倍最终发现是因为某个中间张量意外变成了非连续内存布局。通过添加.contiguous()调用就解决了问题。这种性能陷阱在大型系统中尤其需要注意。

相关文章:

用PyTorch的F.cosine_similarity实现文本/向量两两相似度计算:以推荐系统为例

PyTorch向量相似度计算的工程实践:从原理到推荐系统实战 在推荐系统和自然语言处理领域,向量相似度计算是最基础也最频繁的操作之一。想象一下这样的场景:你的推荐系统需要实时为百万级用户计算他们可能感兴趣的物品,而每个用户和…...

<climits>

简介这个头文件比较特殊,不包含复杂的函数,而是定义了一系列宏常量,用于描述当前编译平台下各种整型数据类型的取值范围(最小值和最大值)UCHAR_MAX //(255U): 无符号字符型的最大值。U 表示无符号常量SCHAR_MIN //-12…...

文档批量加水印这个工具帮我解决了文档版权追踪的问题

在日常工作中,文档的版权保护一直是个头疼的问题。特别是对于需要向外部分发的文件,怎么证明"这份文档是从我这儿出去的",怎么在泄露发生时能够追踪到源头?这篇文章介绍一个能批量给文档添加不可见水印的工具&#xff0…...

告别几十个ECU!手把手拆解车身域控制器(附SPC58NH/S32G方案选型指南)

车身域控制器实战指南:从传统ECU到集中式架构的硬件整合 车身电子系统正经历一场从分散到集中的革命。想象一下,一辆现代汽车内部可能分布着上百个独立工作的电子控制单元(ECU),它们各自为政,通过复杂的线束网络相互连接。这不仅增…...

AO3镜像站:为创意自由搭建的桥梁

AO3镜像站:为创意自由搭建的桥梁 【免费下载链接】AO3-Mirror-Site 项目地址: https://gitcode.com/gh_mirrors/ao/AO3-Mirror-Site 在数字时代的创作海洋中,Archive of Our Own(AO3)如同一个巨大的创意港湾,汇…...

来自学习的第二天

今天是我学习编程的第二天,希望能够学好,能够学得多,以后当个大佬,我相信我一定可以的...

平衡二叉树的奥秘:AVLTree高效实现解析

平衡二叉树(AVLTree)平衡二叉树(AVLTree)是一种自平衡二叉搜索树,由 Adelson-Velsky 和 Landis 于 1962 年提出。它通过维护每个节点的平衡因子(定义为左子树高度减去右子树高度)来确保树的高度…...

别再傻傻分不清!用一杯水和一把尺子,5分钟搞懂ADC的LSB与精度

用一杯水破解ADC的奥秘:分辨率与精度的生活实验 实验室里那些闪烁的示波器和密密麻麻的数据手册总让人望而生畏,但理解模数转换(ADC)的核心概念其实可以像观察一杯水那样简单。今天我们就用厨房里最常见的量杯和直尺,来…...

C++函数模板:OOP中的万能利器

C 面向对象编程中的函数模板在C面向对象编程(OOP)中,类和对象是核心概念。函数模板是一种强大的特性,允许我们编写通用的、可复用的代码,适用于多种数据类型。结合OOP,函数模板可以用于类的方法中&#xff…...

递归算法:合并与反转链表的艺术

合并两个有序链表合并两个有序链表是将两个升序排列的链表合并成一个新的升序链表。使用递归方法时,核心思路是:比较两个链表的头节点值,选择较小的节点作为新链表的头,然后递归地合并剩余部分。如果其中一个链表为空,…...

CREO实战宝典:从阵列到骨架模型,解锁十大经典零件设计全流程(曲柱、风扇叶、齿轮参数化、油缸等)

1. CREO零件设计实战入门:从零到精通的必经之路 刚开始接触CREO时,我总被那些复杂的参数和命令搞得晕头转向。直到后来才发现,掌握几个核心功能就能解决80%的日常设计需求。阵列、参数化设计和骨架模型这三个功能,就像设计界的&qu…...

Untrunc终极指南:三步修复损坏MP4/MOV视频的完整教程

Untrunc终极指南:三步修复损坏MP4/MOV视频的完整教程 【免费下载链接】untrunc Restore a truncated mp4/mov. Improved version of ponchio/untrunc 项目地址: https://gitcode.com/gh_mirrors/un/untrunc 你是否曾经因为意外断电、传输中断或存储错误而丢失…...

解决VisualStudio2026中文打印报错或者乱码

...

鸣潮自动化终极指南:如何用ok-ww实现智能自动战斗与资源收集

鸣潮自动化终极指南:如何用ok-ww实现智能自动战斗与资源收集 【免费下载链接】ok-wuthering-waves 鸣潮 后台自动战斗 自动刷声骸 一键日常 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 鸣潮自动化…...

【AGI军事伦理红区预警】:20年国防科技专家首次公开3大不可逾越的AI作战红线

第一章:AGI与军事应用的伦理边界 2026奇点智能技术大会(https://ml-summit.org) 通用人工智能(AGI)在军事系统中的深度集成正以前所未有的速度推进,从自主侦察分析到动态战术推演,其能力已超越传统自动化范畴。然而&…...

告别拖拽画布:用ABAP Dialog Screen手搓一个订单管理界面(附完整代码)

从零构建ABAP Dialog Screen订单管理系统的实战指南 在SAP生态中,Dialog Screen开发一直是ABAP程序员的核心技能之一。与简单的拖拽式界面设计不同,真正掌握Dialog Screen开发意味着能够深入理解屏幕背后的运行机制,构建出既美观又高效的业务…...

【卷卷观察】Vibe Coding 时代:有些人已经在用 AI 写代码,有些人还在争论 AI 能不能写代码

结论先说:Vibe Coding 这事,已经不是"趋势"了,是既成事实。92% 的美国开发者每天在用,41% 的代码是 AI 生成的。但这篇文章不想重复这些数字——数字你网上随便都能查到。我想聊的是:这事到底意味着什么&…...

VLN 与世界模型的关系

先唠两句:参数就像餐厅点单 把API想象成一家餐厅的“后厨系统”。 ? 路径参数/dishes/{dish_id} -> 好比你要点“宫保鸡丁”这道具体的菜,它是菜单(资源路径)的一部分。查询参数/dishes?spicytrue&typeSichuan -> 好比…...

自建 code-server vs CloudStudio:为什么插件不能用?

# 自建 code-server vs CloudStudio:为什么插件不能用?## 问题背景办公室有一台 Lubuntu 电脑,安装了 code-server,通过内网穿透在家的浏览器可以正常访问和使用。但是有两个问题:- CodeBuddy 插件无法使用- MySQL 插件…...

Claude Code vs Codex:谁才是最强 AI 编程工具?我的真实体验分享

pagehelper整合 引入依赖com.github.pagehelperpagehelper-spring-boot-starter2.1.0compile编写代码 GetMapping("/list/{pageNo}") public PageInfo findAll(PathVariable int pageNo) {// 设置当前页码和每页显示的条数PageHelper.startPage(pageNo, 10);// 查询数…...

避开这些坑,你的Android设备才能顺利通过Google认证:XTS测试环境与版本配置指南

避开这些坑,你的Android设备才能顺利通过Google认证:XTS测试环境与版本配置指南 在Android设备生态中,Google认证是确保设备兼容性和质量的重要门槛。然而,许多团队在送测前常因环境配置和版本管理的疏忽而反复失败。本文将深入剖…...

嵌入式GUI框架怎么选?从LVGL、TouchGFX到AWTK,5分钟帮你理清思路

嵌入式GUI框架选型实战指南:从LVGL到QT的深度解析 在嵌入式系统开发中,图形用户界面(GUI)的设计往往成为项目成败的关键因素之一。面对市场上琳琅满目的GUI框架,开发者常常陷入选择困难——是追求极致性能还是开发效率?是选择开源…...

CLAUDE.md:90%人用错了

CLAUDE.md:90%人用错了 我用这个文件,让AI记住我项目的所有秘密。先讲个故事 上周,团队新来一个实习生。 我让他帮改个功能,3小时没搞定。后来我自己上,10分钟改完了。 差距在哪? 不是我比他强,…...

Canvas水印实战:5分钟搞定前端图片防盗,附完整代码与避坑指南

Canvas水印实战:5分钟实现前端图片版权保护 在数字内容爆炸式增长的今天,图片盗用已成为困扰创作者的核心痛点。最近一位独立摄影师发现,其发布于社交平台的作品被某电商商家直接盗用,导致每月损失近万元订单。这样的案例并非孤例…...

2026年,泉州创业者资源对接会哪个好用?

创业这条道路,就像是在茫茫大海中航行,充满了未知和挑战。对于泉州的创业者们来说,找到靠谱的资源对接会,就如同找到了一座明亮的灯塔,能指引我们少走弯路。最近就有不少朋友问我,2026年泉州创业者资源对接…...

告别龟速下载!Hugging Face预训练模型(BERT/RoBERTa)手动下载与本地加载保姆级教程

突破网络限制:Hugging Face模型高效下载与本地化实战指南 1. 为什么我们需要离线加载Hugging Face模型? 国内开发者在尝试使用Hugging Face的预训练模型时,经常会遇到下载速度极慢甚至完全无法连接的问题。这种情况在高校网络环境或某些特定…...

从光敏电阻到麦克风:用单片机AD/DA和运放搞定传感器信号采集(附电路分析)

从光敏电阻到麦克风:用单片机AD/DA和运放搞定传感器信号采集(附电路分析) 当我们需要将现实世界中的光强、温度或声音信号转化为数字信号进行处理时,传感器信号采集系统就成为了连接物理世界与数字世界的桥梁。本文将带你从零开始…...

Vibe Coding 完全实战手册:2026年 AI 辅助编程工作流从入门到精通

什么是 Vibe Coding? Vibe Coding(氛围编程)是 2025 年由 Andrej Karpathy 提出、2026 年已被 91% 工程团队采用的 AI 辅助编程范式。它的核心思想是:用自然语言描述意图,让 AI 写代码,人负责审查和方向把控…...

Ostrakon-VL像素终端部署:离线环境无网络依赖运行方案

Ostrakon-VL像素终端部署:离线环境无网络依赖运行方案 1. 项目背景与特点 1.1 像素特工终端简介 Ostrakon-VL像素终端是一款专为零售与餐饮场景设计的离线多模态识别系统。它基于Ostrakon-VL-8B模型开发,采用独特的8-bit像素风格界面,将复…...

从STRIDE到EVITA:聊聊车载网络威胁建模中,那个更适合你的安全属性模型

车载网络安全建模:STRIDE与EVITA模型的深度对比与应用指南 当工程师第一次面对车载网络威胁建模时,往往会被各种安全属性模型的选择所困扰。就像一位汽车设计师需要根据车辆用途选择不同的材料——跑车需要轻量化碳纤维,越野车需要高强度钢架…...