当前位置：首页 > article >正文

矩阵补充，最近邻查找

article 2026/2/23 19:18:59

矩阵补充，最近邻查找

矩阵补充是向量召回最简单的一种方法，现在不常用，学习矩阵补充是为了更好的理解后面学到的双塔模型

下图，输入用户ID和物品ID后从Eebedding层拿到对应的向量做内积，内积的结果就是矩阵补充

模型训练

基本思路

数据集

训练

下图公式中

(u，i，y) 是训练集中的一条数据，表示用户u对物品i的真实兴趣分数是y。
<au,bi>是向量a,b的内积，是矩阵补充模型对兴趣分数的预估，反映第u号用户有多喜欢第i号物品
y - <au,bi> 是真实兴趣分数y与预估值的差，我们希望这个差越小越好。我们取该差的平方，差的平方越小，则预估值越接近真实值y
Σ(u，i，y)∈Ω 表示对每条记录的差的平方求和作为优化的目标函数
min A,B 对目标函数求最小化，优化的变量是矩阵A和B。求最小化可以用随机梯度下降等算法每次更新矩阵A和B的一列，这样就可以学出矩阵A和B

为什么这个模型叫矩阵补充？我们拿下图绿色位置的数据训练出模型。有了模型我们可以预估出灰色位置的分数，也就是把矩阵的元素给补全，这就是为什么该模型叫矩阵补充。

把矩阵元素补全后，就可以做推荐，给定一个用户，选出用户对应行中分数较高的物品推荐给该用户。

矩阵补充缺点

缺点1: 仅用用户ID,物品ID embedding，没利用物品，用户属性。

缺点2：负样本的选取方式不对

缺点3：训练模型的方法不好

矩阵补充模型用内积<au,bi>`作为兴趣分数的预估，效果不如余弦相似度，工业界普遍使用余弦相似度
用平方损失函数(回归)，让预估的兴趣分数拟合真实的兴趣分数，不如用交叉熵损失（分类）。工业界通常用交叉熵损失做分类判断一个样本是正样本还是负样本

模型存储

线上做推荐时，要用到矩阵A和B,这两个矩阵可能很大。比如小红书有几亿用户，几亿篇笔记，这两矩阵列数都是好几亿，为了快速读取快速查找，需要特殊的存储方式，如下：

线上服务

在训练好矩阵补齐模型后，并且把embedding向量做存储之后，可以开始做线上服务。将其运用在推荐系统中的召回通道，比如在用户刷小红书时快速找到这个用户感兴趣的几百篇笔记。

近似最近邻查找（Approximate Nearest Neighbor Search）

问题：上述最近邻查找如果枚举所有物品，则时间复杂度正比与物品数量，计算量很大，在线上这是不可接受的。需要对最近邻查找进行优化。

有很多种算法假如最近邻查找，这些算法非常快即使有几亿个物品最多也只需要计算几万次内积，这些算法的结果未必是最优的但不会比最优结果差多少。

快速最近邻查找算法已被集成到很多向量数据库系统中。比较有名的包括：Milvus、Faiss、HnswLib等

如果系统不支持余弦相似度，可以把所有向度做归一化让他们的二范数全等于1，则向量之间的内积就等于余弦相似度

加速最近邻查找的思路

划分区域。每个区域用一个向量表示，这些向量的长度都是1。
建立索引。表示每个区域的向量作为key，把区域中所有点（物品embedding向量）的列表作为value

将用户embedding向量a与索引中的各个key做对比（如果物品数量是几亿，索引中key也只有几万而已，这步计算量不大)

计算用户embedding向量与key向量区域中所有物品的相似度（这一步计算量也不大）。假如我们要向量a找最相似的三个点

总结

矩阵补充是学术界的模型，效果不好。工业界不用矩阵补充模型而是用更先进的双塔模型。

工业界会用一些开源的向量数据库，如Milvus等，其都支持近似最近邻查找。

矩阵补充，最近邻查找

矩阵补充，最近邻查找矩阵补充是向量召回最简单的一种方法，现在不常用，学习矩阵补充是为了更好的理解后面学到的双塔模型下图，输入用户ID和物品ID后从Eebedding层拿到对应的向量做内积，内积的结果就是矩阵补充模型…...

编程日记 2026/2/13 17:41:55

gradio调用多个CSS的HTML页

很多博客介绍的gradio读取html和css比较简单，如果要做很细致的前端页面优化，比如丰富的响应式的cssjs，至少要有html多个css，是暂不能实现的。bootstrap、font-awesome、jquery等方案一当然是直接更换htmlcss为主的部署方式&#…...

编程日记 2026/2/22 19:37:29

NVIDIA NeMo 全面教程：从入门到精通

NVIDIA NeMo 全面教程：从入门到精通文章目录 NVIDIA NeMo 全面教程：从入门到精通目录框架介绍NeMo的核心特点NeMo的架构NeMo与其他框架的比较NeMo的模型集合NeMo的工作流程NeMo 2.0的新特性安装指南系统要求使用Docker容器安装步骤1：安装Do…...

编程日记 2026/2/19 1:47:26

Go 语言封装邮件发送功能

Go 语言封装邮件发送功能 🏆 目标📦 依赖包🌟 项目结构🚀 代码实现🛠️ 主要方法说明🧪 单元测试🌈 使用示例🏆 代码亮点🌟 改进方向🚀 总结在现代 Web 开发…...

编程日记 2026/2/19 23:42:18

加新题了，MySQL 8.0 OCP 认证考试题库更新

MySQL 8.0 OCP 认证考试题库更新 MySQL 8.0 Database Administrator 考试科目：1Z0-908 近期发现，MySQL OCP认证考试题库发生变化，出现了很多新题，对此，CUUG专门收集整理了最新版本的MySQL考试原题，并会给…...

编程日记 2026/2/22 4:36:30

Thales靶机攻略

1.下载导入VBox，并启动靶机靶机地址：https://download.vulnhub.com/thales/Thales.zip 解压后，在VBox中导入虚拟电脑。包含所有网卡的MAC地址。导入完成，设置网卡模式为仅主机网络。开启靶机。 kali网卡更改为桥接模式。点击工…...

编程日记 2026/2/14 5:51:23

尝试使用Tauri2+Django+React项目（2）

前言尝试使用tauri2DjangoReact的项目-CSDN博客https://blog.csdn.net/qq_63401240/article/details/146403103在前面笔者不知道怎么做，搞了半天笔者看到官网，原来可以使用二进制文件，好好好嵌入外部二进制文件 | Taurihttps://v2.taur…...

编程日记 2026/2/15 0:42:51

6.1 模拟专题：LeetCode 1576. 替换所有的问号

1. 题目链接 LeetCode 1576. 替换所有的问号 2. 题目描述给定一个仅包含小写字母和问号 ? 的字符串 s，要求将所有 ? 替换为任意小写字母，使得替换后的字符串中没有相邻的两个字符相同。示例： 输入：s "?zs" →…...

编程日记 2026/2/13 22:51:19

Linux安装go环境

安装一个lazydocker，根据文档需要先安装go环境 https://github.com/jesseduffield/lazydocker 官方文档解析 https://go.dev/doc/install 文档内容如下，一共三步 1.删除先前安装的go，解压下载的go压缩包到/usr/local目录 2.添加环境变量&…...

编程日记 2026/2/15 18:23:28

卡特兰数在数据结构上面的运用

原理 Catalan数是一个数列，其第n项表示n个不同结点可以构成的二叉排序树的数量。Catalan数的第n项公式为：  其中，是组合数，表示从2n个元素中选择n个元素的组合数。 Catalan数的原理可以通过以下方式理解&…...

编程日记 2026/2/13 9:21:34

Unity知识点快速回顾系列

Unity知识点快速回顾系列导航主要想用于快速回顾unity相关知识点，基本只讲解知识点，只有简单的示例，目前还在整理中。一、C#知识点入门、基础、核心、进阶二、Unity 知识点入门、基础、核心、进阶三、Unity 数据持久化四、Unity 知识点快…...

编程日记 2026/2/16 7:55:55

悟空crm v12安装好后出现网络错误问题（已解决）

请求网址: http://wwww.aaaa.com/gateway/adminUser/queryUserNumInfo 请求方法: POST 状态代码: 502 Bad Gateway 远程地址: 101.37.79.226:9807 引荐来源网址政策: strict-origin-when-cross-origin...

编程日记 2026/2/15 11:41:30

便携版：随时随地，高效处理 PDF 文件

PDF-XChange Editor Plus 便携版是一款功能强大且极其实用的 PDF 阅读与编辑工具。它不仅支持快速浏览 PDF 文件，还提供了丰富的编辑功能，让用户可以轻松处理 PDF 文档。经过大神优化处理，这款软件已经变得十分轻便，非常适合需要随…...

编程日记 2026/2/13 16:45:14

【Golang】补充：占位符、转义字符、错误处理

🔥 个人主页：星云爱编程 🔥 所属专栏：Golang 🌷追光的人，终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 1、占位符 1.1通用占位符 %v ：默认格式的值。适…...

编程日记 2026/2/17 8:59:49

9.末尾点删除处理缺陷给出源码： $file_name trim($_FILES[upload_file][name]); $file_name deldot($file_name);//删除文件名末尾的点 $file_ext strrchr($file_name, .); $file_ext strtolower($file_ext); //转换为小写 $file_ext str_ireplace(::$DATA,…...

编程日记 2026/2/13 16:31:34

AI比人脑更强，因为被植入思维模型【23】损失规避思维模型

我觉得这是一个很有趣的思维模型。我们学习一个思维模型，不光是指导自己的思维，其实也可以预测或者思考别人的思维模型，也就是别人会怎么想，怎么做？ 定义三层解释思维模型是一种深入剖析事物本质的思考框架&#x…...

编程日记 2026/2/12 18:23:03

如何用Spring AI构建MCP Client-Server架构

现代 Web 应用正加速与大语言模型（LLMs）深度融合，构建超越传统问答场景的智能解决方案。为突破模型知识边界，增强上下文理解能力，开发者普遍采用多源数据集成策略，将 LLM 与搜索引擎、数据库、文件系统等外部资源互联。然而，异构数据源的协议差异与格式壁垒，往往导致集…...

编程日记 2026/2/15 0:37:04

如何让WordPress不同的页面、栏目显示不同的小工具侧边栏

WooSidebars 是一款用于 WordPress 的插件，主要功能是允许用户根据不同的上下文条件（如特定页面、博客文章、分类目录或搜索结果页面等）来更改侧边栏中显示的小工具。自定义小工具区域：用户可以轻松创建自定义的小工具区域，并将其设置为在多种条件下显示，只需点击几次即…...

编程日记 2026/2/15 17:30:21

智慧座椅的节能效果如何？

嘿呀，你知道不，咱这叁仟智慧座椅的节能效果，那可是像个神秘小宇宙，根据不同的技术和应用场景，会展现出超有趣的变化哦，下面就给你唠唠常见的几种情况哈！ 能源回收大变身：有些叁仟智…...

编程日记 2026/2/14 0:52:47

Matlab:二维绘图篇——不同坐标系下的绘图命令

目录 1.极坐标系下绘图：polar命令实例——极坐标图形实例——直角坐标与极坐标系图形 2.半对数坐标系下绘图：semilogx和semilogy 实例——半对数坐标系图形 3.双对数坐标系下绘图：loglog 实例——双对数坐标系绘图 4.双y轴坐标&…...

编程日记 2026/2/13 13:40:27

HTTP 协议中请求与响应的详细解析

前言：HTTP（Hypertext Transfer Protocol，超文本传输协议）是用于在互联网上传输超文本的协议 --由一个请求和响应组成，一个完整的 HTTP 请求由请求行（Request Line）、请求头（Headers&…...

编程日记 2026/2/15 17:03:54

对三维物体模型的阈值操作

对三维物体模型的阈值操作 1. 使用point_coord_x、point_coord_y、point_coord_z阈值分割麻辣兔头2. point_normal_x、point_normal_y、point_normal_z有什么区别？3. 去除离群点 1. 使用point_coord_x、point_coord_y、point_coord_z阈值分割麻辣兔头 dev_open_win…...

编程日记 2026/2/13 13:55:22

prometheus 添加alertmanager添加dingtalk机器人告警

1、dingtalk创建机器人,目前我们采用加白名单的方式校验 2、定位到如下图 test结果如下...

编程日记 2026/2/16 7:29:35

一些题目记录

别人面经题目记录 https://zhuanlan.zhihu.com/p/32626732052 实现 NMS，七八次，很高频； 实现 MultiHeadSelfAttention，大概三四次； 用 Numpy 或者 List 实现MLP 的前向和反向，4次； Leetcode …...

编程日记 2026/2/15 23:56:55

向量数据库学习笔记（1） —— 基础概念

一、嵌入模型 Embedding Models 嵌入模型是将复杂数据（如文本、图像、音频等）转换为向量表示的机器学习模型 1. 核心概念嵌入(Embedding)：将高维、非结构化的数据映射到低维、稠密的向量空间向量表示：输出固定长度的数值向量…...

编程日记 2026/2/17 3:13:32

Python学习第二十五天

Scrapy框架官网概念 Scrapy 是一个强大的 Python 网络爬虫框架。最新版本学习安装 pip install scrapy 使用 # 创建名称为myscrapy的爬虫项目 scrapy starpoject myscrapy # 创建爬那个就是比如需要爬http://quotes.toscrape.com 运行的名称：toscrape运行…...

编程日记 2026/2/12 23:53:21

GitHub Copilot平替：CodeGeeX 2.0实测报告

本文基于20个真实开发场景对CodeGeeX 2.0进行深度评测，涵盖代码生成质量、上下文理解能力、多语言支持度等关键维度。通过Python数据分析、Java微服务、React前端开发三大核心场景的对比实验，揭示其相比GitHub Copilot在中文语境支持、本地化部署、隐私保…...

编程日记 2026/2/15 23:33:06

【算法】动态规划：回文子串问题、两个数组的dp

⭐️个人主页：小羊 ⭐️所属专栏：Linux 很荣幸您能阅读我的文章，诚请评论指点，欢迎欢迎 ~ 目录回文子串问题回文子串最长回文子串分割回文串 IV分割回文串 II *最长回文子序列让字符串成为回文串的最少插入次数两个数组的dp最…...

编程日记 2026/2/18 20:28:46

文件上传绕过的小点总结(3)

6.文件首尾加空绕过源码给出这样的，发现文件名处理没有首尾去空，于是我们可以采用首尾加空的方式绕过。 $file_name $_FILES[upload_file][name]; $file_name deldot($file_name);//删除文件名末尾的点 $file_ext strrchr($file_name, .); $file_e…...

编程日记 2026/2/19 0:01:17

OpenHarmony 入门——ArkUI 跨页面数据同步和应用全局单例的UI状态存储AppStorage 小结（三）

文章大纲引言一、AppStorage 应用全局的UI状态存储1、StorageProp和StorageLink装饰器建立联系2、StorageProp2.1、StorageProp使用规则2.2、StorageProp变量的传递/访问规则2.3、StorageProp支持的观察变化2.4、StorageProp 值初始化和更新 3、StorageLink3.1、StorageLink使…...

编程日记 2026/2/20 16:46:26

矩阵补充，最近邻查找

模型训练

基本思路

数据集

训练

矩阵补充缺点

模型存储

线上服务

近似最近邻查找 （Approximate Nearest Neighbor Search）

加速最近邻查找的思路

总结

相关文章：

近似最近邻查找（Approximate Nearest Neighbor Search）