当前位置：首页 > news >正文

向量数据库：PGVector

news 2026/3/30 1:28:30

一、PGVector 介绍

PGVector 是一个基于 PostgreSQL 的扩展插件，为用户提供了一套强大的向量存储和查询的功能：

精确和近似最近邻搜索
单精度（Single-precision）、半精度（Half-precision）、二进制（Binary）和稀疏向量（Sparse Vectors）
L2 距离（L2 Distance）、内积（Inner Product）、余弦距离（Cosine Distance）、L1 距离（L1 Distance）、汉明距离（Hamming Distance）和 Jaccard 距离（Jaccard Distance）
支持 ACID 事务、点时间恢复、JOIN 操作，以及 Postgres 所有的其他优秀特性

二、安装 PGVector

2.1 安装 PostgreSQL

PGVector是基于PostgreSQL的扩展插件，要使用PGVector需要先安装PostgreSQL(支持Postgres 12以上)，PostgreSQL具体安装操作可参考：PostgreSQL基本操作。

2.2 安装 PGVector

# 1.下载

git clone --branch v0.7.0 https://github.com/pgvector/pgvector.git

# 2.进入下载目录
cd pgvector

# 3.编译安装
make && make install

2.3 启用 PGVector

登录PostgreSQL数据库，执行以下命令启用PGVector：

CREATE EXTENSION IF NOT EXISTS vector;

三、PGVector 日常使用

3.1 存储数据

创建向量字段：

#建表时，创建向量字段

CREATE TABLE items (id bigserial PRIMARY KEY, embedding vector(3));

#已有表，新增向量字段

ALTER TABLE items ADD COLUMN embedding vector(3);

插入向量数据：

INSERT INTO items (embedding) VALUES ('[1,2,3]'), ('[4,5,6]');

更新向量数据：

UPDATE items SET embedding = '[1,2,3]' WHERE id = 1;

删除向量数据：

DELETE FROM items WHERE id = 1;

3.2 查询数据

距离函数
操作符	函数	距离类型
<->	l2_distance	两个向量相减得到的新向量的长度
<#>	vector_negative_inner_product	两个向量内积的负值
<=>	cosine_distance	两个向量夹角的cos值
<+>

Get the nearest neighbors to a vector

SELECT * FROM items ORDER BY embedding <-> '[3,1,2]' LIMIT 5;

Get the nearest neighbors to a row

SELECT * FROM items WHERE id != 1 ORDER BY embedding <-> (SELECT embedding FROM items WHERE id = 1) LIMIT 5;

Get rows within a certain distance

SELECT * FROM items WHERE embedding <-> '[3,1,2]' < 5;

Get the distance

SELECT embedding <-> '[3,1,2]' AS distance FROM items;

For inner product, multiply by -1 (since <#> returns the negative inner product)

SELECT (embedding <#> '[3,1,2]') * -1 AS inner_product FROM items;

For cosine similarity, use 1 - cosine distance

SELECT 1 - (embedding <=> '[3,1,2]') AS cosine_similarity FROM items;

Average vectors

SELECT AVG(embedding) FROM items;

Average groups of vectors

SELECT category_id, AVG(embedding) FROM items GROUP BY category_id;

3.3 HNSW 索引

HNSW索引创建了一个多层图。在速度-召回权衡方面，它的查询性能优于IVFFlat，但构建时间较慢且占用更多内存。另外，由于没有像IVFFlat那样的训练步骤，可以在表中没有数据的情况下创建索引。

Supported types are:

vector - up to 2,000 dimensions
halfvec - up to 4,000 dimensions (added in 0.7.0)
bit - up to 64,000 dimensions (added in 0.7.0)
sparsevec - up to 1,000 non-zero elements (added in 0.7.0)

L2 distance

CREATE INDEX ON items USING hnsw (embedding vector_l2_ops);

Inner product

CREATE INDEX ON items USING hnsw (embedding vector_ip_ops);

Cosine distance

CREATE INDEX ON items USING hnsw (embedding vector_cosine_ops);

L1 distance - added in 0.7.0

CREATE INDEX ON items USING hnsw (embedding vector_l1_ops);

Hamming distance - added in 0.7.0

CREATE INDEX ON items USING hnsw (embedding bit_hamming_ops);

Jaccard distance - added in 0.7.0

CREATE INDEX ON items USING hnsw (embedding bit_jaccard_ops);

3.4 IVFFlat 索引

IVFFlat索引将向量划分为列表，然后搜索最接近查询向量的那些列表的子集。它的构建时间比HNSW快，且占用更少内存，但查询性能（就速度-召回权衡而言）较低。

Supported types are:

vector - up to 2,000 dimensions
halfvec - up to 4,000 dimensions (added in 0.7.0)
bit - up to 64,000 dimensions (added in 0.7.0)

L2 distance

CREATE INDEX ON items USING ivfflat (embedding vector_l2_ops) WITH (lists = 100);

Inner product

CREATE INDEX ON items USING ivfflat (embedding vector_ip_ops) WITH (lists = 100);

Cosine distance

CREATE INDEX ON items USING ivfflat (embedding vector_cosine_ops) WITH (lists = 100);

Hamming distance - added in 0.7.0

CREATE INDEX ON items USING ivfflat (embedding bit_hamming_ops) WITH (lists = 100);

向量数据库：PGVector

一、PGVector 介绍 PGVector 是一个基于 PostgreSQL 的扩展插件，为用户提供了一套强大的向量存储和查询的功能： 精确和近似最近邻搜索单精度（Single-precision）、半精度（Half-precision）、二进制&#xff…...

编程日记 2024/5/9 17:30:33

redux实现原理

Redux 是一个用于 JavaScript 应用程序状态管理的库。它被设计用来管理整个应用程序的状态，并且与 React 结合使用时非常流行。Redux 的实现原理可以简要概括为以下几个关键概念： 单一数据源 (Single Source of Truth)：Redux 应用程序的所有状…...

编程日记 2024/5/9 17:29:32

【go项目01_学习记录04】

学习记录 1 集成 Gorilla Mux1.1 为什么不选择 HttpRouter？1.2 安装 gorilla/mux1.3 使用 gorilla/mux1.4 迁移到 Gorilla Mux1.4.1 新增 homeHandler1.4.2 指定 Methods () 来区分请求方法1.4.3 请求路径参数和正则匹配1.4.4 命名路由与链接生成 1 集成 Gorilla Mu…...

编程日记 2024/5/9 17:28:31

HCIP第二节

OSPF：开放式最短路径协议（属于IGP-内部网关路由协议） 优点：相比与静态可以实时收敛更新方式：触发更新：224.0.0.5/6 周期更新：30min 在华为设备欸中，默认ospf优先级是10&#…...

编程日记 2024/5/9 17:27:29

Ubuntu MATE系统下WPS显示错位

系统：Ubuntu MATE 22.04和24.04，在显示器设置200%放大的情况下，显示错位。显示器配置： WPS显示错位： 这个问题当前没有找到好的解决方式。因为4K显示屏设置4K分辨率，图标，字体太小&#xff…...

编程日记 2024/5/9 17:26:27

Mysql进阶-索引篇

Mysql进阶存储引擎前言特点对比索引介绍常见的索引结构索引分类索引语法sql分析索引使用原则索引失效的几种情况sql提示覆盖索引前缀索引索引设计原则存储引擎前言 Mysql的体系结构： 连接层最上层是一些客户端和链接服务，主要完成一些类似于连接…...

编程日记 2024/5/9 17:22:21

【算法系列】哈希表

目录哈希表总结 leetcode题目一、两数之和二、判定是否互为字符重排三、存在重复元素四、存在重复元素 II 五、字母异位词分组六、在长度2N的数组中找出重复N次的元素七、两个数组的交集八、两个数组的交集 II 九、两句话中的不常见单词哈希表总结 1.存储数…...

编程日记 2024/5/9 17:19:17

Git推送本地项目到gitee远程仓库

Git 是一个功能强大的分布式版本控制系统，它允许多人协作开发项目，同时有效管理代码的历史版本。开发者可以克隆一个公共仓库到本地，进行更改后将更新推送回服务器，或从服务器拉取他人更改，实现代码的同步和版本控制。…...

编程日记 2024/5/9 17:17:14

一键复制：基于vue实现的tab切换效果

需求：顶部栏有切换功能，内容区域随顶部切换而变化目录实现效果实现代码使用示例在线预览实现效果如下实现代码组件代码 MoTab.vue <template><div class"mo-tab"><divv-for"item in options"class"m…...

编程日记 2024/5/9 17:15:10

新手做抖音小店，卖什么最容易出单？抖音必爆类目来了!

哈喽！我是电商月月新手做抖音小店没有经验，也不了解市场需求，最好奇的就是：卖什么商品最容易出单，还在犹豫的朋友可以看看这五种类目，在2024年下半年必定火爆一次一．生活电器类天气炎热&a…...

编程日记 2024/5/9 17:13:07

男人圣经 10

男人圣经 10 行业基因你在对行业、客户群体、事情、核心优势上的高感知力行业基因你在对行业、客户群体、事情、核心优势上的高感知力灵性，我感觉是对人、对事情、对行业的感知力，这就是你的天赋程度。比如情圣，他比女人更懂自己&am…...

编程日记 2024/5/9 17:11:04

如何让路由器分配固定网段(网络号)ip

一.wan和lan wan广域网，负责连接互联网 lan局域网，负责保证一个区域内的设备可以互相通讯，比如wife就是让所有连接设备处于同一网段下一.问题导入 1.我们平时在虚拟机和实体机通信时必须让它们位于同一ip网段下。通过winscp等软件进行…...

编程日记 2024/5/9 17:10:03

Q1保健品线上市场分析（三）：牛初乳市场扩张，同比去年增长54%

近几年，牛初乳在多项科学研究支撑下，其卓越的“肠道免疫力”正得到越来越多的挖掘、验证和商业化尝试。因此，随着人们对健康饮食的重视，牛初乳产品的需求量也在逐年增加，市场潜力巨大。根据鲸参谋数据显示&#xff0…...

编程日记 2024/5/9 17:09:01

使用docker-compose编排Lnmp(dockerfile) 完成Wordpress

目录一、 Docker-Compose 1.1Docker-Compose介绍 1.2环境准备 1.2.1准备容器目录及相关文件 1.2.2关闭防火墙关闭防护 1.2.3下载centos:7镜像 1.3Docker-Compose 编排nginx 1.3.1切换工作目录 1.3.2编写 Dockerfile 文件 1.3.3修改nginx.conf配置文件 1.4Docker-Co…...

编程日记 2024/5/9 17:04:55

母婴店运用商城小程序店铺的效果是什么

母婴市场规模高，还可与不少行业无缝衔接，尤其是以90后、00后为主的年轻人，在备孕生育和婴儿护理前后等整体流程往往不惜重金且时间长，母婴用品无疑是必需品，商家需要多方面拓展全面的客户及打通场景随时消费路径。运…...

编程日记 2024/5/9 17:03:53

大数据技术概述_2.大数据面临的5个方面的挑战

1. 大数据面临着5个主要问题 2012年冬季，来自IBM、微软、谷歌、HP、MIT、斯坦福、加州大学伯克利分校、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的白皮书。该白皮书首先指出大数据面临着5个主要问题，分别是异构性&a…...

编程日记 2024/5/9 17:02:52

《动手学深度学习（Pytorch版）》Task03：线性神经网络——4.29打卡

《动手学深度学习（Pytorch版）》Task03：线性神经网络线性回归基本元素线性模型损失函数随机梯度下降正态分布与平方损失线性回归的从零开始实现读取数据集初始化模型参数定义模型定义损失函数定义优化算法训练线性回归的简洁实现读取数据集…...

编程日记 2024/5/9 17:01:50

机器学习（二） ----------K近邻算法（KNN）+特征预处理+交叉验证网格搜索

目录 1 核心思想 1.1样本相似性 1.2欧氏距离（Euclidean Distance） 1.3其他距离 1.3.1 曼哈顿距离（Manhattan Distance） 1.3.2 切比雪夫距离（Chebyshev distance） 1.3.3 闵式距离（也称为闵…...

编程日记 2024/5/9 17:00:46

This error originates from a subprocess, and is likely not a problem with pip.

Preparing metadata (setup.py) ... errorerror: subprocess-exited-with-error python setup.py egg_info did not run successfully.│ exit code: 1╰─> [63 lines of output]WARNING: The repository located at mirrors.aliyun.com is not a trusted or secure host a…...

编程日记 2024/5/9 16:56:36