当前位置：首页 > news >正文

milvus 通俗易懂原理

news 2026/5/12 2:15:32

向量值如何生成的

Milvus 是一个开源的向量数据库，专门用于处理高维向量的存储、搜索和分析。向量值本身通常来自于某些机器学习或深度学习模型的输出，尤其是在自然语言处理（NLP）、计算机视觉（CV）、推荐系统等应用中。具体来说，向量值的生成过程通常包括以下几个步骤：

数据表示与特征提取文本数据：

对于文本数据，向量通常是通过词嵌入（Word Embedding）或句子嵌入（Sentence Embedding）生成的。例如，利用像 Word2Vec、GloVe 或 BERT 这样的预训练模型，可以将文本（单词、句子、段落）转换成高维向量（embedding）。这些向量能够捕捉到文本的语义信息。

图像数据：对于图像数据，向量通常是通过深度神经网络（如卷积神经网络，CNN）进行特征提取。例如，使用 ResNet、VGG、EfficientNet 等预训练模型，可以将图像转换为一个固定长度的高维向量，表示图像的特征。

音频数据：对于音频数据，通常使用 MFCC（梅尔频率倒谱系数）、VGGish 等方法将音频信号转化为向量表示。视频数据：视频数据通常通过处理每一帧图像或提取时序特征来生成向量，这些向量可以反映视频中的动态信息。

特征向量生成经过特征提取后，得到的向量（通常是一个浮动的高维数字数组）就代表了数据在某个特征空间中的位置。通过深度学习模型（如卷积神经网络、循环神经网络、Transformer等）训练出的向量通常能较好地捕捉数据的语义信息。比如，对于文本数据，使用 BERT 这类大型语言模型生成的句子向量可以反映出句子中单词之间的语义关系。
向量的存储与索引Milvus 会接收这些高维向量并将其存储在数据库中，提供高效的向量搜索。Milvus 使用了特定的向量索引结构（如 IVF、HNSW、Annoy 等）来加速高维向量之间的相似性搜索。
向量搜索一旦向量存储在 Milvus 中，你可以使用相似性搜索来查找相似向量。Milvus 提供多种搜索算法，可以通过向量之间的距离度量（如欧氏距离、余弦相似度、曼哈顿距离等）来找到最相似的向量。

总结：Milvus 中的“向量值”通常是通过各种机器学习和深度学习模型从原始数据（如文本、图像、音频等）中提取出来的。这些向量表示了数据的特征，可以用于相似度搜索、聚类、推荐等任务。具体的生成方式取决于输入数据的类型和应用场景。

如何查询一个相似性

在 Milvus 或其他向量数据库中进行向量搜索时，核心思想是利用向量之间的相似度度量来找到最相似的向量。具体而言，当你提供一个查询向量（比如一个待搜索的值），Milvus 会计算这个查询向量与数据库中存储的每个向量之间的相似度，然后返回与查询向量最相似的那些向量。

这个过程可以分为以下几个关键步骤：

向量表示和相似度度量

向量表示：首先，数据（如文本、图像、音频等）被转化为向量。每个数据点都有一个高维向量表示，它是数据在某种特征空间中的位置。查询时，你会提供一个查询向量，表示你要查找的内容。

相似度度量：Milvus 通过计算查询向量和存储向量之间的相似度来判断它们的相似程度。常见的相似度度量方法有：
欧氏距离（Euclidean Distance）：用于计算两向量之间的直线距离。距离越小，相似度越高。
余弦相似度（Cosine Similarity）：用于衡量两个向量的夹角，值越大（接近1），表示两个向量越相似。
曼哈顿距离（Manhattan Distance）：计算向量在各个维度上的绝对差的总和。
通常，余弦相似度和欧氏距离是最常用的相似度度量方法，尤其在处理文本和高维数据时。

向量索引结构

由于高维数据的计算复杂度较高，直接对所有向量进行一对一比较（即暴力搜索）会非常低效。为此，Milvus 使用了几种高效的向量索引结构，以加速相似度计算和检索。常见的索引结构有：

倒排文件（IVF, Inverted File）：将向量分成若干个簇，并将每个簇索引起来。当查询向量到来时，Milvus 只需要搜索与查询向量相似的簇，从而避免了对整个数据库的全面搜索。IVF 适用于大规模数据集，能够提高查询速度。
HNSW（Hierarchical Navigable Small World）：一种图索引方法，通过构建小世界网络来加速相似向量的查找。HNSW 在高维空间中也能提供高效的近似邻近搜索。
Annoy（Approximate Nearest Neighbor Search）：一种基于树结构的近似搜索算法，适用于在大规模数据集上进行快速的相似性搜索。
PQ（Product Quantization）：将向量分解为子向量，通过量化方法来减少存储空间，并加速相似度搜索。
这些索引方法能够大幅度降低计算复杂度，使得即便是在数百万或数十亿个向量的数据库中，Milvus 也能快速响应相似度搜索请求。

近似搜索 vs 精确搜索

在大规模向量搜索中，直接进行精确的最近邻搜索会非常耗时，尤其是高维空间（如数百维或更高）的情况下。Milvus 提供了近似最近邻搜索（ANN），即在搜索时通过某些算法（如HNSW、IVF）进行近似计算，以换取更高的速度。虽然这种方法不是100%精确的，但在大多数应用中，这种近似误差是可以接受的，并且相较于精确搜索，能大大提高效率。

精确搜索：会计算查询向量与所有向量的相似度，找到最匹配的向量。这种方法计算量大，适合数据量不大的情况。
近似搜索：通过近似算法（如图结构、聚类等）来减少需要检查的向量数目，通常能提供足够高质量的搜索结果，但可能会错过一些最相似的向量。
4. 搜索流程

搜索过程的一般流程如下：

生成查询向量：首先，系统会将查询的数据（如文本、图像）转化为向量表示，称为查询向量。

索引选择和查找：Milvus 会根据存储的向量的索引类型（如HNSW、IVF等）选择合适的索引结构，定位出可能与查询向量相似的子集。

计算相似度：通过计算查询向量与候选向量之间的相似度，找到最相似的向量。Milvus 会根据设置的参数（如返回的近邻数）返回前 K 个最相似的向量。

返回结果：返回相似度最高的向量及其对应的原始数据。

示例：搜索文本相似度

假设你有一组文本数据，并已经通过 BERT 或其他模型将每个文本转换成了一个向量（例如 768 维的向量）。当你输入一个查询文本时，系统会将该文本转换成一个向量，并利用之前提到的索引结构（如 HNSW 或 IVF）找到与查询向量相似的文本。通过计算这些向量之间的相似度（如余弦相似度），系统会返回与查询最相似的文本及其相关信息。

总结

向量搜索的核心在于通过计算查询向量与数据库中存储向量之间的相似度，来找到最相关的数据。Milvus 通过高效的索引方法和相似度度量来加速这一过程，使得在大规模数据集上，向量相似度搜索既高效又准确。同时，Milvus 支持精确搜索和近似搜索，提供了灵活的选择来平衡搜索精度和性能。

milvus 通俗易懂原理

向量值如何生成的

如何查询一个相似性

相关文章：

milvus 通俗易懂原理

什么是撞库、拖库和洗库？

安卓-碎片的使用入门

华为IPD流程学习之——深入解读123页华为IPD流程体系设计方法论PPT

DriveMLLM：一个专为自动驾驶空间理解任务设计的大规模基准数据集

高效处理 iOS 应用中的大规模礼物数据：以直播项目为例（1-礼物池）

python的函数与递归

RabbitMQ学习-Seven

中科亿海微SoM模组——波控处理软硬一体解决方案

开源法律、政策和实践

【计算视觉算法与应用】金字塔，下采样Gaussian Pyramid. 上采用 Laplacian Pyramid （code: py）

基于BERT的语义分析实现

DNS查询工具

ODB 框架

Ubuntu WiFi检测

QILSTE H4-108TCG高亮纯lu光LED灯珠发光二极管LED

IP与“谷子”齐飞，阅文“乘势而上”？

Java阶段三05

C# yield 关键字

SpringBoot开发——结合Nginx实现负载均衡

5分钟快速上手：如何用Video2X免费AI工具让老旧视频焕发4K新生

别再算错了！等保2.0 2021版测评新规下，多系统/多机房得分计算保姆级教程

【文件上传绕过】十六—十八：巧用文件幻数与内容伪装突破类型校验

深入STM32F429 LTDC双图层与DMA2D：打造流畅UI界面的性能优化指南

用Yii2快速构建微服务RESTful API全攻略

从玩具车到智能体：用STC89C52给小车装上‘眼睛’和‘触角’的传感器融合实战

如何快速上手Unitree Go2 ROS2 SDK：模块化机器人开发完整指南

别再只调包了！用PyTorch和DGL从零实现一个GCN层（附Cora节点分类实战代码）

【机器学习】Stacking模型融合：从原理到实战的进阶指南

从表情包到OLED屏显：基于Image2Lcd与PCtoLCD2002的嵌入式图片取模实战