当前位置：首页 > article >正文

《AI大模型应知应会100篇》第60篇：Pinecone 与 Milvus，向量数据库在大模型应用中的作用

article 2025/12/20 1:50:12

第60篇：Pinecone与Milvus，向量数据库在大模型应用中的作用

摘要

本文将系统比较Pinecone与Milvus两大主流向量数据库的技术特点、性能表现和应用场景，提供详细的接入代码和最佳实践，帮助开发者为大模型应用选择并优化向量存储解决方案。

在这里插入图片描述

引言：为什么需要向量数据库？

随着AI大模型的发展，向量数据（如文本、图像的嵌入表示）成为处理非结构化数据的核心方式。然而，传统的数据库无法高效地处理高维向量的相似性搜索问题。因此，向量数据库应运而生。

什么是向量数据库？

向量数据库是一种专门用于存储和检索高维向量数据的数据库。它支持快速执行近似最近邻搜索（ANN），即找出与目标向量最接近的一组向量。

向量数据库的应用场景

推荐系统：基于用户行为向量进行个性化推荐。
语义搜索：通过文本嵌入实现文档或网页内容的语义匹配。
图像检索：利用图像特征向量进行相似图片查找。
RAG（Retrieval-Augmented Generation）：结合知识库与大模型生成更准确的回答。

核心概念与知识点

1. 向量数据库基础

向量嵌入基础

向量嵌入是将非结构化数据（如文本、图像）转换为固定维度的数值向量的过程。例如：

使用 text-embedding-ada-002 将文本转换为 1536 维向量。
使用 CLIP 模型将图像转换为 512 维向量。

from openai import OpenAIclient = OpenAI()
response = client.embeddings.create(input="这是一个示例文本",model="text-embedding-ada-002"
)
embedding = response.data[0].embedding
print(len(embedding))  # 输出: 1536

相似性搜索原理

常见的相似性度量方法包括：

余弦相似度（Cosine Similarity）：衡量两个向量之间的夹角。
欧氏距离（Euclidean Distance）：衡量两个向量之间的直线距离。

通常使用余弦相似度来判断两个向量是否“语义上”相似。

索引类型对比

索引类型	特点	适用场景
HNSW (Hierarchical Navigable Small World)	高效且支持动态更新	实时推荐系统
IVF (Inverted File Index)	快速但不支持频繁更新	批量处理场景
FLAT	精确但慢	小规模数据

向量数据库与传统数据库的区别

对比项	传统数据库	向量数据库
数据类型	结构化数据（如整数、字符串）	高维向量
查询方式	精确匹配（如 SQL WHERE 条件）	近似最近邻搜索（ANN）
性能	插入/查询速度快	支持大规模向量数据的高效检索

Pinecone实战应用

账户设置与索引创建

Pinecone 是一个云托管的向量数据库服务，适合不想自己部署服务器的开发者。

安装依赖

pip install pinecone-client openai

初始化 Pinecone 并创建索引

import pinecone
from openai import OpenAI# 初始化 Pinecone
pinecone.init(api_key="your-api-key", environment="your-environment")# 创建索引（如果不存在）
if "knowledge-base" not in pinecone.list_indexes():pinecone.create_index(name="knowledge-base",dimension=1536,  # OpenAI ada-002 的输出维度metric="cosine")# 连接到索引
index = pinecone.Index("knowledge-base")

插入向量

client = OpenAI()# 生成向量嵌入
embeddings = client.embeddings.create(input="需要向量化的文本内容",model="text-embedding-ada-002"
).data[0].embedding# 插入向量
index.upsert(vectors=[{"id": "doc1","values": embeddings,"metadata": {"source": "article", "author": "Zhang San"}}]
)

相似性搜索

results = index.query(vector=embeddings,top_k=3,include_metadata=True
)for result in results['matches']:print(f"ID: {result['id']}, Score: {result['score']}, Metadata: {result['metadata']}")

输出示例

ID: doc1, Score: 0.987, Metadata: {'source': 'article', 'author': 'Zhang San'}
ID: doc2, Score: 0.876, Metadata: {'source': 'blog', 'author': 'Li Si'}
ID: doc3, Score: 0.765, Metadata: {'source': 'wiki', 'author': 'Wang Wu'}

Milvus实战应用

部署与集群配置

Milvus 是一个开源的向量数据库，支持本地部署和分布式架构，适合对数据隐私要求较高的企业。

安装 Milvus

使用 Docker 快速启动：

docker run -d --name milvusdb -p 19530:19530 milvusdb/milvus:v2.4.3

Python 客户端连接

pip install pymilvus numpy

连接 Milvus 并插入数据

from pymilvus import connections, Collection, utility
import numpy as np# 连接 Milvus
connections.connect(host='localhost', port='19530')# 创建集合
collection_name = "document_store"if utility.has_collection(collection_name):collection = Collection(collection_name)
else:from pymilvus import FieldType, CollectionSchema, DataTypefields = [{"name": "id", "type": DataType.INT64, "is_primary": True},{"name": "embedding", "type": DataType.FLOAT_VECTOR, "dim": 1536},{"name": "source", "type": DataType.VARCHAR, "max_length": 256},{"name": "author", "type": DataType.VARCHAR, "max_length": 256}]schema = CollectionSchema(fields, description="Document Store")collection = Collection(collection_name, schema=schema)# 插入数据
import randomnum_entities = 1000
ids = [i for i in range(num_entities)]
embeddings = [[random.random() for _ in range(1536)] for _ in range(num_entities)]
sources = ["article"] * num_entities
authors = ["Zhang San"] * num_entitiescollection.insert([ids, embeddings, sources, authors])
collection.flush()

向量搜索

search_params = {"metric_type": "COSINE", "params": {"nprobe": 10}}
results = collection.search(data=[embeddings[0]],anns_field="embedding",param=search_params,limit=3,expr="source == 'article'",output_fields=["source", "author"]
)for hit in results[0]:print(f"ID: {hit.id}, Distance: {hit.distance}, Source: {hit.entity.get('source')}")

输出示例

ID: 0, Distance: 0.0, Source: article
ID: 123, Distance: 0.123, Source: article
ID: 456, Distance: 0.135, Source: article

应用架构与集成

与 LangChain 集成

LangChain 是一个强大的框架，可以轻松集成向量数据库。

安装依赖

pip install langchain pinecone-client pymilvus openai

Pinecone 集成

from langchain.vectorstores import Pinecone as LangchainPinecone
from langchain.embeddings.openai import OpenAIEmbeddingsembeddings = OpenAIEmbeddings()
vectorstore = LangchainPinecone.from_existing_index(index_name="knowledge-base",embedding=embeddings,text_key="content"
)

Milvus 集成

from langchain.vectorstores import Milvus as LangchainMilvusmilvus_store = LangchainMilvus(embedding_function=embeddings,collection_name="document_store",connection_args={"host": "localhost", "port": "19530"}
)

性能与选型对比

对比项	Pinecone	Milvus
部署方式	云托管	自托管/云托管
易用性	高（开箱即用）	中等（需部署）
成本	按 API 调用计费	开源免费
扩展性	自动扩展	支持分布式部署
社区活跃度	商业支持	开源社区活跃
功能丰富度	丰富	更加灵活可定制

实战案例

案例一：企业搜索引擎

需求：亿级文档的向量检索系统。
方案：
- 使用 Milvus 构建本地向量数据库。
- 使用 Elasticsearch 做关键词搜索。
- 使用 LangChain 整合两者实现混合搜索。

案例二：个性化推荐

需求：根据用户历史行为推荐相关内容。
方案：
- 用户行为向量化。
- 使用 Pinecone 进行实时相似性搜索。
- 返回相似用户的偏好内容作为推荐结果。

实战案例：完整代码与部署指南

案例一：企业搜索引擎（Milvus + Elasticsearch + LangChain）

1. 系统架构设计

[用户查询] ↓
[LangChain混合搜索]├─→ [Elasticsearch关键词搜索]└─→ [Milvus向量相似性搜索]↓
[结果融合排序]↓
[最终返回结果]

2. 技术栈要求

pip install pymilvus elasticsearch langchain openai sentence-transformers fastapi uvicorn
docker pull milvusdb/milvus:v2.4.3
docker pull docker.elastic.co/elasticsearch/elasticsearch:8.11.3

3. Milvus向量数据库初始化

from pymilvus import connections, Collection, utility, FieldSchema, CollectionSchema, DataType# 连接Milvus
connections.connect(host='localhost', port='19530')# 创建集合
collection_name = "document_vectors"if not utility.has_collection(collection_name):fields = [FieldSchema(name="doc_id", dtype=DataType.INT64, is_primary=True),FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=768),FieldSchema(name="title", dtype=DataType.VARCHAR, max_length=512),FieldSchema(name="content", dtype=DataType.VARCHAR, max_length=65535)]schema = CollectionSchema(fields, description="文档向量存储")collection = Collection(collection_name, schema=schema)# 创建索引index_params = {"index_type": "IVF_FLAT","params": {"nlist": 1024},"metric_type": "COSINE"}collection.create_index(field_name="embedding", index_params=index_params)
else:collection = Collection(collection_name)collection.load()

4. Elasticsearch关键词索引创建

from elasticsearch import Elasticsearch
from elasticsearch_dsl import analyzer# 连接Elasticsearch
es_client = Elasticsearch(hosts=["http://localhost:9200"])# 创建索引
index_name = "document_search"if not es_client.indices.exists(index=index_name):es_client.indices.create(index=index_name,body={"settings": {"analysis": {"analyzer": {"custom_analyzer": {"type": "custom","tokenizer": "whitespace","filter": ["lowercase", "stop", "stemmer"]}}}},"mappings": {"properties": {"title": {"type": "text", "analyzer": "custom_analyzer"},"content": {"type": "text", "analyzer": "custom_analyzer"}}}})

5. 向量化处理服务

from sentence_transformers import SentenceTransformerclass VectorService:def __init__(self):self.model = SentenceTransformer('all-MiniLM-L6-v2')def text_to_vector(self, text: str) -> List[float]:return self.model.encode(text).tolist()vector_service = VectorService()

6. LangChain混合搜索实现

from langchain.vectorstores import Milvus
from langchain.schema import Document
from langchain.embeddings import HuggingFaceEmbeddings# 初始化嵌入模型
embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")# 连接Milvus向量数据库
milvus_store = Milvus(embedding_function=embeddings,collection_name=collection_name,connection_args={"host": "localhost", "port": "19530"}
)def hybrid_search(query: str, top_k: int = 5):# 向量搜索vector_results = milvus_store.similarity_search(query, k=top_k)# 关键词搜索es_results = es_client.search(index=index_name,body={"query": {"multi_match": {"query": query, "fields": ["title^2", "content"]}}})# 结果融合combined_results = []for hit in es_results['hits']['hits']:combined_results.append({"source": "elasticsearch","score": hit['_score'],"title": hit['_source']['title'],"content": hit['_source']['content']})for doc in vector_results:combined_results.append({"source": "milvus","score": doc.metadata.get("distance", 0),"title": doc.metadata.get("title", ""),"content": doc.page_content})# 按分数排序combined_results.sort(key=lambda x: x["score"], reverse=True)return combined_results[:top_k]

7. 部署指南

# 启动Milvus
docker run -d --name milvusdb -p 19530:19530 milvusdb/milvus:v2.4.3# 启动Elasticsearch
docker run -d --name es-node -p 9200:9200 \-e "discovery.type=single-node" \-e "ES_JAVA_OPTS=-Xms1g -Xmx1g" \docker.elastic.co/elasticsearch/elasticsearch:8.11.3# 安装依赖
pip install -r requirements.txt# 启动API服务
uvicorn search_api:app --host 0.0.0.0 --port 8000

案例二：个性化推荐系统（Pinecone + 用户行为分析）

1. 系统架构设计

[用户行为数据]↓
[特征工程处理]↓
[Pinecone向量存储]↓
[相似用户查找]↓
[内容推荐生成]

2. 技术栈要求

pip install pinecone-client openai pandas numpy scikit-learn fastapi uvicorn

3. Pinecone初始化

import pinecone
from openai import OpenAI# 初始化Pinecone
pinecone.init(api_key="your-api-key", environment="northamerica-northeast1-gcp")# 创建索引
index_name = "user-behavior"if index_name not in pinecone.list_indexes():pinecone.create_index(name=index_name,dimension=1536,  # OpenAI嵌入维度metric="cosine")# 连接索引
index = pinecone.Index(index_name)
client = OpenAI()

4. 用户行为向量化

import pandas as pd
from sklearn.preprocessing import StandardScalerclass UserBehaviorVectorizer:def __init__(self):self.scaler = StandardScaler()def _extract_features(self, user_data: dict) -> pd.DataFrame:# 特征提取示例features = {"avg_session_time": user_data.get("session_duration", 0),"click_rate": len(user_data.get("clicked_items", [])) / max(1, user_data.get("impressions", 1)),"purchase_frequency": len(user_data.get("purchases", [])) / max(1, user_data.get("days_active", 1)),"category_preference": user_data.get("preferred_category", "other"),"device_usage": user_data.get("device_type", "desktop"),"location": user_data.get("location", "unknown")}return pd.DataFrame([features])def _normalize_features(self, df: pd.DataFrame) -> np.ndarray:# 数值特征标准化numerical = self.scaler.fit_transform(df[["avg_session_time", "click_rate", "purchase_frequency"]])# 类别特征one-hot编码categorical = pd.get_dummies(df[["category_preference", "device_usage", "location"]])# 合并特征return np.hstack([numerical, categorical.values])def vectorize(self, user_data: dict) -> List[float]:df = self._extract_features(user_data)features = self._normalize_features(df)# 使用OpenAI嵌入进行降维response = client.embeddings.create(input=features.tolist()[0],model="text-embedding-ada-002")return response.data[0].embedding

5. 推荐引擎实现

class RecommendationEngine:def __init__(self):self.user_vectorizer = UserBehaviorVectorizer()def add_user(self, user_id: str, user_data: dict):# 向量化用户行为vector = self.user_vectorizer.vectorize(user_data)# 存储到Pineconeindex.upsert(vectors=[{"id": user_id,"values": vector,"metadata": {"preferences": user_data.get("preferred_categories", []),"recent_purchases": user_data.get("recent_purchases", []),"location": user_data.get("location", "")}}])def get_recommendations(self, user_id: str, top_k: int = 5):# 获取用户向量result = index.fetch(ids=[user_id])if not result.vectors:return []user_vector = result.vectors[user_id].values# 查找相似用户similar_users = index.query(vector=user_vector,top_k=top_k+1,  # 排除自己include_metadata=True)# 过滤出相似用户的偏好recommendations = []for match in similar_users.matches:if match.id == user_id:continuemetadata = match.metadatarecommendations.extend(metadata.get("recent_purchases", []))# 去重并返回return list(set(recommendations))[:top_k]

6. API接口实现

from fastapi import FastAPI, HTTPException
from pydantic import BaseModelapp = FastAPI()class UserData(BaseModel):session_duration: floatclicked_items: List[str]impressions: intpurchases: List[str]days_active: intpreferred_category: strdevice_type: strlocation: strrecommendation_engine = RecommendationEngine()@app.post("/users/{user_id}/update")
async def update_user_profile(user_id: str, user_data: UserData):try:recommendation_engine.add_user(user_id, user_data.dict())return {"status": "success"}except Exception as e:raise HTTPException(status_code=500, detail=str(e))@app.get("/users/{user_id}/recommendations")
async def get_recommendations(user_id: str, top_k: int = 5):try:results = recommendation_engine.get_recommendations(user_id, top_k)return {"recommendations": results}except Exception as e:raise HTTPException(status_code=500, detail=str(e))

7. 部署指南

# 设置环境变量
export PINECONE_API_KEY="your-pinecone-api-key"
export OPENAI_API_KEY="your-openai-api-key"# 安装依赖
pip install -r requirements.txt# 启动服务
uvicorn recommendation_api:app --host 0.0.0.0 --port 8000

扩展建议

1. 性能优化

对于企业搜索引擎：
- 使用Milvus的分片功能支持亿级数据
- 在Elasticsearch中使用倒排索引优化关键词搜索
- 引入缓存层（如Redis）存储高频查询结果

2. 安全加固

添加身份验证（JWT/OAuth）
对敏感数据进行加密存储
实现速率限制防止滥用

3. 监控方案

Prometheus + Grafana监控系统指标
ELK日志分析体系
设置异常报警规则

4. 可扩展性设计

将计算密集型任务移至Celery异步任务队列
使用Kubernetes进行容器编排
为不同模块设计独立的微服务架构

以上两个实战案例提供了完整的代码实现和部署指南，可根据具体需求进一步扩展和优化。

优化与故障排除

性能调优清单

索引类型选择：根据数据量和查询频率选择合适的索引。
批量插入：避免单条插入，使用批量插入提高效率。
内存优化：适当调整索引参数以减少内存占用。
缓存机制：对高频查询结果进行缓存。

常见问题与解决方案

问题	解决方案
向量维度不匹配	检查模型输出维度是否一致
查询超时	增加超时时间或优化索引
内存溢出	减少索引分片数或升级硬件
插入失败	检查主键唯一性约束

总结与扩展思考

未来趋势

多模态检索：支持文本、图像、音频等多种数据类型的统一检索。
混合搜索：结合关键词搜索与向量搜索，提升搜索准确性。
边缘计算：向量数据库将在边缘设备中得到更多应用。

学习资源推荐

Pinecone 官方文档
Milvus 官方文档
LangChain 官方文档
OpenAI Embeddings API 文档

如果你喜欢这篇文章，请点赞、收藏，并分享给你的朋友！欢迎关注我的专栏《AI大模型应知应会100篇》，获取更多实用技术干货！

《AI大模型应知应会100篇》第60篇：Pinecone 与 Milvus，向量数据库在大模型应用中的作用

第60篇：Pinecone与Milvus，向量数据库在大模型应用中的作用摘要本文将系统比较Pinecone与Milvus两大主流向量数据库的技术特点、性能表现和应用场景，提供详细的接入代码和最佳实践，帮助开发者为大模型应用选择并优化向量存储解…...

编程日记 2025/12/18 14:25:51

HDFS客户端操作

一、命令行工具操作 HDFS 命令行工具基于 hdfs dfs 命令，语法类似 Linux 文件操作。 1. 文件操作 bash # 创建目录 hdfs dfs -mkdir /test# 递归创建多级目录 hdfs dfs -mkdir -p /test/data/logs# 上传本地文件到 HDFS hdfs dfs -put local_file.txt /test/# 从…...

编程日记 2025/12/8 2:06:53

MySQL--视图详解

介绍视图（View）是一种虚拟存在的表。视图中的数据并不在数据库中实际存在，行和列数据来自定义视图的查询中使用的表（称为基表），并且是在使用视图时动态生成的。简而言之：视图只保存了查询的…...

编程日记 2025/12/8 11:24:38

Java学习手册：客户端负载均衡

一、客户端负载均衡的概念客户端负载均衡是指在客户端应用程序中，根据一定的算法和策略，将请求分发到多个服务实例上。与服务端负载均衡不同，客户端负载均衡不需要通过专门的负载均衡设备或服务，而是直接在客户端进行请求的分发…...

编程日记 2025/12/19 23:50:45

Docker私有仓库实战：官方registry镜像实战应用

抱歉抱歉，离职后反而更忙了，拖了好久，从4月拖到现在，在学习企业级方案Harbor之前，我们先学习下官方方案registry，话不多说，详情见下文。注意：下文省略了基本认证 TLS加密&#xff…...

编程日记 2025/12/8 15:55:00

LeetCode 373 查找和最小的 K 对数字题解

LeetCode 373 查找和最小的 K 对数字题解题目描述给定两个以升序排列的整数数组 nums1 和 nums2，以及一个整数 k。定义一对值 (u,v)，其中第一个元素来自 nums1，第二个元素来自 nums2。请找到和最小的 k 个数对。解题思路最小堆优化法…...

编程日记 2025/12/18 4:30:13

WebSocket集成方案对比与实战架构选型全景图 #mermaid-svg-BEuyOkkoP6cFygI0 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-BEuyOkkoP6cFygI0 .error-icon{fill:#552222;}#mermaid-svg-BEuyOkkoP6cFygI0 .er…...

编程日记 2025/12/10 3:41:52

深入理解 Istio v1.25.2

要深入理解 Istio 的最新版本（截至 2025 年 5 月，最新版本为 1.25.2，发布Iweb:1⁊）源码，我们可以通过分析其核心组件和代码结构来加深对 Istio 的理解。以下是对 Istio 源码的解读，结合其架构和功能&#x…...

编程日记 2025/12/18 17:30:30

使用conda导致无法找到libpython动态库

最近在用 AFL 的时候编译完成后遇到如下的报错： afl-fuzz: error while loading shared libraries: libpython3.9.so.1.0: cannot open shared object file: No such file or directory然后发现是因为编译时用的Python环境是通过miniconda构建的虚拟环境&#xff0…...

编程日记 2025/11/27 12:01:36

Redis+Caffeine构建高性能二级缓存

大家好，我是摘星。今天为大家带来的是RedisCaffeine构建高性能二级缓存，废话不多说直接开始~ 目录二级缓存架构的技术背景 1. 基础缓存架构 2. 架构演进动因 3. 二级缓存解决方案为什么选择本地缓存？ 1. 极速访问 2. 减少网络IO 3…...

编程日记 2025/12/16 7:34:30

MyBatis-Plus使用 wrapper.apply() 添加自定义 SQL 片段

在 MyBatis-Plus 中，wrapper.apply() 方法允许你在构建查询条件时插入任意的 SQL 片段。这对于实现一些复杂的查询需求特别有用，比如添加子查询、使用数据库特定函数等； 示例 1: 基本应用 import com.baomidou.mybatisplus.core.conditions…...

编程日记 2025/12/12 21:16:47

【计算机网络】NAT技术、内网穿透与代理服务器全解析：原理、应用及实践

编程日记 2025/12/18 11:17:10

Python训练打卡Day21

常见的降维算法： # 先运行预处理阶段的代码 import pandas as pd import pandas as pd #用于数据处理和分析，可处理表格数据。 import numpy as np #用于数值计算，提供了高效的数组操作。 import matplotlib.pyplot as plt #用于绘…...

编程日记 2025/12/8 22:35:45

【大模型MCP协议】MCP官方文档（Model Context Protocol）一、开始——1. 介绍

https://modelcontextprotocol.io/tutorials/building-mcp-with-llms 文章目录介绍为什么选择MCP？总体架构开始使用快速入门示例教程探索MCP贡献支持和反馈探索 MCP贡献代码支持与反馈介绍开始使用模型上下文协议（MCP） C# SDK已发布&…...

编程日记 2025/9/26 9:59:50

三大告警方案解析：从日志监控到流处理的演进之路

引言：告警系统的核心挑战与演进逻辑在分布式系统中，实时告警是实现业务稳定性的第一道防线。随着系统复杂度提升，告警机制从简单的日志匹配逐步演进到流式处理的秒级响应。本文将基于‌三大主流方案‌（日志告警、离线统计、实时流…...

编程日记 2025/12/13 10:10:21

node .js 启动基于express框架的后端服务报错解决

问题： node .js 用npm start 启动基于express框架的后端服务报错如下： /c/Program Files/nodejs/npm: line 65: 26880 Segmentation fault "$NODE_EXE" "$NPM_CLI_JS" "$" 原因分析： 遇到 /c/Program F…...

编程日记 2025/12/19 22:38:32

互联网大厂Java求职面试实战：Spring Boot与微服务场景深度解析

💪🏻 1. Python基础专栏，基础知识一网打尽，9.9元买不了吃亏，买不了上当。 Python从入门到精通 😁 2. 毕业设计专栏，毕业季咱们不慌忙，几百款毕业设计等你选。 ❤️ 3. Python爬虫专栏…...

编程日记 2025/6/26 12:08:13

并发笔记-信号量（四）

文章目录背景与动机31.1 信号量：定义 (Semaphores: A Definition)31.2 二元信号量 (用作锁) (Binary Semaphores - Locks)31.3 用于排序的信号量 (Semaphores For Ordering)31.4 生产者/消费者问题 (The Producer/Consumer (Bounded Buffer) Problem)31.5 读写锁 (…...

编程日记 2025/12/19 2:08:15

【HTOP 使用指南】：如何理解主从线程？（以 Faster-LIO 为例）

htop 是 Linux 下常用的进程监控工具，它比传统的 top 更友好、更直观，尤其在分析多线程或多进程程序时非常有用。以下截图就是在运行 Faster-LIO 实时建图时的 htop 状态展示： 🔍 一、颜色说明白色（或亮色&#xf…...

编程日记 2025/12/19 22:38:37

数据同步DataX任务在线演示

数据同步DataX任务在线演示 1. 登录系统访问系统登录页面，输入账号密码完成身份验证。 2. 环境准备下载datax安装包，并解压到安装目录 3. 集群创建点击控制台-多集群管理计算组件添加DataX 配置DataX引擎,Datax.local.path填写安装目录。 4. …...

编程日记 2025/12/19 22:38:38

The Graph：区块链数据索引的技术架构与创新实践

作为Web3生态的核心基础设施，The Graph通过去中心化索引协议重塑了链上数据访问的范式。其技术设计不仅解决了传统区块链数据查询的效率瓶颈，还通过经济模型与多链兼容性构建了一个开放的开发者生态。本文从技术角度解析其架构、机制及创新实践。一、技…...

编程日记 2025/12/14 7:59:33

telnetlib源码深入解析

telnetlib 是 Python 标准库中实现 Telnet 客户端协议的模块，其核心是 Telnet 类。以下从协议实现、核心代码逻辑和关键设计思想三个维度深入解析其源码。一、Telnet 协议基础 Telnet 协议基于明文传输，通过 IAC（Interpret As Command…...

编程日记 2025/12/5 15:51:13

【AI提示词】波特五力模型专家

提示说明具备深入对企业竞争环境分析能力的专业人士。提示词 # Role:波特五力模型专家## Profile - language:中文 - description:具备深入对企业竞争环境分析能力的专业人士 - background:熟悉经济学基础理论，擅长用五力模型分析行业竞争 - personality…...

编程日记 2025/12/5 2:07:25

爬虫逆向加密技术详解之对称加密算法：SM4加密解密

文章目录一、对称加密介绍二、SM4算法简介三、SM4加密解密原理四、快速识别SM4加密的方法4.1 密文长度判断4.2 验证密文字符集4.3 代码特征识别五、代码实现5.1 JavaScript实现SM4加密解密5.2 Python实现SM4加密解密一、对称加密介绍 SM4属于对称加密算法，不知道…...

编程日记 2025/7/16 16:43:32

React 播客专栏 Vol.9｜React + TypeScript 项目该怎么起步？从 CRA 到配置全流程

👋 欢迎回到《前端达人 React 播客书单》第 9 期（正文内容为学习笔记摘要，音频内容是详细的解读，方便你理解），请点击下方收听你是不是常在网上看到 .tsx 项目、Babel、Webpack、tsconfig、Vite、CRA、ESL…...

编程日记 2025/6/10 8:54:19

Android 数据持久化之文件存储

在 Android 开发中，存储文件是一个常见的需求。文件存储对数据不进行任何格式化处理，原封不动地保存到文件中。适合存储一些简单的文本数据或者二进制数据。一、存储路径根据文件的存储位置和访问权限，可以将文件存储分为内部存储（Internal Storage）和外部存储（Exter…...

编程日记 2025/9/20 20:07:25

TAPIP3D：持久3D几何中跟踪任意点

简述在视频中跟踪一个点（比如一个物体的某个特定位置）听起来简单，但实际上很复杂，尤其是在3D空间中。传统方法通常在2D图像上跟踪像素，但这忽略了物体的3D几何信息和摄像机的运动，导致跟踪不稳定&#xf…...

编程日记 2025/12/19 22:38:37

数据分析预备篇---NumPy数组

NumPy是数据分析时常用的库，全称为Numerical Python，是很多数据或科学相关Python包的基础，包括pandas，scipy等等，常常被用于科学及工程领域。NumPy最核心的数据结构是ND array，意思是N维数组。 #以下是一个普通列表的操作示例：arr = [5,17,3,26,31]#打印第一个元素 prin…...

编程日记 2025/12/19 10:18:59

uniapp 生成海报二维码（微信小程序）

先下载qrcodenpm install qrcode 调用 community_poster.vue <template><view class"poster-page"><uv-navbar title"物业推广码" placeholder autoBack></uv-navbar><view class"community-info"><text clas…...

编程日记 2025/12/19 22:38:35

16.Excel：数据收集

一使用在线协作工具简道云。 excel的在线表格协作在国内无法使用，而数据采集最需要在线协作。二使用 excel 1.制作表格在使用excel进行数据采集的时候，会制作表头给填写人，最好还制作一个示例。 1.输入提示当点击某个单元格的时候&am…...

编程日记 2025/12/19 22:38:36

第60篇：Pinecone与Milvus，向量数据库在大模型应用中的作用

摘要

引言：为什么需要向量数据库？

什么是向量数据库？

向量数据库的应用场景

核心概念与知识点

1. 向量数据库基础

向量嵌入基础

相似性搜索原理

索引类型对比

向量数据库与传统数据库的区别

Pinecone实战应用

账户设置与索引创建

安装依赖

初始化 Pinecone 并创建索引

插入向量

相似性搜索

输出示例

Milvus实战应用

部署与集群配置

安装 Milvus

Python 客户端连接

连接 Milvus 并插入数据

向量搜索

输出示例

应用架构与集成

与 LangChain 集成

安装依赖

Pinecone 集成

Milvus 集成

性能与选型对比

实战案例

案例一：企业搜索引擎

案例二：个性化推荐

实战案例：完整代码与部署指南

案例一：企业搜索引擎（Milvus + Elasticsearch + LangChain）

1. 系统架构设计

2. 技术栈要求

3. Milvus向量数据库初始化

4. Elasticsearch关键词索引创建

5. 向量化处理服务

6. LangChain混合搜索实现

7. 部署指南

案例二：个性化推荐系统（Pinecone + 用户行为分析）

1. 系统架构设计

2. 技术栈要求

3. Pinecone初始化

4. 用户行为向量化

5. 推荐引擎实现

6. API接口实现

7. 部署指南

扩展建议

1. 性能优化

2. 安全加固

3. 监控方案

4. 可扩展性设计

优化与故障排除

性能调优清单

常见问题与解决方案

总结与扩展思考

未来趋势

学习资源推荐

相关文章：