当前位置: 首页 > article >正文

从零开始:如何用Embedding和LLM构建一个智能问答系统(附代码示例)

从零构建基于Embedding与LLM的智能问答系统实战指南引言在信息爆炸的时代如何快速准确地获取所需知识成为技术团队的核心诉求。传统的关键词匹配搜索早已无法满足复杂语义查询的需求而结合Embedding技术与大语言模型LLM的智能问答系统正在重塑知识获取的方式。想象一下当开发者能够用自然语言直接提问如何在Python中高效处理百万级CSV文件系统不仅能理解问题的深层语义还能从海量文档中精准定位相关片段最后由LLM生成结构化的解决方案——这正是现代智能问答系统的魅力所在。本文将带您从零开始构建这样一个系统目标读者是具备Python基础的中高级开发者。我们不仅会剖析技术原理更会提供可直接复用的代码模块涵盖数据处理、向量化、语义检索到答案生成的完整链路。不同于简单的API调用教程本指南会深入每个环节的工程实现细节包括性能优化技巧和实际部署中常见的坑。1. 系统架构设计与核心组件1.1 技术选型与整体流程一个完整的智能问答系统通常采用检索增强生成RAG架构其核心工作流程可分为三个阶段知识处理阶段将原始文档PDF/HTML/Markdown等转换为结构化的向量表示查询处理阶段将用户问题转化为向量并进行相似度检索答案生成阶段将检索结果与问题组合由LLM生成最终回答# 系统核心组件示意图 class QASystem: def __init__(self): self.embedding_model text-embedding-3-small # 嵌入模型 self.llm gpt-4-turbo # 大语言模型 self.vector_db Chroma() # 向量数据库 def process_documents(self, files): # 文档预处理与向量化 pass def query(self, question): # 问题向量化与检索 # 答案生成 pass1.2 关键组件对比组件类型推荐选项适用场景性能考量嵌入模型OpenAI text-embedding-3-small通用语义理解平衡质量与成本BERT-base开源方案需本地GPU资源向量数据库Chroma轻量级嵌入内存友好Pinecone生产级大规模应用低延迟高并发LLMGPT-4-turbo最高质量生成API调用成本较高Llama 3 70B完全自主可控需要强大算力支持提示在原型开发阶段建议使用OpenAI的嵌入模型和API可快速验证效果生产环境则需考虑开源模型的私有化部署方案。2. 知识库构建与向量化2.1 数据预处理流水线原始文档需要经过清洗和结构化处理才能用于嵌入生成。典型处理流程包括文本提取使用PyPDF2、BeautifulSoup等库从各种格式中提取纯文本分块处理按语义将长文档分割为300-500字的段落元数据附加为每个文本块添加来源、创建时间等上下文信息from langchain.text_splitter import RecursiveCharacterTextSplitter text_splitter RecursiveCharacterTextSplitter( chunk_size400, chunk_overlap50, length_functionlen ) documents text_splitter.create_documents([raw_text])2.2 高质量嵌入生成技巧获得文本块后需要通过嵌入模型将其转换为向量表示。关键注意事项批量处理减少API调用次数OpenAI嵌入模型支持最大8192个文本/批次维度选择text-embedding-3-small提供1536维向量在质量和成本间取得平衡归一化处理将向量归一化为单位长度可提升余弦相似度计算准确性import openai import numpy as np def get_embeddings(texts): response openai.embeddings.create( inputtexts, modeltext-embedding-3-small ) return [np.array(embedding.embedding) / np.linalg.norm(embedding.embedding) for embedding in response.data]3. 向量检索优化策略3.1 高效相似度计算将用户问题转换为向量后需要在向量数据库中进行相似度搜索。常用的近似最近邻(ANN)算法包括HNSW基于图的结构适合中等规模数据集IVF倒排索引适合超大规模数据LSH局部敏感哈希内存占用低# 使用FAISS实现高效检索 import faiss dimension 1536 index faiss.IndexFlatIP(dimension) # 内积作为相似度度量 index.add(np.array(embeddings)) # 添加知识库向量 D, I index.search(np.array([query_embedding]), k3) # 返回top3结果3.2 混合检索策略单纯依赖向量检索可能返回相关性不高的结果可结合以下策略提升准确率关键词过滤先按关键词缩小范围再进行向量搜索元数据过滤限定文档类型、时间范围等条件重排序对初步结果用更复杂的交叉编码器进行精排注意当检索结果超过5个时建议添加重排序步骤可显著提升最终答案质量。4. LLM答案生成与优化4.1 提示工程最佳实践将检索到的上下文与用户问题组合成有效的提示词(prompt)是获得优质答案的关键。推荐模板基于以下上下文请专业且简洁地回答用户问题。如果信息不足请如实告知。 上下文 {context_str} 问题{query_str} 回答关键优化点位置控制将关键信息放在prompt开头和结尾LLM对这些位置更敏感指令明确指定回答风格技术性、简洁、详细等长度限制控制上下文长度避免超过LLM的token限制4.2 流式输出与延迟优化对于需要长时间处理的复杂问题可采用流式输出提升用户体验from openai import OpenAI client OpenAI() stream client.chat.completions.create( modelgpt-4-turbo, messages[{role: user, content: prompt}], streamTrue ) for chunk in stream: print(chunk.choices[0].delta.content or , end)性能优化技巧缓存机制对常见问题缓存LLM响应异步处理将向量检索与LLM调用并行化超时控制设置合理的API调用超时时间5. 部署与监控5.1 容器化部署方案使用Docker打包应用可确保环境一致性FROM python:3.9-slim WORKDIR /app COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt COPY . . CMD [gunicorn, --bind, 0.0.0.0:8000, app:app]配套的docker-compose.yml可集成向量数据库version: 3 services: web: build: . ports: - 8000:8000 depends_on: - chroma chroma: image: chromadb/chroma ports: - 8001:80005.2 监控指标设计为确保系统稳定运行应监控以下核心指标检索质量点击率、结果相关性人工评分生成质量答案准确性、流畅性评估性能指标P99延迟、每秒查询数(QPS)成本指标平均每次查询的token消耗在Kubernetes环境中可通过Prometheus和Grafana实现可视化监控# 安装监控套件 helm install prometheus prometheus-community/prometheus helm install grafana grafana/grafana6. 进阶优化方向当基本系统运行稳定后可考虑以下优化策略查询理解使用小型LLM分析用户意图优化检索策略动态分块根据文档结构标题、段落调整分块粒度多模态扩展支持图片、表格等非文本内容的检索反馈学习收集用户对结果的评价持续优化排序算法# 查询理解示例 def analyze_query(query): prompt f将用户问题分类并提取关键信息 问题{query} 类型技术问题/概念解释/代码示例/其他 response client.chat.completions.create( modelgpt-3.5-turbo, messages[{role: user, content: prompt}], temperature0 ) return response.choices[0].message.content实际部署中发现对技术文档类知识库采用层次化分块策略先按章节分大块再按段落分小块配合两阶段检索先找相关章节再定位具体段落可提升约40%的答案准确率。

相关文章:

从零开始:如何用Embedding和LLM构建一个智能问答系统(附代码示例)

从零构建基于Embedding与LLM的智能问答系统实战指南 引言 在信息爆炸的时代,如何快速准确地获取所需知识成为技术团队的核心诉求。传统的关键词匹配搜索早已无法满足复杂语义查询的需求,而结合Embedding技术与大语言模型(LLM)的智…...

构建跨平台AI工具:使用Java调用百川2-13B服务并开发桌面客户端

构建跨平台AI工具:使用Java调用百川2-13B服务并开发桌面客户端 很多Java开发者朋友可能都有过这样的想法:那些炫酷的AI对话功能,能不能用自己最熟悉的Java技术栈来实现,并且打包成一个独立的桌面应用,放在自己的电脑上…...

深入解析mlx5 RDMA网卡hw_counter指标及其故障排查应用

1. 认识mlx5 RDMA网卡的hw_counter指标 第一次接触RDMA网卡性能监控时,我也被/sys/class/infiniband/目录下密密麻麻的计数器文件弄得一头雾水。直到有次线上服务出现严重延迟,通过分析hw_counter指标快速定位到RNR NAK重传问题,才真正体会到…...

MedGemma X-RayGPU算力方案:单卡部署+多并发请求性能压测

MedGemma X-RayGPU算力方案:单卡部署多并发请求性能压测 1. 项目概述 MedGemma X-Ray 是一款基于前沿大模型技术开发的医疗影像智能分析平台,专门用于胸部X光片的智能解读。这个系统将人工智能的强大理解能力应用于放射科影像,能够协助用户…...

Qwen2.5-7B-Instruct保姆级教程:vLLM模型服务HTTPS安全访问配置

Qwen2.5-7B-Instruct保姆级教程:vLLM模型服务HTTPS安全访问配置 1. 教程概述与学习目标 本教程将手把手教你如何为基于vLLM部署的Qwen2.5-7B-Instruct模型服务配置HTTPS安全访问,并使用chainlit构建友好的前端交互界面。 通过本教程,你将学…...

Janus-Pro-7B多模态统一架构解析:视觉编码解耦如何提升像素级生成质量

Janus-Pro-7B多模态统一架构解析:视觉编码解耦如何提升像素级生成质量 1. 引言:多模态模型的架构革新 在人工智能快速发展的今天,多模态模型正成为技术前沿的热点。传统的多模态模型往往面临一个根本性挑战:理解任务和生成任务之…...

高效配置OpenCore引导:OCAuxiliaryTools图形化工具全指南

高效配置OpenCore引导:OCAuxiliaryTools图形化工具全指南 【免费下载链接】OCAuxiliaryTools Cross-platform GUI management tools for OpenCore(OCAT) 项目地址: https://gitcode.com/gh_mirrors/oc/OCAuxiliaryTools OCAuxiliaryTo…...

功率放大器匹配电路设计:如何用ADS2011的Smith圆图实现宽带匹配(以960MHz案例为例)

功率放大器匹配电路设计:ADS2011 Smith圆图宽带匹配实战解析 在射频功率放大器设计中,输入输出匹配网络的性能直接决定了系统的功率传输效率和带宽特性。传统教材往往侧重于理论推导,而实际工程中更依赖工具辅助下的可视化设计方法。本文将聚…...

UNIT-00:Berserk Interface驱动智能客服:对话生成与意图识别实战

UNIT-00:Berserk Interface驱动智能客服:对话生成与意图识别实战 最近和几个做电商的朋友聊天,他们都在头疼同一件事:客服成本越来越高,但服务质量却很难保证。高峰期咨询量一大,回复慢、答非所问的情况就…...

EPLAN实战:两台三相电机独立控制电路设计保姆级教程(附常见错误解析)

EPLAN实战:两台三相电机独立控制电路设计保姆级教程(附常见错误解析) 在工业自动化领域,三相电机的控制电路设计是电气工程师的必修课。特别是当系统需要同时控制多台电机时,如何实现独立操作与联动保护的平衡&#xf…...

从零开始搭建汽车电子Bootloader:UDS协议详解与常见问题排查

从零开始搭建汽车电子Bootloader:UDS协议详解与常见问题排查 当你按下汽车启动按钮时,ECU(电子控制单元)内部最先唤醒的不是你熟悉的车辆功能,而是一个默默无闻的"守门人"——Bootloader。这个不足千字节的小…...

5分钟搞定!用GISSaaS.MapDownloader一键下载高德/百度/腾讯地图离线包(附详细配置截图)

高效获取多平台地图数据:GISSaaS.MapDownloader全流程指南 在GIS开发或户外探险场景中,离线地图数据的重要性不言而喻。无论是应对网络不稳定环境,还是进行大规模地理数据分析,本地存储的地图资源都能显著提升工作效率。传统手动下…...

零基础入门Qwen3-ASR-1.7B:开箱即用的语音识别镜像实战

零基础入门Qwen3-ASR-1.7B:开箱即用的语音识别镜像实战 1. 模型介绍与核心优势 Qwen3-ASR-1.7B是阿里云通义千问团队开发的开源语音识别模型,作为ASR系列的高精度版本,具有以下突出特点: 多语言支持:覆盖52种语言和…...

墨语灵犀开发环境搭建:IntelliJ IDEA中配置与调试模型项目

墨语灵犀开发环境搭建:IntelliJ IDEA中配置与调试模型项目 如果你是一位Java或Python开发者,正想尝试墨语灵犀这类大模型项目,但看着命令行和远程服务器有点发怵,那这篇文章就是为你准备的。我们不用离开熟悉的开发环境&#xff…...

不用后端配合!纯前端实现图片下载/截屏保存的3种实战方案(含html2canvas配置详解)

纯前端实现图片下载与截屏保存的3种高阶方案 在Web开发中,经常会遇到需要让用户下载图片或保存页面截屏的需求。传统做法往往依赖后端配合,但现代前端技术已经能够独立完成这些任务。本文将深入探讨三种无需后端介入的纯前端解决方案,特别针对…...

内存泄漏:隐形杀手与防御指南

内存泄漏:隐形杀手与防御指南在软件开发的漫长生命周期中,**内存泄漏(Memory Leak)**往往是最隐蔽、最致命的性能杀手之一。它不像空指针异常那样会让程序立即崩溃,而是像“慢性毒药”,随着运行时间的推移&…...

SRTM 90m DEM数据应用指南:从下载到分析的完整工作流

SRTM 90m DEM数据应用指南:从下载到分析的完整工作流 在数字地形分析领域,SRTM(航天飞机雷达地形测绘任务)数据已成为全球范围内最常用的高程数据源之一。对于地理信息系统(GIS)从业者、环境科学研究人员以…...

破解抖音跳转限制:2023最新Schema唤醒技术实战

1. 抖音跳转限制的现状与破解思路 最近不少开发者发现,抖音对网页跳转APP的限制越来越严格。以前直接在网页里放个链接就能唤醒抖音APP,现在很多场景下都不管用了。我自己做项目时就遇到过这个问题:用户从H5页面点击跳转按钮,结果…...

人工智能如何辅助论文写作?这几款AI工具实测有效

AI 能帮你搞定论文全流程,从选题、文献、大纲、初稿、润色到降重,大幅提升效率;实测下来,PaperRed、毕业之家、豆包、DeepSeek、QuillBot、Grammarly 这几款最实用、最稳。一、AI 辅助论文写作的核心方式(全流程&#…...

基于C#与YOLO的身份证字段定位识别实战:从模型训练到ONNX部署

1. 身份证识别技术背景与应用场景 身份证识别技术在现代社会中扮演着越来越重要的角色。无论是银行开户、酒店入住,还是各种线上实名认证场景,快速准确地提取身份证信息都是刚需。传统OCR技术虽然能处理标准文本,但对于身份证这种包含固定字段…...

手机也能写论文?亲测好用的移动端论文工具推荐

还在为赶论文 deadline 挤在图书馆?出门在外、工位被占,手机就是你的移动论文写作站!这 5 款移动端工具覆盖写作、降重、查重、排版全流程,帮你随时随地高效搞定论文,告别焦虑~🌟 核心工具对比总…...

5分钟学会用FFmpeg调整视频速度:内含保持音调不变的音频处理技巧

5分钟掌握FFmpeg变速技巧:视频加速/减速与音频保真全攻略 在短视频创作和社交媒体内容爆炸的时代,视频处理技能已成为数字创作者的必备工具。想象一下这样的场景:你拍摄了一段完美的产品演示视频,但回放时发现节奏太慢&#xff1b…...

Qwen3-Reranker-8B内存优化:在16GB显卡上的部署方案

Qwen3-Reranker-8B内存优化:在16GB显卡上的部署方案 1. 引言 如果你手头只有一张16GB显存的GPU,却想运行Qwen3-Reranker-8B这样的大模型,可能会觉得有点棘手。毕竟8B参数的模型通常需要更多的显存,直接加载很可能就会爆显存。 …...

Java开发者指南:SpringBoot集成RexUniNLU,构建高性能NLU服务接口

Java开发者指南:SpringBoot集成RexUniNLU,构建高性能NLU服务接口 1. 为什么选择RexUniNLU 在电商客服系统升级项目中,我们遇到了一个典型问题:用户咨询表达千变万化。"快递还没到"、"物流停了"、"多久…...

微信小程序11065版本F12控制台开启全攻略(附最新JSON配置)

微信小程序11065版本开发者控制台配置全解析 最近在调试微信小程序时,发现不少开发者对如何开启F12控制台功能存在困惑。特别是随着微信更新到11065版本后,原有的方法可能不再适用。本文将从一个实际开发者的角度,分享最新版本的完整配置方案…...

I2C上拉电阻选型避坑指南:从1.5K到4.7K的实战经验分享

I2C上拉电阻选型避坑指南:从1.5K到4.7K的实战经验分享 在嵌入式硬件设计中,I2C总线因其简洁的两线制结构(SDA和SCL)和灵活的多主从架构,成为传感器、存储器和各类外设连接的常用选择。然而,许多工程师在电路…...

K3s证书过期了?5分钟教你用Rancher界面一键更新(附10年有效期脚本)

K3s证书管理实战:Rancher界面操作与10年有效期自动化方案 当K3s集群的证书突然过期,整个运维团队可能陷入手忙脚乱的状态。服务中断、API不可用、监控告警接踵而至——这种场景对于使用轻量级Kubernetes发行版K3s的企业来说并不陌生。本文将彻底解决这个…...

3个维度突破:ScanObjectNN如何重塑3D点云分类的真实世界基准

3个维度突破:ScanObjectNN如何重塑3D点云分类的真实世界基准 【免费下载链接】scanobjectnn 项目地址: https://gitcode.com/gh_mirrors/sc/scanobjectnn ScanObjectNN(Scan Object Neural Network)是由香港科技大学视觉图形实验室开…...

解锁BilibiliDown:7种高效B站音视频下载解决方案

解锁BilibiliDown:7种高效B站音视频下载解决方案 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi/Bil…...

雪女-斗罗大陆-造相Z-Turbo数据库集成实战:MySQL连接与生成数据管理

雪女-斗罗大陆-造相Z-Turbo数据库集成实战:MySQL连接与生成数据管理 最近在折腾一个挺有意思的项目,想把AI生成的内容好好管理起来。具体来说,就是用“雪女-斗罗大陆-造相Z-Turbo”这个模型,生成各种斗罗大陆相关的角色描述、场景…...