当前位置：首页 > article >正文

检索增强生成（2）本地PDF 本地嵌入模型

article 2026/3/2 4:43:07


from langchain_community.document_loaders import PyPDFLoader
from pathlib import Pathdef load_local_pdf(file_path):if not Path(file_path).exists():raise FileNotFoundError(f"文件 {file_path} 不存在！")loader = PyPDFLoader(file_path)try:docs = loader.load()print(f"成功加载 {len(docs)} 页 | 首页内容片段: {docs[0].page_content[:200]}...")return docsexcept Exception as e:print(f"加载失败: {str(e)}")return None# For openai key
import os
os.environ["OPENAI_API_KEY"] = "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"# 1. 初始化OpenAI模型
from langchain_openai.chat_models import ChatOpenAIllm = ChatOpenAI(model_name="gpt-4o-mini")# 测试OpenAI调用
response = llm.invoke("奖惩的原则是什么?")
print(response.content)# 2. 加载PDF文档
from langchain_community.document_loaders import PyPDFLoader# Or download the paper and put a path to the local file instead
# loader = PyPDFLoader("https://arxiv.org/pdf/2402.03216")
# docs = loader.load()
# print(docs[0].metadata)local_docs = load_local_pdf("C:\\员工奖惩管理办法.pdf")# 3. 分割文本
from langchain.text_splitter import RecursiveCharacterTextSplitter# initialize a splitter
# 配置智能分割器
splitter = RecursiveCharacterTextSplitter(chunk_size=1000,chunk_overlap=200,  # 增加重叠比例separators=["\n\n", "。", "\n", " ", ""],  # 优化分隔符优先级length_function=len,add_start_index=True  # 记录起始位置
)# use the splitter to split our paper
corpus = splitter.split_documents(local_docs)
print(f"分割后文档数: {len(corpus)} | 首块内容示例:\n{corpus[0].page_content[:200]}...")# 4. 初始化嵌入模型
from langchain_huggingface.embeddings import HuggingFaceEmbeddings# 指定本地模型路径
model_path = "./models/bge-large-zh-v1.5"
# embedding_model = HuggingFaceEmbeddings(model_name="BAAI/bge-large-zh-v1.5", encode_kwargs={"normalize_embeddings": True})
embedding_model = HuggingFaceEmbeddings(model_name=model_path,  # 直接指向本地路径encode_kwargs={"normalize_embeddings": True},model_kwargs={"local_files_only": True}  # 强制从本地加载
)# 5. 构建向量数据库
from langchain_community.vectorstores import FAISSvectordb = FAISS.from_documents(corpus, embedding_model)# (optional) save the vector database to a local directory
# 保存向量库（确保目录权限）
if not os.path.exists("vectorstore.db"):vectordb.save_local("vectorstore.db")
print("向量数据库已保存")# 6. 创建检索链
from langchain_core.prompts import ChatPromptTemplatetemplate = """
You are a Q&A chat bot.
Use the given context only, answer the question.<context>
{context}
</context>Question: {input}
"""# Create a prompt template
prompt = ChatPromptTemplate.from_template(template)from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.chains import create_retrieval_chaindoc_chain = create_stuff_documents_chain(llm, prompt)
# Create retriever for later use
retriever = vectordb.as_retriever(search_kwargs={"k": 3})  # 调整检索数量
chain = create_retrieval_chain(retriever, doc_chain)# 7. 执行查询
response = chain.invoke({"input": "奖惩的原则是什么?"})# print the answer only
print("\n答案:", response['answer'])

模型下载参考上一篇文章: 使用huggingface-cli下载模型

检索增强生成（2）本地PDF 本地嵌入模型

from langchain_community.document_loaders import PyPDFLoader from pathlib import Pathdef load_local_pdf(file_path):if not Path(file_path).exists():raise FileNotFoundError(f"文件 {file_path} 不存在！")loader PyPDFLoader(file_path)try:do…...

编程日记 2025/7/22 8:40:26

又双叒叕Scrapy爬虫相关的面试题及详细解答

Scrapy是Python开发的一个快速、高层次的网络爬虫框架，专注于高效抓取网页并提取结构化数据。其核心设计基于异步处理机制，适合大规模数据采集任务。文章目录基础概念1. Scrapy框架的核心组件有哪些？架构与流程2. 描述Scrapy的工作流程核心组件详解3. 如何自定义Item Pipe…...

编程日记 2026/2/15 13:16:14

【QA】装饰模式在Qt中有哪些运用？

在Qt框架中，装饰模式（Decorator Pattern）主要通过继承或组合的方式实现，常见于IO设备扩展和图形渲染增强场景。以下是Qt原生实现的装饰模式典型案例： 一、QIODevice装饰体系（继承方式） 场景 …...

编程日记 2025/5/21 2:22:05

【保姆级】阿里云codeup配置Git的CI/CD步骤

以下是通过阿里云CodeUp的Git仓库进行CI/CD配置的详细步骤，涵盖前端（Vue 3）和后端（Spring Boot）项目的自动化打包，并将前端打包结果嵌入到Nginx的Docker镜像中，以及将后端打包的JAR文件拷贝至Do…...

编程日记 2025/12/3 20:34:51

使用STM32CubeMX+DMA+空闲中断实现串口接收和发送数据（STM32G070CBT6）

1.STM32CubeMX配置 （1）配置SYS （2）配置RCC （3）配置串口，此处我用的是串口4，其他串口也是一样的 （4）配置DMA，将串口4的TX和RX添加到DMA中 &#…...

编程日记 2026/3/1 12:37:08

【视觉提示学习】3.21论文随想

. . Frontiers of Information Technology & Electronic Engineering. 2024, 25(1): 42-63 https://doi.org/10.1631/FITEE.2300389 中文综述，根据里面的架构，把视觉提示学习分成两类，一类是单模态提示学习（以vit为代表&…...

编程日记 2026/2/26 19:42:52

（一）丶Windows安装RabbitMQ可能会遇到的问题

一丶可能会忘了配置ERLang的环境变量二丶执行命令时报错第一步 rabbitmq-plugins enable rabbitmq_management 第二部 rabbitmqctl status 三丶修改.erlang.cookie 文件 1.找到C盘目下的.erlang.cookie文件 C:\Users\admin\.erlang.cookie C:\Windows\System32\config\sys…...

编程日记 2026/2/14 8:38:43

Mistral AI发布开源多模态模型Mistral Small 3.1：240亿参数实现超越GPT-4o Mini的性能

法国人工智能初创公司Mistral AI于2025年3月正式推出新一代开源模型Mistral Small 3.1 ，该模型凭借240亿参数的轻量级设计，在多项基准测试中表现优异，甚至超越了Google的Gemma 3和OpenAI的GPT-4o Mini等主流专有模型。 1、核心特性与优势多…...

编程日记 2026/2/15 6:05:36

如何在IPhone 16Pro上运行python文件？

在 iPhone 16 Pro 上运行 Python 文件需要借助第三方工具或远程服务，以下是具体实现方法和步骤： 一、本地运行方案（无需越狱） 使用 Python 编程类 App 以下应用可在 App Store 下载，支持直接在 iPhone 上编写并运行 …...

编程日记 2026/2/23 12:11:45

springboot整合mybatis-plus【详细版】

目录一，简介 1. 什么是mybatis-plus2.mybatis-plus特点二，搭建基本环境 1. 导入基本依赖：2. 编写配置文件3. 创建实体类4. 编写controller层5. 编写service接口6. 编写service层7. 编写mapper层三，基本知识介绍 1. 基本注解 T…...

编程日记 2026/2/20 12:34:19

视频剪辑行业的现状与进阶之路：一个双视角分析

视频剪辑行业的现状与进阶之路：一个双视角分析一、现状解析商业角度分析成本控制培训需要投入时间和人力成本快节奏的市场环境要求快速产出人员流动性大，培训投入可能无法获得长期回报市场需求大量内容需要快速产出标准化的剪辑模板更容易管理 …...

编程日记 2026/2/24 12:19:14

k近邻图（knn-graph）和局部线性嵌入图（LLE-graph）的相似性和区别

K 近邻图（KNN - graph）和局部线性嵌入图（LLE - graph）是用于构建数据点之间关系图的两种方法。 1. k近邻图（knn-graph） 核心思想：k近邻图通过计算样本之间的距离来构建图。具体来说&#xff0c…...

编程日记 2026/3/1 5:55:05

Qt之MVC架构MVD

什么是MVC架构： MVC模式（Model–view–controller）是软件工程中的一种软件架构模式，把软件系统分为三个基本部分：模型（Model）、视图（View）和控制器（Controll…...

编程日记 2026/2/24 13:53:53

使用 Apktool 反编译、修改和重新打包 APK

使用 Apktool 反编译、修改和重新打包 APK 在 Android 逆向工程和应用修改过程中，apktool 是一个强大的工具，它允许我们解包 APK 文件、修改资源文件或代码，并重新打包成可安装的 APK 文件。本文将介绍如何使用 apktool 进行 APK 反编译、修…...

编程日记 2026/2/13 17:48:08

深度解析学术论文成果评估(Artifact Evaluation)：从历史到现状

深度解析学术论文成果评估(Artifact Evaluation)：从历史到现状引言在计算机科学和工程领域的学术研究中，可重复性和可验证性越来越受到重视。随着实验性研究的复杂性不断增加，确保研究成果可以被其他研究者验证和构建变得尤为重要。这一需…...

编程日记 2026/2/14 4:44:43

二分查找上下界问题的思考

背景最近在做力扣hot100中的二分查找题目时，发现很多题目都用到了二分查找的变种问题，即二分查找上下界问题，例如以下题目： 35. 搜索插入位置 74. 搜索二维矩阵 34. 在排序数组中查找元素的第一个和最后一个位置它们不同于查找…...

编程日记 2026/2/19 21:30:10

关于FastAPI框架的面试题及答案解析

FastAPl是一个现代、快速（高性能）的Web框架，用于构建API，基于Python3.7+的类型提示功能。它由Python开发者SebastianRamirez创建，并且使用了Starlette作为其核心组件以及Pydantic进行数据验证。文章目录基础篇1. FastAPI的核心优势是什么？2. 如何定义一个GET请求路由？…...

编程日记 2026/2/26 10:50:54

Ubuntu检查并启用 Nginx 的stream模块或重新安装支持stream模块的Nginx

stream 模块允许 Nginx 处理 TCP 和 UDP 流量，常用于负载均衡和端口转发等场景。本文将详细介绍如何检查 Nginx 是否支持 stream 模块，以及在需要时如何启用该模块。 1. 检查 Nginx 是否支持 stream 模块首先，需要确认当前安装的 Nginx 是…...

编程日记 2026/1/23 22:30:12

HashMap添加元素的流程图

文章目录 JDK7 vs JDK8 的 HashMap 结构变化Java8 中哈希表的红黑树优化机制HashMap 添加元素的完整流程解析1. 计算 key 的哈希值并确定索引2. 检查该索引位置是否已有元素3. 处理哈希冲突4. 判断当前存储结构（链表还是红黑树）5. 判断链表长度是否超过 …...

编程日记 2026/2/14 15:39:50

（八）Set 的使用

Set 的使用 Set 的特点主要功能：去除重复内容。特性：无序且不支持重复的集合，不能通过索引访问元素。示例代码 void main() {// 创建一个包含重复元素的列表List<String> fruits [香蕉, 苹果, 西瓜, 香蕉, 苹果, 香蕉, 苹果];//…...

编程日记 2026/1/29 15:50:25

Spring Boot 集成 Kafka 消息发送方案

一、引言在 Spring Boot 项目中，Kafka 是常用的消息队列，可实现高效的消息传递。本文介绍三种在 Spring Boot 中使用 Kafka 发送消息的方式，分析各自优缺点，并给出对应的 pom.xml 依赖。二、依赖引入在 pom.xml 中添加以下依赖： <dependencies><!-- Sprin…...

编程日记 2026/2/16 12:22:01

面向医药仓储场景下的药品分拣控制策略方法研究（大纲）

面向医药仓储场景下的药品分拣控制策略方法研究基于多机器人协同与智能调度的分拣系统设计第一章绪论 1.1 研究背景与意义医药仓储自动化需求： 人工分拣效率低、出错率高（如药品批次混淆、过期风险）温控药品（如疫苗、生物制…...

编程日记 2026/3/2 3:12:34

AI大模型介绍

大模型介绍大模型是指具有大规模参数和复杂计算结构的机器学习模型，通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数开发大模型不是从0开始，是建立在已有的大模型基座模型上做开发，构建企业知识库（向量数据库…...

编程日记 2026/2/15 6:19:49

Python日期时间向前向后N个月及对应月初和月末

Python日期和时间的计算主要使用自带的datetime和calendar库，部分需要借助第三方dateutil库。下面具体说明时间的加减运算，月份的起始和结束日期，向前向后移动的时间间隔等，代码如下： from datetime import date, dat…...

编程日记 2026/2/14 21:42:52

OpenPCDet详细部署与复现

OpenPCDet简介 OpenPCDet是一个用于3D目标检测的开源工具箱，它提供了多种数据集的加载器，支持多种模型，并且易于扩展。本人使用硬件与环境 Linux操作系统（Ubuntu20.04） Python环境（Anaconda下独立创建&…...

编程日记 2026/2/27 0:00:08

同旺科技USB to I2C 适配器 ---- 指令之间延时功能

所需设备： 内附链接 1、同旺科技USB to I2C 适配器 1、指令之间需要延时发送怎么办？循环过程需要延时怎么办？如何定时发送？现在这些都可以轻松解决； 2、只要在 “发送数据” 栏的Delay单元格里面输入相应的延迟时间就…...

编程日记 2026/2/14 15:51:08

网络华为HCIA+HCIP NFV

目录 NFV关键技术：虚拟化 NFV关键技术：云化 NFV架构 NFV标准架构编辑 NFV架构功能模块 NFV架构接口 NFV关键技术：虚拟化在NFV的道路上，虚拟化是基础，云化是关键。传统电信网络中，各个网元都是…...

编程日记 2026/2/26 19:09:43

MySQL0基础学习记录-下载与安装

下载下载地址： （Windows）https://dev.mysql.com/downloads/file/?id536787 安装直接点next，出现： 点execute 然后一直next到这页： next 然后需要给root设置一个密码： 在next。。很多页…...

编程日记 2026/3/1 18:25:41

【万字总结】前端全方位性能优化指南（五）——HTTP/3+QUIC、0-RTT会话恢复、智能压缩决策树

前言在5G与边缘计算重塑网络格局的今天，传统TCP协议已成为性能跃迁的最后瓶颈。HTTP/3凭借QUIC协议实现传输层革新，通过UDP多路复用+零RTT握手，在弱网环境下仍可保持90%以上的传输效率，头部企业实测首屏加载时间降低40%。本章聚焦三大突破性实践：从Nginx/K8s集群的HTTP/3…...

编程日记 2026/2/27 15:07:05

集成学习（下）：Stacking集成方法

一、Stacking的元学习革命 1.1 概念 Stacking（堆叠法） 是一种集成学习技术，通过组合多个基学习器（base learner）的预测结果，并利用一个元模型（meta-model）进行二次训练&#xff0c…...

编程日记 2026/2/22 10:53:17

相关文章：