当前位置: 首页 > article >正文

基于DeepSeek,构建个人本地RAG知识库

经过一段使用DeepSeek后,感觉使用体验和ChatGPT基本差不多,回答问题的质量略有提升,因DeepSeek已开源,它的模型、模型参数权重从网上都可以下载到,所以可以基于开源的模型,在本地构建一个自己的知识库,小编这里使用的是蒸馏后的模型参数权重 deepseek-r1:1.5b

RAG (Retrieval-Augmented Generation)检索增强生成,是一种通过整合外部知识库来增强大模型(LLM)回答问题质量的模式。最简单的理解,可以认为是给大模型外挂了一个知识库
很多大模型的问题,多数是由于数据缺失造成的,企业中解决这类数据确实的问题,通常的方案是采取企业向量知识库的方式,在应用Prompt的时候,先从企业知识库中检索与Prompt关联的知识,然后把领域知识和原始Prompt整合在一起,最后作为大模型的输入

这样大模型就了解了领域专业知识,也能更好的回答问题

最近春招和实习已开启了。

不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。

最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。

  • 《大模型面试宝典》(2025版) 正式发布!

喜欢本文记得收藏、关注、点赞。更多实战和面试交流,文末加入我们

技术交流

在这里插入图片描述

小编环境

基于Win10中的Linux子系统进行部署安装
Linux子系统:Ubuntu 22.04.5 LTS

python -V  
# Python 3.11.11uname -a
# Linux DESKTOP-KREEAFH 5.15.167.4-microsoft-standard-WSL2 #1 
# SMP Tue Nov 5 00:21:55 UTC 2024 x86_64 x86_64 x86_64 GNU/Linuxlsb_release -a
# No LSB modules are available.
# Distributor ID: Ubuntu
# Description:    Ubuntu 22.04.5 LTS
# Release:        22.04
# Codename:       jammy

环境

安装Ollama,并下载deepseek模型

官网地址:https://ollama.com/download
官网命令:curl -fsSL https://ollama.com/install.sh | sh

因该网站是国外服务器,所以都懂得,按官网命令进行安装,基本都不会成功,所有需要魔改安装脚本 install.sh

1. 在Linux下载 install.sh 安装脚本文件到本地

 curl -fsSL https://ollama.com/install.sh -o install.sh

2. 修改安装脚本文件,需要开启魔法上网
在83行增加curl命令的代理参数,前面ip地址为Win10的网络地址,端口需要查看自己本地魔法上网的软件端口,小编使用的是 v2rayN,因为是在Linux子系统中使用,需要使用局域网的http端口

curl --fail --show-error --location --progress-bar \--proxy http://192.168.21.121:10811 \"https://ollama.com/download/ollama-linux-${ARCH}.tgz${VER_PARAM}" | \$SUDO tar -xzf - -C "$OLLAMA_INSTALL_DIR"

curl

curl

代理端口

代理端口

3. 开启魔法上网,执行安装脚本文件

bash install.sh

4. 下载模型参数权重文件

ollama pull deepseek-r1:1.5b

安装Python环境依赖包

新建requirements.txt文件,需要把以下内容放入该文件

langchain
langchain-community
langchain_experimental
streamlit
pdfplumber
semantic-chunkers
open-text-embeddings
ollama
prompt-template
sentence-transformers
faiss-cpu

安装上面列出的所有三方库:

pip install -r requirements.txt

Web完整代码

app.py文件内容

import streamlit as st
from langchain_community.document_loaders import TextLoader
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain_community.llms import Ollama
import osdef initialize_interface():# 定义 CSS 样式st.markdown("""<style>.text-color {color: grey; /* 设置字体颜色为灰色 */font-size: 25px; /* 设置字体大小为 20px */}</style>""", unsafe_allow_html=True)st.markdown("""<h1 style="text-align:center;">个人本地知识库 <span class="text-color">@DeepSeek </span></h1>""",unsafe_allow_html=True)def load_documents(folder_path):documents = []for file_name in os.listdir(folder_path):file_path = os.path.join(folder_path, file_name)loader = TextLoader(file_path)documents.extend(loader.load())  # 读取本地文件的內容return documentsdef create_vectorstore(documents, model_name="deepseek-r1:1.5b"):embeddings = OllamaEmbeddings(model=model_name)vectorstore = FAISS.from_documents(documents, embeddings)return vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})def initialize_qa_chain(retriever, model_name="deepseek-r1:1.5b"):llm = Ollama(model=model_name)return RetrievalQA.from_chain_type(llm, retriever=retriever)def main():initialize_interface()  # 初始化webdocuments = load_documents("data")  # 加载本地文件内容retriever = create_vectorstore(documents)  # 创建RAGqa_chain = initialize_qa_chain(retriever)  # 初始化问答query = st.text_area("请输入要搜索问题:",height=80)if query:response = qa_chain.run(query)st.write("💡 回答:", response)if __name__ == "__main__":main()

项目文件结构

把个人的知识库内容放入data目录下面,目前支持text文件

目录结构

目录结构

启动Web程序

启动Web程序,按照提示打开浏览器,这里需稍等几分钟图片(根据个人的电脑配置决定),然后就可以提问

streamlit run ./rag/app.py

web界面

参考文章

  1. https://sebastian-petrus.medium.com/developing-rag-systems-with-deepseek-r1-ollama-f2f561cfda97
  2. https://zhuanlan.zhihu.com/p/17210266424
  3. https://github.com/henry3556108/rag

相关文章:

基于DeepSeek,构建个人本地RAG知识库

经过一段使用DeepSeek后&#xff0c;感觉使用体验和ChatGPT基本差不多&#xff0c;回答问题的质量略有提升&#xff0c;因DeepSeek已开源&#xff0c;它的模型、模型参数权重从网上都可以下载到&#xff0c;所以可以基于开源的模型&#xff0c;在本地构建一个自己的知识库&…...

散户如何实现自动化交易下单——篇1:体系介绍与获取同花顺资金账户和持仓信息

一、为什么要实现自动化交易 在瞬息万变的金融市场中&#xff0c;越来越多的散户投资者开始尝试构建自己的交易策略&#xff1a;有人通过技术指标捕捉趋势突破&#xff0c;有人利用基本面分析挖掘低估标的&#xff0c;还有人设计出复杂的网格交易或均值回归模型。然而&a…...

轻松实现语音生成:GPT-SoVITS V2整合包的远程访问操作详解

文章目录 前言1.GPT-SoVITS V2下载2.本地运行GPT-SoVITS V23.简单使用演示4.安装内网穿透工具4.1 创建远程连接公网地址 5. 固定远程访问公网地址 前言 今天要给大家安利一个绝对能让你大呼过瘾的声音黑科技——GPT-SoVITS&#xff01;这款由花儿不哭大佬精心打造的语音克隆神…...

【微知】git 如何修改某个tag名字?如何根据某个commit创建一个tag?

背景 某些时候git tag名字搞错了&#xff0c;需要修改&#xff0c;如何处理&#xff1f; 删除某个tag git tag -d oldtagname修改某个tag名字 创建新的&#xff0c;删除老的 git tag newtagname git tag -d oldtagname基于某个老的commit创建一个tag git tag V0.1.0 xxxc…...

Java中使用for和Iterator遍历List集合的区别

在 Java 中&#xff0c;遍历 List 可以使用 for 循环 和 Iterator 两种方式。它们各有优缺点&#xff0c;适用于不同的场景。以下是它们的区别和适用场景&#xff1a; 1. 语法和使用方式 for 循环&#xff1a; 使用索引遍历列表。 示例&#xff1a; List<String> li…...

删除有序链表中重复的元素-II(C++)

目录 问题描述 示例1 示例2 解题思路 代码实现 代码解析 1. 初始化 2. 遍历链表 总结 问题描述 给出一个升序排序的链表&#xff0c;删除链表中的所有重复出现的元素&#xff0c;只保留原链表中只出现一次的元素。 例如&#xff1a; 给出的链表为1→2→3→3→4→4→51…...

SFP(Small Form-factor Pllugable)详解

1. SFP的定义 SFP&#xff08;Small Form-factor Pluggable&#xff09;是一种小型化热插拔光模块/电模块&#xff0c;广泛用于网络设备&#xff08;如交换机、路由器、网卡等&#xff09;中&#xff0c;作为物理层接口模块。其设计遵循由多源协议&#xff08;MSA&#xff09;…...

【0011】HTML其他文本格式化标签详解(em标签、strong标签、b标签、i标签、sup标签、sub标签......)

如果你觉得我的文章写的不错&#xff0c;请关注我哟&#xff0c;请点赞、评论&#xff0c;收藏此文章&#xff0c;谢谢&#xff01; 本文内容体系结构如下&#xff1a; 本文旨在深入探讨HTML中其他的文本格式化标签&#xff0c;主要有<em> 标签、<strong> 标签、…...

在分布式系统中,解决因锁持有者故障导致锁无法释放的问题

分布式锁的自动释放与容错机制 在分布式系统中&#xff0c;如果锁的持有者因故障无法主动释放锁&#xff0c;可能会导致死锁或业务阻塞。为了提高系统的稳定性和可用性&#xff0c;需要结合自动释放机制和容错设计。以下是几种关键解决方案&#xff1a; 1. 设置锁的自动过期时…...

结构型模式--组合模式

概念 组合人模式是结构型设计模式的一种&#xff0c;主要是用于解决代码中出现类像树一样进行组合而出现的组合结构的相关操作问题。使其树中的任意一个节点&#xff08;无论是子节点还是父节点&#xff09;都可以使用同一套接口进行操作。 使用场景 1、如果希望我们对象组合…...

时间复杂度练习题(6道题,C语言)

// 第一道int x 90;int y 100;while (y>0)if(x>100){x x -10;y--;}else x; // 第二道for (int i 0;i<n;i){for (int j 0;j<m;j){a[i][j] 0;}}// 第三道s 0;for(int i 1;i<n;i){for(int j 1;j<n;j){s B[i][j];}}sum s; // 第四道i 1;while (i<…...

第十四届蓝桥杯大赛软件赛国赛C/C++大学C组

A 【跑步计划——日期问题】-CSDN博客 B 【残缺的数字】-CSDN博客 C 题目 代码 #include <bits/stdc.h> using namespace std;void change(int &x) {int sum 0, t x;while(t){sum t % 10;t / 10;}x - sum; } int main() {int n;cin >> n;int ans 0;…...

【WPF】绑定报错:双向绑定需要 Path 或 XPath

背景 最开始使用的是 TextBlock: <ItemsControl ItemsSource"{Binding CameraList}"><ItemsControl.ItemsPanel><ItemsPanelTemplate><StackPanel Orientation"Horizontal"/></ItemsPanelTemplate></ItemsControl.Item…...

谈谈 ES 6.8 到 7.10 的功能变迁(6)- 其他

这是 ES 7.10 相较于 ES 6.8 新增内容的最后一篇&#xff0c;主要涉及算分方法和同义词加载的部分。 自定义算分&#xff1a;script_score 2.0 Elasticsearch 7.0 引入了新一代的函数分数功能&#xff0c;称为 script_score 查询。这一新功能提供了一种更简单、更灵活的方式来…...

huggingface下载模型到本地缓存环境变量配置详解

1.安装huggingface-cli 命令行工具&#xff0c;进行模型文件下载 pip install -U huggingface_hub huggingface-cli --help 帮助命令 2.从huggingface下载模型方法 方法1&#xff1a; git clone 下载模型 方法2&#xff1a;huggingface-cli 工具下载模型 方法3&…...

u-boot的环境变量设置、保存、汇总与说明【同时对u-boot的环境变量`bootcmd`和网络启动(run netboot)方式进行了详细解释】

前言 在 U-Boot 中&#xff0c;环境变量用于配置系统的启动参数和行为。是否能正确理解和设置u-boot中的环境变量是启动Linux系统的关键&#xff0c;所以有必要认真学习了解下各环境变量的意思和作用。 最好的学习材料就是实际的例子&#xff0c;所以本篇博文把我遇到过的各个…...

【后端】Docker一本通

长期更新补充&#xff0c;建议关注收藏点赞 目录 Docker概述安装部署Docker基本操作使用docker部署tomcat使用docker部署mysql Docker概述 docker是⼀个应⽤级隔离的虚拟化技术docker三大核心概念 镜像&#xff1a;是具有源的所有特征的⼀个标记⽂件 仓库&#xff1a;存放镜像…...

基于Spring Boot和Vue的餐饮管理系统设计与实现

大家好&#xff0c;今天要和大家聊的是一款基于Spring Boot和Vue的餐饮管理系统的设计与实现。项目源码以及部署相关事宜请联系我&#xff0c;文末附上联系方式。 项目简介 基于Spring Boot和Vue的餐饮管理系统设计与实现的主要使用者分为管理员、员工和用户。没有授权的用户无…...

如何快速的解除oracle dataguard

有些时候&#xff0c;我们为了使oracle dg的standby库另做他用&#xff0c;需要解除oracle dataguard数据同步。我本地因为standby库存储出现故障&#xff0c;导致dg存在问题&#xff0c;故需要解除。今天&#xff0c;我们通过使用部分命令&#xff0c;实现dg的快速解除。 1&a…...

C语言【指针篇】(四)

前言&#xff1a;正文1. 字符指针变量2. 数组指针变量2.1 数组指针变量是什么?2.2 数组指针变量怎么初始化 3. 二维数组传参的本质4. 函数指针变量4.1 函数指针变量的创建4.2 函数指针变量的使用4.3 两段有趣的代码4.3.1 typedef关键字 5. 函数指针数组6. 转移表 总结 前言&am…...

Python基于Django的网络课程在线学习平台【附源码】

博主介绍&#xff1a;✌Java老徐、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;&…...

vscode集成DeepSeek

vscode 扩展 安装 Cline Meet Cline&#xff0c;一个可以使用你的CLI和编辑器的AI助手。 得益于 Claude 3.5 Sonnet的代理编码功能&#xff0c;Cline 可以逐步处理复杂的软件开发任务。借助让他创建和编辑文件、探索大型项目、使用浏览器和执行终端命令(在您授予权限后)的工具&…...

【TCAD】Sentaurus 中的“陷阱trap”仿真设置

13.1 陷阱类型 13.2 定义陷阱 13.3 陷阱态密度的类型 13.4 陷阱空间分布 13.5 陷阱占据 13.6 陷阱横截面 13.7 陷阱作为掺杂 13.8 陷阱填充控制 13.9 陷阱可视化 目标 演示如何使用 Sentaurus 设备在模拟中使用陷阱。13.1 陷阱类型...

Lucene硬核解析专题系列(三):查询解析与执行

Lucene的索引构建为高效搜索奠定了基础,而查询解析与执行则是将用户意图转化为实际结果的关键环节。本篇将从查询的解析开始,逐步深入到查询类型、评分模型和执行流程,揭示Lucene搜索能力的底层原理。 一、查询语法与QueryParser的工作原理 Lucene的查询过程始于用户输入的…...

Linux操作系统5-进程信号3(信号产生总结与核心转储)

上篇文章&#xff1a;Linux操作系统5-进程信号2&#xff08;信号的4种产生方式&#xff0c;signal系统调用&#xff09;-CSDN博客 本篇Gitee仓库&#xff1a;myLerningCode/l25 橘子真甜/Linux操作系统与网络编程学习 - 码云 - 开源中国 (gitee.com) 本篇重点&#xff1a;核心…...

家用可燃气体探测器——家庭燃气安全的坚实防线

随着社会的发展和变迁&#xff0c;天然气为我们的生活带来了诸多便利&#xff0c;无论是烹饪美食&#xff0c;还是温暖取暖&#xff0c;都离不开它的支持。然而&#xff0c;燃气安全隐患如影随形&#xff0c;一旦发生泄漏&#xff0c;可能引发爆炸、火灾等严重事故&#xff0c;…...

【学习笔记】网络设备(华为交换机)基础知识 9 —— 堆叠配置

提示&#xff1a;学习华为交换机堆叠配置&#xff0c;含堆叠的概念、功能、角色、ID和优先级&#xff1b;堆叠的建立过程以及注意事项&#xff1b;包含堆叠的配置命令&#xff0c;以及堆叠的配置案例 一、前期准备 1.已经可以正常访问交换机的命令行接口 Console口本地访问教…...

【Linux】Linux的进程控制

目录 1. 学习思维导图 2.进程创建&#xff08;fork&#xff09; 2.1 fork创建进程失败 3.进程终止 3.1 进程退出情况 3.1.1main函数 3.1.2 退出码 3.2 exit/_exit函数 1. exit() 函数 2. _exit() 函数 4.进程等待 4.1 实现进程等待的方法 wait/waitpid方法 区别&a…...

电子电气架构 --- 汽车行业技术变革

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 简单,单纯,喜欢独处,独来独往,不易合同频过着接地气的生活,除了生存温饱问题之外,没有什么过多的欲望,表面看起来很高冷,内心热情,如果你身…...

【告别双日期面板!一招实现el-date-picker智能联动日期选择】

告别双日期面板&#xff01;一招实现el-date-picker智能联动日期选择 1.需求背景2.DateTimePicker 现状图3.日期选择器实现代码4.日期选择器实现效果图5.日期时间选择器实现代码6.日期时间选择器实现效果图 1.需求背景 在用户使用时间查询时&#xff0c;我们经常需要按月份筛选…...