当前位置：首页 > news >正文

GraphRAG+ollama+LM Studio+chainlit

news 2026/2/9 10:49:01

这里我们进一步尝试将embedding模型也换为本地的，同时熟悉一下流程和学一些新的东西

1.环境还是用之前的，这里我们先下载LLM

然后你会在下载nomic模型的时候崩溃，因为无法搜索，无法下载

解决办法如下
lm studio 0.2.24国内下载模型_lm studio 国内源-CSDN博客

按照上面的教程依旧无法下载模型，但是可以搜索了，没什么用

直接hugging face下载，然后导入llm models文件夹

C:\Users\Administrator\.cache\lm-studio\models

注意有格式要求

C:\Users\Administrator\.cache\lm-studio\models\Publisher\Repository
将模型放在这个文件夹里才能被识别，然后加在模型

然后修改配置

settings.yaml

##我这里用到是我的另一个电脑运行LLM Studio  ，所以IP是127
encoding_model: cl100k_base
skip_workflows: []
llm:api_key: ollamatype: openai_chat # or azure_openai_chatmodel: llama3model_supports_json: true # recommended if this is available for your model.# max_tokens: 4000# request_timeout: 180.0api_base: http://127.0.0.1:11434/v1# api_version: 2024-02-15-preview# organization: <organization_id># deployment_name: <azure_model_deployment_name># tokens_per_minute: 150_000 # set a leaky bucket throttle# requests_per_minute: 10_000 # set a leaky bucket throttle# max_retries: 10# max_retry_wait: 10.0# sleep_on_rate_limit_recommendation: true # whether to sleep when azure suggests wait-times# concurrent_requests: 25 # the number of parallel inflight requests that may be madeparallelization:stagger: 0.3# num_threads: 50 # the number of threads to use for parallel processingasync_mode: threaded # or asyncioembeddings:## parallelization: override the global parallelization settings for embeddingsasync_mode: threaded # or asynciollm:api_key: lm-studiotype: openai_embedding # or azure_openai_embeddingmodel: Publisher/Repository/nomic-embed-text-v1.5.Q5_K_M.ggufapi_base: http://192.168.1.127:1234/v1# api_version: 2024-02-15-preview# organization: <organization_id># deployment_name: <azure_model_deployment_name># tokens_per_minute: 150_000 # set a leaky bucket throttle# requests_per_minute: 10_000 # set a leaky bucket throttle# max_retries: 10# max_retry_wait: 10.0# sleep_on_rate_limit_recommendation: true # whether to sleep when azure suggests wait-times# concurrent_requests: 25 # the number of parallel inflight requests that may be made# batch_size: 16 # the number of documents to send in a single request# batch_max_tokens: 8191 # the maximum number of tokens to send in a single request# target: required # or optionalchunks:size: 300overlap: 100group_by_columns: [id] # by default, we don't allow chunks to cross documentsinput:type: file # or blobfile_type: text # or csvbase_dir: "input"file_encoding: utf-8file_pattern: ".*\\.txt$"cache:type: file # or blobbase_dir: "cache"# connection_string: <azure_blob_storage_connection_string># container_name: <azure_blob_storage_container_name>storage:type: file # or blobbase_dir: "output/${timestamp}/artifacts"# connection_string: <azure_blob_storage_connection_string># container_name: <azure_blob_storage_container_name>reporting:type: file # or console, blobbase_dir: "output/${timestamp}/reports"# connection_string: <azure_blob_storage_connection_string># container_name: <azure_blob_storage_container_name>entity_extraction:## llm: override the global llm settings for this task## parallelization: override the global parallelization settings for this task## async_mode: override the global async_mode settings for this taskprompt: "prompts/entity_extraction.txt"entity_types: [organization,person,geo,event]max_gleanings: 0summarize_descriptions:## llm: override the global llm settings for this task## parallelization: override the global parallelization settings for this task## async_mode: override the global async_mode settings for this taskprompt: "prompts/summarize_descriptions.txt"max_length: 500claim_extraction:## llm: override the global llm settings for this task## parallelization: override the global parallelization settings for this task## async_mode: override the global async_mode settings for this task# enabled: trueprompt: "prompts/claim_extraction.txt"description: "Any claims or facts that could be relevant to information discovery."max_gleanings: 0community_report:## llm: override the global llm settings for this task## parallelization: override the global parallelization settings for this task## async_mode: override the global async_mode settings for this taskprompt: "prompts/community_report.txt"max_length: 2000max_input_length: 8000cluster_graph:max_cluster_size: 10embed_graph:enabled: false # if true, will generate node2vec embeddings for nodes# num_walks: 10# walk_length: 40# window_size: 2# iterations: 3# random_seed: 597832umap:enabled: false # if true, will generate UMAP embeddings for nodessnapshots:graphml: falseraw_entities: falsetop_level_nodes: falselocal_search:# text_unit_prop: 0.5# community_prop: 0.1# conversation_history_max_turns: 5# top_k_mapped_entities: 10# top_k_relationships: 10# max_tokens: 12000global_search:# max_tokens: 12000# data_max_tokens: 12000# map_max_tokens: 1000# reduce_max_tokens: 2000# concurrency: 32

pdf转markdown，markdown转txt

#测试文档 https://github.com/win4r/mytest/blob/main/book.pdfpip install marker-pdfmarker_single ./book.pdf ./pdftxt --batch_multiplier 2 --max_pages 60 --langs English#markdown转txt
python markdown_to_text.py book.md book.txt

GraphRAG+ollama+LM Studio+chainlit

这里我们进一步尝试将embedding模型也换为本地的，同时熟悉一下流程和学一些新的东西 1.环境还是用之前的，这里我们先下载LLM 然后你会在下载nomic模型的时候崩溃，因为无法搜索，无法下载解决办法如下lm studio 0.2.24国内下载…...

编程日记 2024/7/20 18:05:58

【中项第三版】系统集成项目管理工程师 | 第 5 章软件工程② | 5.4 - 5.8

前言第 5 章对应的内容选择题和案例分析都会进行考查，这一章节属于技术的内容，学习要以教材为准。目录 5.4 软件实现 5.4.1 软件配置管理 5.4.2 软件编码 5.4.3 软件测试 5.5 部署交付 5.5.1 软件部署 5.5.2 软件交付 5.5.3 持续交付 5.5.4…...

编程日记 2024/7/20 18:03:55

6. dolphinscheduler-3.0.0伪集群部署

环境说明： 主机名：cmc01为例操作系统：centos7 安装部署软件版本部署方式centos7zookeeperzookeeper-3.4.10伪分布式hadoophadoop-3.1.3伪分布式hivehive-3.1.3-bin伪分布式clickhouse21.11.10.1-2单节点多实例dolphinscheduler3.0.0单节…...

编程日记 2024/7/20 17:57:48

防火墙内容安全综合实验

一、实验拓扑二、实验要求 1，假设内网用户需要通过外网的web服务器和pop3邮件服务器下载文件和邮件，内网的FTP服务器也需要接受外网用户上传的文件。针对该场景进行防病毒的防护。 2，我们需要针对办公区用户进行上网行为管理，要…...

编程日记 2024/7/20 17:50:42

常见的数据分析用例 —— 信用卡交易欺诈检测

文章目录引言数据集分析1. 读入数据并快速浏览2.计算欺诈交易占数据集中交易总数的百分比3. 类别不平衡对模型的影响3.1 总体思路（1）数据的划分（2）训练模型（3）测试模型（4）解决不平衡…...

编程日记 2024/7/20 17:48:39

IP地址：由电脑还是网线决定？

IP地址：由电脑还是网线决定？ 在互联网时代，IP地址是我们进行网络通信的基础。然而，对于IP地址究竟是由电脑决定还是由网线决定的问题，不少人可能存在疑惑。本文将从IP地址的定义、分配方式以及影响因素等方面进行探讨…...

编程日记 2024/7/20 17:45:37

如何定位及优化SQL语句的性能

在数据库管理和优化中，定位并解决SQL语句的性能问题是至关重要的。MySQL通过EXPLAIN命令提供了强大的工具来查看SQL语句的执行计划，这是定位性能瓶颈和优化SQL语句的首要步骤。以下是如何利用执行计划来定位及优化SQL语句性能问题的详细指南。一、使用…...

编程日记 2024/7/20 17:44:36

SentenceTransformers (SBERT)

文章目录一、关于 SBERT特点预训练模型应用实例二、安装开发设置三、入门使用四、训练五、Cross Encoder 一、关于 SBERT 官方文档：https://www.sbert.net/github : https://github.com/UKPLab/sentence-transformerspaper : Sentence-BERT: Sentence Embedding…...

编程日记 2024/7/20 17:43:35

第三届智能机械与人机交互技术学术会议（IHCIT 2024）

【北航主办丨本届SPIE独立出版丨已确认ISSN号】第三届智能机械与人机交互技术学术会议（IHCIT 2024） 2024 3rd International Conference on Intelligent Mechanical and Human-Computer Interaction Technology 2024年7月27日----中国杭州&#xff0…...

编程日记 2024/7/20 17:38:30

图的访问（C++）

题目描述给出 N 个点，M 条边的有向图，对于每个点 v，求 A(v) 表示从点 v 出发，能到达的编号最大的点。输入格式第 1 行 2 个整数 N,M，表示点数和边数。接下来 M 行，每行 2 个整数 Ui,Vi，表…...

编程日记 2024/7/20 17:37:29

LeetCode做题记录（第二天）169. 多数元素

题目：169. 多数元素标签：数组哈希表分治计数排序题目信息： 思路一： 在题目中出现了计数，那我们就可以直接考虑考虑使用哈希表 unordered_map 即遍历的时候记录每个数的出现次数，当出现次数大于n/…...

编程日记 2024/7/20 17:35:25

Adobe XD中文设置指南：专业设计师的现场解答

Adobe XD是世界领先的在线合作UI设计工具。它摆脱了Sketch、Figma等传统设计软件对设备的依赖，使设计师可以随时随地使用任何设备打开网页浏览器，轻松实现跨平台、跨时空的设计合作。然后，为了提高国内设计师的使用体验，Adobe XD如…...

编程日记 2024/7/20 17:33:23

CentOS 7 安装Jenkins2.346.1(war方式安装）

既然想要安装Jenkins，肯定是先要从官网解读所需环境配置信息，如需了解更多自行查阅 https://www.jenkins.io/doc/book/installing/linux/ JDK17，Maven3.9 安装先从官网分别下载JDK17与Maven3.9 下载好之后上传至服务器、并解压&#xff1a…...

编程日记 2024/7/20 17:31:21

使用Java -jar运行就jar包时报异常：org.yaml.snakeyaml.error.YAMLException异常

Java运行就 .jar包时出现的 YAMLException 异常我在本地环境测试时，使用 java -jar 命令运行 Java 可执行 .jar 包时，遇到了 org.yaml.snakeyaml.error.YAMLException: java.nio.charset.MalformedInputException: Input length 1 异常；这…...

编程日记 2024/7/20 17:30:20

golang实现的ab测试http代理工具

压测工具ab不能统计http请求的错误情况，包括http状态码错误和响应正文的错误关键字。所以加层代理用于统计http错误情况，重在统计错误情况，而不是代理的性能，主要用于功能接口的测试，比如测试一下请求多少次接口会返…...

编程日记 2024/7/20 17:29:19

Maven学习——Maven的下载、安装与配置（详细攻略！）

目录前言 1.下载与安装 2.配置Maven的环境变量 3.配置Maven的本地仓库 4. 配置Maven的镜像远程仓库前言我在之前写了一篇博客，是介绍Maven的基本概念和下载安装，但是由于篇幅过长，Maven的下载与安装写的并不详细🐶&#x…...

编程日记 2024/7/20 17:28:18

C#知识|账号管理系统-修改账号按钮功能的实现

哈喽，你好啊，我是雷工！前边学习了通过选择条件查询账号的功能：《提交查询按钮事件的编写》本节继续学习练习C#，今天练习修改账号的功能实现。以下为学习笔记。 01 实现功能 ①：从查询到的账号中，选择某一账号，然后点击【修改账号】按钮，将选中的信息获取显示到…...

编程日记 2024/7/20 17:27:17

bug等级和优先级

一、bug的等级 1、致命这类bug是最严重的，通常导致系统无法运行、主要功能失效或严重资源不足。举例包括软件在安装过程中崩溃，导致无法完成安装；登录功能失效，用户无法验证身份进入系统；主要功能模块（如…...

编程日记 2024/7/20 17:20:11

记录｜C# winform布局学习

目录前言一、自适应布局Step1. 添加AutoAdaptWindowsSize类Step2. Form中引用Step3. 创建SizeChanged事件函数Step4. 在Fram.Disiger中添加更新时间前言参考视频： C#5分钟winform快速自适应布局参考文章： 其他参考： 写这篇文章&#xff…...

编程日记 2024/7/20 17:17:08

C/C++ json库

文章目录一、介绍1.1 json 介绍二、C/C json 库选型2.1 选型范围2.2 jsoncpp2.2.2 jsoncpp 编译和交叉编译 2.3 rapidjson2.4 nlohmann/json2.5 sonic-cpp 五、常见问题5.1 jsoncpp 中关于浮点数的控制和中文显示问题5.2 jsoncpp序列化double类型时精度损失问题的解决办法一…...

编程日记 2024/7/20 17:16:07

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧一、链表基础概念与内核链表优势1.1 为什么使用链表？1.2 Linux 内核链表与用户态链表的区别二、内核链表结构与宏解析常用宏/函数三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

编程新知 2025/12/3 20:14:32

macOS多出来了：Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用

文章目录问题现象问题原因解决办法问题现象 macOS启动台（Launchpad）多出来了：Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用。问题原因很明显，都是Google家的办公全家桶。这些应用并不是通过独立安装的…...

编程新知 2025/12/4 19:00:05

WordPress插件：AI多语言写作与智能配图、免费AI模型、SEO文章生成

厌倦手动写WordPress文章？AI自动生成，效率提升10倍！ 支持多语言、自动配图、定时发布，让内容创作更轻松！ AI内容生成 → 不想每天写文章？AI一键生成高质量内容！多语言支持 → 跨境电商必备&am…...

编程新知 2026/1/30 17:24:20

Pinocchio 库详解及其在足式机器人上的应用

Pinocchio 库详解及其在足式机器人上的应用 Pinocchio (Pinocchio is not only a nose) 是一个开源的 C 库，专门用于快速计算机器人模型的正向运动学、逆向运动学、雅可比矩阵、动力学和动力学导数。它主要关注效率和准确性，并提供了一个通用的框架&…...

编程新知 2025/11/28 5:32:31

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析一、第一轮提问（基础概念问题） 1. 请解释Spring框架的核心容器是什么？它在Spring中起到什么作用？ Spring框架的核心容器是IoC容器&#…...

编程新知 2025/10/4 21:24:40

MySQL 部分重点知识篇

一、数据库对象 1. 主键定义 ：主键是用于唯一标识表中每一行记录的字段或字段组合。它具有唯一性和非空性特点。作用 ：确保数据的完整性，便于数据的查询和管理。示例 ：在学生信息表中，学号可以作为主键&#xff…...

编程新知 2025/8/19 22:24:50

注意力热力图可视化在day 46代码的基础上，对比不同卷积层热力图可视化的结果 import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader import matplotlib.pypl…...

编程新知 2025/11/24 9:42:16

如何配置一个sql server使得其它用户可以通过excel odbc获取数据

要让其他用户通过 Excel 使用 ODBC 连接到 SQL Server 获取数据，你需要完成以下配置步骤： ✅ 一、在 SQL Server 端配置（服务器设置） 1. 启用 TCP/IP 协议打开 “SQL Server 配置管理器”。导航到：SQL Server 网络配…...

编程新知 2025/8/25 19:37:12

es6+和css3新增的特性有哪些

一：ECMAScript 新特性（ES6） ES6 (2015) - 革命性更新 1，记住的方法，从一个方法里面用到了哪些技术 1，let /const块级作用域声明2，**默认参数**：函数参数可以设置默认值。3&#x…...

编程新知 2025/11/26 7:13:37

【Java多线程从青铜到王者】单例设计模式(八)

wait和sleep的区别我们的wait也是提供了一个还有超时时间的版本，sleep也是可以指定时间的，也就是说时间一到就会解除阻塞，继续执行 wait和sleep都能被提前唤醒(虽然时间还没有到也可以提前唤醒)，wait能被notify提前唤醒&#xf…...

编程新知 2026/2/6 9:31:18

GraphRAG+ollama+LM Studio+chainlit

pdf转markdown，markdown转txt

相关文章：

GraphRAG+ollama+LM Studio+chainlit

【中项第三版】系统集成项目管理工程师 | 第 5 章软件工程② | 5.4 - 5.8

6. dolphinscheduler-3.0.0伪集群部署

防火墙内容安全综合实验

常见的数据分析用例 —— 信用卡交易欺诈检测

IP地址：由电脑还是网线决定？

如何定位及优化SQL语句的性能

SentenceTransformers (SBERT)

第三届智能机械与人机交互技术学术会议（IHCIT 2024）

图的访问（C++）

LeetCode做题记录（第二天）169. 多数元素

Adobe XD中文设置指南：专业设计师的现场解答

CentOS 7 安装Jenkins2.346.1(war方式安装）

使用Java -jar运行就jar包时报异常：org.yaml.snakeyaml.error.YAMLException异常

golang实现的ab测试http代理工具

Maven学习——Maven的下载、安装与配置（详细攻略！）

C#知识|账号管理系统-修改账号按钮功能的实现

bug等级和优先级

记录｜C# winform布局学习

C/C++ json库

Linux链表操作全解析

macOS多出来了：Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用

WordPress插件：AI多语言写作与智能配图、免费AI模型、SEO文章生成

Pinocchio 库详解及其在足式机器人上的应用

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析

MySQL 部分重点知识篇

Python 训练营打卡 Day 47

如何配置一个sql server使得其它用户可以通过excel odbc获取数据

es6+和css3新增的特性有哪些

【Java多线程从青铜到王者】单例设计模式(八)