聊一聊知识图谱结合RAG
因为最近在做一些关于提高公司内部使用的聊天机器人的回答准确率,并且最近微软官方也是开源了一下graphrag的源码,所以想聊一聊这个知识图谱结合rag。
rag在利用私有数据增强大模型回答的领域是一种比较典型的技术,也就是我们提出问题的时候,rag会根据我们的问题去知识库中检索一些比较相关的文档或者语句,将这些文档和我们的问题一起拼接到提示词模版中,得到一个完整的提问大模型的问题,这样大模型就可以根据我们提供的知识以及我们的问题来对特定领域的问题进行回答了。
首先,我们了解一下传统的rag技术,传统的rag技术就是通过匹配文档语句的相关性或者相似度来得到一些比较相关的文档。可以分为两个角色,分别是用户和文档管理者。大致流程:
文档管理者:
①上传导入文件,解析文件内容
②对文本内容进行切块,每一块可以成为一个chunk。
③得到每个chunk,利用嵌入式模型得到每个chunk的向量表示,并将这个向量存储到向量数据库中,常见的向量数据库,比如faiss数据库,将其作为一个本地知识库。
用户:
①提出问题
②对问题进行向量化
③利用得到的向量去知识库中匹配,得到相关性分数比较大的一些语句块,即chunk,这里就会涉及到一些检索技术了
④得到chunk,将其和问题拼接到提示词模版中,就可以得到一个完整的对大模型的问题。
⑤大模型回答问题,得到答案
由此,我们可以看的出来,传统的rag是一种局部检索的技术,也就是我们提问的问题会跟每个语句块进行匹配得到相关性分数,只能提问一些局部的问题,以及得到一种比较局部的答案,当我们要问某个文档的全局性的问题的时候,他就不会出现很好的效果。
这时候就需要知识图谱了,知识图谱是一种类似于图结构,其中有很多的实体,也就是结点,也有很多的关系,也就是边,一个文档可以理解为一个图结构,各个文档之间没有交集,也就是对应的图结构不会有关系。
这样,我们在上传文档的时候,切分为了很多的块,即chunk,我们会将每个块交给大模型,让其提取其中的实体和关系,然后存储起来,实体和关系分别存储到各自的集合中,最终所有的chunk提取完以后,一次性的将所有的结点和关系存储到一个图数据库中,然后我们就可以在数据库中得到这个文档的一个知识图谱。这样,当用户提问的时候,就可以提供更丰富的上下文或者关系,提供总结能力和回答的准确性。

相关文章:
聊一聊知识图谱结合RAG
因为最近在做一些关于提高公司内部使用的聊天机器人的回答准确率,并且最近微软官方也是开源了一下graphrag的源码,所以想聊一聊这个知识图谱结合rag。 rag在利用私有数据增强大模型回答的领域是一种比较典型的技术,也就是我们提出问题的时候&…...
Java面试锦集 之 一、Java基础(1)
一、Java基础(1) 1.final 关键字的作用? 修饰变量: 一旦被赋值,就不能再被修改,保证了变量值的稳定性。 例: final int NUMBER 10; //之后就不能再改变 NUMBER 的值了。修饰方法:…...
【leetcode】排列序列
给出集合 [1,2,3,...,n],其所有元素共有 n! 种排列。 按大小顺序列出所有排列情况,并一一标记,当 n 3 时, 所有排列如下: "123""132""213""231""312""321" 给定…...
【Cesium开发实战】视频融合功能的实现,可自定义位置和视频路径
Cesium有很多很强大的功能,可以在地球上实现很多炫酷的3D效果。今天给大家分享一个视频融合功能。 1.话不多说,先展示 视频融合 2.设计思路 点击绘制开始在地图上绘制视频融合的点位,形成视频播放的区域,双击弹框输入名称和要播放视频的路径,即可对应区域播放对应视频,…...
【秋招笔试题】小明的美食
解析:思维题。由于需要互不相同,每次操作取重复的值与最大值相加即可,这样即可保证相加后不会新增重复的值。因此统计重复值即可。 #include <iostream> #include <algorithm>using namespace std; const int maxn 1e5 5; int…...
基于OpenLCA、GREET、R语言的生命周期评价方法、模型构建及典型案例应用
生命周期分析 (Life Cycle Analysis, LCA) 是评价一个产品系统生命周期整个阶段——从原材料的提取和加工,到产品生产、包装、市场营销、使用、再使用和产品维护,直至再循环和最终废物处置——的环境影响的工具。这种方法被认为是一种“从摇篮到坟墓”的…...
Linux操作系统 -socket网络通信
同一台主机之间的进程 1.古老的通信方式 无名管道 有名管道 信号 2、IPC对象通信 system v 消息队列 共享内存 信号量集 由于不同主机间进程通信 3.socket网络通信 国际网络体系结构: 七层OSI模型(理论…...
【苍穹】完美解决由于nginx更换端口号导致无法使用Websocket
一、报错信息 进行到websocket开发的过程中,遇到了前端报错,无法连接的提示: 经过F12排查很明显是服务端和客户端并没有连接成功。这里就涉及到之前的坑,现在需要填上了。 二、报错原因和推导 应该还记得刚开苍穹的第一天配置前…...
Qt中在pro中实现一些宏定义
在pro文件中利用 DEFINES 定义一些宏定义供工程整体使用。(和在cpp/h文件文件中定义使用有点类似)可以利用pro的中的宏定义实现一些全局的判断 pro中实现 #自定义一个变量 DEFINES "PI\"3.1415926\"" #自定义宏 DEFINES "T…...
bash XXX.sh文件和直接运行XXX.sh的区别
区别: bash XXX.sh 明确说明使用bash作为脚本的解释器不需要文件有执行权限 XXX.sh 需要指定相关解释器。如果第一行是#!/bin/bash则使用bash,如果是#!/bin/sh,则使用sh作为解释器需要有执行权限:通过chmod x 文件名指定 注意: #!是特殊标…...
【Python机器学习】k-近邻算法简单实践——改进约会网站的配对效果
需求背景: XX一直使用约会网站寻找适合自己的约会对象,ta会把人分为3种类型: 不喜欢、魅力一般、非常有魅力 对人分类轴,发现了对象样本的以下3种特征: 1、每年获得的飞行里程数 2、玩视频游戏所耗时间百分比 3、…...
vue3前端开发-小兔鲜项目-登录组件的开发表单验证
vue3前端开发-小兔鲜项目-登录组件的开发表单验证!现在开始写登录页面的内容。首先这一次完成基础的首页按钮点击跳转,以及初始化一些简单的表单的输入验证。后期还会继续完善内容。 1:首先还是准备好login页面的组件代码内容。 <script …...
Winform上位机TCP客户端/服务端、串口通信
Winform上位机TCP客户端/服务端、串口通信 背景 日常练习,着急换工作,心态都快乱了。 工具 串口调试助手 网络调试助手 代码 客户端 using Microsoft.VisualBasic.Logging; using System.Net.Sockets; using System.Text;namespace TcpClientDem…...
Linux基础复习(二)
前言 本文介绍了一下Linux命令行基本操作及网络配置 一、 命令行提示含义 [当前用户主机名 工作目录]$ 若当前用户是root,则最后一个字符为# 否则,最后一个字符为$ 二、常用Linux命令及其解释 修改主机名 一般在创建一台主机后会使用hostname相关命…...
nginx漏洞修复 ngx_http_mp4_module漏洞(CVE-2022-41742)【低可信】 nginx版本升级
风险描述: Nginx 是一款轻量级的Web服务器、反向代理服务器。 Nginx 的受影响版本中的ngx _http_mp4_module模块存在内存越界写入漏洞,当在配置中使用 mp4 directive时,攻击者可利用此漏洞使用使用ngx_http_mp4_module模块处理特制的音频或视…...
网格布局 HTML CSS grid layout demo
文章目录 页面效果代码 (HTML CSS)参考 页面效果 代码 (HTML CSS) <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"…...
Java算法之递归算法-如何计算阶乘的值
上一篇学了递归之后,练习一下递归算法。 题目:使用递归算法计算阶乘的值,也就是5!5*4*3*2*1,直接使用循环是非常简单的,这边练习一下递归算法。 先写一下两个条件 基线条件:等于1的时候返回1…...
python爬虫入门小案例
python爬虫 以下内容仅供学习交流,请勿用作其他用途,若涉及隐私和版权问题,请及时联系我删除 闲来无事,学了学爬虫小知识,适合入门,文笔拙劣,还望见谅 爬虫是什么: 爬取网页上的文字,图片,视频,音频 自动化操作浏览器,比如填写表单,打卡,提高工作效率爬虫的注意事项: 爬虫…...
【昇腾AI创新大赛集训营南京站学习笔记】-Ascend算子开发课程
昇腾AI创新大赛训练营 14:00-14:30 基础知识-理论课 一、CANN 、达芬奇架构和算子 1.AI Core逻辑架构 达芬奇架构包含三部分: 1)计算类:矩阵计算单元(两个矩阵扔进去相乘)、向量计算单元、标量计算单元 2)控…...
系统架构设计师教程 第4章 信息安全技术基础知识-4.5 密钥管理技术4.6 访问控制及数字签名技术-解读
系统架构设计师教程 第4章 信息安全技术基础知识-4.5 密钥管理技术&4.6 访问控制及数字签名技术 4.5 密钥管理技术4.5.1 对称密钥的分配与管理4.5.1.1 密钥的使用控制4.5.1.1.1 密钥标签4.5.1.1.2 控制矢量4.5.1.2 密钥的分配4.5.1.2.1物理方式14.5.1.2.2 物理方式24.5.1…...
基于Vue 3与SSE的Dify AI聊天前端开发实战与部署指南
1. 项目概述:一个现代化的Dify AI聊天前端如果你正在寻找一个开箱即用、界面美观且功能现代的Dify AI聊天界面,那么LeeAirQ/Dify-Web这个项目值得你花时间了解一下。作为一个长期混迹在AI应用开发圈子的开发者,我见过太多后端强大但前端简陋的…...
数字电路设计终极指南:使用Logisim-evolution从零到精通
数字电路设计终极指南:使用Logisim-evolution从零到精通 【免费下载链接】logisim-evolution Digital logic design tool and simulator 项目地址: https://gitcode.com/gh_mirrors/lo/logisim-evolution Logisim-evolution是一款功能强大的免费开源数字电路…...
跨境电商AI Agent技术拆解:从RPA到智能体,店铺自动化运营的架构与实践
当大模型“驱动”RPA,跨境电商运营正在从“脚本自动化”迈向“意图驱动”的数字员工时代 写在前面 跨境电商卖家每天面对多平台(Amazon、eBay、TikTok、Temu、Shopee等)、多店铺、多站点,运营工作高度重复:采集竞品数…...
终极性能优化指南:如何让环世界从卡顿到丝滑的5大秘诀
终极性能优化指南:如何让环世界从卡顿到丝滑的5大秘诀 【免费下载链接】Performance-Fish Performance Mod for RimWorld 项目地址: https://gitcode.com/gh_mirrors/pe/Performance-Fish 还在为环世界后期卡顿而烦恼吗?当你的殖民地发展到100人以…...
C#架构师实战:构建确定性事件驱动系统的工程原则与技术栈
1. 从个人简介到架构哲学:一位资深C#架构师的工程实践全景看到这个标题,你可能会以为这是一个普通的GitHub个人主页介绍。但如果你是一位深耕于分布式系统、事件驱动架构,或者正在为构建高确定性、可观测的生产级系统而头疼的工程师ÿ…...
基于Remix与React构建隐私优先的订阅费用追踪器Subs
1. 项目概述:一个纯粹、高效的订阅费用追踪器在数字订阅服务泛滥的今天,你是否也常常感到困惑:每个月到底有多少笔自动扣款?Netflix、Spotify、各种云服务、会员费……这些零散的费用加起来,一年可能是一笔不小的开销。…...
FakeLocation终极指南:Android应用级虚拟定位的完整技术解析
FakeLocation终极指南:Android应用级虚拟定位的完整技术解析 【免费下载链接】FakeLocation Xposed module to mock locations per app. 项目地址: https://gitcode.com/gh_mirrors/fak/FakeLocation FakeLocation是一款基于Xposed框架的Android虚拟定位模块…...
光伏产业价值链迁移:从硬件制造到系统服务与金融创新的黄金机遇
1. 光伏行业的价值转移:从硬件制造到系统服务十年前,当我在深圳第一次接触光伏组件生产线时,满眼都是硅料、银浆和层压机,行业里人人谈论的是转换效率又提升了零点几个百分点,或是每瓦成本又降了几分钱。那时候&#x…...
Claude代码会话实战指南:从问答到结构化协作的效能提升
1. 项目概述:Claude Code Session 的实战效能提升指南最近在深度使用 Claude 进行代码开发时,我发现了一个宝藏仓库:mantra-hq/claude-code-session-tips。这并非一个可以直接运行的软件库,而是一份由社区高手们精心整理的、关于如…...
企业级知识管理新门槛:NotebookLM单用户年成本超$298?我们用5类典型场景算清ROI临界点
更多请点击: https://intelliparadigm.com 第一章:企业级知识管理新门槛:NotebookLM单用户年成本超$298?我们用5类典型场景算清ROI临界点 当企业评估AI增强型知识管理工具时,隐性成本常被低估——NotebookLM虽未公开…...
