当前位置: 首页 > article >正文

公司知识库全传太贵?RAG 只给 Claude 看几段

你问 Claude我们的退款流程是什么?它不知道因为大模型训练结束后知识就固定了你公司内部的文档它一概不知道。直接把公司知识库都塞进对话几百页文档几十万 token每次提问都要带着既贵又慢还会撑爆 Context Window。RAG 的解法每次提问时只捞出相关的几段而不是全部塞进去。RAG 的完整流程RAG 分两个阶段入库只做一次和检索每次提问时。阶段一入库你的文档PDF、Word、数据库记录... ↓ 切块把长文档切成几百字的小段太长语义会稀释太短上下文不足 ↓ 送进 Embedding 模型每段文字 → 一个高维向量如 1536 维的浮点数组 ↓ 写入向量数据库存向量 原始文本 来源信息数据更新时重新跑一遍平时不需要动。阶段二检索用户提问怎么退款 → 同一个 Embedding 模型把问题也转成向量 → 在向量数据库里做近似最近邻搜索ANN找语义最相近的 3~5 段内容 → 把这几段原文 用户问题拼成 prompt → 发给 Claude → Claude 基于这几段内容回答Embedding 是什么先说向量。地图上的位置可以用两个数字表示(纬度, 经度)比如北京是 (39.9, 116.4)。加上海拔就变成三维(39.9, 116.4, 43.0)。维度可以继续增加每个维度代表一个属性。Embedding 做的事情相同只是把文字映射到一个 1536 维的空间里——每个维度代表某种语义特征比如与金融相关程度、“与流程相关程度”……模型训练完成后知道怎么把文字转成这 1536 个数字。关键性质语义相近的文字坐标也相近。简化示意实际是 1536 维「怎么退款」 → [0.82, 0.71, -0.34, ...]「退货流程说明」 → [0.79, 0.68, -0.31, ...] ← 数值接近语义相近「公司年会安排」 → [0.12, 0.95, 0.87, ...] ← 数值差远语义不相关检索时把用户问题也转成坐标找距离最近的几个——语义最相关的几段就找出来了。这也是向量搜索和关键词搜索的区别「怎么退款」和「退货流程说明」关键词不同但坐标相近向量搜索能命中关键词搜索找「退款」库里存的是「退货」就查不到。入库和查询必须用同一个 Embedding 模型否则向量空间不同相似度计算没有意义。常用 Embedding 模型模型提供方维度特点text-embedding-3-smallOpenAI1536便宜够用text-embedding-3-largeOpenAI3072精度更高bge-m3BAAI开源1024支持中文可本地部署Claude 系列暂无 Embedding 模型用 Claude 做 RAG 时 Embedding 通常用 OpenAI 或开源模型。向量数据库存什么每条记录包含三部分向量由 Embedding 模型生成用于相似度计算原始文本检索命中后塞进 prompt 的实际内容metadata来源文件、页码、时间等用于过滤和溯源原文我们的服务部署在 K8s 上每次发版需要审批 → Embedding 模型处理 → [0.023, -0.187, 0.641, ...]1536 个浮点数 → 存入向量数据库附带原文和来源信息常用向量数据库数据库定位适合场景Chroma开源轻量本地开发零配置pgvectorPostgreSQL 扩展已有 PG 的项目无需引入新系统Pinecone云托管快速上线无需运维Qdrant开源Rust 编写性能好适合自托管Weaviate开源可自托管支持混合搜索向量 关键词内置 embedding 模块Milvus开源大规模亿级向量企业场景个人项目用 Chroma已有 PostgreSQL 用 pgvector生产规模大用 Pinecone。RAG 消耗什么 token检索步骤发生在你自己的服务器Anthropic 不参与、不计费。检索到的文档片段塞进 prompt 后按正常输入 token 计费。用户请求 → 你的服务器向量检索不计费 → 查到 3 段相关文档拼成 prompt → 发给 Anthropic开始计费 → 输入 tokensystem prompt 历史 3 段文档 问题 → 输出 tokenClaude 生成的回答RAG 省的是那些不相关的文档 token——从每次带着整本手册缩减为只传相关的几段。注意RAG 不是 Claude Code 内置功能Claude Code 本身没有 RAG它直接用Read/Glob/Grep工具读文件。 RAG 是你用 Claude API自己开发应用时的架构模式适合做企业内部知识库问答、产品文档助手、客服机器人、历史工单智能支持等。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

公司知识库全传太贵?RAG 只给 Claude 看几段

你问 Claude"我们的退款流程是什么?",它不知道,因为大模型训练结束后知识就固定了,你公司内部的文档它一概不知道。 直接把公司知识库都塞进对话?几百页文档几十万 token,每次提问都要带着,既贵…...

终极指南:如何用耶鲁OpenHand开源机械手构建低成本机器人抓取系统

终极指南:如何用耶鲁OpenHand开源机械手构建低成本机器人抓取系统 【免费下载链接】openhand-hardware CAD files for the OpenHand hand designs 项目地址: https://gitcode.com/gh_mirrors/op/openhand-hardware 想要构建自己的机器人抓取系统却苦于高昂成…...

QuickBMS:3大场景解锁游戏资源提取的万能钥匙

QuickBMS:3大场景解锁游戏资源提取的万能钥匙 【免费下载链接】QuickBMS QuickBMS by aluigi - Github Mirror 项目地址: https://gitcode.com/gh_mirrors/qui/QuickBMS 你是否曾经面对游戏资源包束手无策?当那些加密的.pak、压缩的.dat、自定义…...

Speechless:一键备份微博到PDF的终极Chrome扩展指南

Speechless:一键备份微博到PDF的终极Chrome扩展指南 【免费下载链接】Speechless 把新浪微博的内容,导出成 PDF 文件进行备份的 Chrome Extension。 项目地址: https://gitcode.com/gh_mirrors/sp/Speechless 你是否曾担心精心发布的微博内容某天…...

Video2X:零基础入门AI视频超分辨率与帧插值完整指南

Video2X:零基础入门AI视频超分辨率与帧插值完整指南 【免费下载链接】video2x A machine learning-based video super resolution and frame interpolation framework. Est. Hack the Valley II, 2018. 项目地址: https://gitcode.com/GitHub_Trending/vi/video2x…...

5分钟快速上手PlayCover:在Mac上完美运行iOS游戏和应用

5分钟快速上手PlayCover:在Mac上完美运行iOS游戏和应用 【免费下载链接】PlayCover Community fork of PlayCover 项目地址: https://gitcode.com/gh_mirrors/pl/PlayCover 想要在Mac上畅玩《原神》、《我的世界》等热门iOS游戏吗?PlayCover正是你…...

如何在5分钟内快速上手Happy Island Designer:动物森友会岛屿规划终极指南

如何在5分钟内快速上手Happy Island Designer:动物森友会岛屿规划终极指南 【免费下载链接】HappyIslandDesigner "Happy Island Designer (Alpha)",是一个在线工具,它允许用户设计和定制自己的岛屿。这个工具是受游戏《动物森友会…...

8大网盘直链获取工具:解决下载速度限制的本地化方案

8大网盘直链获取工具:解决下载速度限制的本地化方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

利用 Taotoken 为代码生成工具 Claude Code 配置稳定后端

利用 Taotoken 为代码生成工具 Claude Code 配置稳定后端 1. Claude Code 与 Taotoken 的集成优势 Claude Code 作为一款专注于编程辅助的工具,依赖于稳定的模型服务后端来提供高质量的代码生成与补全功能。通过 Taotoken 平台接入 Claude Code,开发者…...

CPUDoc:3大核心功能解锁CPU隐藏性能,让你的电脑快如闪电

CPUDoc:3大核心功能解锁CPU隐藏性能,让你的电脑快如闪电 【免费下载链接】CPUDoc 项目地址: https://gitcode.com/gh_mirrors/cp/CPUDoc 在当今多任务处理和高性能计算需求日益增长的背景下,CPU性能优化已成为提升电脑体验的关键。CP…...

Hitboxer:5分钟打造零冲突游戏键盘的终极SOCD解决方案

Hitboxer:5分钟打造零冲突游戏键盘的终极SOCD解决方案 【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 在电子竞技的激烈对抗中,每一次按键延迟都可能决定胜负。你是否曾在格斗游戏中因为…...

3步破解城通网盘限速:40倍高速下载技术方案

3步破解城通网盘限速:40倍高速下载技术方案 【免费下载链接】ctfileGet 获取城通网盘一次性直连地址 项目地址: https://gitcode.com/gh_mirrors/ct/ctfileGet 城通网盘作为资源分享的重要平台,其免费用户的下载速度限制一直是用户面临的主要痛点…...

新手入门指南使用 Python 在 Taotoken 上调用第一个大模型

新手入门指南使用 Python 在 Taotoken 上调用第一个大模型 1. 注册 Taotoken 并获取 API Key 要开始使用 Taotoken 调用大模型,首先需要注册账号并获取 API Key。访问 Taotoken 官网完成注册流程后,登录控制台。在左侧导航栏找到「API 密钥」选项&…...

springBoot与Web后端基础

🚗🚗🚗🚗🚗🚗🚗 数据结构专栏🚗🚗🚗🚗🚗🚗🚗🚗🚗🚗 🛹&#x1…...

山东大学软件学院2026年毛中特期末考试题目

授课老师:tpp开卷考试,可以携带课本和手写纸质材料多看CSDN上的往年题和PPT上的思考题……一、简答题1. 为什么要没收封建地主的土地归农民所有?2. 社会主义建设道路初步探索的意义。3. 中国共产党对于全面建成小康社会的探索。二、论述题1. …...

喜马拉雅下载XM格式无法导出播放怎么办?常见原因和xm转mp3处理方法整理

在使用喜马拉雅下载有声小说或课程后,有些用户会遇到这样的问题:音频已经成功下载,但导出到电脑、U盘或者其它播放器后却无法播放,文件显示为 .xm 格式。这种情况在整理音频资料、复制到车载设备或者分享给他人时比较常见。从实际…...

A-index算法在多媒体内容真实性检测中的应用与优化

1. 项目背景与核心挑战在数字内容爆炸式增长的今天,多媒体内容的真实性检测已成为信息安全领域的关键课题。我最近完成了一个关于A-index算法在内容真实性检测中的应用研究项目,这个技术能够有效识别经过深度伪造(Deepfake)处理的…...

Murata村田贴片电感原厂原装一级代理分销经销

序号 品牌 元件类别 型号 描述 包装 1 MURATA 电感 LQG15HSR12J02D 0402 120NH 5% 10000 2 MURATA 电感 LQG15HSR18J02D 0402 180NH 5% 10000...

Ztasemi智塔科技原厂原装一级代理商分销经销

品牌 元件类别 型号 描述 包装 数量 Ztasemi MOSFET ZT12P06D TO252 2500 10,000...

5分钟完成GPU显存健康诊断:memtest_vulkan终极实战指南

5分钟完成GPU显存健康诊断:memtest_vulkan终极实战指南 【免费下载链接】memtest_vulkan Vulkan compute tool for testing video memory stability 项目地址: https://gitcode.com/gh_mirrors/me/memtest_vulkan 在现代计算应用中,GPU显存稳定性…...

2026山东大学软件学院创新项目实训博客(四)

【智绘博弈】画风建模——为什么要给AI加上记忆项目:智绘博弈 —— 人机对抗绘画猜词与心理解读系统角色:AI 识别 & 心理解读模块负责人日期:2026.4.20 - 2026.5.3一、本周目标前三周完成了AI猜词的核心功能:模型选型、API接入…...

中考失利不用慌!漳州华起技工学校,给初三生另一条升学坦途

相信很多漳州的初三家长都有过这样的焦虑:孩子马上中考,成绩一直不理想,担心考不上高中,不知道以后该怎么办;还有的家长,孩子已经中考失利,面对五花八门的择校信息,不知道该选哪所学…...

为OpenClaw智能体工作流配置Taotoken作为其模型供应商的详细步骤

为OpenClaw智能体工作流配置Taotoken作为其模型供应商的详细步骤 1. 准备工作 在开始配置之前,请确保您已经拥有有效的Taotoken API Key。可以在Taotoken控制台的API Key管理页面创建新的密钥。同时,您需要确定要使用的模型ID,这些信息可以…...

3步搞定:让PS4/PS5手柄在Windows上获得完美游戏体验

3步搞定:让PS4/PS5手柄在Windows上获得完美游戏体验 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows 还在为Windows游戏不支持PlayStation手柄而烦恼吗?DS4Windows这…...

魔兽世界GSE宏编译器终极指南:告别复杂操作,实现一键智能连招

魔兽世界GSE宏编译器终极指南:告别复杂操作,实现一键智能连招 【免费下载链接】GSE-Advanced-Macro-Compiler GSE is an alternative advanced macro editor and engine for World of Warcraft. 项目地址: https://gitcode.com/gh_mirrors/gs/GSE-Adv…...

终极解密:wxapkg-convertor 实战指南,高效反编译微信小程序源码

终极解密:wxapkg-convertor 实战指南,高效反编译微信小程序源码 【免费下载链接】wxapkg-convertor 一个反编译微信小程序的工具,仓库也收集各种微信小程序/小游戏.wxapkg文件 项目地址: https://gitcode.com/gh_mirrors/wx/wxapkg-convert…...

3步解决Cursor编辑器试用限制:跨平台设备标识重置指南

3步解决Cursor编辑器试用限制:跨平台设备标识重置指南 【免费下载链接】go-cursor-help 解决Cursor在免费订阅期间出现以下提示的问题: Your request has been blocked as our system has detected suspicious activity / Youve reached your trial request limit. …...

KMS智能激活工具:Windows和Office永久激活终极指南

KMS智能激活工具:Windows和Office永久激活终极指南 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统频繁弹出激活提示而烦恼吗?Office文档突然变成只读模…...

终极免费激活方案:KMS_VL_ALL_AIO智能激活工具完整指南

终极免费激活方案:KMS_VL_ALL_AIO智能激活工具完整指南 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统频繁弹出激活提示而烦恼吗?Office突然变成只读模…...

激光雷达发射、接收、扫描、处理器四大核心器件的主流供应商及选型关键指标是什么?

激光雷达的四大核心器件——发射、接收、扫描、处理器,共同决定了系统的探测距离、分辨率与可靠性。以下从主流供应商与选型指标两个维度展开。 一、发射模块:能量之源,决定探测距离与功耗 发射模块的核心是激光器,负责产生高功率激光脉冲。其核心指标与主流玩家如下: 核…...