当前位置: 首页 > article >正文

收藏必备!小白程序员轻松掌握RAG大模型,让你的AI秒懂公司文档!

RAG 是什么一句话类比RAGRetrieval-Augmented Generation 先检索再生成。类比RAG 就像开卷考试。模型本身是那个能写文章的学生知识库是那一堆参考书。考试时不靠死记硬背而是先翻书找到相关段落再用自己的理解写答案。没有 RAG 的 AI 是闭卷考——它只能答它训练时见过的内容。为什么不直接 Fine-tuning这是大家最常问的问题。Fine-tuning 训练的是「风格和能力」不是「知识」。维度RAGFine-tuning知识更新改向量库秒级生效重新训练几小时到几天成本低API 向量DB高GPU 算力幻觉风险可溯源能引用原文模型可能「记错」适用场景私有知识、频繁更新专业语气、特定格式输出结论知识库类需求首选 RAG想让模型说话更像你们品牌才考虑 Fine-tuning。RAG 完整流程拆解RAG 分两个阶段索引阶段离线和查询阶段在线。索引阶段一次性/更新时 文档 → 分块(Chunking) → 向量化(Embedding) → 存入向量数据库 查询阶段每次对话 用户提问 → 向量化 → 相似度检索 → 取出 Top-K 段落 → 拼进 Prompt → LLM 生成回答第一关文档分块Chunking分块策略直接决定检索质量但大多数人第一次都搞错了。固定长度分块最常见但有问题fromimport# 最常见写法按字符数切分1000# 每块最多1000字符200# 相邻块重叠200字符防止语义断裂\n\n\n。 ❌ 常见错误chunk_overlap0→ 一个完整句子被切成两半检索时两半都不完整模型无法理解✅ 正确做法chunk_overlap设为chunk_size的 10%-20%→ 语义完整相邻块有重叠保护语义分块效果更好稍复杂fromimportfromimport# 按语义相似度自动切分不按字符数硬切percentile# 超过85%相似度阈值才切分85# 输出的每个 chunk 语义上都是完整的✅ 语义分块在技术文档、法律合同这类强结构文本效果明显更好❌ 但速度更慢每次都要调用 Embedding适合离线批量处理第二关向量化EmbeddingEmbedding 是把文本变成一串数字向量语义相近的文本向量距离更近。类比把每段文字映射到一个 1536 维的空间里「苹果手机」和「iPhone」在这个空间里距离很近和「橙子」距离远。选 Embedding 模型# 方案AOpenAI text-embedding-3-small性价比最高推荐fromimporttext-embedding-3-small# 1536维比 ada-002 便宜5倍# modeltext-embedding-3-large, # 精度更高贵3倍一般用不到# 方案B本地模型零成本但精度稍差fromimportBAAI/bge-m3# 多语言中文效果好devicecpu# 测试一下两段近义句向量距离应该很小如何重置密码忘记密码怎么办# 这两个向量的余弦相似度应该 0.9关键原则索引时用什么 Embedding查询时必须用同一个——不能混用。向量数据库选型数据库适用场景特点Chroma本地开发、原型验证零配置纯 PythonQdrant生产环境推荐性能好支持过滤Pinecone云服务快速上线全托管按量付费pgvector已有 PostgreSQL不用新增基础设施# Chroma 本地版开发用fromimport./chroma_db# 本地持久化my_knowledge_base# Qdrant 生产版fromimportimporthttp://localhost:6333my_knowledge_base第三关检索策略大多数 RAG 系统检索效果差不是因为 Embedding 模型不好而是检索策略太简单。基础检索相似度搜索# 最基础返回最相似的4个chunk如何申请年假4# 带分数能看到每个 chunk 的相似度0-1越高越相关如何申请年假4forinprintf相似度: {score:.3f} | 内容: {doc.page_content[:50]}...进阶检索MMR最大边际相关性❌ 纯相似度搜索的问题Top-4 可能都是在说同一件事高度重复✅ MMR 在保证相关性的同时最大化结果多样性# MMR 检索相关 不重复如何申请年假4# 返回4个20# 先取20个候选再从中选4个最多样的0.7# 0最多样1最相关0.5-0.7 效果最好混合检索向量 关键词生产推荐fromimportfromimport# 关键词检索BM25对专有名词、型号特别有效4# 向量检索k4# 混合各取 50%0.50.5# 可调专有名词多时提高 BM25 权重iPhone 14 的电池容量是多少# BM25 精准匹配「iPhone 14」向量找到语义相关段落两者互补第四关完整 RAG Chain 搭建把前面所有环节串起来搭一个可以直接上生产的 RAG Chainfromimportfromimportfromimportfromimportfromimport# 1. 初始化组件gpt-4o-mini0text-embedding-3-small./chroma_dbmy_knowledge_basemmrk4fetch_k20# 2. RAG Prompt关键要求模型基于上下文回答你是一个专业的知识库助手。请根据以下检索到的上下文回答用户问题。**规则**- 只基于提供的上下文回答不要编造- 如果上下文中没有相关信息直接说「根据现有资料我找不到这个问题的答案」- 回答要简洁直接引用原文时用引号**检索到的上下文**{context}**用户问题**{question}# 3. 格式化检索结果多个 chunk 拼在一起defformat_docsdocsreturn\n\n---\n\nf[来源: {doc.metadata.get(source, 未知)}]\n{doc.page_content}forin# 4. 组装 ChainLCEL 写法context# 检索 → 格式化question# 问题直接传入# 5. 使用我们公司的年假政策是什么print带来源引用的版本fromimport# 同时返回答案和来源文档answersource_documents# 保留原始 chunk年假怎么申请print答案answerprint\n引用来源forinsource_documentsprintf - {doc.metadata.get(source, 未知)}: {doc.page_content[:80]}...第五关文档入库工程化把文档批量处理入库这才是生产中最麻烦的部分importfromimportfromimportfromimportdefload_documentsdocs_dir: strlist支持 PDF、Word、TXT、Markdown 混合入库.pdf.docx.txt.mdforin*ifinstr# 给每个 chunk 打上来源标记forinsourcefile_pathstrprintf✅ 已加载: {file_path.name} ({len(docs)} 段)returndefbuild_knowledge_basedocs_dir: str, persist_dir: str一键构建知识库# 加载文档printf\n共加载 {len(raw_docs)} 个文档片段# 分块800150\n\n\n。printf分块后共 {len(chunks)} 个 chunk# 向量化入库分批处理避免 API 限流text-embedding-3-small# 批量处理每批 100 个100Noneforinrange0lenifisNoneknowledge_baseelseprintf进度: {min(ibatch_size, len(chunks))}/{len(chunks)}printf\n✅ 知识库构建完成共 {len(chunks)} 个向量return# 使用./docs./chroma_db常见坑踩过才知道坑1Chunk 太大检索噪音多❌chunk_size3000一个 chunk 包含了太多无关内容检索出来的段落「离题」✅ 推荐chunk_size600-1000回答简单问题用小 chunk需要完整上下文时用k6坑2相同文档重复入库# ❌ 每次启动都重新入库向量越来越多# ✅ 检查是否已有数据有就直接加载ifandprint加载已有向量库elseprint新建向量库坑3提问语言和文档语言不一致❌ 文档是中文用英文查询 → 相似度打分错乱✅ 用多语言 EmbeddingBAAI/bge-m3或在检索前把提问翻译成文档语言坑4Top-K 太少关键信息检索不到❌k2覆盖太少问题涉及多个段落时漏答✅ 生产环境推荐k4~6token 允许的情况下宁多不少坑5Prompt 没有「只基于上下文回答」约束❌ 没加限制 → 模型结合自己训练知识和检索结果混答无法区分哪些是你的文档里有的✅ 明确写「只基于以下上下文没有就说没有」——这一句能把幻觉降低 80%发布前自查清单Embedding 模型索引和查询时一致chunk_overlap≥chunk_size的 10%每个文档 chunk 打了来源 metadataPrompt 中有「只基于上下文」约束检索数量k≥ 4重复入库已做幂等检查混合检索BM25 向量用于专有名词多的场景总结–这篇我们从零搭了一套完整的 RAG 私有知识库方案分块决定上限chunk_size800overlap150语义分块效果比固定分块好 20-30%Embedding 选型开发用text-embedding-3-small中文内容用bge-m3检索策略分层基础用相似度去重用 MMR专有名词多用混合检索Prompt 约束是关键「只基于上下文」这一句能把幻觉降低 80%工程化必做入库幂等检查文档打 metadata 来源批量处理防限流理解 RAG 的核心是检索质量 生成质量——答案已经在文档里了问题是能不能找对。普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 大模型作为其中的重要组成部分 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 为各行各业带来了革命性的改变和机遇 。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌02适学人群应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。vx扫描下方二维码即可【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】

相关文章:

收藏必备!小白程序员轻松掌握RAG大模型,让你的AI秒懂公司文档!

RAG 是什么:一句话类比 RAG(Retrieval-Augmented Generation) 先检索,再生成。 类比:RAG 就像开卷考试。模型本身是那个能写文章的学生,知识库是那一堆参考书。考试时不靠死记硬背,而是先翻书找…...

大数据开发场景下,总结并翻译 Oracle 中常见的错误(补充其他错误码:适合初学者)

Oracle大数据开发常见错误在Oracle大数据开发(如ETL、Hadoop抽取)中,常见错误分为五类:字段/表错误:如ORA-00904(无效列名)、ORA-00942(表不存在);数据类型/转…...

C++实现简单计算器

本文实例为大家分享了C实现简单计算器的具体代码,供大家参考,具体内容如下工具stackmap步骤初始化读取字符串去空格负号处理判断为空检查格式计算示例代码1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950…...

Unity游戏实时翻译终极指南:XUnity.AutoTranslator深度技术解析

Unity游戏实时翻译终极指南:XUnity.AutoTranslator深度技术解析 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 在全球化游戏市场日益繁荣的今天,语言障碍成为玩家体验外语游戏的最…...

[Al+」数智升级,品牌种草营销新范式

AI给各行各业带来的革新有目共睹。在营销工作中,这个命题亦尤为迫切。AI如何嵌入具体场景、解决日常问题?过去一年,千瓜持续投入「AI」产品战略升级,现已覆盖“达人、内容、品牌”三大维度,实现从选人选号、内容创作到…...

脑矿奴隶起义:软件测试从业者的觉醒与革命

在当今数字化浪潮中,软件测试从业者常被戏称为“脑矿奴隶”——一群在代码矿山中日夜劳作的隐形工人,承受着高强度脑力压榨与价值低估。这场“脑矿奴隶起义”,不是历史上的血腥抗争,而是测试工程师们通过专业工具、自动化策略和集…...

Qwen3模型网络故障诊断辅助:图解常见错误与解决方案

Qwen3模型网络故障诊断辅助:图解常见错误与解决方案 网络一断,业务瘫痪。对于运维工程师来说,这可能是最让人心跳加速的时刻。面对屏幕上跳出的错误代码,从海量的日志和复杂的拓扑图中快速定位问题根源,无异于大海捞针…...

2026年小程序商城哪个平台最好?

2026年小程序商城哪个平台最好?小程序商城没有"最好的平台",只有"最匹配业务需求的平台"。选择平台的核心依据是功能匹配度、成本可控性和运营支持能力三者的平衡。从趋势来看,2023-2025年SaaS平台方案占比从约45%增长到…...

2026 AI存储行业迎来关键时刻:英伟达“补课”,华为存储“解题”

文 | 智能相对论作者 | 陈泊丞数十亿建成的万卡GPU集群,实际利用率不足40%。这不是某个智算中心的个例。在过去两年里,中国涌现了大大小小几十个智算中心项目,GPU买了一批又一批,但真正跑满的时候不多。问题不在芯片本身——而在数…...

Swoole+LLM长连接崩了?5个致命错误代码片段+4步热修复流程,现在不看明天宕机

更多请点击: https://intelliparadigm.com 第一章:SwooleLLM长连接崩了?5个致命错误代码片段4步热修复流程,现在不看明天宕机 当 Swoole 的 WebSocket Server 与 LLM 推理服务深度耦合后,长连接看似稳定,实…...

VS Code Copilot Next 工作流配置已进入“智能编排”时代:如何用3个JSON Schema + 1个DSL描述符接管全部重复性编码任务?

更多请点击: https://intelliparadigm.com 第一章:VS Code Copilot Next 工作流配置已进入“智能编排”时代 VS Code Copilot Next 不再仅是代码补全工具,而是演变为可感知上下文、理解任务意图、并自动串联多步骤开发动作的智能工作流引擎…...

git提交代码时,将大写文件改成小写,提交不上去了

主要原因:git add . 没成功把文件加入暂存区文件被 .gitignore 规则忽略了以后永久解决大小写问题git config core.ignorecase false...

环境一致性崩塌预警!Dev Containers 生产部署前必须验证的7项黄金检查项(含自动化校验脚本)

更多请点击: https://intelliparadigm.com 第一章:环境一致性崩塌预警!Dev Containers 生产部署前必须验证的7项黄金检查项(含自动化校验脚本) 当 Dev Containers 从本地开发跃迁至 CI/CD 流水线或预发环境时&#xf…...

构建高效测试反馈循环:从CI/CD到自动化测试的工程实践

1. 项目概述:一个关于测试与循环的探索最近在GitHub上看到一个名为suhuandds/test-pilot-loop的项目,这个标题本身就很有意思。test-pilot-loop,直译过来是“测试-飞行员-循环”,听起来像是一个航空领域的术语,但在软件…...

国产替代之2SK3704与VBMB1615参数对比报告

N沟道功率MOSFET参数对比分析报告一、产品概述2SK3704:三洋(SANYO)N沟道硅MOSFET,耐压60V,导通电阻低,开关速度快(超高速开关),采用4V驱动设计。封装:TO-220M…...

VS Code 远程容器开发环境崩溃实录(附完整日志解码手册):从 Dockerfile 语法错误到 OCI runtime error 的全链路排障指南

更多请点击: https://intelliparadigm.com 第一章:VS Code 远程容器开发环境崩溃现象全景速览 VS Code 的 Remote-Containers 扩展在现代云原生开发中广受青睐,但其稳定性在特定场景下存在显著挑战。开发者常遭遇容器意外退出、Dev Containe…...

BiliTools完整指南:如何轻松下载B站视频与弹幕

BiliTools完整指南:如何轻松下载B站视频与弹幕 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools 还在为下…...

MinIO 国产平替,RustFS 发布 Beta 版本啦

历经 2850 次 Git 提交,99 个 alpha 版本,我们正式发布 RustFS Beta 版。 自从 2025 年 7 月正式开源以来,RustFS 累计获得 26.5k star,1.1k fork,全球贡献者数量超 130 位,DockerHub 镜像拉取次数更是超过…...

保姆级教程:用UE5的Cable组件和PhysicsConstraint做个会晃的吊灯(蓝图版)

用UE5打造逼真物理吊灯:Cable组件与PhysicsConstraint深度实战 在虚幻引擎5的虚拟世界中,物理交互是营造沉浸感的关键要素之一。想象一下中世纪城堡大厅里摇曳的烛光,或是现代loft空间中极具设计感的悬挂灯具——这些场景的核心,往…...

前端性能优化:可访问性优化详解

前端性能优化:可访问性优化详解 为什么可访问性优化如此重要? 在现代Web应用中,可访问性是一个常常被忽视的重要因素。合理的可访问性优化可以确保所有用户(包括残障人士)都能正常使用网站,同时也能提高搜…...

2025届学术党必备的五大AI论文方案解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 当下,主流的AI论文辅助工具,各自有着不同的特点,GPT呢&am…...

WS2812点阵驱动时序调不好?保姆级示波器抓波形与FPGA调试心得分享

WS2812点阵驱动时序调不好?保姆级示波器抓波形与FPGA调试心得分享 第一次接触WS2812点阵时,看着数据手册上那些以纳秒为单位的时间参数,我整个人都是懵的。1180ns、1280ns、300us——这些数字在示波器上看起来就像是在玩一场高精度的电子游戏…...

前端性能优化:构建工具优化详解

前端性能优化:构建工具优化详解 为什么构建工具优化如此重要? 在现代Web开发中,构建工具是前端开发流程的重要组成部分。合理使用构建工具可以显著提高开发效率,优化代码质量,提升页面性能。因此,构建工具优…...

数据库迁移中的索引管理:Blue/Green部署策略

在现代软件开发中,数据库迁移和部署策略对于保证系统的稳定性和可用性至关重要。Blue/Green部署是一种常见的无停机更新方式,它通过在两个独立的环境中分别运行旧版本(Blue)和新版本(Green)应用来实现。今天我们来探讨在这种部署策略下,如何在两个PostgreSQL数据库实例间…...

深入理解NumPy数组切片

引言 在科学计算和数据分析领域,NumPy库无疑是Python中最强大的工具之一。NumPy提供了多维数组对象和大量用于处理数组的函数,其中数组切片(slicing)是经常使用到的功能之一。今天我们将探讨如何在NumPy中对一维数组进行切片操作,并解决一些常见的困惑。 数组切片简介 …...

bitset的数据结构用法

一&#xff0c;bitset本质bitset 定长二进制数组&#xff08;0/1&#xff09; 位运算加速类似&#xff1a;bool a[N];但支持批量位运算&#xff08;64位/128位并行&#xff09;二&#xff0c;定义 & 初始化bitset<1000>b; //全0bitset<1000>b("10…...

Excel VBA:动态隐藏列的技巧

在处理大数据集时,经常会遇到需要从一个包含大量列的表格中,只保留特定列的情况。这种需求在数据分析、报表生成等场景中尤为常见。今天,我将向大家展示如何使用Excel VBA编写一个脚本,确保无论数据文件如何变化,我们都可以动态地隐藏不需要的列,只保留我们需要的那些。 …...

Fast-GitHub终极指南:3个步骤彻底解决GitHub访问难题

Fast-GitHub终极指南&#xff1a;3个步骤彻底解决GitHub访问难题 【免费下载链接】Fast-GitHub 国内Github下载很慢&#xff0c;用上了这个插件后&#xff0c;下载速度嗖嗖嗖的~&#xff01; 项目地址: https://gitcode.com/gh_mirrors/fa/Fast-GitHub 如果你是一位经常…...

急缺大模型开发!年薪96万的新兴领域,强烈建议冲一冲!

本文强调AI大模型技术作为未来五年程序员最佳发展方向&#xff0c;指出华为、美团、阿里等大厂都在积极布局相关岗位&#xff0c;年薪百万成为常态。文章指出&#xff0c;掌握AI大模型技术&#xff0c;特别是Fine-tuning、Agent、RAG等技术&#xff0c;对于开发者的职业发展至关…...

避坑指南:Qt Widgets中paintEvent()重绘的5个常见错误与性能优化

Qt Widgets中paintEvent()重绘的5个常见错误与性能优化实战 在桌面应用开发领域&#xff0c;Qt框架因其跨平台特性和丰富的图形能力而广受欢迎。其中&#xff0c;QPainter作为2D绘图的核心类&#xff0c;承担着界面渲染的重要职责。然而&#xff0c;许多开发者在实现paintEvent…...