当前位置：首页 > article >正文

基于RAG与MCP协议构建实时新闻AI助手：newsmcp项目实战解析

article 2026/5/12 13:22:02

1. 项目概述一个让AI“读新闻”的智能工具最近在折腾AI应用开发的朋友可能都绕不开一个核心问题如何让大语言模型LLM获取并理解最新的、模型训练数据之外的信息比如你想让ChatGPT帮你分析今天科技板块的头条新闻或者总结某家上市公司最新的财报要点它通常会礼貌地告诉你它的知识截止到某个日期对此无能为力。这正是“检索增强生成”RAG技术要解决的核心痛点。而今天要拆解的这个项目——pranciskus/newsmcp就是一个非常精巧、专为“新闻”这一垂直场景设计的RAG工具实现。简单来说newsmcp是一个服务端应用它扮演了一个“新闻信息中转站”的角色。它的核心工作是持续、自动地从你指定的新闻源如RSS订阅抓取最新的文章对其进行处理、向量化并存储然后通过一个标准化的协议MCP暴露给AI助手如Claude Desktop让AI能够实时“查阅”这些新闻并基于此与你对话。你可以把它理解为你为AI助手私人订制的一个“实时新闻数据库”或“外部记忆体”。这个项目的价值在于它将复杂的RAG流程产品化、场景化了。你不需要从零开始搭建爬虫、向量数据库和API服务newsmcp提供了一个开箱即用的解决方案特别适合那些希望将AI能力与实时信息流结合起来的开发者、分析师或者单纯是科技爱好者。接下来我将从设计思路、核心实现、实操部署到避坑指南完整地拆解这个项目分享我在部署和调优过程中的一手经验。2. 核心架构与设计思路拆解2.1 为什么是“新闻”“MCP”在深入代码之前我们先理解作者pranciskus选择这个技术组合的深层考量。这关乎项目的定位和实用性。首先为什么聚焦“新闻”新闻数据具有几个鲜明特点使其成为RAG技术的绝佳试验场和应用场景高时效性新闻的价值随时间快速衰减对“实时”或“准实时”获取有强需求这正是基础LLM的短板。结构化相对规范尽管来源多样但新闻通常包含标题、发布时间、正文、来源链接等元数据便于进行统一处理和元信息关联。信息密度高正文内容通常是连贯、信息丰富的文本适合进行语义分割和向量化表示。需求场景明确用户询问“今天有什么大新闻”、“某公司最近有什么动态”这类问题非常具体通过检索相关新闻片段来回答效果立竿见影。其次为什么采用“MCP”Model Context ProtocolMCP是由Anthropic推出的一种开放协议旨在标准化AI应用如Claude与外部工具、数据源之间的通信方式。选择MCP而非自建一套REST API体现了项目的“生态友好性”和“用户易用性”设计即插即用任何支持MCP协议的AI客户端目前主要是Claude Desktop都可以无缝接入newsmcp用户无需学习新的交互方式。在Claude中newsmcp提供的工具会像原生功能一样出现。协议标准化MCP定义了资源Resources和工具Tools的标准模型。newsmcp只需遵循协议暴露新闻数据和搜索工具客户端就知道如何调用和呈现。降低使用门槛对于最终用户而言他们不需要关心后端的向量数据库、Embedding模型他们只需要在Claude里问问题就能得到基于最新新闻的答案。MCP完美地隐藏了技术复杂性。因此newsmcp的设计思路可以概括为针对高时效性新闻数据构建一个自动化的预处理管道并通过MCP这一新兴且友好的协议将处理后的数据能力直接输送给主流的AI助手实现“1数据源1处理服务1AI客户端”的轻量级、高可用实时信息解决方案。2.2 技术栈选型与组件职责打开newsmcp的代码仓库通常是pyproject.toml或requirements.txt我们可以看到其清晰的技术选型每个组件都承担着明确的职责数据抓取与解析feedparsernewspaper3kfeedparser负责从用户配置的RSS/Atom订阅源拉取原始的XML数据解析出文章列表、标题、链接、发布时间等基础元数据。它的优点是轻量、稳定是处理订阅源的事实标准。newspaper3k这是一个功能更强的库。当feedparser获取到文章链接后newspaper3k会去下载完整的HTML页面并利用启发式算法提取文章的正文内容、作者、摘要、关键词甚至主导图像。这一步至关重要因为RSS源通常只包含摘要而正文才是我们需要向量化的核心文本。文本处理与向量化langchainsentence-transformerslangchain这里langchain并非用于构建复杂的链更多的是利用其丰富的文本分割器RecursiveCharacterTextSplitter和与向量数据库交互的便捷接口。它负责将一篇长文章按照语义段落考虑标点、换行切割成大小适中的“文本块”chunks每个块通常包含几百个字符并附带重叠部分以避免语义断裂。sentence-transformers这是一个基于Transformer的句子嵌入模型库。newsmcp默认可能使用all-MiniLM-L6-v2这类轻量级模型。它的任务是将上一步得到的文本块转换成一个高维度的向量或称“嵌入”。这个向量就像是文本的数学“指纹”语义相近的文本其向量在空间中的距离也更近。向量存储与检索chromadbchromadb一个轻量级、嵌入式的向量数据库。它负责高效地存储所有新闻文本块对应的向量及其元数据如来源文章ID、发布时间等。当用户通过AI提出一个问题时这个问题也会被转换成向量chromadb的核心任务就是执行“相似性搜索”从海量向量中快速找出与问题向量最相似的几个文本块即最相关的新闻片段。协议层与服务暴露mcp这是项目的“门面”。newsmcp利用MCP的SDK创建了一个MCP服务器。这个服务器主要暴露两类东西资源例如可以设计一个news://latest资源代表“最新新闻列表”。工具这是核心。至少会提供一个search_news工具接收用户的查询字符串调用后端的向量检索流程返回相关的新闻内容。MCP客户端Claude会调用这个工具。任务调度apscheduler新闻是流动的需要定期更新。apscheduler提供了一个简单可靠的后台任务调度器可以配置为每隔一段时间如30分钟自动执行一次“抓取新闻 - 处理 - 存入向量库”的流水线作业确保数据库中的新闻始终新鲜。这个技术栈组合体现了“务实”和“专注”的特点没有选用最重型、最前沿的组件而是在满足核心需求抓取、解析、嵌入、检索、协议暴露的前提下选择了社区成熟、易于部署和维护的库极大地降低了项目的运行和二次开发成本。3. 核心配置与部署实操详解理论清晰后我们进入实战环节。假设你已经在本地或一台服务器上准备好了Python环境3.9以下是部署和配置newsmcp的详细步骤。3.1 环境准备与项目初始化首先克隆项目代码并安装依赖。通常这类项目会使用uv或poetry等现代包管理工具我们以最通用的pip为例。# 1. 克隆仓库 git clone https://github.com/pranciskus/newsmcp.git cd newsmcp # 2. 创建并激活虚拟环境强烈推荐 python -m venv .venv source .venv/bin/activate # Linux/macOS # .venv\Scripts\activate # Windows # 3. 安装依赖 pip install -r requirements.txt # 如果项目使用 pyproject.toml也可以使用 pip install -e .安装过程可能会因为sentence-transformers需要下载预训练模型而稍慢请保持网络通畅。3.2 关键配置文件解析newsmcp的核心行为由一个配置文件可能是config.yaml,config.toml或通过环境变量控制。理解并正确配置它是成功运行的关键。我们需要重点关注以下几个部分1. 新闻源配置这是项目的“数据输入口”。你需要提供一个RSS订阅源列表。# 示例 config.yaml feeds: - url: https://rss.example.com/tech category: technology name: Tech News Feed - url: https://feeds.bbci.co.uk/news/world/rss.xml category: world name: BBC World News - url: https://hnrss.org/frontpage # Hacker News category: technology name: Hacker News Top实操心得RSS源的质量直接决定最终效果。优先选择那些提供全文输出full-text的源而不是仅提供摘要的源。对于仅提供摘要的源newspaper3k的正文提取效果会打折扣有时会失败。你可以先用浏览器打开RSS链接查看description或content:encoded标签里是否是完整文章。2. 向量模型与文本分割配置这部分决定了文本如何被转换成向量以及如何被切分。embedding: model_name: all-MiniLM-L6-v2 # 轻量且效果不错的句子嵌入模型 # model_path: /local/path/to/model # 也可以指定本地路径 processing: chunk_size: 500 # 每个文本块的最大字符数 chunk_overlap: 50 # 块与块之间的重叠字符数防止上下文断裂注意事项chunk_size是一个需要权衡的参数。太小如200会导致信息碎片化检索到的片段可能缺乏完整上下文太大如1000则可能包含无关信息降低检索精度且嵌入模型对长文本的表示可能不佳。500-800是一个常见的经验区间。chunk_overlap通常设为chunk_size的10%-20%。3. 向量数据库配置chromadb是嵌入式的数据默认会保存在本地一个目录中。vectordb: persist_directory: ./chroma_db # 向量数据持久化目录 collection_name: news_articles # 集合名称可以按类别或时间创建多个4. 抓取任务调度配置配置自动更新的频率。scheduler: update_interval_minutes: 30 # 每30分钟抓取更新一次3.3 首次运行与数据初始化配置完成后我们可以启动服务并执行第一次数据抓取和索引构建。# 通常项目会提供一个主入口脚本例如 main.py 或 server.py python src/newsmcp/server.py # 或者如果配置了入口点newsmcp serve服务启动后通常会做两件事启动MCP服务器监听某个端口如8080等待Claude Desktop等客户端连接。立即执行一次新闻抓取和索引任务。你可以在日志中看到类似的信息INFO: Started MCP server on port 8080 INFO: Starting scheduled news update... INFO: Fetching feed: Tech News Feed INFO: Downloaded and parsed article: OpenAI releases new model INFO: Chunking article into 3 pieces INFO: Generating embeddings for 3 chunks INFO: Upserted 3 chunks into collection news_articles INFO: Scheduled next update in 30 minutes.这个过程可能会持续几分钟取决于你配置的订阅源数量和文章长度。首次运行后你的./chroma_db目录下就会保存所有新闻文本的向量索引。3.4 连接AI客户端以Claude Desktop为例这是体验魔法的一步。你需要配置Claude Desktop来连接你本地运行的newsmcp服务器。打开Claude Desktop应用。进入设置Settings- 开发者Developer- 编辑MCP服务器配置。添加一个新的服务器配置。配置方式取决于newsmcp的暴露方式常见的是通过标准输入输出stdio或HTTP。如果newsmcp使用stdio更常见更安全{ mcpServers: { newsmcp: { command: /absolute/path/to/your/.venv/bin/python, args: [/absolute/path/to/newsmcp/src/server.py], env: { PYTHONPATH: /absolute/path/to/newsmcp/src } } } }如果newsmcp使用HTTP{ mcpServers: { newsmcp: { url: http://localhost:8080 } } }保存配置并重启Claude Desktop。重启后当你新建一个对话时Claude的界面上可能会出现一个新的工具图标或者在你输入问题时Claude会自动建议使用search_news工具。现在你可以尝试问“今天科技领域有什么重要新闻” 或 “告诉我关于特斯拉的最新消息。” Claude会在后台调用newsmcp的工具检索相关的新闻块并将其作为上下文来生成回答。4. 核心工作流程与内部机制剖析当用户在Claude中输入一个问题时newsmcp内部是如何协同工作的我们来梳理一下这个端到端的流程这有助于你后续进行问题排查和自定义开发。4.1 数据流水线从RSS到向量库这是后台定时任务的核心也是信息处理的基石。触发与抓取apscheduler根据配置的时间间隔触发任务。任务启动后遍历feeds配置列表使用feedparser并发或顺序地抓取每个RSS源的XML内容。解析与去重feedparser解析XML得到文章条目列表。系统会检查文章的guid或link与数据库中已存在的记录进行比对实现去重避免同一篇文章被重复处理。正文提取对于新文章使用newspaper3k库访问其link指向的原始网页。该库会执行以下操作下载HTML。清理广告、导航栏等噪音。运用算法识别文章正文主体。提取正文文本、发布时间、作者等元数据。潜在问题对于某些反爬虫严格或结构特殊的网站提取可能失败或得到空内容。这是该流程中的一个主要风险点。文本分割将提取到的纯文本正文交给langchain的RecursiveCharacterTextSplitter。分割器会尝试按段落、句子等自然边界进行切割生成多个chunk并确保相邻chunk之间有重叠。向量化将每个chunk文本送入sentence-transformers模型生成一个固定长度的浮点数向量例如384维或768维。这个过程是计算密集型的首次运行需要下载模型。存储索引将(向量, chunk文本, 元数据)作为一个整体存入chromadb的指定集合中。元数据至少包括原始文章标题、链接、发布时间、所属分类等。这些元数据在后续检索和结果展示中非常有用。4.2 查询流程用户问题到AI答案当Claude调用search_news工具时流程如下接收查询MCP服务器接收到来自客户端的调用请求参数中包含用户的查询字符串query。查询向量化将用户的query字符串使用同一个sentence-transformers模型转换成查询向量。这一点至关重要必须保证存储和查询使用的是同一个模型否则向量空间不一致检索结果将毫无意义。相似性检索在chromadb中对指定的集合执行相似性搜索。chromadb会计算查询向量与库中所有存储向量的余弦相似度或欧氏距离返回相似度最高的前k个结果k通常可配置如5个。结果组装与返回检索到的不仅仅是向量ID还有关联的chunk文本和元数据。MCP服务器将这些信息组装成结构化的数据通常是JSON格式按照MCP协议的定义返回给客户端。AI生成答案Claude Desktop收到newsmcp返回的相关新闻片段后将这些片段作为额外的“上下文”Context或“系统提示”System Prompt的一部分与用户原始问题一起提交给Claude大模型。模型基于这些实时信息生成最终的回答。整个过程中newsmcp自身不运行大模型它只负责信息的“检索”部分是典型的RAG架构中的“R”Retrieval组件。而“A”Augmentation和“G”Generation则由Claude这类客户端完成。5. 高级调优与自定义扩展指南基础功能跑通后你可以根据自身需求对newsmcp进行深度调优和扩展使其更加强大和贴合你的使用场景。5.1 提升检索质量的关键参数优化chunk_size和chunk_overlap这是影响检索精度的最直接参数。如果你的新闻多是短讯可以适当减小chunk_size如300。如果是深度分析长文可以增大如800。建议针对你的主要新闻源类型进行小规模测试观察不同设置下针对典型问题检索到的chunk是否包含了答案的核心信息。尝试不同的Embedding模型all-MiniLM-L6-v2是一个很好的平衡点。如果你更追求精度且拥有更好的计算资源GPU可以尝试更大的模型如all-mpnet-base-v2它能生成768维的向量语义表示能力更强。你可以在Hugging Face上寻找适合你语种如果是中文新闻则需要中文Embedding模型和领域的最新模型。利用元数据进行过滤chromadb支持基于元数据的过滤。你可以在检索时增加过滤条件。例如在search_news工具中增加category或date参数让用户只检索特定类别或时间范围内的新闻。这需要在工具实现和数据库查询时做相应修改。实现混合搜索除了向量相似性搜索还可以结合关键词搜索如BM25。例如先通过关键词快速筛选出一批候选文章再对这批文章进行向量精排。这能结合两者的优势但实现复杂度更高。chromadb本身支持简单的关键词过滤但完整的混合搜索可能需要集成Elasticsearch等。5.2 扩展数据源与处理逻辑支持更多数据源除了RSS你可以修改抓取模块使其支持API接口许多新闻平台提供官方API如NewsAPI Guardian Open Platform。社交媒体通过特定平台的API或爬虫遵守Robots协议抓取信息。邮件列表/ Newsletter解析邮件内容。核心是统一数据入口输出结构化的文章对象标题、正文、时间、链接。增强正文提取鲁棒性newspaper3k并非万能。对于提取失败的网站可以编写针对该网站的自定义解析规则使用BeautifulSoup或lxml。尝试其他提取库如trafilatura、goose3。作为兜底方案直接使用RSS源中的content:encoded或长摘要。后处理与数据清洗在文本分割前可以加入清洗步骤移除无关的版权声明、推荐阅读链接。统一日期格式。识别并过滤掉纯广告或通知类文章。5.3 系统监控与维护对于长期运行的服务监控和维护必不可少。日志记录确保项目的日志配置完善记录每次抓取的任务状态成功/失败源数量、新增文章数、检索请求的耗时等。这有助于排查问题。数据老化与清理新闻有过期性。可以定期如每周运行一个清理任务删除超过一定时间如30天的旧文章向量以控制数据库大小和提高检索效率。健康检查为MCP服务器添加一个简单的健康检查端点如果使用HTTP方式方便监控服务状态。错误处理与重试网络请求和网页解析充满不确定性。在抓取和解析模块中必须加入完善的错误处理try-catch和重试机制如使用tenacity库避免个别源的失败导致整个任务中断。6. 常见问题与故障排查实录在实际部署和使用newsmcp的过程中你几乎一定会遇到下面这些问题。这里记录了我的排查思路和解决方案。6.1 数据抓取与处理类问题问题1日志显示大量“Failed to extract article from [某链接]”警告。原因newspaper3k无法从该网站页面中有效识别正文。常见于JavaScript渲染严重、结构特殊或反爬的网站。排查手动用浏览器打开该链接查看页面结构。检查页面是否需要执行JS才能加载内容newspaper3k不执行JS。查看网页源代码看正文是否在明显的article或div标签内。解决方案A换源寻找该网站是否提供更友好的全文RSS源。方案B自定义解析针对该网站写一个简单的HTML解析函数替换newspaper3k。可以使用requestsBeautifulSoup定位特定CSS选择器下的文本。方案C降级在配置中为该源设置一个标志遇到提取失败时回退到使用RSS中的摘要description作为chunk内容虽然信息不全但好过没有。问题2抓取任务运行缓慢尤其是首次运行。原因配置的新闻源过多或单个源文章量巨大。sentence-transformers首次运行需要下载模型几百MB且生成向量是CPU密集型操作。网络延迟。解决限制并发在抓取和解析时使用asyncio或线程池控制并发数避免对目标网站造成过大压力也避免本地资源耗尽。分步初始化首次启动时可以先注释掉大部分新闻源只保留1-2个核心源让系统快速跑起来。后续再逐步添加。考虑GPU如果新闻量极大且追求更新速度可以考虑在支持CUDA的环境下运行sentence-transformers可以利用GPU大幅加速向量生成。问题3检索结果不相关经常答非所问。原因chunk_size设置不当块太大包含噪音太小丢失上下文。Embedding模型不匹配查询时使用的模型与建库时的模型不是同一个。这是最容易被忽略的严重问题确保服务重启后Embedding模型初始化代码路径一致。文本分割导致语义断裂文章在表格、代码块、特殊符号处被不合理地切分。排查与解决打印出针对某个查询检索到的原始chunk文本看看它到底包含了什么。这是最直接的调试方法。调整chunk_size和chunk_overlap观察效果变化。确认模型名称和路径在配置文件中唯一指定并在代码中确保只初始化一次该模型。尝试使用langchain中更高级的分割器如按标记token分割或语义分割器虽然更慢但可能效果更好。6.2 MCP连接与客户端问题问题4Claude Desktop无法连接newsmcp提示“Server connection failed”。原因MCP服务器配置错误或服务未正常启动。排查步骤检查服务是否运行在终端运行ps aux | grep newsmcpLinux/macOS或查看任务管理器确认进程存在。检查日志查看newsmcp启动时的日志是否有错误堆栈。常见错误包括导入失败、配置文件找不到、端口被占用。检查Claude配置如果使用stdio方式command和args的路径必须是绝对路径虚拟环境下的Python路径也要正确。如果使用HTTP方式先用curl http://localhost:8080或你的端口测试服务是否可达。检查防火墙确保Claude Desktop有权限执行你指定的命令。问题5在Claude中看不到search_news工具。原因MCP握手成功但工具未正确注册或协议版本不兼容。排查查看newsmcp启动日志确认在初始化MCP服务器时search_news工具被成功添加到服务器实例中。检查Claude Desktop的版本是否支持MCP。通常需要较新的版本。尝试在Claude中手动输入search_news看是否有提示。6.3 性能与资源问题问题6运行一段时间后内存占用很高或磁盘空间增长很快。原因chromadb默认在内存中缓存向量索引新闻数据不断累积导致内存占用上升。向量数据库文件在persist_directory随着数据增加而变大。解决实施数据清理策略如前所述定期清理旧新闻。调整chromadb配置可以设置chromadb的缓存策略但通常效果有限。最根本的还是控制数据总量。监控与告警为服务器内存和磁盘使用率设置监控超过阈值时触发告警或自动清理任务。部署newsmcp的过程是一个典型的“搭积木”和“调参数”的过程。它不是一个黑盒产品而是一个提供了清晰管道的开源项目。你能走多远很大程度上取决于你对其各个组件的理解深度以及你根据自身数据源和需求进行定制和优化的能力。从简单的RSS订阅开始逐步扩展到更复杂的数据源优化检索效果这个过程本身就是对RAG技术栈一次绝佳的实践学习。

基于RAG与MCP协议构建实时新闻AI助手：newsmcp项目实战解析

相关文章：

基于RAG与MCP协议构建实时新闻AI助手：newsmcp项目实战解析

Zynq/ZynqMP PL端以太网实战：手把手教你用GMII to RGMII IP和EMIO打通网络（附KSZ9031 PHY驱动修改）

基于AI与胎心监护信号预测胎儿生物年龄：技术实现与临床价值

Windows NFSv4.1客户端终极指南：让Windows系统无缝访问NFS服务器

别再盲目刷LeetCode了！先把这5个编程基础打牢

【OpenClaw从入门到精通】第78篇：OpenClaw安全防护实测——360龙虾保 vs 奇安信安全伴侣全维度对比（2026万字实战版）

BiliBili-UWP：Windows 10/11 上最流畅的第三方B站客户端完全指南

从继电器到边缘计算：拆解PAC控制器里的‘智能手机’架构（以Codesys/倍福为例）

保姆级教程：在Windows 10/11上从源码编译Groops（含Qt环境变量避坑指南）

从零手写CNN：理解卷积网络的生物学原理与工程逻辑

青年教师评副高‘捷径’：这6本被低估的SSCI，认可度不输顶刊！

自动化测试系统开关架构与继电器选型指南

伺服电机控制模式全解析：位置、速度、扭矩模式到底怎么选？手把手配置教程

大模型对话的端到端加密与隐私计算实战：基于CipherChat与TEE的架构解析

动态架构跳跃：让视觉语言大模型高效适配垂直领域任务

信息学奥赛经典回溯：八皇后问题深度解析与OpenJudge实战

Nevis‘22基准：评估持续学习模型的计算效率与知识迁移能力

硬核架构拆解：指纹浏览器底座+FSM状态机，如何重塑高容错的店群RPA自动化？

深度解构：指纹浏览器底层隔离与Python高并发RPA，如何重塑电商矩阵自动化架构？

ncmdumpGUI：解锁网易云音乐NCM文件格式的终极解决方案

RAG视觉锚定：让大模型精准定位PDF中的图与表

APK Installer技术解析与实践指南：Windows平台安卓应用部署的革命性方案

DDrawCompat：让经典DirectX游戏在Windows 11重获新生的技术桥梁

三步打造你的数字记忆库：WeChatMsg微信聊天记录永久保存指南

怎样高效使用Mac微信插件：5大实用功能完全指南

社区团购系统源码推荐：为什么越来越多团队开始关注 LikeShop 社区团购系统？

暗黑破坏神2存档编辑器完整指南：快速免费修改d2s文件终极方案

使用 LikeShop 搭建商城的完整流程（从0到上线）

UE4SS终极指南：5步掌握虚幻引擎游戏修改与脚本开发

别再死记硬背了！用PyTorch和TensorFlow动手实现四种池化层，直观理解它的作用