当前位置: 首页 > article >正文

腾讯大模型二面:你会怎么设计一个大模型应用的后端架构?

1. 题目分析传统 Web 后端的核心瓶颈通常在数据库——查询慢了加索引并发高了加缓存数据量大了分库分表整套方法论经过十几年的打磨已经非常成熟。但当你把 LLM 引入后端架构的那一刻这些规则就变了。一个普通的数据库查询耗时毫秒级一次 LLM 调用动辄几秒甚至十几秒数据库查询按次计费几乎可以忽略不计LLM 调用按 token 收费一个活跃用户一天的对话成本可能就是几毛到几块钱最关键的是数据库查询是确定性的同样的 SQL 永远返回同样的结果而 LLM 的输出每次都可能不同。慢、贵、不确定——就是后端架构设计必须要考虑的三大核心因素1.1 整体分层与请求流转先说大的框架。一个生产级的大模型应用后端从外到内通常可以分成四层接入层负责协议处理、认证鉴权和流量控制业务编排层负责理解用户意图、组装 Prompt、编排多步调用逻辑模型服务层负责管理和调用各种 LLM做路由、负载均衡和容错降级数据与记忆层负责对话历史、向量检索、用户画像等持久化存储。这四层的划分看起来和传统微服务架构差不多但每一层内部的设计重心完全不同。传统后端的接入层主要关心的是鉴权和限流大模型应用的接入层还要处理 SSE 长连接和流式传输传统后端的业务层通常是接收请求→查数据库→返回结果这种同步短链路大模型应用的业务层可能需要编排多轮 LLM 调用、工具调用、RAG 检索整个链路又长又慢传统后端的数据层主要是关系型数据库大模型应用的数据层还要加上向量数据库、会话缓存、Prompt 模板库等一系列新组件。1.2 流式响应在传统 REST API 中客户端发一个请求服务端处理完毕后一次性返回完整响应整个过程可能只需要几十毫秒用户几乎感知不到等待。但大模型应用完全不是这个节奏——一次 LLM 调用可能需要 3-10 秒才能生成完整回复如果是复杂的 Agent 任务甚至需要几十秒。让用户干等这么久体验会非常糟糕。所以大模型后端架构必须把流式响应作为一等公民来设计而不是事后补丁。实现方案主要是 SSEServer-Sent Events或 WebSocket。SSE 更适合单向推送场景服务端向客户端逐 token 输出实现简单且天然兼容 HTTP 协议WebSocket 适合需要双向通信的场景比如用户在生成过程中发送停止生成指令。但流式传输带来的工程复杂度不小。中间件兼容性是第一个坑——Nginx 默认会缓冲后端响应再一次性发给客户端你必须显式关掉proxy_buffering才能实现真正的流式传输很多 API 网关和 WAF 也有类似的缓冲问题。错误处理的时机也变了——流式场景下 HTTP 200 已经发出去了中间出错没法改状态码只能在流中插入错误事件让前端处理。还有token 计量——流式输出时需要在服务端准确统计每次调用的 token 消耗这涉及到流的拦截和计数。工程上比较成熟的做法是建一个流式代理网关专门负责维护长连接、做流的中继转发、附加 token 统计元数据、处理超时和异常中断把流的复杂性封装在一层里。1.3 模型服务层模型服务层是整个架构中技术含量最高的一层因为它要直接面对 LLM 的慢、贵、不确定三大特性。多模型路由与降级是这一层最核心的设计。生产环境中几乎不会只用一个模型——你可能用 GPT-4o 做复杂推理、用 Claude 做长文档理解、用开源的 Qwen 做一些简单的分类和提取任务。这就需要一个模型路由器根据任务类型、复杂度、成本预算等条件把请求分发到合适的模型。更重要的是降级策略当首选模型 API 超时或返回错误时系统应该自动 fallback 到备选模型而不是直接报错给用户。一个典型的降级链可能是 GPT-4o → Claude → Qwen越往后模型能力可能稍弱但可用性更高。实现上路由器通常维护一张模型能力矩阵——记录每个模型的上下文窗口、支持的功能Function Calling、Vision 等、平均延迟、每千 token 价格和当前健康状态。路由决策可以基于规则“含图片的请求只发给支持 Vision 的模型”也可以基于策略“优先选延迟最低的健康模型成本超阈值时降级”。并发与队列管理同样关键。LLM API 通常有严格的 Rate Limit系统并发量大时必须在这一层做请求排队和令牌桶限速。对于自部署的开源模型还需要做 Dynamic Batching 来提高 GPU 利用率vLLM 和 TGI 在这方面做了很多优化。1.4 缓存策略缓存在传统后端是锦上添花在大模型后端是必须有的基础设施。原因很直接LLM 调用既慢又贵如果同样的问题能从缓存中直接返回省下的时间和成本非常可观。最直接的是精确匹配缓存——把用户输入的 hash 作为 keyLLM 的响应作为 value 存入 Redis。完全相同的问题直接命中缓存延迟从几秒降到几毫秒。但这种方案的命中率通常很低因为自然语言表达的多样性意味着同一个意思有无数种问法Python 怎么读取 JSON 文件和用 Python 解析 JSON 文件的方法虽然语义相同但 hash 完全不同。所以更实用的是语义缓存Semantic Cache。核心思路是把用户输入转成 Embedding 向量在缓存中做向量相似度检索相似度超过阈值就直接返回缓存结果。GPTCache 就是专门做这个的开源方案。语义缓存的命中率远高于精确匹配但相似度阈值需要根据业务场景调优——设太高命中率低设太低可能返回不太相关的结果。还有一层容易被忽视的缓存是Prompt 模板缓存。在实际项目中System Prompt 和 Few-shot 示例通常是固定的每次请求都带上这些固定前缀会浪费大量 token。OpenAI 的 Prompt Caching 和 Anthropic 的 Cache Control 机制就是针对这个场景——把 Prompt 的固定前缀缓存在模型服务端后续请求只需传增量部分既减少了网络传输量也降低了 token 费用缓存命中的 token 价格通常是原价的 10%-25%。1.5 Prompt 管理Prompt 在大模型应用中的角色相当于传统应用中的业务逻辑代码——它直接决定了应用的行为和输出质量。但很多团队在早期会犯一个错误把 Prompt 硬编码在代码里和业务逻辑混在一起。这在原型阶段没问题但一旦进入生产环境就会遇到各种麻烦。问题一是迭代效率低——Prompt 的调优频率远高于代码你可能每天都要微调措辞、补充示例如果写在代码里每次都要走完整的发布流程太重了。问题二是版本管理和回滚——Prompt 改了一版效果变差想回滚如果和代码绑定就会影响同次发布的其他功能。所以生产环境中通常会建一个独立的Prompt 管理服务本质上是一个带版本控制的模板仓库支持灰度发布10% 流量走新 Prompt和快速回滚。模板通过变量占位符{{user_query}}、{{context}}和业务数据做动态拼装。LangFuse 和 PromptLayer 都提供了这种能力。1.6 异步与任务编排传统 Web API 绝大部分请求可以在几百毫秒内同步返回但大模型应用中有大量重任务——比如基于 RAG 的长文档问答需要先检索、再拼装、再调用 LLM、多步 Agent 任务可能涉及十几次工具调用和 LLM 推理、批量内容生成等。这些任务的耗时可能从十几秒到几分钟不等用同步 HTTP 请求来承载显然不合适。成熟的做法是把重任务走异步任务队列——用户提交后立即返回 task_id后台 Worker 异步执行前端通过轮询或 WebSocket 接收进度推送。Celery Redis 是 Python 生态最常用的方案。异步任务内部还需要一个编排引擎来协调多步骤的执行。比如一个 RAG 问答流程先并行执行查询改写和关键词提取完成后再并行做向量检索和关键词检索汇总后 Rerank最后送入 LLM 生成回答。这里面有串行有并行步骤之间有数据依赖。LangGraph 用有向图来定义这种编排逻辑每个节点是一个处理步骤边定义数据流向和条件分支比较适合这种场景。1.7 可观测性与成本管控大模型应用的可观测性需求比传统后端复杂得多。传统后端主要关心 QPS、延迟、错误率这些指标大模型后端除了这些之外还需要追踪每次 LLM 调用的 token 消耗input tokens output tokens、Prompt 的完整内容和模型的完整输出用于质量审计和问题复盘、缓存命中率、模型路由命中分布等。一个完善的可观测性体系通常包含三个维度。链路追踪Tracing记录每个请求从接入到返回的完整调用链特别是 LLM 调用链路——哪个模型、什么 Prompt、返回了什么、耗时多久、花了多少 token。LangSmith 和 LangFuse 都提供了这种 LLM 原生的 Tracing 能力。实时监控Metrics聚焦系统层面的健康指标——各模型的 P99 延迟、错误率、token 消耗速率、队列积压深度等通常接入 Prometheus Grafana。日志审计Logging侧重合规和安全——记录敏感操作、异常输出、触发内容安全过滤的请求等。成本管控是大模型后端运营中最现实的问题。没有做好成本管控的团队往往上线一两个月后才发现 LLM 调用费用远超预算。管控手段包括按用户/租户设置每日 token 配额超出后降级到更便宜的模型或限制调用频率建立成本看板按模型、功能模块、用户分组统计 token 消耗和费用定期做Prompt 瘦身去掉冗余的指令和示例来减少每次调用的 token 数。1.8 安全与合规这一块在面试中提一嘴会是很好的加分项。大模型应用面临一些传统后端不存在的安全风险Prompt 注入用户通过精心构造的输入试图覆盖 System Prompt 的指令、数据泄露模型在回答中无意间暴露训练数据或其他用户的对话内容、有害内容生成模型输出涉及暴力、色情、歧视等内容。应对措施包括在接入层做输入过滤检测和拦截已知的 Prompt 注入模式在输出侧接入内容安全审核可以用专门的审核模型或规则引擎对 RAG 检索结果做权限控制确保用户只能检索到自己有权限访问的文档对对话历史做脱敏处理后再用于模型调优或数据分析。2. 参考回答我设计大模型应用后端的出发点是 LLM 和传统服务的三个本质差异调用慢、按 token 计费、输出不确定。整体上我会分四层——接入层做鉴权限流和 SSE 流式管理业务编排层负责 Prompt 拼装和多步任务编排模型服务层做多模型路由和降级数据层涵盖向量库、会话缓存和 Prompt 模板库。几个设计重点流式响应必须一开始就设计好LLM 生成太慢不做流式体验不可接受模型服务层要有路由器维护能力矩阵根据任务类型做路由同时设计降级链保证可用性缓存做三层——精确匹配、语义缓存、Prompt 前缀缓存叠加下来成本能省不少复杂的 Agent 和 RAG 流程走异步队列加 DAG 编排把可并行的步骤并行化降低延迟。最后是可观测性和成本管控用 LangFuse 追踪 LLM 调用链路配合 token 配额和成本看板控制预算。核心思路就是针对 LLM 的慢、贵、不确定在每一层做针对性设计。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

腾讯大模型二面:你会怎么设计一个大模型应用的后端架构?

1. 题目分析 传统 Web 后端的核心瓶颈通常在数据库——查询慢了加索引,并发高了加缓存,数据量大了分库分表,整套方法论经过十几年的打磨已经非常成熟。但当你把 LLM 引入后端架构的那一刻,这些规则就变了。一个普通的数据库查询耗…...

复旦北大:Harness也能Agentic自进化了

Coding Agent 的性能不仅取决于底层大模型,更取决于包围它的 Harness(系统提示、工具、中间件、记忆等)。复旦&北大提出 AHE(Agentic Harness Engineering),通过组件可观测性、经验可观测性、决策可观测…...

R语言CNV分析避坑指南:90%新手踩过的7个致命错误及3小时修复方案

更多请点击: https://intelliparadigm.com 第一章:R语言CNV分析避坑指南:90%新手踩过的7个致命错误及3小时修复方案 CNV(拷贝数变异)分析在肿瘤基因组学和群体遗传研究中至关重要,但R语言生态中缺乏统一标…...

用RAX3000M路由器给团队建个Maven私服,不用买服务器,5分钟搞定基础配置

零成本搭建团队Maven私服:RAX3000M路由器的另类妙用 最近在帮一个初创团队解决组件共享问题时,意外发现路由器还能这么玩——用RAX3000M搭建Maven私服,不仅省下了云服务器费用,部署过程居然只要5分钟。这种方案特别适合10人以下的…...

LangChain、LangGraph、Deep Agents傻傻分不清?一文彻底搞懂,AI开发者的进阶指南!

本文详细解析了LangChain、LangGraph和Deep Agents三个AI开发框架的区别与演进关系。LangChain是基础框架,适合简单线性任务;LangGraph支持复杂状态管理与流程编排,适用于动态逻辑;Deep Agents则具备深度推理与自主决策能力&#…...

教育领域AI情感分析技术解析与应用实践

1. 项目背景与核心价值最近半年在多个教育科技项目里深度使用生成式AI时,发现一个有趣现象:同样的AI课件生成系统,有的教师群体爱不释手,有的却产生强烈抵触。这促使我开始系统研究用户情感反馈背后的深层逻辑。不同于传统教育软件…...

R 4.5边缘AI上线倒计时:2024Q3起CRAN将强制要求静态链接声明——你还没适配R 4.5.0+新LinkingTo规范?

更多请点击: https://intelliparadigm.com 第一章:R 4.5边缘AI部署的范式跃迁 R 4.5 版本引入了原生轻量级模型序列化(serialize_model())、低开销推理调度器(edge_serve())及硬件感知编译器后端&#xff…...

弱驱动学习:低成本提升机器学习模型性能

1. 弱驱动学习的概念与价值在机器学习领域,我们常常面临这样的困境:标注数据不足但需要训练高性能模型。传统解决方案要么依赖人工标注(成本高昂),要么使用半监督学习(效果有限)。而弱驱动学习&…...

别再被HLA和RTI搞晕了!用一张图+一个例子,带你搞懂分布式仿真的核心架构

用生活化案例拆解HLA分布式仿真架构 想象你正在组织一场跨国线上游戏比赛,来自世界各地的玩家需要实时同步战斗数据。这种多节点协同运作的场景,正是HLA(高层体系结构)要解决的核心问题。本文将用快递物流系统作为类比&#xff0c…...

如何用MaxBot抢票机器人轻松买到演唱会门票:2025年完整使用指南

如何用MaxBot抢票机器人轻松买到演唱会门票:2025年完整使用指南 【免费下载链接】tix_bot Max搶票機器人(maxbot) help you quickly buy your tickets 项目地址: https://gitcode.com/gh_mirrors/ti/tix_bot 还在为抢不到热门演唱会门票而苦恼吗?…...

新手教程使用 Python 快速接入 Taotoken 并调用多模型完成对话

新手教程使用 Python 快速接入 Taotoken 并调用多模型完成对话 1. 准备工作 在开始编写代码之前,需要先完成 Taotoken 平台的账号注册和 API Key 获取。访问 Taotoken 官网并注册账号后,登录控制台,在「API 密钥」页面可以创建新的 API Key…...

运行mysql

没有以管理员身份运行 CMD,所以系统拒绝了你安装 Windows 服务的请求。1. 以管理员身份打开 CMD点击左下角「开始」,输入 cmd右键「命令提示符」→ 选择「以管理员身份运行」2. 执行下面这串命令(直接复制)::进入 MySQL 的 bin 目…...

OpenSwoole .. 发布:支持 PHP .、io_uring 后端及协程调试改进

一、中间件是啥?咱用“餐厅”打个比方 想象一下,你的FastAPI应用是个高级餐厅。 ?? 顾客(客户端请求)来到门口。- 迎宾(CORS中间件):先看你是不是从允许的街区(域名)来…...

World-To-Image框架:提升文本生成图像逻辑一致性的技术解析

1. 项目概述:当文本生成图像遇见世界知识最近在AIGC领域出现了一个有趣的技术框架——World-To-Image(W2I),这个方案通过引入"世界知识代理"的概念,显著提升了文本到图像生成的质量和逻辑一致性。传统文本生…...

深入理解补码:从模运算到硬件实现,告别死记硬背

很多人初学补码,都被困在“取反加一”的口诀里,能套用公式计算,却始终不懂背后的逻辑:为什么负数要用补码表示?为什么补码相加能自动处理减法?为什么负数的余数一定是正数?其实补码从不是人为约…...

告别‘红温’!手把手教你用Node.js补环境过瑞数VMP(附完整代理代码)

从崩溃到突破:Node.js逆向瑞数VMP的环境补全实战指南 "红温"状态——这个在游戏圈形容因连续失败导致血压升高的黑话,如今成了爬虫工程师面对瑞数VMP时的真实写照。当你的Node.js环境连续抛出location undefined、window.top missing等错误时&…...

VeriGuard:LLM代码安全验证方案解析与实践

1. 项目背景与核心价值去年在部署一个基于大语言模型的客服系统时,我们团队遭遇了典型的"幻觉指令"攻击——攻击者通过精心构造的提问诱导AI生成包含恶意代码的回复。这次事件让我意识到:当LLM代理(AI Agent)被集成到生…...

3分钟搞定电脑风扇噪音!FanControl免费软件终极指南

3分钟搞定电脑风扇噪音!FanControl免费软件终极指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/F…...

全球化开发中的日期处理与LLM时间推理优化实践

1. 项目概述在全球化应用开发中,日期时间处理一直是令人头疼的难题。不同地区的日期格式(如"12/05/2023"在美国表示12月5日,而在欧洲表示5月12日)、时区转换、节假日计算等问题,常常导致数据混乱和业务逻辑错…...

STTS方法:视频理解中的时空令牌动态评分技术

1. 项目背景与核心价值 在视频理解领域,如何高效处理海量时空信息一直是业界难题。传统方法通常需要消耗大量计算资源对视频帧进行密集采样和分析,这不仅导致处理速度缓慢,还容易引入冗余信息。STTS(Spatio-Temporal Token Scorin…...

OpenSpeedy:免费开源的终极游戏加速工具完全指南

OpenSpeedy:免费开源的终极游戏加速工具完全指南 【免费下载链接】OpenSpeedy 🎮 An open-source game speed modifier. 项目地址: https://gitcode.com/gh_mirrors/op/OpenSpeedy 你是否曾经遇到过游戏运行卡顿、帧率不稳定的问题?或…...

TMD技术:视频生成效率的革命性突破

1. 项目背景与核心价值视频生成技术正在经历从实验室研究到工业落地的关键转折期。当前主流方案如扩散模型(Diffusion Models)虽然能生成高质量视频,但面临三个致命瓶颈:单次推理需要50-100步迭代计算、显存占用高达16GB以上、生成…...

扩散模型强化学习优化:TreeGRPO算法解析与实践

1. 项目概述:当扩散模型遇上强化学习最近在优化扩散模型时发现一个有趣现象:传统RLHF(基于人类反馈的强化学习)方法在图像生成任务中常常遭遇训练不稳定和收敛困难。这促使我开始探索TreeGRPO这个结合树搜索与强化学习的新颖对齐方…...

告别网络卡顿:用华为eNSP模拟真实办公网,实战QoS限速保障关键业务

企业办公网QoS实战:用华为eNSP构建高优先级业务保障方案 下午三点,市场部的视频会议突然卡成PPT,销售团队正在演示的年度报表画面定格在尴尬的饼图界面。作为网络管理员,你打开流量监控工具,发现行政部有人正在用公司网…...

Agentic AI安全实战:六层纵深防御框架构建与权限管理核心

1. 项目概述:当AI拥有“手”与“眼”时,我们如何构建安全基石?最近在部署和调校一些具备自主行动能力的AI智能体(Agentic AI),比如让它们操作文件系统、调用API、控制浏览器,感触颇深。过去&…...

Dify API接口加固实战:从0到1部署JWT+速率限制+请求签名的7步闭环方案

更多请点击: https://intelliparadigm.com 第一章:Dify API 加固教程 Dify 提供了强大的低代码 LLM 应用编排能力,但其公开 API 端点(如 /v1/chat-messages)若未做访问控制,易面临密钥泄露、越权调用与资源…...

从选型到实战:如何为你的Buck电路挑选合适的肖特基续流二极管(以MP2307为例)

从选型到实战:如何为你的Buck电路挑选合适的肖特基续流二极管(以MP2307为例) 在低压大电流的DC-DC电源设计中,工程师们常常面临一个关键挑战:如何有效降低续流路径的功率损耗。这个问题在非同步Buck转换器中尤为突出&a…...

SD-Trainer:模块化扩散模型训练框架与AI绘画微调技术实践

SD-Trainer:模块化扩散模型训练框架与AI绘画微调技术实践 【免费下载链接】sd-trainer 项目地址: https://gitcode.com/gh_mirrors/sd/sd-trainer 技术定位分析:开源AI绘画训练生态中的专业级解决方案 在当前的AI绘画领域,模型训练工…...

数学解题轨迹评估:基于信息对齐的智能批改技术

1. 项目概述数学推理轨迹评估是教育测评和认知科学领域的一个重要研究方向。简单来说,就是分析学生在解决数学问题时展现的思维过程,评估其解题路径是否合理、高效。传统评估方法往往只关注最终答案的对错,而忽视了思维过程的价值。这种"…...

双曲空间与不确定性建模在多模态对齐中的应用

1. 项目背景与核心价值这个标题涉及三个关键概念:双曲视觉、语言模型和不确定性引导的组合对齐。听起来很学术,但拆解后会发现它解决了一个非常实际的问题——如何让AI系统在处理多模态数据(如图像和文本)时,能够更准确…...