当前位置: 首页 > article >正文

大模型从实验室到生产环境,我踩过的 10 个坑(附解决方案)

大模型从实验室到生产环境,我踩过的 10 个坑(附解决方案)作者:Felix关键词:大模型部署, 大模型生产环境, LLM 工程化, 模型上线踩坑, AI 工程化实战前言很多开发者都有这样的经历:大模型在 Jupyter Notebook 里跑得好好的,一上生产环境就各种翻车——延迟飙升、内存爆炸、输出不稳定、成本失控……我在做 AI 工程化的时候,经历过多个大模型项目从 POC 到上线的全过程,踩过的坑比写过的代码还多。今天这篇文章,我把最痛的 10 个坑整理出来,每个坑都附上具体的解决方案和代码示例。适合读者:有一定大模型开发基础,正在或即将把 LLM 应用部署到生产环境的工程师。读完你将获得:一份经过实战验证的大模型生产化避坑清单,帮你少走至少 3 个月弯路。背景:实验室与生产环境的鸿沟在实验室里,我们关心的是效果——准确率高不高、生成质量好不好。但生产环境要求的远不止这些:稳定性:7×24 小时不间断服务,不能动不动就 OOM延迟:用户等不了 30 秒,P99 延迟要控制在可接受范围成本:调用量上来后,API 费用可能比你想象的高 10 倍可观测性:出了问题能快速定位,不能靠猜安全性:模型输出不能有有害内容、不能泄露用户隐私这两个世界之间的鸿沟,就是下面这 10 个坑产生的根源。实战踩坑:10 个血泪教训坑 1:没有做超时和重试机制,一个慢请求拖垮整个服务问题描述:大模型 API 的响应时间波动很大,正常 2-3 秒,偶尔会飙到 30 秒甚至超时。如果不做超时控制,一个慢请求会占住一个线程/协程,请求堆积后整个服务就崩了。解决方案:必须设置合理的超时时间,并实现指数退避重试。importopenaiimporttimefromtenacityimportretry,stop_after_attempt,wait_exponential,retry_if_exception_type# 方案1:使用 tenacity 实现指数退避重试@retry(retry=retry_if_exception_type((openai.APITimeoutError,openai.RateLimitError)),wait=wait_exponential(multiplier=1,min=2,max=30),# 2s, 4s, 8s, 16s, 30sstop=stop_after_attempt(3),before_sleep=lambdaretry_state:print(f"重试第{retry_state.attempt_number}次..."))defcall_llm_with_retry(messages:list,timeout:int=15)-str:"""带超时和重试的 LLM 调用"""client=openai.OpenAI(api_key="your-api-key",timeout=timeout# 关键:设置请求级超时)response=client.chat.completions.create(model="deepseek-chat",messages=messages,max_tokens=1024,temperature=0.7)returnresponse.choices[0].message.content# 使用示例try:result=call_llm_with_retry([{"role":"user","content":"用一句话解释什么是 Transformer"}])print(result)exceptExceptionase:print(f"3次重试后仍然失败:{e}")# 降级策略:返回缓存结果或友好提示踩坑经验:超时时间不要设太短(模型生成长文本确实需要时间),也不要设太长(用户等不了)。我的经验值是普通对话 15 秒,长文本生成 45 秒。坑 2:Prompt 硬编码在代码里,改一个字就要重新部署问题描述:初期图省事把 Prompt 写死在代码里,结果每次优化 Prompt 都要走一遍完整的发布流程。产品经理天天催着改 Prompt,工程师天天在发版。解决方案:将 Prompt 模板外置,支持热更新。importjsonimporthashlibfrompathlibimportPathfromtypingimportOptionalclassPromptManager:"""Prompt 模板管理器:支持版本控制和热更新"""def__init__(self,prompt_dir:str="./prompts"):self.prompt_dir=Path(prompt_dir)self.prompt_dir.mkdir(exist_ok=True)self._cache:dict={}# 内存缓存self._hashes:dict={}# 文件哈希,用于检测变更defget_prompt(self,name:str,variables:Optional[dict]=None)-str:"""获取 Prompt 模板,支持变量替换"""file_path=self.prompt_dir/f"{name}.json"# 检测文件是否有变更(热更新核心逻辑)current_hash=self._file_hash(file_path)ifnamenotinself._cacheorself._hashes.get(name)!=current_hash:withopen(file_path,"r",encoding="utf-8")asf:self._cache[name]=json.load(f)self._hashes[name]=current_hash template=self._cache[name]["template"]# 变量替换ifvariables:forkey,valueinvariables.items():template=template.replace(f"{ { { {{key}}}}}",str(value))returntemplatedef_file_hash(self,path:Path)-str:"""计算文件 MD5,用于检测变更"""content=path.read_bytes()returnhashlib.md5(content).hexdigest()# Prompt 模板文件示例 (prompts/customer_service.json):# {# "version": "1.2",# "template": "你是{ {company_name}}的客服助手。请用专业但友好的语气回答用户问题。\n用户问题:{ {question}}",# "description": "客服场景通用模板"# }# 使用示例pm=PromptManager("./prompts")prompt=pm.get_prompt("customer_service",{"company_name":"AI科技","question":"你们的产品支持私有化部署吗?"})踩坑经验:Prompt 模板一定要加版本号。我们曾经因为产品经理直接改了线上的 Prompt 文件没通知团队,导致客服机器人突然"性格大变",排查了两天才发现。坑 3:没有做流式输出,用户以为页面卡死了问题描述:大模型生成一段 500 字的回复可能需要 5-8 秒。如果等全部生成完再返回,用户会看到一个长时间的空白页面,体验极差。解决方案:使用 SSE(Server-Sent Events)实现流式输出。fromfastapiimportFastAPIfromfastapi.responsesimportStreamingResponseimportopenaiimportjsonimportasyncio app=FastAPI()asyncdefstream_llm_response(messages:list):"""流式调用大模型并逐块返回"""client=openai.AsyncOpenAI(api_key="your-api-key")stream=awaitclient.chat.completions.create(model="deepseek-chat",messages=messages,max_tokens=1024,stream=True# 开启流式输出)asyncforchunkinstream:ifchunk.choices[0].delta.content

相关文章:

大模型从实验室到生产环境,我踩过的 10 个坑(附解决方案)

大模型从实验室到生产环境,我踩过的 10 个坑(附解决方案) 作者:Felix 关键词:大模型部署, 大模型生产环境, LLM 工程化, 模型上线踩坑, AI 工程化实战 前言 很多开发者都有这样的经历:大模型在 Jupyter Notebook 里跑得好好的,一上生产环境就各种翻车——延迟飙升、内存…...

**图神经网络实战:用PyTorch Geometric构建社交关系预测模型**在当前人工智能飞速发展的背景下,**图神经网络(GN

图神经网络实战:用PyTorch Geometric构建社交关系预测模型 在当前人工智能飞速发展的背景下,图神经网络(GNN) 已成为处理复杂结构化数据的利器,尤其在社交网络分析、推荐系统和知识图谱等领域表现卓越。本文将带你从零…...

3步配置指南:在VSCode中构建高效的Fortran开发环境

3步配置指南:在VSCode中构建高效的Fortran开发环境 【免费下载链接】vscode-fortran-support Fortran language support for Visual Studio Code 项目地址: https://gitcode.com/gh_mirrors/vs/vscode-fortran-support Modern Fortran扩展为Visual Studio Co…...

VibeVoice长语音生成实战:制作完整播客节目的完整流程

VibeVoice长语音生成实战:制作完整播客节目的完整流程 1. 播客制作新选择:VibeVoice核心优势 传统播客制作面临三大痛点:专业主播难寻、录制设备昂贵、后期剪辑耗时。VibeVoice-TTS-Web-UI的出现为内容创作者提供了全新解决方案&#xff0c…...

DeerFlow详细步骤:vLLM服务启动与日志检查方法

DeerFlow详细步骤:vLLM服务启动与日志检查方法 1. 认识DeerFlow:您的智能研究助手 DeerFlow是一个功能强大的深度研究辅助工具,它就像是您的个人研究团队,能够帮您快速获取信息、分析数据并生成专业报告。这个开源项目整合了多种…...

我最骄傲的Python项目:判断力、取舍与排障能力,如何把一次“救火”项目变成团队能力跃升的催化剂

我最骄傲的Python项目:判断力、取舍与排障能力,如何把一次“救火”项目变成团队能力跃升的催化剂 📌 开篇:为什么在Python生态里,技术从来不是终点 客观来看,Python自1991年诞生以来,以简洁优雅…...

终极指南:在Mac上免费本地运行Stable Diffusion的完整解决方案

终极指南:在Mac上免费本地运行Stable Diffusion的完整解决方案 【免费下载链接】MochiDiffusion Run Stable Diffusion on Mac natively 项目地址: https://gitcode.com/gh_mirrors/mo/MochiDiffusion 还在为AI绘画工具的复杂设置和隐私担忧而烦恼吗&#xf…...

YOLOv13新手教程:从镜像启动到完成预测,手把手教学

YOLOv13新手教程:从镜像启动到完成预测,手把手教学 1. 环境准备与快速部署 1.1 镜像获取与启动 YOLOv13官版镜像已经预装了所有必要的运行环境和依赖库,包括Python 3.11、PyTorch 2.3以及Flash Attention v2加速库。你只需要简单的几步就能…...

FlowPilot自动驾驶系统:5步为您的爱车添加智能驾驶辅助

FlowPilot自动驾驶系统:5步为您的爱车添加智能驾驶辅助 【免费下载链接】flowpilot flow-pilot is an openpilot based driver assistance system that runs on linux, windows and android powered machines. 项目地址: https://gitcode.com/gh_mirrors/fl/flowp…...

OpenClaw+优云智算Coding Plan:从灵感到成文,再到发布的全流程AI自动化稍

1.安装环境准备 1.1.查看物理内存 [rootaiserver ~]# free -m 1.2.操作系统版本 [rootaiserver ~]# cat /etc/redhat-release 1.3.操作系统内存 [rootaiserver ~]# df -h /dev/shm/ 1.4.磁盘空间 [rootaiserver ~]# df -TH [rootaiserver ~]# df -h /tmp/ [rootaiserver ~]# d…...

终极Garry‘s Mod工坊发布工具:gmpublisher完整使用指南与效能提升秘笈

终极Garrys Mod工坊发布工具:gmpublisher完整使用指南与效能提升秘笈 【免费下载链接】gmpublisher ⚙️ Workshop Publishing Utility for Garrys Mod, written in Rust & Svelte and powered by Tauri 项目地址: https://gitcode.com/gh_mirrors/gm/gmpubli…...

PyTorch遥感图像变化检测实战技巧:从原理到部署的完整指南

PyTorch遥感图像变化检测实战技巧:从原理到部署的完整指南 【免费下载链接】change_detection.pytorch Deep learning models for change detection of remote sensing images 项目地址: https://gitcode.com/gh_mirrors/ch/change_detection.pytorch 遥感图…...

如何快速掌握VTube Studio插件开发:从零开始的虚拟主播API指南

如何快速掌握VTube Studio插件开发:从零开始的虚拟主播API指南 【免费下载链接】VTubeStudio VTube Studio API Development Page 项目地址: https://gitcode.com/gh_mirrors/vt/VTubeStudio 你是否曾想过为虚拟主播软件VTube Studio开发自己的插件&#xff…...

千问3.5-9B Java面试题智能辅导:模拟面试与八股文解析

千问3.5-9B Java面试题智能辅导:模拟面试与八股文解析 1. 为什么需要智能面试辅导系统 Java开发岗位的竞争越来越激烈,面试难度也在逐年提升。很多求职者发现,即使技术实力不错,面对面试官的各种"八股文"问题时&#…...

从样式崩溃到完美渲染:MathLive静态CSS资源路径重构全解析

从样式崩溃到完美渲染:MathLive静态CSS资源路径重构全解析 【免费下载链接】mathlive Web components for math display and input 项目地址: https://gitcode.com/gh_mirrors/ma/mathlive 你是否在升级MathLive后遭遇了数学公式样式完全消失的尴尬&#xff…...

如何用Python和HuggingFace搭建RAG系统?从文本预处理到答案生成的完整流程

如何用Python和HuggingFace搭建RAG系统?从文本预处理到答案生成的完整流程 在信息爆炸的时代,如何让大型语言模型(LLM)既保持强大的生成能力,又能准确回答特定领域的问题?检索增强生成(RAG&…...

我筛了 GitHub 上 10 个值得长期留着的 AI 工具,不是越多越好

这两年大家聊 AI,容易把注意力都放在模型名字上:谁家参数更大,谁家榜单更高,谁家价格更低。 但真到落地阶段,效率差距往往不是模型先拉开的,而是工具先拉开的。 同样是一个模型,有人拿来聊两句…...

别再手动解析AT指令了!手把手教你用C语言构建一个可扩展的AT协议解析框架

构建高扩展性AT指令解析框架:从零设计到工业级实现 在嵌入式开发领域,AT指令作为模块间通信的通用语言,几乎出现在所有无线通信模组的交互中。但面对不同厂商五花八门的指令格式,开发者往往陷入重复造轮子的困境——每次对接新模组…...

AI代码优化神器coze-loop体验:粘贴代码选目标,秒出优化方案

AI代码优化神器coze-loop体验:粘贴代码选目标,秒出优化方案 1. 为什么需要AI代码优化工具 在日常开发中,我们经常面临这样的困境:一段能运行的代码,可能隐藏着性能瓶颈、可读性差或潜在bug。传统优化方式依赖个人经验…...

如何用ncmdump一键解密网易云音乐NCM文件?3步实现音乐自由

如何用ncmdump一键解密网易云音乐NCM文件?3步实现音乐自由 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 您是否遇到过这样的困扰:在网易云音乐下载的歌曲只能在特定客户端播放,想在手机、车载音…...

如何用Bliss Shader为你的Minecraft世界注入灵魂光影

如何用Bliss Shader为你的Minecraft世界注入灵魂光影 【免费下载链接】Bliss-Shader A minecraft shader which is an edit of chocapic v9 项目地址: https://gitcode.com/gh_mirrors/bl/Bliss-Shader 你是否曾经站在Minecraft的山顶,看着夕阳缓缓沉入地平线…...

AI编程实战:从零到一搭建全栈项目朴

1. 核心概念 在 Antigravity 中,技能系统分为两层: Skills (全局库):实际的代码、脚本和指南,存储在系统级目录(如 ~/.gemini/antigravity/skills)。它们是“能力”的本体。 Workflows (项目级)&#xff1a…...

LobeChat作品集:基于开源框架搭建的智能对话应用案例展示

LobeChat作品集:基于开源框架搭建的智能对话应用案例展示 1. 开篇:认识LobeChat的魅力 LobeChat作为一款开源的高性能聊天机器人框架,正在改变人们与AI对话的方式。它不仅仅是一个简单的聊天界面,而是一个功能丰富的智能对话平台…...

chandra GPU利用率提升:多卡并行部署避坑指南

chandra GPU利用率提升:多卡并行部署避坑指南 重要提示:本文基于 chandra OCR 模型的多卡部署实践,重点解决实际部署中的 GPU 利用率问题,提供可落地的解决方案。 1. 引言:为什么需要多卡部署? 如果你尝试…...

猫抓浏览器插件:网页资源嗅探与下载的完整指南

猫抓浏览器插件:网页资源嗅探与下载的完整指南 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否经常遇到这样的情况:看…...

从零到一:用evo工具深度解析ORB-SLAM3轨迹评估全流程(含避坑指南)

1. 环境准备与evo工具安装 第一次接触evo工具时,我像大多数SLAM开发者一样,以为装个Python包就能直接使用。结果在实际操作中遇到了各种依赖问题,比如matplotlib版本冲突、tkinter缺失等。这里分享一个经过验证的安装方案,帮你避开…...

Windows服务器渗透日记:我是如何用MS17-010漏洞连穿三层内网的

Windows服务器渗透实战:从外网突破到内网横向移动的技术解析 那天下午,阳光透过百叶窗在键盘上投下斑驳的光影。我盯着屏幕上跳动的命令行界面,手指在键盘上快速敲击——这不是什么电影场景,而是一次真实的渗透测试任务。作为安全…...

IPTVnator:一站式开源跨平台IPTV播放器解决方案

IPTVnator:一站式开源跨平台IPTV播放器解决方案 【免费下载链接】iptvnator :tv: Cross-platform IPTV player application with multiple features, such as support of m3u and m3u8 playlists, favorites, TV guide, TV archive/catchup and more. 项目地址: h…...

终极GTA5模组菜单YimMenu:5分钟快速安装与完整功能指南

终极GTA5模组菜单YimMenu:5分钟快速安装与完整功能指南 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/Yim…...

如何用FSVLM模型提升农田遥感分割精度?5个实战技巧分享

如何用FSVLM模型提升农田遥感分割精度?5个实战技巧分享 在精准农业和智慧农场管理领域,高精度的农田遥感分割技术正成为关键基础设施。传统基于纯视觉的遥感图像处理方法往往受限于复杂地貌、季节变化和作物多样性,而新兴的多模态视觉语言模型…...