当前位置: 首页 > article >正文

LangChain-Chatchat 开发与应用(九) 性能优化实战-从能用到好用的调优之路

性能优化实战从能用到好用的调优之路标签性能优化 | 并发 | 显存 | 缓存 | 监控 | 调优一、性能问题的众生相你的 Chatchat 系统是不是遇到过这些情况一个人用挺快三个人同时问就卡死模型加载完显存直接爆了啥也干不了第一次问答要等10 秒后面才快一点知识库文档一多检索慢得像蜗牛服务跑一晚上内存蹭蹭涨最后 OOM这些问题不解决系统永远只是玩具上不了生产环境。今天这篇咱们系统性地做性能优化。二、性能瓶颈分析2.1 先定位再优化性能优化最怕瞎调。先用工具找到瓶颈在哪# 1. 看系统资源nvidia-smi# GPU 显存和利用率top/htop# CPU 和内存iotop# IO 情况# 2. Python 性能分析python-mcProfile-oprofile.stats your_script.py snakeviz profile.stats# 可视化查看# 3. API 接口耗时# 在 Chatchat 日志里看各阶段耗时2.2 Chatchat 的典型瓶颈用户请求 ↓ [API 接收] ──→ 通常不是瓶颈FastAPI 很快 ↓ [文档检索] ──→ 瓶颈 1向量检索慢大数据量 ↓ [Rerank] ──→ 瓶颈 2精排计算量大 ↓ [LLM 调用] ──→ 瓶颈 3模型推理慢主要瓶颈 ↓ [流式返回] ──→ 瓶颈 4网络传输结论LLM 推理是最大瓶颈其次是向量检索。三、LLM 推理优化3.1 模型量化用精度换速度量化就是把模型的权重从 32bit 浮点数变成 8bit、4bit 整数大幅减少显存占用和计算量。量化级别显存占用速度提升精度损失推荐场景FP16基准基准无显存充足INT8~50%1.5x极小通用推荐Q4_K_M~25%2x小资源紧张Q2_K~15%3x明显仅演示Xinference 中加载量化模型# 4bit 量化性价比最高xinference launch\--model-name qwen2-instruct\--model-format ggufv2\--size-in-billions7\--quantizationq4_K_M3.2 vLLM 加速推理引擎升级vLLM 是一个高性能推理引擎核心优化是PagedAttention传统推理每个请求预分配一大块显存利用率低 PagedAttention把显存分成小块page按需分配类似操作系统的虚拟内存 效果同样显存支持更多并发Xinference 使用 vLLMxinference launch\--model-name qwen2-instruct\--model-format pytorch\--size-in-billions7\--model-engine vllm\--gpu_memory_utilization0.853.3 动态批处理Continuous Batching传统批处理等一组请求凑齐了再一起处理。动态批处理请求来了就处理随时把新请求插进正在进行的批次里。传统请求 A ──→ 等 B 来 ──→ [A, B] 一起处理 ──→ 等 C 来 ──→ [C, D] 一起处理 动态请求 A ──→ 开始处理 ──→ B 来了插进来 ──→ C 来了插进来 ──→ 一起输出vLLM 内置了动态批处理不需要额外配置。3.4 多实例负载均衡单实例撑不住多开几个# docker-compose.ymlservices:llm-1:image:xinference:latestenvironment:-XINFERENCE_MODEL_UIDqwen2-1deploy:resources:reservations:devices:-driver:nvidiacount:1capabilities:[gpu]llm-2:image:xinference:latestenvironment:-XINFERENCE_MODEL_UIDqwen2-2deploy:resources:reservations:devices:-driver:nvidiacount:1capabilities:[gpu]Chatchat 配置多个模型实例# model_settings.yamlMODEL_PLATFORMS:-platform_name:xinference-clusterplatform_type:xinferenceapi_base_url:http://llm-load-balancer:9997/v1前面加一层 Nginx 或 HAProxy 做负载均衡。四、向量检索优化4.1 索引类型选择FAISS 支持多种索引类型根据数据量选择importfaiss# 小数据量 10万暴力搜索精确indexfaiss.IndexFlatIP(dimensions)# 中数据量10万 ~ 100万IVF 倒排索引nlist100# 聚类中心数quantizerfaiss.IndexFlatIP(dimensions)indexfaiss.IndexIVFFlat(quantizer,dimensions,nlist)index.train(vectors)# 需要训练index.add(vectors)# 大数据量 100万HNSW 图索引indexfaiss.IndexHNSWFlat(dimensions,M32)index.hnsw.efConstruction200index.add(vectors)# 查询时调整搜索深度index.hnsw.efSearch128# 越大越精确越慢4.2 索引预热和持久化# 启动时加载已有索引避免重建importfaissimportos INDEX_PATHdata/knowledge_base/index.faissdefload_or_create_index(dimensions):ifos.path.exists(INDEX_PATH):# 加载已有索引快returnfaiss.read_index(INDEX_PATH)else:# 创建新索引returnfaiss.IndexFlatIP(dimensions)defsave_index(index):# 定期保存索引faiss.write_index(index,INDEX_PATH)4.3 检索缓存热门问题的检索结果可以缓存fromfunctoolsimportlru_cacheimporthashlib# 简单的 LRU 缓存lru_cache(maxsize1000)defcached_search(query_hash,kb_name,top_k):缓存向量检索结果# 实际检索逻辑passdefsearch_with_cache(query,kb_name,top_k5):# 用查询的哈希作为缓存 keyquery_hashhashlib.md5(query.encode()).hexdigest()returncached_search(query_hash,kb_name,top_k)4.4 向量数据库升级如果 FAISS 不够用了升级到 Milvus# kb_settings.yamlDEFAULT_VS_TYPE:milvuskbs_config:milvus:host:localhostport:19530user:password:secure:falseMilvus 的优势分布式支持海量数据GPU 加速索引构建多副本高可用五、系统级优化5.1 异步处理Chatchat 已经用了异步但确保你的调用也是异步的# ✅ 异步调用asyncdefchat_async():responseawaitasync_client.chat.completions.create(...)returnresponse# ❌ 同步调用会阻塞defchat_sync():responseclient.chat.completions.create(...)returnresponse5.2 连接池# 复用 HTTP 连接减少握手开销importhttpx# 全局客户端async_clienthttpx.AsyncClient(limitshttpx.Limits(max_connections100,max_keepalive_connections20),timeouthttpx.Timeout(30.0))# 使用时responseawaitasync_client.post(url,jsondata)5.3 数据库连接池# SQLAlchemy 连接池配置fromsqlalchemyimportcreate_engine enginecreate_engine(sqlite:///data.db,pool_size10,# 连接池大小max_overflow20,# 超出池大小的连接数pool_timeout30,# 获取连接的超时时间pool_recycle3600,# 连接回收时间)5.4 内存管理# 定期清理缓存importgcimporttorchdefcleanup():清理 GPU 和 CPU 内存# 清理 PyTorch 缓存iftorch.cuda.is_available():torch.cuda.empty_cache()# Python 垃圾回收gc.collect()# 定时任务每小时执行一次fromapscheduler.schedulers.backgroundimportBackgroundScheduler schedulerBackgroundScheduler()scheduler.add_job(cleanup,interval,hours1)scheduler.start()六、监控和日志6.1 关键指标指标说明告警阈值API 响应时间端到端耗时 5sLLM 推理时间模型生成耗时 3s向量检索时间检索耗时 500msGPU 显存占用nvidia-smi 90%GPU 利用率计算利用率 10%可能挂了内存占用系统内存 85%并发请求数同时处理的请求看容量规划6.2 Prometheus Grafana 监控# 接入 Prometheus 监控fromprometheus_clientimportCounter,Histogram,start_http_server# 定义指标request_countCounter(chatchat_requests_total,Total requests,[endpoint])request_durationHistogram(chatchat_request_duration_seconds,Request duration,[endpoint])# 在 API 中埋点chat_router.post(/chat/completions)asyncdefchat_completions(request:Request):withrequest_duration.labels(endpoint/chat/completions).time():request_count.labels(endpoint/chat/completions).inc()# ... 处理逻辑# 启动指标服务start_http_server(9090)# Prometheus 来这拉数据6.3 结构化日志importloggingimportjsonfrompythonjsonloggerimportjsonlogger# JSON 格式日志logHandlerlogging.StreamHandler()formatterjsonlogger.JsonFormatter(%(timestamp)s %(level)s %(name)s %(message)s %(request_id)s %(duration_ms)s)logHandler.setFormatter(formatter)loggerlogging.getLogger(chatchat)logger.addHandler(logHandler)logger.setLevel(logging.INFO)# 使用logger.info(Chat completion,extra{request_id:req-123,model:qwen2-instruct,duration_ms:1200,tokens_in:100,tokens_out:200})七、优化效果对比7.1 优化前后的指标指标优化前优化后提升首 token 延迟3s0.5s6x并发用户数3206x显存占用 (7B)16GB4GB4x检索耗时 (10万条)200ms20ms10x服务稳定性经常 OOM7x24 稳定-7.2 优化投入产出优化项投入效果模型量化5 分钟显存降 75%vLLM 加速10 分钟并发翻倍索引优化30 分钟检索快 10x缓存1 小时热门查询几乎零延迟监控2 小时问题可观测八、小结这篇咱们做了系统性的性能优化✅ 瓶颈分析定位 LLM 推理和向量检索是主要瓶颈✅ LLM 优化量化、vLLM、动态批处理、多实例✅ 检索优化索引选型、预热持久化、缓存、Milvus 升级✅ 系统优化异步、连接池、内存管理✅ 监控体系Prometheus Grafana 结构化日志性能优化的核心原则先测量再优化别凭感觉抓主要矛盾LLM 推理是最大头量化收益记录优化前后的数据监控先行没监控等于没优化你在性能优化过程中遇到过什么反直觉的问题比如某个优化反而变慢了欢迎分享踩坑经历

相关文章:

LangChain-Chatchat 开发与应用(九) 性能优化实战-从能用到好用的调优之路

性能优化实战:从"能用"到"好用"的调优之路 标签:性能优化 | 并发 | 显存 | 缓存 | 监控 | 调优 一、性能问题的"众生相" 你的 Chatchat 系统是不是遇到过这些情况? 一个人用挺快,三个人同时问就卡…...

观察Taotoken在多模型聚合调用下的稳定性与路由表现

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 观察Taotoken在多模型聚合调用下的稳定性与路由表现 1. 引言 在构建依赖大模型能力的应用时,服务的连续性与稳定性是开…...

HDLxGraph:图数据库与LLM在硬件设计中的应用

1. HDLxGraph:当硬件设计遇上图数据库与LLM 在芯片设计领域,硬件描述语言(HDL)如Verilog和VHDL是工程师们将电路构想转化为可执行代码的核心工具。然而,随着现代芯片设计复杂度的爆炸式增长,一个中等规模的…...

单神经元动态记忆机制及其神经形态计算应用

1. 动态记忆的神经实现范式革新在神经科学与类脑计算领域,动态记忆(或称工作记忆)一直被视为认知功能的基础模块。传统理论认为,这种能够短暂保持神经活动状态的功能必须依赖于神经元群体构成的递归网络——通过兴奋性神经元间的相…...

大模型推理优化:激活稀疏性技术解析与实践

1. 大模型推理优化的核心挑战与机遇在自然语言处理领域,大型语言模型(LLM)的推理效率已成为制约其广泛应用的关键瓶颈。以GPT-3 175B为例,单次推理需要约350GB显存和数千亿次浮点运算,这对硬件资源提出了极高要求。传统…...

2026年免费去水印工具哪个好用?免费好用的去水印工具对比推荐

在2026年,无论是自媒体运营者、内容创作者还是普通用户,去水印都是日常高频操作。但面对市场上琳琅满目的去水印工具,要找到一款免费好用的去水印工具着实不易。本文将从多个维度对免费去水印工具对比 2026的各类产品进行详细评测&#xff0c…...

Polar Sparsity技术:提升LLM推理效率的动态稀疏优化

1. 项目概述:Polar Sparsity技术背景与核心价值 在大型语言模型(LLM)推理任务中,计算效率始终是制约实际部署的关键瓶颈。传统稀疏化方法(如权重剪枝或神经元激活稀疏化)虽然在小批量场景下有效&#xff0c…...

UVA12822 Extraordinarily large LED 题解

UVA12822 Extraordinarily large LED 题目描述 Link: https://uva.onlinejudge.org/index.php?optioncom_onlinejudge&Itemid8&category861&pageshow_problem&problem4687 PDF 输入格式 输出格式 输入输出样例 #1 输入 #1 START 09:00:00 SCORE 09:01:05…...

【ChatGPT】锂电卷绕机深度拆解、信息图、爆炸图、C++代码框架

深度拆解信息图...

抖音无水印下载终极指南:douyin-downloader让你轻松保存喜欢的视频

抖音无水印下载终极指南:douyin-downloader让你轻松保存喜欢的视频 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fa…...

5步搭建私人云游戏服务器:Sunshine游戏串流完全指南

5步搭建私人云游戏服务器:Sunshine游戏串流完全指南 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 你是否曾经想过在客厅电视上玩电脑游戏,或者在平板上继…...

DS4Windows终极指南:如何让PlayStation手柄在Windows上完美运行

DS4Windows终极指南:如何让PlayStation手柄在Windows上完美运行 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows 想在Windows电脑上畅玩所有游戏,却只有PlayStation…...

Salesforce 扩展“无头”概念至企业数据管理,新架构与系统二季度末或年底推出

分析师提醒分析师表示,此次更新或许能让开发者省去构建 AI 驱动工作流时通常所需的大量集成和定制开发工作,但首席信息官(CIO)们应警惕成本和准确性方面的问题。“无头”概念扩展Salesforce 似乎正致力于“颠覆”企业软件领域。在…...

Jetson Orin AGX INT4 推理优化实践:super 分支从 9 tok/s 到 24 tok/s

Jetson Orin AGX INT4 推理优化实践:super 分支从 9 tok/s 到 24 tok/s 项目地址:https://github.com/luogantt/LLM-inference-engine 本文总结 jetson-orin-agx-super 分支上的一次端侧大模型推理优化实践。目标设备是 Jetson Orin AGX,目…...

Topit:Mac窗口置顶终极指南 - 三步打造高效多任务工作环境

Topit:Mac窗口置顶终极指南 - 三步打造高效多任务工作环境 【免费下载链接】Topit Pin any window to the top of your screen / 在Mac上将你的任何窗口强制置顶 项目地址: https://gitcode.com/gh_mirrors/to/Topit 还在为Mac上频繁切换窗口而烦恼吗&#x…...

7 年评测经验博主发布扫地机器人挑选指南,邀你探讨机器人革命!

评测多款扫地机器人,Matic 脱颖而出博主发布了关于挑选最佳扫地机器人的指南,近期评测了戴森的 Spot & Scrub、鲨客的 Power Detect 以及 Matic。在其 7 年的扫地机器人评测生涯中,Matic 是最有意思的新型扫地机器人。拨开营销迷雾&#…...

ai内容创作团队如何通过taotoken统一管理多个模型的调用

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 AI 内容创作团队如何通过 Taotoken 统一管理多个模型的调用 应用场景类,聚焦于 AI 内容生成团队,成员使用不…...

逻辑回归实战:从原理、数值稳定到生产级代码实现

1. 什么是逻辑回归:从医生诊断到快递分拣的真实场景逻辑回归不是教科书里那个干巴巴的“S型曲线”,它是我过去八年带团队做工业质检项目时,每天早上打开监控大屏第一眼就要确认的模型——当产线摄像头拍下第372个电路板,系统在0.8…...

COOT模型详解:视频时序理解与跨模态对齐技术

1. 项目概述:让视频自己“开口说话”的底层逻辑 你有没有遇到过这样的场景:手头有一段3分钟的产品演示视频,需要快速生成一段精准的图文摘要发给客户;或者正在做无障碍内容建设,得为一段教学视频配上符合语义节奏的字幕…...

视频理解新范式:COOT模型实现对象-场景联合建模的视频描述生成

1. 项目概述:让视频自己“开口说话”的底层逻辑你有没有遇到过这样的场景:手头有一段3分钟的产品演示视频,需要快速生成一段精准的图文摘要发给客户;或者在做无障碍内容开发时,得为一段教学视频配上逐帧语义描述&#…...

线性回归实战指南:从建模直觉到生产部署

1. 线性回归:不是公式堆砌,而是建模思维的起点 你打开一份销售数据表,发现广告投入每增加1万元,销售额平均涨了8.3万元;你翻看房屋成交记录,发现面积每多10平方米,总价大概多出65万元&#xff1…...

Claude Mythos:首个具备自主渗透能力的通用AI安全模型

1. 这不是一次普通升级:Mythos 的能力跃迁到底意味着什么 如果你过去三年一直在跟进大模型的演进节奏,大概率会记得2023年Claude 2发布时那种“稳扎稳打”的观感——推理更连贯、长文本更可靠、代码能力有提升,但整体仍属于渐进式优化。2024年…...

机器学习驱动的中微子-核散射截面建模:从数据学习到振荡分析

1. 项目概述与核心价值 中微子物理正步入一个前所未有的“精密测量”时代。像DUNE(深地下中微子实验)这样的下一代长基线实验,目标是将中微子混合参数的测量精度推至百分之一量级。然而,一个长期存在的“拦路虎”限制了这一目标的…...

14101开源难题解榜141期第一题:大规模光网络LLM亲和拓扑理解与决策协同标准化解题框架

开源难题解榜141期第一题:大规模光网络LLM亲和拓扑理解与决策协同标准化解题框架 摘要 本文依照标准化无偏差解题架构,完成黄大年茶思屋141期首道光网络技术难题全流程拆解,依次开展原题复刻、脱敏信息还原、工程需求定义、规范文献引用、基础…...

机器学习赋能粒子物理全局拟合:破解B介子衰变反常之谜

1. 项目概述:当粒子物理遇上机器学习 如果你在粒子物理领域,特别是味物理和超出标准模型(BSM)物理的探索前线工作过,那么对“全局拟合”这个词一定不会陌生。它就像是我们理论家和实验家之间的翻译官,把对撞…...

剪映专业版教程:制作堆排序算法原理演示视频

前言 今天教大家用剪映制作堆排序算法的原理演示视频。堆排序的原理是:先将无序序列构建成一个小根堆(堆顶元素是整个堆中最小的),然后反复取出堆顶元素放到有序序列末尾,再将剩余元素重新调整成小根堆,重…...

14100开源难题解榜141期:5道前沿技术难题完整收录|后续五期分步保姆级落地开源方案

开源难题解榜141期:5道前沿技术难题完整收录|后续五期分步保姆级落地开源方案 摘要 本文完整原样提取黄大年茶思屋难题解榜第141期全部五道硬核技术原题、技术背景、现存痛点、当前技术成果与详细技术诉求,不作内容删减与修改。本篇定为题目抽…...

终极QR码修复指南:三步让损坏的二维码“起死回生“

终极QR码修复指南:三步让损坏的二维码"起死回生" 【免费下载链接】qrazybox QR Code Analysis and Recovery Toolkit 项目地址: https://gitcode.com/gh_mirrors/qr/qrazybox 你是否遇到过这样的尴尬场景?精心打印的会议签到二维码被咖…...

3个步骤让你的Switch Joy-Con在Windows上焕发新生:JoyCon-Driver完全指南

3个步骤让你的Switch Joy-Con在Windows上焕发新生:JoyCon-Driver完全指南 【免费下载链接】JoyCon-Driver A vJoy feeder for the Nintendo Switch JoyCons and Pro Controller 项目地址: https://gitcode.com/gh_mirrors/jo/JoyCon-Driver 你是否曾想过让闲…...

AI时代工程师的核心价值:从写代码到定义问题

1. 这不是“AI取代程序员”的老调重弹,而是职业坐标的重新校准你最近有没有在刷技术社区时,被两条截然相反的消息撞得有点懵?一条说“编码岗位正站在悬崖边上”,另一条却高呼“这是工程师黄金十年的起点”。这不是媒体制造焦虑的标…...