当前位置：首页 > article >正文

【vLLM 学习】Cpu Offload Lmcache

article 2026/4/9 19:10:13

vLLM 是一款专为大语言模型推理加速而设计的框架，实现了 KV 缓存内存几乎零浪费，解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

*在线运行 vLLM 入门教程：零基础分步指南

源码 examples/offline_inference/cpu_offload_lmcache.py

# SPDX-License-Identifier: Apache-2.0"""
该文件演示了 CPU 卸载的示例用法
与 LMCache。
请注意，运行此示例需要 "pip install lmcache"。
在 https://github.com/LMCache/LMCache 中了解有关 LMCache 的更多信息。
"""
import os
import timefrom lmcache.experimental.cache_engine import LMCacheEngineBuilder
from lmcache.integration.vllm.utils import ENGINE_NAMEfrom vllm import LLM, SamplingParams
from vllm.config import KVTransferConfig# 与 LMCache 相关的环境变量
# 在 LMCache 中使用实验功能
os.environ["LMCache_USE_EXPERIMENTAL"] = "True"
# LMCache 设置为每块使用256个 token
os.environ["LMCache_CHUNK_SIZE"] = "256"
# 在 LMCache 中启用本地 CPU 后端
os.environ["LMCache_LOCAL_CPU"] = "True"
# 将本地 CPU 内存限制设置为 5.0 GB
os.environ["LMCache_MAX_LOCAL_CPU_SIZE"] = "5.0"# 此示例脚本以共享前缀运行两个请求。
shared_prompt = "Hello, how are you?" * 1000
first_prompt = [shared_prompt + "Hello, my name is",
]
second_prompt = [shared_prompt + "Tell me a very long story",
]sampling_params = SamplingParams(temperature=0, top_p=0.95, max_tokens=10)ktc = KVTransferConfig.from_cli('{"kv_connector":"LMCacheConnector", "kv_role":"kv_both"}')
# 将 GPU 内存利用设置为 0.8，用于 40GB 显存的 A40 GPU。
# 如果您的 GPU 的内存较少，则降低值。
# 请注意，LMCache 目前与块预填充不兼容。
llm = LLM(model="mistralai/Mistral-7B-Instruct-v0.2",kv_transfer_config=ktc,max_model_len=8000,enable_chunked_prefill=False,gpu_memory_utilization=0.8)outputs = llm.generate(first_prompt, sampling_params)
for output in outputs:generated_text = output.outputs[0].textprint(f"Generated text: {generated_text!r}")
print("First request done.")time.sleep(1)outputs = llm.generate(second_prompt, sampling_params)
for output in outputs:generated_text = output.outputs[0].textprint(f"Generated text: {generated_text!r}")
print("Second request done.")# 清理 LMCache 后端
LMCacheEngineBuilder.destroy(ENGINE_NAME)

【vLLM 学习】Cpu Offload Lmcache

vLLM 是一款专为大语言模型推理加速而设计的框架，实现了 KV 缓存内存几乎零浪费，解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/ *在线运行 vLLM 入门教程：零基础分步指南源码 examples/offline_inf…...

编程日记 2026/4/6 5:03:00

数据库同步是什么意思？数据库架构有哪些？

目录一、数据库同步是什么 （一）基本概念 （二）数据库同步的类型 （三）数据库同步的实现方式二、数据库架构的类型 （一）单机架构 （二）主从复制架构 &a…...

编程日记 2026/4/3 4:51:01

【数据结构】详解算法复杂度：时间复杂度和空间复杂度

🔥个人主页：艾莉丝努力练剑 ❄专栏传送门：《C语言》、《数据结构与算法》 🍉学习方向：C/C方向 ⭐️人生格言：为天地立心，为生民立命，为往圣继绝学，为万世开太平前言&…...

编程日记 2026/4/4 0:17:29

Rest-Assured API 测试：基于 Java 和 TestNG 的接口自动化测试

1. 右键点击项目的文件夹，选择 New > File。 2. 输入文件名，例如 notes.md，然后点击 OK。 3. 选择项目类型在左侧的 Generators 部分，选择 Maven Archetype，这将为你生成一个基于 Maven 的项目。 4. 配置项目基…...

编程日记 2026/4/2 4:58:06

多模型协同：基于 SAM 分割 + YOLO 检测 + ResNet 分类的工业开关状态实时监控方案

一、技术优势与适配性分析 1. 任务分工的合理性 YOLO（目标检测） 核心价值：快速定位工业开关在图像中的位置（边界框），为后续分割和分类提供ROI（感兴趣区域）。工业场景适配性&#xf…...

编程日记 2026/3/8 0:46:31

【分销系统商城】

分销商城系统是一种结合电商与社交裂变的多层级分销管理平台，通过佣金激励用户成为分销商，实现低成本快速拓客和销量增长。以下是其核心要点解析： 🛍️ 一、系统定义与核心价值基本概念核心模式&#…...

编程日记 2026/3/13 23:21:27

LangChainGo入门指南：Go语言实现与OpenAI/Qwen模型集成实战

目录 1、什么是langchainGo2、langchainGo的官方地址3、LangChainGo with OpenAI3-1、前置准备3-2、安装依赖库3-3、新建模型客户端3-4、使用模型进行对话 4、总结 1、什么是langchainGo langchaingo是langchain的go语言实现版本 2、langchainGo的官方地址官网：…...

编程日记 2026/3/2 4:49:06

5.1 HarmonyOS NEXT系统级性能调优：内核调度、I/O优化与多线程管理实战

HarmonyOS NEXT系统级性能调优：内核调度、I/O优化与多线程管理实战在HarmonyOS NEXT的全场景生态中，系统级性能调优是构建流畅、高效应用的关键。通过内核调度精细化控制、存储与网络I/O深度优化，以及多线程资源智能管理，开发者…...

编程日记 2026/3/7 1:07:14

react public/index.html文件使用env里面的变量

env文件 ENVdevelopment NODE_ENVdevelopment REACT_APP_URL#{REACT_APP_URL}# REACT_APP_CLIENTID#{REACT_APP_CLIENTID}# REACT_APP_TENANTID#{REACT_APP_TENANTID}# REACT_APP_REDIRECTURL#{REACT_APP_REDIRECTURL}# REACT_APP_DOMAIN_SCRIPT#{REACT_APP_DOMAIN_SCRIPT}#pu…...

编程日记 2026/4/2 19:09:22

chili3d 笔记17 c++ 编译hlr 带隐藏线工程图

这个要注册不然emscripten编译不起来 --------------- 行不通 ---------------- 结构体 using LineSegment std::pair<gp_Pnt, gp_Pnt>;using LineSegmentList std::vector<LineSegment>; EMSCRIPTEN_BINDINGS(Shape_Projection) {value_object<LineSegment&g…...

编程日记 2026/4/2 10:34:41

创建一个纯直线组成的字体库

纯直线组成的字体，一个“却”由五组坐标点组成，存储5个点共占21字节，使用简单，只要画直线即可， “微软雅黑”，2个轮廓，55坐标点，使用复杂，还填充。自创直线字体 “微软…...

编程日记 2026/4/5 13:14:42

接口不是json的内容能用Jsonpath获取吗，如果不能，我们选用什么方法处理呢？

JsonPath 是一种专门用于查询和提取 JSON 数据的查询语言（类似 XPath 用于 XML）。以下是详细解答： JsonPath 的应用场景 API 响应处理：从 REST API 返回的 JSON 数据中提取特定字段。配置文件解析：读取 J…...

编程日记 2026/3/7 9:48:39

使用 Docker Compose 从零部署 TeamCity + PostgreSQL（详细新手教程）

JetBrains TeamCity 是一款专业的持续集成（CI）服务器工具，支持各种编程语言和构建流程。本文将一步一步带你用 Docker 和 Docker Compose 快速部署 TeamCity，搭配 PostgreSQL 数据库，并确保所有操作新手可跟着做。一…...

编程日记 2026/3/1 7:43:04

Go 语言实现高性能 EventBus 事件总线系统（含网络通信、微服务、并发异步实战）

前言在现代微服务与事件驱动架构（EDA）中，事件总线（EventBus） 是实现模块解耦与系统异步处理的关键机制。本文将以 Go 语言为基础，从零构建一个高性能、可扩展的事件总线系统，深入讲解&#…...

编程日记 2026/3/2 8:31:26

Linux进程（中）

目录进程等待为什么有进程等待什么是进程等待怎么做到进程等待 wait waitpid 进程等待为什么有进程等待僵尸进程无法杀死，需要进程等待来消灭他，进而解决内存泄漏问题--必须解决的我们要通过进程等待，获得子进程退出情况--知…...

编程日记 2026/4/8 0:20:52

【计算机组成原理】计算机硬件的基本组成、详细结构、工作原理

引言计算机如同现代科技的“大脑”，其硬件结构的设计逻辑承载着信息处理的核心奥秘。从早期程序员手动输入指令的低效操作，到冯诺依曼提出“存储程序”概念引发的革命性突破，计算机硬件经历了从机械操控到自动化逻辑的蜕变。本文将深入拆解…...

编程日记 2026/4/6 18:34:04

npm error Cannot read properties of null (reading ‘matches‘)

当在使用 npm 命令时遇到 Cannot read properties of null (reading matches) 错误，这通常表示代码尝试访问一个 null 对象的 matches 属性。以下是综合多个来源的解决策略，按优先级排列： 一、核心解决方法 1. 清理缓存与重新安装依赖&…...

编程日记 2026/3/19 6:47:29

MVC分层架构模式深入剖析

🔄 MVC 交互流程 #mermaid-svg-5xGt0Ka13DviDk15 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-5xGt0Ka13DviDk15 .error-icon{fill:#552222;}#mermaid-svg-5xGt0Ka13DviDk15 .error-text{fill:#552222…...

编程日记 2026/4/6 14:24:04

【方案分享】蓝牙Beacon定位精度优化（包含KF、EKF与UKF卡尔曼滤波算法详解）

蓝牙Beacon定位精度优化：KF、EKF与UKF卡尔曼滤波算法详解标签：蓝牙定位｜Beacon｜卡尔曼滤波｜UKF｜EKF｜RSSI｜室内定位｜滤波算法｜精度优化相关分享：…...

编程日记 2026/1/29 10:58:26

新能源汽车热管理核心技术解析：冬季续航提升40%的行业方案

新能源汽车热管理核心技术解析：冬季续航提升40%的行业方案摘要：突破续航焦虑的关键在热能循环！ 👉 本文耗时72小时梳理行业前沿方案，含特斯拉/比亚迪等8家车企热管理系统原理图一、热管理为何成新能源车决胜关键&am…...

编程日记 2026/4/5 8:33:56

LeetCode 239. 滑动窗口最大值(单调队列)

题目传送门：239. 滑动窗口最大值 - 力扣（LeetCode） 题意就是求每个窗口内的最大值，返回一个最大值的数组，滑动窗口的最值问题。做法：维护一个单调递减队列，队头为当前窗口的最大值。设计的…...

编程日记 2025/11/3 22:52:25

华为云Flexus+DeepSeek征文｜DeepSeek-V3/R1开通指南及使用心得

🏆作者简介，黑夜开发者，CSDN领军人物，全栈领域优质创作者✌，CSDN博客专家，阿里云社区专家博主，2023年CSDN全站排名top 28。 🏆数年电商行业从业经验，AWS/阿里云资深使用用…...

编程日记 2026/4/6 6:41:32

鸿蒙图片缓存（一）

移动端开发过程中图片缓存功能是必备，iOS和安卓都有相关工具库，鸿蒙系统组件本身也自带缓存功能，但是遇到复杂得逻辑功能还是需要封装图片缓存工具。系统组件Image 1. Image的缓存策略 Image模块提供了三级Cache机制，解码后内…...

编程日记 2025/11/16 21:23:18

运行示例程序和一些基本操作

欢迎 ----> 示例 --> 选择sample CTRL B 编译代码 CTRL R 运行exe 项目中 Shadow build 表示是否编译生成文件和源码是否放一块勾上不在同一个地方已有项目情况下怎么打开项目方法一: 左键双击 xxx.pro 方法二: 文件菜单里面选择打开项目...

编程日记 2026/4/6 23:08:25

学习数字孪生，为你的职业发展开辟新赛道

你有没有想过，未来十年哪些技能最吃香？ AI、大数据、智能制造、元宇宙……这些词频繁出现在招聘市场和行业报告中。而在它们背后，隐藏着一个“看不见但无处不在”的关键技术——数字孪生（Digital Twin）。它不仅在制造…...

编程日记 2026/4/8 20:16:10

WebRTC源码线程-1

1、概述本篇主要是简单介绍WebRTC中的线程，WebRTC源码对线程做了很多的封装。 1.1 WebRTC中线程的种类 1.1.1 信令线程用于与应用层的交互，比如创建offer，answer，candidate等绝大多数的操作 1.1.2 工作线程负责内部的处理逻辑&…...

编程日记 2026/4/7 6:02:19

python学习打卡day47

DAY 47 注意力热图可视化昨天代码中注意力热图的部分顺移至今天知识点回顾： 热力图作业：对比不同卷积层热图可视化的结果 # 可视化空间注意力热力图（显示模型关注的图像区域） def visualize_attention_map(model, test_loader,…...

编程日记 2025/8/6 18:34:38

MySQL中的内置函数

文章目录一、日期函数1.1 获取当前的日期1.2 获取当前时间1.3 获取当前日期和时间1.4 提取时间日期1.5 添加日期1.6 减少日期1.7 两个日期的差值二、字符串处理函数2.1 获取字符串的长度2.2 获取字符串的字节数2.3 字符串拼接2.4 转小写2.5 转大写2.6 子字符串第⼀次出现的索…...

编程日记 2026/4/6 10:40:56

Ansible自动化运维全解析：从设计哲学到实战演进

一、Ansible的设计哲学：简单即正义在DevOps工具链中，Ansible以其"无代理架构（Agentless）"设计独树一帜。这个用Python编写的自动化引擎，通过SSH协议与目标主机通信，彻底摒弃了传统配置管理工具…...

编程日记 2026/3/17 13:53:58

YOLOv8n行人检测实战：从数据集准备到模型训练

YOLOv8n行人检测实战：从数据集准备到模型训练一、为什么选择YOLOv8？二、环境准备2.1 环境配置解析三、安装Ultralytics框架四、数据集准备与理解4.1 数据集下载4.2 数据集结构4.3 YOLO标签格式解析五、数据集可视化：理解标注数据5.1 可视化…...

编程日记 2026/4/6 12:11:26

相关文章：