当前位置：首页 > news >正文

DeepSeek-V2-Chat多卡推理(不考虑性能)

news 2026/2/10 17:06:23

@TOC

本文演示了如何使用accelerate推理DeepSeek-V2-Chat(裁剪以后的模型,仅演示如何将权值拆到多卡)

代码

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
from accelerate import init_empty_weights
import sys
from accelerate import dispatch_model, infer_auto_device_map
from accelerate.utils import get_balanced_memory
from torch.cuda.amp import autocast
from torch.utils._python_dispatch import TorchDispatchMode
from dataclasses import dataclass
from typing import Any
import torch.cuda
import multiprocessing as mp@dataclass
class _ProfilerState:cls: Anyobject: Any = Noneclass TorchDumpDispatchMode(TorchDispatchMode):def __init__(self,parent):super().__init__()self.parent=parentself.op_index=0self.cvt_count=0def get_max_gpu_id(self,tensors):max_gpu_id = -1max_index = -1tensor_index=[]for i, tensor in enumerate(tensors):if not isinstance(tensor, torch.Tensor):continuetensor_index.append(i)if tensor.is_cuda:gpu_id = tensor.get_device()if gpu_id > max_gpu_id:max_gpu_id = gpu_idmax_index = iif max_gpu_id == -1:return None, None,tensor_indexreturn max_index, max_gpu_id,tensor_indexdef convert(self,op_type,tensor_list):index, gpu_id,tensor_index = self.get_max_gpu_id(tensor_list)if index is None:returnkeep_index=set(tensor_index)-set([index])device=torch.device(f"cuda:{gpu_id}")for i in keep_index:if tensor_list[i].device!=device:#print(f"{op_type} {i} {tensor_list[i].device} -> {device}")tensor_list[i].data=tensor_list[i].data.to(device,non_blocking=True)#卡间通信是串行的,所有多stream并不能充分提升性能def __torch_dispatch__(self, func, types, args=(),kwargs=None):func_packet = func._overloadpacketif kwargs is None:kwargs = {}op_type=f"{func}"self.op_index+=1if isinstance(args, list) or isinstance(args, tuple):self.convert(op_type,args)elif isinstance(args[0], list) or isinstance(args[0], tuple):self.convert(op_type,args[0])else:print(op_type)output= func(*args,**kwargs)return outputclass TorchDumper:def __init__(self,**kwargs):self.p= _ProfilerState(TorchDumpDispatchMode)self.kwargs=kwargsdef __enter__(self):if self.p.object is None:o = self.p.cls(self,**self.kwargs)o.__enter__()self.p.object = oelse:self.p.object.step()return selfdef __exit__(self, exc_type, exc_val, exc_tb):TorchDumper._CURRENT_Dumper = Noneif self.p.object is not None:self.p.object.__exit__(exc_type, exc_val, exc_tb)del self.p.objectmodel_name = "./models/deepseek-ai/DeepSeek-V2-Chat/"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
max_memory = {i: "23GB" for i in range(8)}
sys.path.insert(0,model_name)model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True,attn_implementation="eager",torch_dtype=torch.bfloat16)
model=model.eval()no_split_module_classes = ['DeepseekV2MLP','DeepseekV2Attention']
#no_split_module_classes = ['DeepseekV2DecoderLayer']device_map = infer_auto_device_map(model,max_memory=max_memory,no_split_module_classes=no_split_module_classes,dtype='float16')model = dispatch_model(model, device_map=device_map)
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_idmessages = [{"role": "user", "content": "Write a piece of quicksort code in C++"} ]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
with TorchDumper():outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)

DeepSeek-V2-Chat多卡推理(不考虑性能)

TOC 本文演示了如何使用accelerate推理DeepSeek-V2-Chat(裁剪以后的模型,仅演示如何将权值拆到多卡) 代码 import torch from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig from accelerate import init_empty_weights import sys from acce…...

编程日记 2024/6/13 0:56:50

算法题day42（补5.28日卡：动态规划02）

今天的动态规划都是二维的，与昨日不同。一、刷题： 1.leetcode题目 62. 不同路径 - 力扣（LeetCode）（medium,） 解决： class Solution:def uniquePaths(self, m: int, n: int) -> int:dp …...

编程日记 2024/6/13 0:55:48

分治与递归

实验一：分治与递归【实验目的】深入理解分治法的算法思想，应用分治法解决实际的算法问题。【实验性质】验证性实验（学时数：2H） 【实验内容与要求】 1、设有n2k个运动员要进行网球循环赛。现要设计一个满足以…...

编程日记 2024/6/13 0:54:47

Spring中IOC容器

IoC IOC容器 IoC是一种设计思想，面向对象编程 Spring通过IoC管理所有Java对象的实例化和初始化，控制对象之间依赖关系将IoC容器管理的Java对象称为Spring Bean，与new创建的对象没有区别控制反转（IoC Inversion of Controle&a…...

编程日记 2024/6/13 0:53:43

php redis分布式锁

一，概念在PHP中实现分布式锁通常可以使用数据库、缓存系统（如Redis）或者其他中央存储系统来保证在分布式系统中的数据一致性与同步。秒杀下单、抢红包等等业务场景，都需要用到分布式锁。常规方案大概有七中方案一：…...

编程日记 2024/6/13 0:52:40

kotlin 中的布尔

1、kotlin中内置的Boolean类型，可以有true与false两个值的布尔对象。布尔值的内置运算有（跟很多语言如java、js一摸一样）： ||——逻辑或&&——逻辑与!——逻辑非 fun main() {val a: Boolean trueval b: Boolean fa…...

编程日记 2024/6/13 0:51:35

有哪些ai聊天推荐？简单分享三款

有哪些ai聊天推荐？在当今数字化时代，人工智能（AI）聊天软件已经成为我们日常生活中不可或缺的一部分。无论是与朋友、家人还是同事交流，这些智能聊天软件都能为我们提供极大的便利。那么，市面上有哪些值得推…...

编程日记 2024/6/13 0:50:32

Python第二语言（十、Python面向对象（上））

目录 1. 标记变量的基础类型 2. 初识对象 2.1 使用对象组织数据 3. 成员变量 3.1 类和类成员的定义 3.2 成员变量和成员方法使用 3.3 成员方法的定义语句 4. 类和对象class Clock: def ring(self): 4.1 创建类对象的语法：对象名类名称() 4.2 用生活中的…...

编程日记 2024/6/13 0:47:21

SolidWorks 2016 SP5安装教程

软件介绍 Solidworks软件功能强大，组件繁多。 Solidworks有功能强大、易学易用和技术创新三大特点，这使得SolidWorks 成为领先的、主流的三维CAD解决方案。 SolidWorks 能够提供不同的设计方案、减少设计过程中的错误以及提高产品质量。SolidWorks 不仅…...

编程日记 2024/6/13 0:46:18

为什么高考志愿只选计算机专业？

刚刚高考结束，不知道各位学弟学妹考的怎么样啊？ 高考毕竟是对十二年寒窗苦读的评判，也是很多人改变命运的机会。很多同学每天等待出分的过程很煎熬，既吃不好也玩不好（os：这种同学还挺多的）。但…...

编程日记 2024/6/13 0:44:13

GPT大模型微调-提高垂直领域回答质量

微调一个大模型并测试微调后的效果是一个很好的学习实践。下面是一个逐步指导，帮助你使用一个较小的预训练大模型进行微调，并测试其效果。我们将使用 Hugging Face 的 Transformers 库和一个较小的预训练模型，如 DistilBERT。这个库非常流行且易于使用。实现步骤步骤 1:…...

编程日记 2024/6/13 0:43:06

全网首发-Docker被封后的代理设置教程

最近上交、科大以及阿里的一些docker镜像，好像都因为不可控力导致无法访问。所以，之前好多正常的一些镜像的打包都会报错： 比如： #1 [internall load build definition from Dockerfile#1transferring dockerfile:972B done#1 D…...

编程日记 2024/6/13 0:42:00

代码随想录算法训练营第五十七天|1143.最长公共子序列、1035.不相交的线、53. 最大子序和、392.判断子序列

代码随想录算法训练营第五十七天 1143.最长公共子序列题目链接：1143.最长公共子序列确定dp数组以及下标的含义：dp[i][j] ：以下标i - 1为结尾的text1，和以下标j - 1为结尾的text2，最长重复子数组长度为dp[i][j]确…...

编程日记 2024/6/13 0:40:54

RocketMQ事务性消息

RocketMQ事务性消息是一定能保证消息发送成功的事务消息发送步骤： （1）发送方将半事务消息发送至RocketMQ服务端。 （2）RocketMQ服务端将消息持久化之后，向发送方返回ack确认消息已经发送成功。由于消息为…...

编程日记 2024/6/13 0:39:49

mysql (事物)

一.什么是事物事物是一组操作的集合，不可分割的工作单位，事物会把所有的操作当作一个整体一起向系统提交或撤销操作请求，就是这些操作要么一起成功要么一起失败。二.事物操作 （这个就是一个理解） 1.事务特性原子性…...

编程日记 2024/6/13 0:38:46

kotlin 中的字符串

一、字符类访问 1、字符串的访问跟js一样，可以使用索引来访问或者直接循环。 fun main() {val a: String "2024"// 方式一：for (item in a) {println(item) // 输出每一个字符}// 方式二：println("${a[0]}, ${a[1]}, ${a[2…...

编程日记 2024/6/13 0:37:38

网站线上模板建设的优缺点

优点： 1.搭建的时间短，在线建站，只需要登录注册然后选择网站模板创建网站即可管理自己的网站后台，就几步操作就可以实现。 2.网站出错率少，因为有很多用户在使用，前期所报出来的问题就已经一一…...

编程日记 2024/6/13 0:36:32

哲学家进餐问题

1.最多允许四个哲学家同时进餐，保证有一个筷子是空闲的，从而保证能有有一个哲学家成功进餐，而不导致死锁 semaphore chopstick[5] {1, 1, 1, 1, 1}, mutex4; Pi(){do{think...P(mutex);P(chopstick[i]);P(chopstick[(i1)%5);eat...V(mutex)…...

编程日记 2024/6/13 0:35:27

无人机遥感在农林信息提取中的实现方法与GIS融合应用

在新一轮互联网信息技术大发展的现今，无人机、大数据、人工智能、物联网等新兴技术在各行各业都处于大爆发的前夜。为了将人工智能方法引入农业生产领域。首先在种植、养护等生产作业环节，逐步摆脱人力依赖；在施肥灌溉环节构建智慧节能系统&a…...

编程日记 2024/6/13 0:33:16

联想测开一面（电话面试）笔试60%

联想测开一面（电话面试）笔试60% 3.21 无自我介绍基本问项目，问实习对python自动化测试了解多少讲一下python中打包和解包的概念学校无测试相关课程，平时用什么平台去学习的计算机底层实现原理简要说说（软硬结合&…...

编程日记 2024/6/13 0:28:10

华为云AI开发平台ModelArts

华为云ModelArts：重塑AI开发流程的“智能引擎”与“创新加速器”！ 在人工智能浪潮席卷全球的2025年，企业拥抱AI的意愿空前高涨，但技术门槛高、流程复杂、资源投入巨大的现实，却让许多创新构想止步于实验室。数据科学家…...

编程新知 2026/2/8 4:37:19

多模态2025：技术路线“神仙打架”，视频生成冲上云霄

文｜魏琳华编｜王一粟一场大会，聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度。其中，…...

编程新知 2026/2/8 20:43:00

屋顶变身“发电站” ，中天合创屋面分布式光伏发电项目顺利并网！

5月28日，中天合创屋面分布式光伏发电项目顺利并网发电，该项目位于内蒙古自治区鄂尔多斯市乌审旗，项目利用中天合创聚乙烯、聚丙烯仓库屋面作为场地建设光伏电站，总装机容量为9.96MWp。项目投运后，每年可节约标煤3670…...

编程新知 2026/2/9 17:55:49

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...

编程新知 2025/11/26 13:15:57

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理）

上一章用到了V2 的概念，其实 Fiori当中还有 V4，咱们这一章来总结一下 V2 和 V4。 SAP学习笔记 - 开发25 - 前端Fiori开发 Remote OData Service(使用远端Odata服务)，代理中间件（ui5-middleware-simpleproxy）-CSDN博客…...

编程新知 2026/2/3 8:20:06

HashMap中的put方法执行流程（流程图）

1 put操作整体流程 HashMap 的 put 操作是其最核心的功能之一。在 JDK 1.8 及以后版本中，其主要逻辑封装在 putVal 这个内部方法中。整个过程大致如下： 初始判断与哈希计算： 首先，putVal 方法会检查当前的 table（也就…...

编程新知 2026/2/8 3:32:52

Golang——9、反射和文件操作

反射和文件操作 1、反射1.1、reflect.TypeOf()获取任意值的类型对象1.2、reflect.ValueOf()1.3、结构体反射 2、文件操作2.1、os.Open()打开文件2.2、方式一：使用Read()读取文件2.3、方式二：bufio读取文件2.4、方式三：os.ReadFile读取2.5、写…...

编程新知 2026/1/30 6:20:08

在 Spring Boot 项目里，MYSQL中json类型字段使用

前言： 因为程序特殊需求导致，需要mysql数据库存储json类型数据，因此记录一下使用流程 1.java实体中新增字段 private List<User> users 2.增加mybatis-plus注解 TableField(typeHandler FastjsonTypeHandler.class) private Lis…...

编程新知 2025/7/9 16:55:37

数据结构：递归的种类（Types of Recursion）

目录尾递归（Tail Recursion） 什么是 Loop（循环）？ 复杂度分析头递归（Head Recursion） 树形递归（Tree Recursion） 线性递归（Linear Recursion）…...

编程新知 2026/2/7 2:25:07

【无标题】湖北理元理律师事务所：债务优化中的生活保障与法律平衡之道

文/法律实务观察组在债务重组领域，专业机构的核心价值不仅在于减轻债务数字，更在于帮助债务人在履行义务的同时维持基本生活尊严。湖北理元理律师事务所的服务实践表明，合法债务优化需同步实现三重平衡： 法律刚性（债…...

编程新知 2026/1/31 9:00:14

代码

相关文章：