当前位置：首页 > news >正文

LLM - 计算多模态大语言模型的参数量(Qwen2-VL、Llama-3.1) 教程

news 2025/7/14 2:41:50

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/143749468

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

影响 (多模态)大语言模型参数量的主要网络模块，即 Linear、Embedding、Norm(LayerNorm or RMSNorm) 等 3 个部分，其中，多模态大模型还包括 Conv3D，手动计算参数量，与 PyTorch 直接计算保持一致。

PyTorch 源码：

def count_parameters(model):return sum(p.numel() for p in model.parameters() if p.requires_grad)

以 Qwen2-VL-7B-Instruct 、Qwen2-7B-Instruct、Llama-3.1-8B-Instruct 为例。

网络结构参数量：

Linear：参数矩阵，或者加上bias，Linear(in_features=w, out_features=h, bias=True) 参数量是 x=w*h+h，当 bias=False, 则是 x=w*h。
Embedding：认为是没有 bias 的 Linear。
Norm：
- LayerNorm 包括 2 个可训练参数 $\gamma$ 和 $\beta$ ，假设 hidden_size 的大小为 h，hidden_size 每一维都有两个参数，即 2*hidden_size
- RMSNorm 每 1 维则只有 1 个可训练参数 , 即 hidden_size
Conv3D：即 Conv3d(3, 1280, kernel_size=(2, 14, 14), stride=(2, 14, 14), bias=False)，即参数量=输入维度*输出维度*卷积核， 3*1280*2*14*14=1505280
RotaryEmbedding、Activition 和 Dropout：旋转位置编码、激活函数、Dropout 都没有可训练参数

Llama-3.1-8B-Instruct 参数量：

$128256 * 4096 + 32 * (4096 * 4096 * 2 + 4096 * 1024 * 2 + 4096 * 14336 * 3 + 2 * 4096) + 4096 + 4096 * 128256 = 8030261248 = 8 B$

即：

$Parameters = Embedding + layers*(Linear_{QKVO} + Linear_{mlp}+RMSNorm) + RMSNorm + Linear$

计算参数量：[Info] parameters: 8030261248

大语言模型 Llama-3.1-8B-Instruct 的网络结构：

LlamaForCausalLM((model): LlamaModel((embed_tokens): Embedding(128256, 4096)(layers): ModuleList((0-31): 32 x LlamaDecoderLayer((self_attn): LlamaSdpaAttention((q_proj): Linear(in_features=4096, out_features=4096, bias=False)(k_proj): Linear(in_features=4096, out_features=1024, bias=False)(v_proj): Linear(in_features=4096, out_features=1024, bias=False)(o_proj): Linear(in_features=4096, out_features=4096, bias=False)(rotary_emb): LlamaRotaryEmbedding())(mlp): LlamaMLP((gate_proj): Linear(in_features=4096, out_features=14336, bias=False)(up_proj): Linear(in_features=4096, out_features=14336, bias=False)(down_proj): Linear(in_features=14336, out_features=4096, bias=False)(act_fn): SiLU())(input_layernorm): LlamaRMSNorm((4096,), eps=1e-05)(post_attention_layernorm): LlamaRMSNorm((4096,), eps=1e-05)))(norm): LlamaRMSNorm((4096,), eps=1e-05)(rotary_emb): LlamaRotaryEmbedding())(lm_head): Linear(in_features=4096, out_features=128256, bias=False)
)

多模态视觉大模型 Qwen2-VL-7B-Instruct 的网络结构：

Qwen2VLForConditionalGeneration((visual): Qwen2VisionTransformerPretrainedModel((patch_embed): PatchEmbed((proj): Conv3d(3, 1280, kernel_size=(2, 14, 14), stride=(2, 14, 14), bias=False))(rotary_pos_emb): VisionRotaryEmbedding()(blocks): ModuleList((0-31): 32 x Qwen2VLVisionBlock((norm1): LayerNorm((1280,), eps=1e-06, elementwise_affine=True)(norm2): LayerNorm((1280,), eps=1e-06, elementwise_affine=True)(attn): VisionSdpaAttention((qkv): Linear(in_features=1280, out_features=3840, bias=True)(proj): Linear(in_features=1280, out_features=1280, bias=True))(mlp): VisionMlp((fc1): Linear(in_features=1280, out_features=5120, bias=True)(act): QuickGELUActivation()(fc2): Linear(in_features=5120, out_features=1280, bias=True))))(merger): PatchMerger((ln_q): LayerNorm((1280,), eps=1e-06, elementwise_affine=True)(mlp): Sequential((0): Linear(in_features=5120, out_features=5120, bias=True)(1): GELU(approximate='none')(2): Linear(in_features=5120, out_features=3584, bias=True))))(model): Qwen2VLModel((embed_tokens): Embedding(152064, 3584)(layers): ModuleList((0-27): 28 x Qwen2VLDecoderLayer((self_attn): Qwen2VLSdpaAttention((q_proj): Linear(in_features=3584, out_features=3584, bias=True)(k_proj): Linear(in_features=3584, out_features=512, bias=True)(v_proj): Linear(in_features=3584, out_features=512, bias=True)(o_proj): Linear(in_features=3584, out_features=3584, bias=False)(rotary_emb): Qwen2VLRotaryEmbedding())(mlp): Qwen2MLP((gate_proj): Linear(in_features=3584, out_features=18944, bias=False)(up_proj): Linear(in_features=3584, out_features=18944, bias=False)(down_proj): Linear(in_features=18944, out_features=3584, bias=False)(act_fn): SiLU())(input_layernorm): Qwen2RMSNorm((3584,), eps=1e-06)(post_attention_layernorm): Qwen2RMSNorm((3584,), eps=1e-06)))(norm): Qwen2RMSNorm((3584,), eps=1e-06)(rotary_emb): Qwen2VLRotaryEmbedding())(lm_head): Linear(in_features=3584, out_features=152064, bias=False)
)

总参数量：[Info] parameters: 8291375616

视觉模型的参数量：[Info] parameters model.visual: 675759104
语言模型的参数量：[Info] parameters model.model: 7070619136 + [Info] parameters model.lm_head: 544997376

即：675759104(8.15%) + 7070619136(85.28%) + 544997376(6.57%) = 8291375616 = 8B

Qwen2-VL-7B-Instruct 的 Qwen2VisionTransformerPretrainedModel 参数量：

patch_embed 参数量： 3*1280*2*14*14=1505280
blocks 参数量：[Info] parameters model.visual.blocks: 629678080
- 详细计算公式：32*(1280*2*2 + (1280+1)*3840 + (1280+1)*1280 + 1280*5121 + 5120*1281)=629678080
merger 参数量：

合并计算公式：

$\\ = 675759104$

Qwen2-VL-7B-Instruct 的 Qwen2VLModel 参数量：

$\\ = 7070619136 \\ 3584 * 152064 = 544997376$

因此，Qwen2-VL-7B 的数据量完全对齐。

测试：

# 预训练模型, 查看其词表大小
import torch
import transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessorprint(f"[Info] transformers version: {transformers.__version__}")def count_parameters(model):return sum(p.numel() for p in model.parameters() if p.requires_grad)# ------------ Qwen2-VL-7B ----------- #
model_path = "[your path]/llm/Qwen/Qwen2-VL-7B-Instruct"
print(f"[Info] model_path: {model_path}")# Load the model in half-precision on the available device(s)
model = Qwen2VLForConditionalGeneration.from_pretrained(model_path, torch_dtype="auto", device_map="auto"
)
processor = AutoProcessor.from_pretrained(model_path)
configuration = model.config
print(f"[Info] Qwen2-VL-7B vocab_size: {configuration.vocab_size}")
print(model)
print(f"[Info] parameters: {count_parameters(model)}")
print(f"[Info] parameters model.visual: {count_parameters(model.visual)}")
print(f"[Info] parameters model.model: {count_parameters(model.model)}")
print(f"[Info] parameters model.lm_head: {count_parameters(model.lm_head)}")
print(f"[Info] parameters model.visual.patch_embed: {count_parameters(model.visual.patch_embed)}")
print(f"[Info] parameters model.visual.blocks: {count_parameters(model.visual.blocks)}")
print(f"[Info] parameters model.visual.blocks[0].norm1: {count_parameters(model.visual.blocks[0].norm1)}")
print(f"[Info] parameters model.visual.blocks[0].norm2: {count_parameters(model.visual.blocks[0].norm2)}")
print(f"[Info] parameters model.visual.blocks[0].attn: {count_parameters(model.visual.blocks[0].attn)}")
print(f"[Info] parameters model.visual.blocks[0].mlp: {count_parameters(model.visual.blocks[0].mlp)}")
# ------------ Qwen2-VL-7B ----------- ## ------------ Qwen2-7B ----------- #
model_path = "[your path]/llm/Qwen/Qwen2-7B-Instruct"
print(f"[Info] model_path: {model_path}")device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_path)
print(f"[Info] Qwen2-7B vocab_size: {tokenizer.vocab_size}")
print(model)
print(f"[Info] parameters: {count_parameters(model)}")
# ------------ Qwen2-7B ----------- ## ------------ Llama-3.1-8B ----------- #
model_path = "[your path]/llm/Meta-Llama-3.1-8B-Instruct"
print(f"[Info] model_path: {model_path}")
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path,torch_dtype=torch.bfloat16,device_map="auto",
)
print(f"[Info] Llama-3.1-8B vocab_size: {tokenizer.vocab_size}")
print(model)
print(f"[Info] parameters: {count_parameters(model)}")
# ------------ Llama-3.1-8B ----------- #

Qwen2-7B 的参数量是 7615616512，即 7070619136 + 544997376 = 7615616512

参考：

大模型的参数量是如何计算的
大模型参数量如何计算
如何根据模型结构，计算大模型的参数量？

LLM - 计算多模态大语言模型的参数量(Qwen2-VL、Llama-3.1) 教程

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/143749468 免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。影响 (…...

编程日记 2024/11/14 14:43:00

数据可视化这样做，汇报轻松拿捏（附免费好用可视化工具推荐）

一、数据可视化的定义数据可视化是数据分析中重要的工作之一。在完成数据采集之后，通过可视化方式，将数据转化为美观且浅显易懂的统计图/表/视频，从而进一步解读数据背后隐藏的价值，这种方数据处理方式就叫做数据可视化。近些年…...

编程日记 2024/11/14 14:40:57

杂七杂八之基于JSON Web Token (JWT) 进行API认证和鉴权（Java版）

杂七杂八之基于JSON Web Token (JWT) 进行API认证和鉴权（Java版） 在现代Web应用和API开发中，JSON Web Token (JWT) 是一种广泛使用的认证和鉴权机制。JWT不仅简化了认证流程，还提供了安全的令牌传递方式，使得跨域认证…...

编程日记 2024/11/14 14:39:56

建设展示型网站企业渠道用户递达

展示型网站的主要作用便是作为企业线上门户平台、信息承载形式、拓客咨询窗口、服务/产品宣传订购、其它内容/个人形式呈现等，网站发展多年，现在依然是企业线上发展的主要工具之一且有建设的必要性。谈及整体价格，自制、定制开发、SAAS系统…...

编程日记 2024/11/14 14:33:49

如何通过AB测试找到最适合的Yandex广告内容

想要在Yandex上找到最能吸引目标受众的广告内容，A/B测试是一个不可或缺的步骤。通过对比不同版本的广告，我们可以发现哪些元素最能引起用户的共鸣。首先，设计两个或多个广告版本，确保每个版本在标题、文案、图片等关键元素上有所不…...

编程日记 2024/11/14 14:28:44

AI写作（四）预训练语言模型：开启 AI 写作新时代（4/10）

一、预训练语言模型概述预训练语言模型在自然语言处理领域占据着至关重要的地位。它以其卓越的语言理解和生成能力，成为众多自然语言处理任务的关键工具。预训练语言模型的发展历程丰富而曲折。从早期的神经网络语言模型开始，逐渐发展到如今的大规…...

编程日记 2024/11/14 14:25:40

解决Anaconda出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url

解决Anaconda出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url 第一类情况在anaconda创建新环境时，使用如下代码 conda create -n charts python3.7 错误原因： 默认镜像源访问速度过慢，会导致超时从而导致更新和下载失败。解决方…...

编程日记 2024/11/14 14:23:38

员工绩效统计出现很多小数点，处理方法大全

1.直接通过数据库修改数据类型譬如采用DECIMAL类型 2.float 降低小数点位数 3.php 采用round函数...

编程日记 2024/11/14 14:22:36

【启明智显分享】5G CPE为什么适合应用在连锁店中？

连锁门店需要5G CPE来满足其日益增长的网络需求，提升整体运营效率和竞争力。那么为什么5G CPE适合连锁店应用呢，小编为此做了整理，主要是基于以下几个方面的原因： 一、高效稳定的网络连接 1、高速数据传输： 5G CPE能…...

编程日记 2024/11/14 14:21:35

十大经典排序算法-希尔排序与归并排序

1、希尔排序希尔排序，也称递减增量排序算法，是插入排序的一种更高效的改进版本。但希尔排序是非稳定排序算法。希尔排序是基于插入排序的以下两点性质而提出改进方法的： 插入排序在对几乎已经排好序的数据操作时，效率高&…...

编程日记 2024/11/14 14:12:26

gitlab和jenkins连接

一：jenkins 配置安装gitlab插件生成密钥 id_rsa 要上传到jenkins，id_rsa.pub要上传到gitlab cat /root/.ssh/id_rsa 复制查看的内容可以看到已经成功创建出来了对于gitlab的认证凭据二：配置gitlab cat /root/.ssh/id_rsa.pub 复制查…...

编程日记 2024/11/14 14:11:25

Qt Event事件系统小探2

目录事件过滤器来看一个例子拖放事件和拖放操作 Qt官方文档给出的说明拖放拖放类配置拖动放置覆盖建议的操作子类化复杂窗口小部件拖放操作添加新的拖放类型放置操作放置矩形剪贴板其他函数的介绍事件过滤器我们知道，有的时候想…...

编程日记 2024/11/14 14:09:23

[2024最新] java八股文实用版（附带原理）---java集合篇

介绍一下常见的list实现类？ ArrayList 线程不安全，内部是通过数组实现的，继承了AbstractList，实现了List，适合随机查找和遍历，不适合插入和删除。排列有序，可重复，当容量不够的时候…...

编程日记 2024/11/14 14:07:20

pytorch tensor在CPU和GPU之间转换，numpy之间的转换

# input input.cpu().numpy() input input.cpu().detach().numpy() # 有gradCPU tensor转GPU tensor： cpu_imgs.cuda()GPU tensor 转CPU tensor： gpu_imgs.cpu()numpy转为CPU tensor： torch.from_numpy( imgs )4.CPU tensor转为numpy数…...

编程日记 2024/11/14 14:06:19

【电压分层控制】光储三相并网下垂控制，直流微电网协调母线电压分层控制

摘要本文研究了一种基于电压分层控制的光伏与储能系统并网控制策略。通过下垂控制和分层控制方法实现直流微电网的协调运行，提高系统动态响应和稳态性能。仿真结果表明，该控制策略能够在不同工况下有效稳定母线电压，并实现负载功率合理分配…...

编程日记 2024/11/14 14:03:15

【CSS】absolute定位的默认位置

position: absolute; 属性会使元素脱离正常的文档流，并相对于最近的非 static 定位祖先元素进行定位。如果没有这样的祖先元素，则相对于初始包含块（通常是视口）进行定位。但是当top和left没有指定具体值时，元素的在上…...

编程日记 2024/11/14 14:01:12

遗传算法与深度学习实战——利用进化计算优化深度学习模型

遗传算法与深度学习实战——利用进化计算优化深度学习模型 0. 前言1. 利用进化计算优化深度学习模型2. 利用进化策略优化深度学习模型3. 利用差分计算优化深度学习模型相关链接 0. 前言我们已经学习了使用进化策略 (Evolutionary Strategies, ES) 和差分进化 (Differential E…...

编程日记 2024/11/14 13:59:08

计算机视觉 ---图像读取与显示(OpenCV与Matplotlib)

前言本文分别介绍了使用 OpenCV 和 Matplotlib 进行图像读取与显示的方法，如 cv2.imread ()、cv2.imshow ()、plt.imread ()、plt.imshow () 等，并提及了使用 OpenCV 时的注意事项。 OpenCV与Matplotlib图像读取与显示的差异图像读取： Op…...

编程日记 2024/11/14 13:54:02

XML Schema 字符串数据类型

XML Schema 字符串数据类型 1. 概述 XML Schema 是一种用于定义 XML 文档结构和内容的语言。它提供了一种强大的机制来描述 XML 数据的类型、结构和约束。在 XML Schema 中，字符串数据类型是一种基本数据类型，用于表示文本数据。 2. 字符串数据类型 …...

编程日记 2024/11/14 13:53:01

Spring Boot 读取 yml 并映射至实体

application-base.yml app:# 附件存储路径upload-attachments: /data/attachments/# 报告导出详情 url - 前端score-detail-url: ${app.host.web}/#/process/start?processNo{}# api 文件下载 urlfile-download-url: ${app.host.web}/prod-api/sys_file_info/download/{}?fu…...

编程日记 2024/11/14 13:52:00

学校招生小程序源码介绍

基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码，专为学校招生场景量身打造，功能实用且操作便捷。从技术架构来看，ThinkPHP提供稳定可靠的后台服务，FastAdmin加速开发流程，UniApp则保障小程序在多端有良好的兼…...

编程新知 2025/7/13 3:42:10

【配置 YOLOX 用于按目录分类的图片数据集】

现在的图标点选越来越多，如何一步解决，采用 YOLOX 目标检测模式则可以轻松解决要在 YOLOX 中使用按目录分类的图片数据集（每个目录代表一个类别，目录下是该类别的所有图片），你需要进行以下配置步骤&#x…...

编程新知 2025/7/12 8:04:46

三体问题详解

从物理学角度，三体问题之所以不稳定，是因为三个天体在万有引力作用下相互作用，形成一个非线性耦合系统。我们可以从牛顿经典力学出发，列出具体的运动方程，并说明为何这个系统本质上是混沌的，无法得到一般解…...

编程新知 2025/6/21 9:02:37

图表类系列各种样式PPT模版分享

图标图表系列PPT模版，柱状图PPT模版，线状图PPT模版，折线图PPT模版，饼状图PPT模版，雷达图PPT模版，树状图PPT模版图表类系列各种样式PPT模版分享：图表系列PPT模板https://pan.quark.cn/s/20d40aa…...

编程新知 2025/7/12 8:31:49

Springboot社区养老保险系统小程序

一、前言随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，社区养老保险系统小程序被用户普遍使用，为方…...

编程新知 2025/7/13 17:27:03

代码随想录刷题day30

1、零钱兑换II 给你一个整数数组 coins 表示不同面额的硬币，另给一个整数 amount 表示总金额。请你计算并返回可以凑成总金额的硬币组合数。如果任何硬币组合都无法凑出总金额，返回 0 。假设每一种面额的硬币有无限个。题目数据保证结果符合 32 位带…...

编程新知 2025/7/8 11:33:47

腾讯云V3签名

想要接入腾讯云的Api，必然先按其文档计算出所要求的签名。之前也调用过腾讯云的接口，但总是卡在签名这一步，最后放弃选择SDK，这次终于自己代码实现。可能腾讯云翻新了接口文档，现在阅读起来，清晰了很多&…...

编程新知 2025/7/5 14:21:20

毫米波雷达基础理论（3D+4D）

3D、4D毫米波雷达基础知识及厂商选型 PreView : https://mp.weixin.qq.com/s/bQkju4r6med7I3TBGJI_bQ 1. FMCW毫米波雷达基础知识主要参考博文： 一文入门汽车毫米波雷达基本原理 ：https://mp.weixin.qq.com/s/_EN7A5lKcz2Eh8dLnjE19w 毫米波雷达基础…...

编程新知 2025/7/13 20:44:28

学习一下用鸿蒙DevEco Studio HarmonyOS5实现百度地图

在鸿蒙（HarmonyOS5）中集成百度地图，可以通过以下步骤和技术方案实现。结合鸿蒙的分布式能力和百度地图的API，可以构建跨设备的定位、导航和地图展示功能。 1. 鸿蒙环境准备开发工具：下载安装 De…...

编程新知 2025/7/8 22:51:18

Ubuntu系统复制（U盘-电脑硬盘）

所需环境电脑自带硬盘：1块 (1T) U盘1：Ubuntu系统引导盘（用于“U盘2”复制到“电脑自带硬盘”） U盘2：Ubuntu系统盘（1T，用于被复制） ！！！建议“电脑…...

编程新知 2025/7/12 1:50:49

相关文章：