当前位置：首页 > news >正文

Llama模型结构解析（源码阅读）

news 2026/2/11 4:26:47

1. LlamaModel整体结构流程图

在这里插入图片描述

2. LlamaRMSNorm

代码如下

class LlamaRMSNorm(nn.Module):def __init__(self, hidden_size, eps=1e-6):"""LlamaRMSNorm is equivalent to T5LayerNorm"""super().__init__()self.weight = nn.Parameter(torch.ones(hidden_size))self.variance_epsilon = epsdef forward(self, hidden_states):input_dtype = hidden_states.dtypevariance = hidden_states.to(torch.float32).pow(2).mean(-1, keepdim=True)hidden_states = hidden_states * torch.rsqrt(variance + self.variance_epsilon)return (self.weight * hidden_states).to(input_dtype)

RMSNorm的公式如下所示：
$\frac{x_i}{\sqrt{\frac{1}{n}\sum\limits_{i=1}^{n}{x_i}^2 + eps}} * weight_i$
- 其中，公式与代码的对应关系如下：

3. LlamaMLP

代码如下：

class LlamaMLP(nn.Module):def __init__(self,hidden_size: int,intermediate_size: int,hidden_act: str,):super().__init__()self.gate_proj = nn.Linear(hidden_size, intermediate_size, bias=False)self.down_proj = nn.Linear(intermediate_size, hidden_size, bias=False)self.up_proj = nn.Linear(hidden_size, intermediate_size, bias=False)self.act_fn = ACT2FN[hidden_act]def forward(self, x):return self.down_proj(self.act_fn(self.gate_proj(x)) * self.up_proj(x))

流程图：
其中输入为x，输出为y
代码中intermediate_size一般比hidden_size大，我们通过在jupyter notebook中打印Llama-13B的模型，可以看到如下所示：
总结：MLP模块就是几个nn.Linear的组合

4. LlamaRotaryEmbedding

代码如下


class LlamaRotaryEmbedding(torch.nn.Module):def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None):super().__init__()inv_freq = 1.0 / (base ** (torch.arange(0, dim, 2).float().to(device) / dim))self.register_buffer("inv_freq", inv_freq)# Build here to make `torch.jit.trace` work.self.max_seq_len_cached = max_position_embeddingst = torch.arange(self.max_seq_len_cached, device=self.inv_freq.device, dtype=self.inv_freq.dtype)freqs = torch.einsum("i,j->ij", t, self.inv_freq)# Different from paper, but it uses a different permutation in order to obtain the same calculationemb = torch.cat((freqs, freqs), dim=-1)self.register_buffer("cos_cached", emb.cos()[None, None, :, :], persistent=False)self.register_buffer("sin_cached", emb.sin()[None, None, :, :], persistent=False)def forward(self, x, seq_len=None):# x: [bs, num_attention_heads, seq_len, head_size]# This `if` block is unlikely to be run after we build sin/cos in `__init__`. Keep the logic here just in case.if seq_len > self.max_seq_len_cached:self.max_seq_len_cached = seq_lent = torch.arange(self.max_seq_len_cached, device=x.device, dtype=self.inv_freq.dtype)freqs = torch.einsum("i,j->ij", t, self.inv_freq)# Different from paper, but it uses a different permutation in order to obtain the same calculationemb = torch.cat((freqs, freqs), dim=-1).to(x.device)self.register_buffer("cos_cached", emb.cos()[None, None, :, :], persistent=False)self.register_buffer("sin_cached", emb.sin()[None, None, :, :], persistent=False)return (self.cos_cached[:, :, :seq_len, ...].to(dtype=x.dtype),self.sin_cached[:, :, :seq_len, ...].to(dtype=x.dtype),)

具体的使用，还调用了另外两个函数，如下所示：

def rotate_half(x):"""Rotates half the hidden dims of the input."""x1 = x[..., : x.shape[-1] // 2]x2 = x[..., x.shape[-1] // 2 :]return torch.cat((-x2, x1), dim=-1)def apply_rotary_pos_emb(q, k, cos, sin, position_ids):# The first two dimensions of cos and sin are always 1, so we can `squeeze` them.cos = cos.squeeze(1).squeeze(0)  # [seq_len, dim]sin = sin.squeeze(1).squeeze(0)  # [seq_len, dim]cos = cos[position_ids].unsqueeze(1)  # [bs, 1, seq_len, dim]sin = sin[position_ids].unsqueeze(1)  # [bs, 1, seq_len, dim]q_embed = (q * cos) + (rotate_half(q) * sin)k_embed = (k * cos) + (rotate_half(k) * sin)return q_embed, k_embed

注意这里的实现跟原始推导有点区别，这里实现的方式如下图所示：
原始推导如下图所示：

具体可以查看作者的博客：👉戳我👈
总结：RoPE就是在attention计算时，K跟Q做内积之前，先给各自注入位置信息。

结束。

Llama模型结构解析（源码阅读）

目录 1. LlamaModel整体结构流程图2. LlamaRMSNorm3. LlamaMLP4. LlamaRotaryEmbedding 参考资料： https://zhuanlan.zhihu.com/p/636784644 https://spaces.ac.cn/archives/8265 ——《Transformer升级之路：2、博采众长的旋转式位置编码》前言&#x…...

编程日记 2023/8/30 15:44:37

基于XML实现SpringIoC配置

目录 SpringIoc创建与使用的大致步骤一.基于xml配置SpringIoc 二.基于xml配置DI 三.创建IoC容器并获取组件 SpringIoc创建与使用的大致步骤 SpringIoC的创建与使用过程分为3步 1.编写配置信息（编写XML，注解、Java类） 2.创建IoC容器&…...

编程日记 2023/8/30 15:43:35

Kaniko在containerd中无特权快速构建并推送容器镜像

目录一、kaniko是什么二、kaniko工作原理三、kanijo工作在Containerd上基于serverless的考虑，我们选择了kaniko作为镜像打包工具，它是google提供了一种不需要特权就可以构建的docker镜像构建工具。一、kaniko是什么 kaniko 是一种在容器或 Kube…...

编程日记 2023/8/30 15:42:33

分享5款不会被打入冷宫的神器软件

检查一下你最近安装的软件，他们是不是都一样无法避免最终被你打入冷宫的命运？我们明明很懂“在精不在多”的道理，却依然让我们的电脑塞满了形形色色无用的软件。你需要知道的是，如何找到一款适合自己且真正实用的电脑软件。自…...

编程日记 2023/8/30 15:41:29

Windows如何部署Redis

一、简介 Redis (Remote Dictionary Server) 是一个由意大利人 Salvatore Sanfilippo 开发的 key-value 存储系统，具有极高的读写性能，读的速度可达 110000 次/s，写的速度可达 81000 次/s 。二、下载访问 https://github.com/tporadows…...

编程日记 2023/8/30 15:40:27

VUE数据双向绑定原理解析

VUE数据双向绑定原理解析在Vue.js中，数据双向绑定是一项非常强大的功能。它使开发者能够轻松地将模板与数据进行动态关联，实现了页面和数据之间的实时同步更新。本文将深入探讨VUE中数据双向绑定的原理，并通过代码示例演示其工作机制。 1.…...

编程日记 2023/8/30 15:39:24

SSM商城项目实战：订单管理

SSM商城项目实战：订单管理在SSM商城项目中，订单管理是一个非常重要的功能模块。本文将详细介绍订单管理的实现思路和步骤代码。实现SSM商城项目中订单管理功能的思路如下： 设计数据库表结构：根据订单管理的需求，设计…...

编程日记 2023/8/30 15:38:22

SELinux 入门 pt.2

哈喽大家好，我是咸鱼在《SELinux 入门 pt.1》中，咸鱼向各位小伙伴介绍了 SELinux 所使用的 MAC 模型、以及几个重要的概念（主体、目标、策略、安全上下文） 我们还讲到： 对于受 SELinux 管制的进程，会先…...

编程日记 2023/8/30 15:37:21

1、函数定义 #include <iostream> using namespace std;int add(int num1, int num2) {int sum num1 num2;return sum; }int main() {system("pause");return 0; } 2、函数的调用 #include <iostream> using namespace std;int add(int num1, int num2…...

编程日记 2023/8/30 15:36:18

《Flink学习笔记》——第五章 DataStream API

一个Flink程序，其实就是对DataStream的各种转换，代码基本可以由以下几部分构成： 获取执行环境读取数据源定义对DataStream的转换操作输出触发程序执行获取执行环境和触发程序执行都属于对执行环境的操作，那么其构成可以用下图表示…...

编程日记 2023/8/30 15:35:17

Vue3.0 新特性以及使用变更总结

Vue3.0 在2020年9月正式发布了，也有许多小伙伴都热情的拥抱Vue3.0。去年年底我们新项目使用Vue3.0来开发，这篇文章就是在使用后的一个总结， 包含Vue3新特性的使用以及一些用法上的变更。图片.png 为什么要升级Vue3 使用Vue2.x的小伙伴都熟悉…...

编程日记 2023/8/30 15:34:16

ToBeWritten之VSOC安全运营

也许每个人出生的时候都以为这世界都是为他一个人而存在的，当他发现自己错的时候，他便开始长大少走了弯路，也就错过了风景，无论如何，感谢经历转移发布平台通知：将不再在CSDN博客发布新文章，敬…...

编程日记 2023/8/30 15:33:12

2023爱分析·一站式通信解决方案市场厂商评估报告：牛信云

[图片] 01 中国企业出海发展背景及阶段出海背景：出海，对中国企业而言，并不陌生。从最初的贸易型出海，到制造业崛起，再到互联网、移动互联网产业腾飞，中国企业在出海道路上走的越发稳健。行业也从最初的家电…...

编程日记 2023/8/30 15:32:10

微信小程序消防知识每天学平台设计与实现

摘要消防是当下一个人都需要在日常生活中所高度重视的事项。消防安全关系到居民的日常生活的安全，通过学习消防知识能够提升人们在日常生活中对于灾难的防范。通过对当下的大学生进行调查研究后发现，现在的年轻人在消防意识上比较的单薄，对…...

编程日记 2023/8/30 15:31:09

Oracle跨库访问DBLINK

1. DBLINK的介绍 Oracle在进行跨库访问时，可以创建DBLINK实现，比如要将UAT的表数据灌入开发环境，则可以使用UAT库为数据源，通过DBLINK实现将查出的数据灌入开发库。简而言之就是在当前数据库中访问另一个数据库中的表中的数据 2…...

编程日记 2023/8/30 15:30:08

【vue3.0 组合式API与选项式API是什么，有什么区别】

vue3.0 组合式API与选项式API是什么 Vue3.0中引入了组合式API（Composition API），同时保留了选项式API（Options API）。两种 API 风格都能够覆盖大部分的应用场景。它们只是同一个底层系统所提供的两套不同的接口。实际…...

编程日记 2023/8/30 15:29:06

React配置代理的5种方法

React配置代理的五种方法的介绍使用create-react-app的代理配置： 使用场景：适用于使用create-react-app创建的React项目，特别是小型项目或快速原型开发。优点：配置简单，无需额外安装依赖，适合快速开发和简…...

编程日记 2023/8/30 15:28:04

皮卡丘靶场搭建遇到的问题大全

该博客记录我在安装皮卡丘靶场中遇到的一些问题。 1、 phpstudy_pro启动Mysql失败自己电脑开启了mysql服务，使用winr，services.msc，找到自己的mysql服务，关闭。再次尝试使用phpstudy_pro启动mysql，成功解决。 2、皮…...

编程日记 2023/8/30 15:27:02

【C++】C++11的新特性（上）

引入 C11作为C标准的一个重要版本，引入了许多令人振奋的新特性，极大地丰富了这门编程语言的功能和表达能力。本章将为您介绍C11的一些主要变化和改进，为接下来的章节铺垫。文章目录引入一、列表初始化 1、1 {} 初始化 1、2 std::initiali…...

编程日记 2023/8/30 15:26:01

ubuntu学习（四）----文件写入操作编程

1、write函数的详解 ssize_t write(int fd,const void*buf,size_t count); 参数说明： fd:是文件描述符（write所对应的是写，即就是1） buf:通常是一个字符串，需要写入的字符串 count：是每次写入的字节数…...

编程日记 2023/8/30 15:25:00

网络六边形受到攻击

大家读完觉得有帮助记得关注和点赞！！！ 抽象现代智能交通系统 （ITS） 的一个关键要求是能够以安全、可靠和匿名的方式从互联车辆和移动设备收集地理参考数据。Nexagon 协议建立在 IETF 定位器/ID 分离协议 （…...

编程新知 2026/2/8 5:22:04

设计模式和设计原则回顾

设计模式和设计原则回顾 23种设计模式是设计原则的完美体现，设计原则设计原则是设计模式的理论基石，设计模式在经典的设计模式分类中（如《设计模式：可复用面向对象软件的基础》一书中），总共有23种设计模式，分为三大类：一、创建型模式（5种） 1. 单例模式（Sing…...

编程新知 2025/12/14 20:57:41

docker详细操作--未完待续

docker介绍 docker官网: Docker：加速容器应用程序开发 harbor官网：Harbor - Harbor 中文使用docker加速器: Docker镜像极速下载服务 - 毫秒镜像是什么 Docker 是一种开源的容器化平台，用于将应用程序及其依赖项（如库、运行时环…...

编程新知 2026/2/5 4:33:24

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法

树莓派摄像头高级使用方法配置通过调谐文件来调整相机行为使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包文章来源： http://raspberry.dns8844.cn/documentation 原文网址配置大多数用例自动工作，无需更改相机配置。但是，一…...

编程新知 2026/2/5 4:39:03

AtCoder 第409场初级竞赛 A~E题解

A Conflict 【题目链接】原题链接：A - Conflict 【考点】枚举【题目大意】找到是否有两人都想要的物品。【解析】遍历两端字符串，只有在同时为 o 时输出 Yes 并结束程序，否则输出 No。【难度】 GESP三级【代码参考】 #i…...

编程新知 2025/12/16 4:45:38

ffmpeg（四）：滤镜命令

FFmpeg 的滤镜命令是用于音视频处理中的强大工具，可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下： ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜： ffmpeg…...

编程新知 2026/2/4 23:47:47

NFT模式：数字资产确权与链游经济系统构建

NFT模式：数字资产确权与链游经济系统构建 ——从技术架构到可持续生态的范式革命一、确权技术革新：构建可信数字资产基石 1. 区块链底层架构的进化跨链互操作协议：基于LayerZero协议实现以太坊、Solana等公链资产互通，通过零知…...

编程新知 2026/1/31 23:23:23

分布式增量爬虫实现方案

之前我们在讨论的是分布式爬虫如何实现增量爬取。增量爬虫的目标是只爬取新产生或发生变化的页面，避免重复抓取，以节省资源和时间。在分布式环境下，增量爬虫的实现需要考虑多个爬虫节点之间的协调和去重。另一种思路：将增量判…...

编程新知 2026/2/6 1:18:56

基于matlab策略迭代和值迭代法的动态规划

经典的基于策略迭代和值迭代法的动态规划matlab代码，实现机器人的最优运输 Dynamic-Programming-master/Environment.pdf , 104724 Dynamic-Programming-master/README.md , 506 Dynamic-Programming-master/generalizedPolicyIteration.m , 1970 Dynamic-Programm…...

编程新知 2025/12/7 23:28:25

MySQL账号权限管理指南：安全创建账户与精细授权技巧

在MySQL数据库管理中，合理创建用户账号并分配精确权限是保障数据安全的核心环节。直接使用root账号进行所有操作不仅危险且难以审计操作行为。今天我们来全面解析MySQL账号创建与权限分配的专业方法。一、为何需要创建独立账号？ 最小权限原则&#xf…...

编程新知 2025/9/5 23:36:27

Llama模型结构解析（源码阅读）

目录

1. LlamaModel整体结构流程图

2. LlamaRMSNorm

3. LlamaMLP

4. LlamaRotaryEmbedding

相关文章：

Llama模型结构解析（源码阅读）

基于XML实现SpringIoC配置

Kaniko在containerd中无特权快速构建并推送容器镜像

分享5款不会被打入冷宫的神器软件

Windows如何部署Redis

VUE数据双向绑定原理解析

SSM商城项目实战：订单管理

SELinux 入门 pt.2

函数(个人学习笔记黑马学习)

《Flink学习笔记》——第五章 DataStream API

Vue3.0 新特性以及使用变更总结

ToBeWritten之VSOC安全运营

2023爱分析·一站式通信解决方案市场厂商评估报告：牛信云

微信小程序消防知识每天学平台设计与实现

Oracle跨库访问DBLINK

【vue3.0 组合式API与选项式API是什么，有什么区别】

React配置代理的5种方法

皮卡丘靶场搭建遇到的问题大全

【C++】C++11的新特性（上）

ubuntu学习（四）----文件写入操作编程

网络六边形受到攻击

设计模式和设计原则回顾

docker详细操作--未完待续

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法

AtCoder 第409场初级竞赛 A~E题解

ffmpeg（四）：滤镜命令

NFT模式：数字资产确权与链游经济系统构建

分布式增量爬虫实现方案

基于matlab策略迭代和值迭代法的动态规划

MySQL账号权限管理指南：安全创建账户与精细授权技巧