当前位置：首页 > news >正文

llama2c（4）之forward、sample、decode

news 2026/2/11 3:56:01

1、forward

float* logits = forward(transformer, token, pos);
输入transformer的参数，当前token，pos位置，预测出下一个token的预测值（用矩阵乘，加减乘除等运算构成Transformer）
其中，logits如下：
s->logits = calloc(p->vocab_size, sizeof(float));
matmul(s->logits, &s->xq, w->wcls, dim, p->vocab_size);
根据以上两行代码，和matmul的定义matmul函数的定义，输出的s->logits维度是[1,p->vocab_size]

对应vocab每个字符串的概率分布情况

gdb) p *logits@1000
$15 = {-0.283571005, 3.44877911, -0.578277588, -3.24091816, -1.85795152, 2.61188054, -0.770998061, 0.366253316, -0.637891531, 0.122880608, 2.0521276, 0.259968579, 0.553953588, 1.23023224, -1.90220821, 0.791390121, -0.279410094, -2.03433132, 0.736696005, -2.83315516, 0.430814654, -0.45484668, -0.296925813, -0.776587725, -0.373722374, -1.41853309, 0.44897157, 0.298399687, -2.28996897, -0.504646838, -0.219529897, 0.334682822, 0.359610289, 1.333992, -0.0392727256, -0.277485281, -0.281440586, -0.278330177, -0.279631168, -0.275823981, -0.273261875, -0.281633765, -0.280521065, -0.279279858, -0.277830899, -0.275540143, -0.278773159, -0.285891086, -0.275212795, -0.27603671, -0.276746958, -0.281391174, -0.27630195, -0.278620541, -0.281585068, -0.277181506, -0.279754519, -0.276037633, -0.278509229, -0.278621584, -0.271104455, -0.280266523, -0.279526323, -0.280170411, -0.277653664, -0.28433004, -0.275049627, -0.280639797, -0.27556017, -0.279702693, -0.286844194, -0.277686894, -0.278450489, -0.28413251, -0.279598236, -0.273824662, -0.276941836, -0.279240847, -0.281096309, -0.275031894, -0.282162875, -0.282587916, -0.279308707, -0.279815942, -0.280733585, -0.278700113, -0.275241196, -0.273779333, -0.280413181, -0.277753592, 
--Type <RET> for more, q to quit, c to continue without paging--

// attention rmsnorm
rmsnorm(s->xb, x, w->rms_att_weight + l*dim, dim);
// qkv matmuls for this position
quantize(&s->xq, s->xb, dim);
matmul(s->q, &s->xq, w->wq + l, dim, dim);

(gdb) ptype s->xb
type = float *

量化是输入是确保与权重一样的数据类型

2、sample

2.1 未进入

if (pos < num_prompt_tokens - 1) {// if we are still processing the input prompt, force the next prompt tokennext = prompt_tokens[pos + 1];} else {// otherwise sample the next token from the logitsnext = sample(sampler, logits);}

**确定next，**如果还在input prompt，那么下一个token就是next；不是，才用sample得出next
即执行

next = prompt_tokens[pos + 1];

得

(gdb) p pos
$10 = 0
(gdb) p next
$11 = 15043  //Hello

2.2 进入

根据参数进行采样，生成下一个词的token。

定义：
int sample(Sampler* sampler, float* logits)
(gdb) p *logits
$20 = 0.657589614
(gdb) p *sampler
$1 = {vocab_size = 32000, probindex = 0x7f12efe3b010, temperature = 1, topp = 0.899999976, rng_state = 1710049046}
`temperature`：控制文本生成随机性的参数，0.0意味着最确定（只选最高概率的词），1.0为原始概率分布，值越高生成结果越多样但可能偏离训练数据趋势。`topp`：在核抽样技术中，决定词汇选择集合的阈值，如设为0.9，则仅考虑累积概率最高的那部分词汇。较低的topp值有助于生成更连贯、高质量文本，但计算上较慢。`rng_seed`：初始化随机数生成器的种子，默认用当前时间，确保每次运行有不同随机性。设定特定种子可复现相同的随机序列，对生成一致性文本结果有用。

部分代码解释：

temperature=0.0

sampler->temperature == 0.0f
next = sample_argmax(logits, sampler->vocab_size);

调用sample_argmax选取返回概率最高的那个索引

temperature！= 0.0
每个logits[q]除以sampler->temperature，并通过softmax函数中转化为更符合当前温度设置的概率分布。
2）_1 当sampler->topp <= 0 或者 sampler->topp >= 1时，用sample_mult函数

调用

 next = sample_mult(logits, sampler->vocab_size, coin);

// sample index from probabilities (they must sum to 1!)
// coin is a random number in [0, 1), usually from random_f32()
定义

int sample_mult(float* probabilities, int n, float coin) {// sample index from probabilities (they must sum to 1!)// coin is a random number in [0, 1), usually from random_f32()float cdf = 0.0f;for (int i = 0; i < n; i++) {cdf += probabilities[i];if (coin < cdf) {    //遍历累加，并同时判断cdf的是否大于coin，有，就返回ireturn i;}}return n - 1; // in case of rounding errors  如果没有就返回n-1
}

2）_2 其他，top-p策略
调用

next = sample_topp(logits, sampler->vocab_size, sampler->topp, sampler->probindex, coin);

参数意义：

$1 = {vocab_size = 32000, probindex = 0x7f12efe3b010, temperature = 1, topp = 0.899999976, rng_state = 1710049046}
float topp: 采样阈值，通常在(0,1)之间，表示我们只考虑累积概率超过这个阈值的那一部分词汇。
ProbIndex* probindex: 一个结构体类型的数组，用于存储经过筛选后的索引及其对应概率。

定义

int sample_topp(float* probabilities, int n, float topp, ProbIndex* probindex, float coin)

**S1：**只保留概率大于等于 (1 - topp) / (n - 1) 的词汇，并将其对应的索引和概率存入 probindex 结构体数组。并按降序排序

const float cutoff = (1.0f - topp) / (n - 1);
for (int i = 0; i < n; i++) {if (probabilities[i] >= cutoff) {probindex[n0].index = i;probindex[n0].prob = probabilities[i];n0++;}
}
qsort(probindex, n0, sizeof(ProbIndex), compare);

S2：和上面sample_mult函数语言，这儿只是对筛选后的probindex的里面概率进行累加，如果大于了topp，返回idx

  // truncate the list where cumulative probability exceeds toppfloat cumulative_prob = 0.0f;int last_idx = n0 - 1; // in case of rounding errors consider all elementsfor (int i = 0; i < n0; i++) {cumulative_prob += probindex[i].prob;if (cumulative_prob > topp) {last_idx = i;break; // we've exceeded topp by including last_idx}}

S3：根据coin和筛选后的累计概率决定采样那个词汇， return probindex[i].index

  // sample from the truncated listfloat r = coin * cumulative_prob;float cdf = 0.0f;for (int i = 0; i <= last_idx; i++) {cdf += probindex[i].prob;if (r < cdf) {return probindex[i].index;}}return probindex[last_idx].index; // in case of rounding errors
}

3、decode

token=1，next=15043

调用
char* piece = decode(tokenizer, token, next);
定义
char* decode(Tokenizer* t, int prev_token, int token)
{char *piece = t->vocab[token];   //Hello// following BOS (1) token, sentencepiece decoder strips any leading whitespace (see PR #89)if (prev_token == 1 && piece[0] == ' ') { piece++; }// careful, some tokens designate raw bytes, and look like e.g. '<0x01>'// parse this and convert and return the actual byteunsigned char byte_val;if (sscanf(piece, "<0x%02hhX>", &byte_val) == 1) {piece = (char*)t->byte_pieces + byte_val * 2;}return piece;
}
(gdb) p piece
$17 = 0x55ae4f286661 "Hello"

llama2c（4）之forward、sample、decode

1、forward float* logits forward(transformer, token, pos); 输入transformer的参数，当前token，pos位置，预测出下一个token的预测值（用矩阵乘，加减乘除等运算构成Transformer） 其中，logits如…...

编程日记 2024/3/13 13:27:25

20240312-2-贪心算法

贪心算法是每次只考虑当前最优，目标证明每次是考虑当前最优能够达到局部最优，这就是贪心的思想，一般情况下贪心和排序一起出现，都是先根据条件进行排序，之后基于贪心策略得到最优结果。面试的时候面试官一般不会出贪…...

编程日记 2024/3/13 13:23:21

前端 --- HTML

1. HTML 结构 1.1 HTML 文件基本结构 <html><head><title>第一个html程序</title></head><body>hello world!</body> </html> html 标签是整个 html 文件的根标签(最顶层标签)head 标签中写页面的属性.body 标签中写的是页…...

编程日记 2024/3/13 13:22:20

curl c++ 实现HTTP GET和POST请求

环境配置 curl //DV2020T环境下此步骤可省略 https://curl.se/download/ 笔者安装为7.85.0版本 ./configure --without-ssl make sudo make install sudo rm /usr/local/lib/curl 系统也有curl库，为防止冲突，删去编译好的curl库。对以json数据的解析使…...

编程日记 2024/3/13 13:15:14

12、设计模式之代理模式（Proxy）

一、什么是代理模式代理模式属于结构型设计模式。为其他对象提供一种代理以控制对这个对象的访问。在某些情况下，一个对象不适合或者不能直接引用另一个对象，而代理对象可以在客户端和目标对象之间起到中介的作用。二、分类代理模式分为三类&#…...

编程日记 2024/3/13 13:13:12

springboot集成Quartz定时任务组件

文章目录前言一、Quartz 是什么？下面是对 Java 中 Quartz 的主要概念的简单描述： 二、使用步骤总结前言平时开发中相信大家都经常用到定时任务吧，最近简单的就是直接使用Scheduled注解标注到方法上用注解的方式在项目运行时无法去对任务进…...

编程日记 2024/3/13 13:10:07

代码随想录算法训练营第38天—动态规划06 | ● 完全背包 ● *518. 零钱兑换 II ● 377. 组合总和 Ⅳ

完全背包视频讲解：https://www.bilibili.com/video/BV1uK411o7c9 https://programmercarl.com/%E8%83%8C%E5%8C%85%E9%97%AE%E9%A2%98%E7%90%86%E8%AE%BA%E5%9F%BA%E7%A1%80%E5%AE%8C%E5%85%A8%E8%83%8C%E5%8C%85.html 题目描述：有n件物品和一个最多能…...

编程日记 2024/3/13 13:08:05

C语言每日一题（63）复写零

题目链接力扣网 1089 复写零题目描述给你一个长度固定的整数数组 arr ，请你将该数组中出现的每个零都复写一遍，并将其余的元素向右平移。注意：请不要在超过该数组长度的位置写入元素。请对输入的数组就地进行上述修改，不…...

编程日记 2024/3/13 13:04:01

ElasticSearch聚合查询

数据准备索引创建 PUT product {"mappings": {"properties": {"createtime": {"type": "date"},"desc": {"type": "text","fields": {"keyword": {"type": …...

编程日记 2024/3/13 13:02:00

【毕设级项目】基于AI技术的多功能消防机器人（完整工程资料源码）

基于AI技术的多功能消防机器人演示效果竞赛-基于AI技术的多功能消防机器人视频演示前言： 随着“自动化、智能化”成为数字时代发展的关键词，机器人逐步成为社会经济发展的重要主体之一，“机器换人”成为发展的全新趋势和时代潮流。在可预见…...

编程日记 2024/3/13 13:00:59

【一】【设计模式】类关系UML图

1. 继承（Generalization） 继承是对象间的一种层次关系，允许子类继承并扩展父类的功能。 UML线：带有空心箭头的直线，箭头指向基类（父类）。 class Parent {public void parentMethod() {System.…...

编程日记 2024/3/13 12:59:58

【DevOps基础篇】容器化架构基础设施监控方案

【DevOps基础篇】容器化架构基础设施监控方案目录【DevOps基础篇】容器化架构基础设施监控方案要监视什么不同监控系统方案比较1. Datadog2. Prometheus3. ELK（Elasticsearch、Logstash、Kibana）4. Sysdig5. 自行打造！如何选择总结推荐超级课程： Docker快速入门到精通当…...

编程日记 2024/3/13 12:56:55

【QT】文件流操作(QTextStream/QDataStream)

文本流/数据流（二级制格式） 文本流 （依赖平台，不同平台可能乱码）涉及文件编码 #include <QTextStream>操作的都是基础数据类型：int float string //Image Qpoint QRect就不可以操作需要下面的 …...

编程日记 2024/3/13 12:53:53

CentOS 7 devtoolset编译addressSanitizer版本失败的问题解决

在我的一个Cent OS7开发环境中，按https://yeyongjin.blog.csdn.net/article/details/134178420的方法升级GCC版本到8.3.1。这两天，要用Google的addressSanitizer检验内存问题，加上编译参数后，却发现编译不通过。configure时直接退…...

编程日记 2024/3/13 12:52:52

ubuntu2004桌面系统英伟达显卡驱动安装方法

#如何查看显卡型号 lspci | grep -i vga#----output------ 01:00.0 VGA compatible controller: NVIDIA Corporation Device 1f06 (rev a1)根据 Device 后的值进入网站查询 pci-ids.ucw.cz/mods/PC/10de?actionhelp?helppci #根据显卡型号，下载对应系统的驱动…...

编程日记 2024/3/13 12:51:49

Java通过Excel批量上传数据！！！

一、首先在前端写一个上传功能。 <template><el-upload class"upload-demo" drag action"" :on-change"onChange" :auto-upload"false"><el-icon class"el-icon--upload"><up…...

编程日记 2024/3/13 12:50:49

【PyQT/Pysider】控件背景渐变

默认渐变配色说明 background-color: qlineargradient(spread:pad, x1:0, y1:0, x2:1, y2:0, stop:0 rgba(255, 178, 102, 255), stop:0.55 rgba(235, 148, 61, 255), stop:0.98 rgba(0, 0, 0, 255), stop:1 rgba(0, 0, 0, 0));这段样式表使用了qlineargradient函数来创建…...

编程日记 2024/3/13 12:47:46

ChatGPT-4 VS 文心一言4.0

在线体验地址（含 gpt 3.5 / 4.0，文心 3.5 / 4.0）：https://chat.tool4j.com 点击访问文心一言和ChatGPT-4都是非常强大的自然语言处理模型，它们都能够在对话系统和其他NLP应用中发挥巨大的作用。然而，它们…...

编程日记 2024/3/13 12:46:45

MYSQL------从概述到DQL

数据库（数据管理，数据存储的仓库） 数据库管理系统（操纵和管理数据库的大型软件） SQL是操作关系型的编程语言，是一套标准 MySQL下载安装完成以后，可以进行启动和停止操作，对于启动和停…...

编程日记 2024/3/13 12:44:43

MATLAB算法实战应用案例精讲-【图像处理】图像识别（基础篇）（二）

目录数字图像处理基本知识传统图像处理方法进行瑕疵检测传统算法方向的选择...

编程日记 2024/3/13 12:43:42

江苏艾立泰跨国资源接力：废料变黄金的绿色供应链革命

在华东塑料包装行业面临限塑令深度调整的背景下，江苏艾立泰以一场跨国资源接力的创新实践，重新定义了绿色供应链的边界。跨国回收网络：废料变黄金的全球棋局艾立泰在欧洲、东南亚建立再生塑料回收点，将海外废弃包装箱通过标准…...

编程新知 2026/1/31 13:42:15

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

1. BluetoothProperties介绍 libsysprop/srcs/android/sysprop/BluetoothProperties.sysprop BluetoothProperties.sysprop 是 Android AOSP 中的一种系统属性定义文件（System Property Definition File），用于声明和管理 Bluetooth 模块相…...

编程新知 2025/11/22 12:02:51

《基于Apache Flink的流处理》笔记

思维导图 1-3 章 4-7章 8-11 章参考资料源码： https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...

编程新知 2026/1/31 14:55:53

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。您还将了解如何分析列，以便知晓哪些列包含有价值的数据，…...

编程新知 2026/1/30 9:51:12

水泥厂自动化升级利器：Devicenet转Modbus rtu协议转换网关

在水泥厂的生产流程中，工业自动化网关起着至关重要的作用，尤其是JH-DVN-RTU疆鸿智能Devicenet转Modbus rtu协议转换网关，为水泥厂实现高效生产与精准控制提供了有力支持。水泥厂设备众多，其中不少设备采用Devicenet协议。Devicen…...

编程新知 2026/2/7 14:33:24

数据分析六部曲？

引言上一章我们说到了数据分析六部曲，何谓六部曲呢？ 其实啊，数据分析没那么难，只要掌握了下面这六个步骤，也就是数据分析六部曲，就算你是个啥都不懂的小白，也能慢慢上手做数据分析啦。第一…...

编程新知 2026/2/4 19:52:58

TMC2226超静音步进电机驱动控制模块

目前已经使用TMC2226量产超过20K，发现在静音方面做的还是很不错。一、TMC2226管脚定义说明二、原理图及下载地址一、TMC2226管脚定义说明引脚编号类型功能OB11电机线圈 B 输出 1BRB2线圈 B 的检测电阻连接端。将检测电阻靠近该引脚连接到地。使用内部检测电阻时，将此引…...

编程新知 2025/7/6 6:43:40

scan_mode设计原则

scan_mode设计原则在进行mtp controller设计时，基本功能设计完成后，需要设计scan_mode设计。 1、在进行scan_mode设计时，需要保证mtp处于standby模式，不会有擦写、编程动作。 2、只需要固定mtp datasheet说明的接口即可&#xf…...

编程新知 2026/1/1 11:50:56

Go 语言中switch case条件分支语句

1. 基本语法 package main import "fmt" func main() {var extname ".css"switch extname {case ".html":fmt.Println("text/html")case ".css":fmt.Println("text/css") // text/csscase ".js":fmt.…...

编程新知 2025/12/5 21:57:09

Android Camera Hal中通过Neon指令优化数据拷贝

背景描述： Camera apk普通相机模式录像操作时，一般是同时请求两个流，即预览流和录像流。对于两个流输出图像格式和分辨率相同的情况下，是不是可以通过一个流拷贝得到另一个流的数据，进而节省掉一个Sensor输出处理两次…...

编程新知 2026/2/10 19:01:57

1、forward

2、sample

2.1 未进入

2.2 进入

3、decode

相关文章：