当前位置：首页 > article >正文

DataWhale组队学习 fun-transformer task5

article 2026/5/12 19:52:24

1. 词向量：单词的“身份证”

首先，我们定义了四个单词的词向量，每个向量维度为3。你可以把这些词向量想象成每个单词的“身份证”。每个身份证上有3个特征，用来描述这个单词的“性格”或“特点”。

word_1 = np.array([1, 0, 0])
word_2 = np.array([0, 1, 0])
word_3 = np.array([1, 1, 0])
word_4 = np.array([0, 0, 1])

这些词向量可以堆叠成一个矩阵 words，就像把一堆身份证放在一个文件夹里，方便我们一次性处理。

words = np.array([word_1, word_2, word_3, word_4])

2. 权重矩阵：单词的“变身器”

接下来，我们生成了三个权重矩阵 W_Q, W_K, W_V。你可以把这些权重矩阵想象成“变身器”。每个单词通过这个“变身器”后，会变成不同的形态：查询（Query）、键（Key）和值（Value）。

W_Q = np.random.randint(3, size=(3, 3))
W_K = np.random.randint(3, size=(3, 3))
W_V = np.random.randint(3, size=(3, 3))

3. 计算查询、键和值：单词的“变身”

通过矩阵乘法，我们把每个单词的“身份证”通过“变身器”变成了查询、键和值。这就像把每个单词的身份证放进变身器，然后得到了三个不同的“变身形态”。

Q = words @ W_Q
K = words @ W_K
V = words @ W_V

4. 计算得分：单词之间的“相亲”

接下来，我们计算得分矩阵 scores，这个矩阵表示每个查询向量（Query）和键向量（Key）之间的“相亲”得分。得分越高，表示这两个单词越“般配”。

scores = Q @ K.T

5. 计算权重：用Softmax“打分”

为了让这些得分更加合理，我们使用Softmax函数将得分转换为概率分布。这就像给每个“相亲”打分，得分高的“相亲”会得到更多的关注。

weights = softmax(scores / np.sqrt(K.shape[1]), axis=1)

6. 计算注意力输出：加权求和

最后，我们通过加权和的方式计算注意力输出。这就像把所有“相亲”的结果综合起来，得到一个最终的“相亲报告”。

attention = weights @ V

7. 自注意力机制：单词的“自我对话”

在自注意力机制中，每个单词会和其他所有单词进行“对话”，看看谁更重要。这就像在一个会议上，每个人都会和其他人交流，最终决定谁的意见最重要。

attention_scores = torch.matmul(query, key.T) / torch.sqrt(torch.tensor(query.size(-1), dtype=torch.float32))
attention_weights = F.softmax(attention_scores, dim=-1)
output = torch.matmul(attention_weights, value)

8. 多头注意力机制：多角度“相亲”

多头注意力机制就像有多个人同时进行“相亲”，每个人从不同的角度去看待这些单词，最后把所有人的意见综合起来。

class MultiHeadAttention(nn.Module):def __init__(self, heads, d_model, dropout=0.1):super().__init__()self.d_model = d_modelself.d_k = d_model // headsself.h = headsself.q_linear = nn.Linear(d_model, d_model)self.k_linear = nn.Linear(d_model, d_model)self.v_linear = nn.Linear(d_model, d_model)self.dropout = nn.Dropout(dropout)self.out = nn.Linear(d_model, d_model)

9. 位置编码：给单词加上“时间戳”

为了让模型知道单词的顺序，我们给每个单词加上一个“时间戳”，这就是位置编码。这就像给每个单词加上一个“出生时间”，让模型知道谁先谁后。

class PositionalEncoding(nn.Module):def __init__(self, d_model, max_len=5000):super(PositionalEncoding, self).__init__()pe = torch.zeros(max_len, d_model)position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))pe[:, 0::2] = torch.sin(position * div_term)pe[:, 1::2] = torch.cos(position * div_term)pe = pe.unsqueeze(0)self.register_buffer('pe', pe)

10. Transformer模型：一个完整的“翻译官”

最后，我们把所有这些组件组合在一起，形成了一个完整的Transformer模型。这个模型就像一个“翻译官”，能够把一种语言翻译成另一种语言。

class Transformer(nn.Module):def __init__(self, src_vocab_size, tgt_vocab_size, d_model, num_heads, num_layers, d_ff, max_len, dropout):super(Transformer, self).__init__()self.encoder_embedding = nn.Embedding(src_vocab_size, d_model)self.decoder_embedding = nn.Embedding(tgt_vocab_size, d_model)self.positional_encoding = PositionalEncoding(d_model, max_len)self.encoder_layers = nn.ModuleList([EncoderLayer(d_model, num_heads, d_ff, dropout) for _ in range(num_layers)])self.decoder_layers = nn.ModuleList([DecoderLayer(d_model, num_heads, d_ff, dropout) for _ in range(num_layers)])self.linear = nn.Linear(d_model, tgt_vocab_size)self.dropout = nn.Dropout(dropout)

总结

通过这些步骤，我们实现了一个完整的注意力机制和Transformer模型。整个过程就像是一个复杂的“相亲”过程，每个单词通过“变身器”变成不同的形态，然后通过“相亲”来决定谁更重要，最后综合所有人的意见，得到一个最终的“翻译结果”。

DataWhale组队学习 fun-transformer task5

1. 词向量：单词的“身份证” 首先，我们定义了四个单词的词向量，每个向量维度为3。你可以把这些词向量想象成每个单词的“身份证”。每个身份证上有3个特征，用来描述这个单词的“性格”或“特点”。 word_1 np.array([1, 0, 0])…...

编程日记 2025/11/28 13:45:56

【huawei】云计算的备份和容灾

目录 1 备份和容灾 2 灾备的作用？ ① 备份的作用 ② 容灾的作用 3 灾备的衡量指标 ① 数据恢复时间点（RPO，Recoyery Point Objective） ② 应用恢复时间（RTO，Recoyery Time Objective） 4…...

编程日记 2025/11/27 4:51:13

电力晶体管（GTR）全控性器件

电力晶体管（Giant Transistor，GTR）是一种全控性器件，以下是关于它的详细介绍：（模电普通晶体管三极管进行对比学习） 基本概念 GTR是一种耐高电压、大电流的双极结型晶体管（BJT&am…...

编程日记 2026/5/9 3:20:06

LQ1052 Fibonacci斐波那契数列

题目描述 Fibonacci斐波那契数列也称为兔子数列，它的递推公式为：FnFn-1Fn-2，其中F1F21。当n比较大时，Fn也非常大，现在小蓝想知道，Fn除以10007的余数是多少，请你编程告诉她。输入输入包含一…...

编程日记 2026/2/26 18:18:28

Cursor 帮你写一个小程序

Cursor注册地址首先下载客户端点击链接下载 1 打开微信开发者工具创建一个小程序项目选择TS-基础模版官方 2 然后使用Cursor打开小程序创建的项目 3 在CHAT聊天框输入自己的需求比如小程序功能描述：吃什么助手项目名称： 吃什么小程序功能目标…...

编程日记 2026/5/11 13:46:50

【机器学习】嘿马机器学习（算法篇）第13篇：决策树算法,学习目标【附代码文档】

本教程的知识点为：机器学习算法定位、 K-近邻算法 1.4 k值的选择 1 K值选择说明 1.6 案例：鸢尾花种类预测--数据集介绍 1 案例：鸢尾花种类预测 1.8 案例：鸢尾花种类预测—流程实现 1 再识K-近邻算法API 1.11 案例2：预测…...

编程日记 2026/5/10 6:42:02

echo ‘export PATH=/usr/local/bin:$PATH‘ ＞＞ ~/.bashrc这个和直接添加到/etc/profile有什么区别

echo export PATH/usr/local/bin:$PATH >> ~/.bashrc 和直接添加到 /etc/profile 都是用于修改 PATH 环境变量，但它们适用的范围和效果有所不同： 1. 修改 ~/.bashrc 文件作用范围：~/.bashrc 是针对当前用户的配置文件，它…...

编程日记 2026/5/9 1:24:05

菜鸟之路Day09一一集合进阶(二)

菜鸟之路Day09一一集合进阶(二) 作者：blue 时间：2025.1.27 文章目录菜鸟之路Day09一一集合进阶(二)0.概述1.泛型1.1泛型概述1.2泛型类1.3泛型方法1.4泛型接口1.5泛型通配符 2.Set系列集合2.1遍历方式2.2HashSet2.3LinkedHashSet2.4TreeSet 0.概述内…...

编程日记 2026/3/25 3:27:10

写在新年之际

各位关注我的小伙伴们，大家好！ 在这新年来临之际，首先祝大家新年快乐！愿新的一年充满机遇与收获，愿我们在各自的领域中继续突破和成长！ 回顾2024年，这是充满变革的一年，不仅世界局…...

编程日记 2026/3/25 6:06:31

【shell工具】编写一个批量扫描IP地址的shell脚本

批量扫描某个网段中的主机（并发） 创建目录编写脚本文件 mkdir /root/ip_scan_shell/ touch /root/ip_scan_shell/online_server.txt touch /root/ip_scan_shell/offline_server.txt touch /root/ip_scan_shell/ip_scan.sh写入下面shell到脚本文件中…...

编程日记 2026/5/11 9:11:06

分库分表后如何进行join操作

在分库分表后的系统中，进行表之间的 JOIN 操作比在单一数据库表中复杂得多，因为涉及的数据可能位于不同的物理节点或分片中。此时，传统的 SQL JOIN 语句不能直接用于不同分片的数据，以下是几种处理这样的跨分片 JOIN 操作的方法&a…...

编程日记 2025/5/20 3:05:46

004 mybatis基础应用之全局配置文件

文章目录配置内容properties标签typeAlias标签mappers标签配置内容 SqlMapConfig.xml中配置的内容和顺序如下： properties（属性） settings（全局配置参数） typeAliases（类型别名） typeHandler…...

编程日记 2026/4/27 10:08:43

vim如何设置制表符表示的空格数量

:set tabstop4 设置制表符表示的空格数量制表符就是tab键，一般默认是四个空格的数量示例： （vim如何使设置制表符表示的空格数量永久生效：vim如何使相关设置永久生效-CSDN博客）...

编程日记 2026/5/12 6:57:17

基于dlib/face recognition人脸识别推拉流实现

目录一.环境搭建二.推拉流代码三.人脸检测推拉流一.环境搭建 1.下载RTSP服务器MediaMTX与FFmpeg FFmpeg是一款功能强大的开源多媒体处理工具，而MediaMTX则是一个轻量级的流媒体服务器。两者结合，可以实现将本地视频或者实时摄像头画面推送到RTSP流，从而实现视频…...

编程日记 2026/5/2 6:12:41

LangChain：使用表达式语言优化提示词链

在 LangChain 里，LCEL 即 LangChain Expression Language（LangChain 表达式语言），本文为你详细介绍它的定义、作用、优势并举例说明，从简单示例到复杂组合示例，让你快速掌握LCEL表达式语言使用技巧。定义 …...

编程日记 2026/5/7 7:22:39

多线程编程杂谈( 下)

问题是否存在其它中途线程退出的方法？ 通过调用Linux系统函数 pthread_cancel(...) 可中途退出线程 Linux 提供了线程取消函数取消状态接受取消状态: PTHREAD_CANCEL_ENABLE拒绝取消状态: PTHREAD_CANCEL_DISABLE 取消请求延迟取消: PTHREAD_CANCEL_DEFERR…...

编程日记 2026/5/11 8:00:50

export MLX5_DEBUG_MASK0xff export MLX5_DEBUG_FILE/tmp/mlx5.txt git clone https://github.com/linux-rdma/rdma-core.git cd rdma-core ./build.sh 修改build/CMakeCache.txt MLX5_DEBUG:BOOLTRUE function install_rdma_core {local dir/swgwork/cmi/rdma-core/buil…...

编程日记 2025/9/28 14:36:15