当前位置：首页 > news >正文

动手学深度学习（Pytorch版）代码实践 -循环神经网络-53语言模型和数据集

news 2026/6/2 16:37:20

53语言模型和数据集

1.自然语言统计

引入库和读取数据：

import random
import torch
from d2l import torch as d2l
import liliPytorch as lp
import numpy as np
import matplotlib.pyplot as plttokens = lp.tokenize(lp.read_time_machine())

一元语法：

# 一元语法
# 因为每个文本行不一定是一个句子或一个段落，因此我们把所有文本行拼接到一起
corpus = [token for line in tokens for token in line]
vocab = lp.Vocab(corpus)
# print(vocab.token_freqs[:5])
# [('the', 2261), ('i', 1267), ('and', 1245), ('of', 1155), ('a', 816)]
freqs = [freq for token, freq in vocab.token_freqs]
d2l.plot(freqs, xlabel='token: x', ylabel='frequency: n(x)',xscale='log', yscale='log')
plt.show()

在这里插入图片描述

二元语法：

# 二元语法
bigram_tokens = [pair for pair in zip(corpus[:-1], corpus[1:])]
bigram_vocab = lp.Vocab(bigram_tokens)
# print(bigram_vocab.token_freqs[:5])
# [(('of', 'the'), 309), (('in', 'the'), 169), (('i', 'had'), 130),
# (('i', 'was'), 112), (('and', 'the'), 109)]
freqs = [freq for token, freq in bigram_vocab.token_freqs]
d2l.plot(freqs, xlabel='token: x', ylabel='frequency: n(x)',xscale='log', yscale='log')
plt.show()

在这里插入图片描述

三元语法：

# 三元语法
trigram_tokens = [triple for triple in zip(corpus[:-2], corpus[1:-1], corpus[2:])]
trigram_vocab = lp.Vocab(trigram_tokens)
# print(trigram_vocab.token_freqs[:5])
# [(('the', 'time', 'traveller'), 59), (('the', 'time', 'machine'), 30), (('the', 'medical', 'man'), 24),
#  (('it', 'seemed', 'to'), 16), (('it', 'was', 'a'), 15)]
freqs = [freq for token, freq in trigram_vocab.token_freqs]
d2l.plot(freqs, xlabel='token: x', ylabel='frequency: n(x)',xscale='log', yscale='log')
plt.show()

在这里插入图片描述
对比：

# 一元语法、二元语法和三元语法对比
freqs = [freq for token, freq in vocab.token_freqs]
bigram_freqs = [freq for token, freq in bigram_vocab.token_freqs]
trigram_freqs = [freq for token, freq in trigram_vocab.token_freqs]
d2l.plot([freqs, bigram_freqs, trigram_freqs], xlabel='token: x',ylabel='frequency: n(x)', xscale='log', yscale='log',legend=['unigram', 'bigram', 'trigram'])
plt.show()

在这里插入图片描述

2.读取长序列数据

# n元语法，n 等于 num_steps
# 读取长序列数据
# 随机采样
def seq_data_iter_random(corpus, batch_size, num_steps):  #@save"""使用随机抽样生成一个小批量子序列"""# 从随机偏移量开始对序列进行分区，随机范围包括num_steps-1# 从一个随机位置开始截取corpus，以生成一个新的子列表# random.randint(a, b) 会生成一个范围在 a 到 b 之间的整数，并且包括 a 和 bcorpus = corpus[random.randint(0, num_steps - 1) : ]# 减去1，是因为我们需要考虑标签num_subseqs = (len(corpus) - 1) // num_steps# 长度为num_steps的子序列的起始索引initial_indices = list(range(0, num_subseqs * num_steps, num_steps))# 在随机抽样的迭代过程中，# 来自两个相邻的、随机的、小批量中的子序列不一定在原始序列上相邻random.shuffle(initial_indices)def data(pos):# 返回从pos位置开始的长度为num_steps的序列return corpus[pos: pos + num_steps]num_batches = num_subseqs // batch_sizefor i in range(0, batch_size * num_batches, batch_size):# 在这里，initial_indices包含子序列的随机起始索引initial_indices_per_batch = initial_indices[i: i + batch_size]X = [data(j) for j in initial_indices_per_batch]Y = [data(j + 1) for j in initial_indices_per_batch]yield np.array(X), np.array(Y)my_seq = list(range(35))
# for X, Y in seq_data_iter_random(my_seq, batch_size=3, num_steps=5):
#     print('X: ', X, '\nY:', Y)
"""
X:  [[14 15 16 17 18][19 20 21 22 23][ 9 10 11 12 13]]
Y: [[15 16 17 18 19][20 21 22 23 24][10 11 12 13 14]]
X:  [[24 25 26 27 28][29 30 31 32 33][ 4  5  6  7  8]]
Y: [[25 26 27 28 29][30 31 32 33 34][ 5  6  7  8  9]]
"""# 顺序分区
def seq_data_iter_sequential(corpus, batch_size, num_steps):  #@save"""使用顺序分区生成一个小批量子序列"""# 从随机偏移量开始划分序列# random.randint(a, b) 会生成一个范围在 a 到 b 之间的整数，并且包括 a 和 boffset = random.randint(0, num_steps-1)# 根据偏移量和批量大小计算出可以使用的令牌数量，确保所有批次中的样本数量一致num_tokens = ((len(corpus) - offset - 1) // batch_size) * batch_sizeXs = np.array(corpus[offset: offset + num_tokens]) # 数组Ys = np.array(corpus[offset + 1: offset + 1 + num_tokens])Xs, Ys = Xs.reshape(batch_size, -1), Ys.reshape(batch_size, -1)# print(Xs)#  [[ 4  5  6  7  8  9 10 11 12 13 14 15 16 17 18]#   [19 20 21 22 23 24 25 26 27 28 29 30 31 32 33]]num_batches = Xs.shape[1] // num_stepsfor i in range(0, num_steps * num_batches, num_steps):X = Xs[:, i: i + num_steps]Y = Ys[:, i: i + num_steps]yield X, Y# for X, Y in seq_data_iter_sequential(my_seq, batch_size=2, num_steps=5):
#     print('X: ', X, '\nY:', Y)
"""
X:  [[ 4  5  6  7  8][19 20 21 22 23]]
Y: [[ 5  6  7  8  9][20 21 22 23 24]]
X:  [[ 9 10 11 12 13][24 25 26 27 28]]
Y: [[10 11 12 13 14][25 26 27 28 29]]
X:  [[14 15 16 17 18][29 30 31 32 33]]
Y: [[15 16 17 18 19][30 31 32 33 34]]
"""# 将上面的两个采样函数包装到一个类中， 以便稍后可以将其用作数据迭代器。
class SeqDataLoader:  #@save"""加载序列数据的迭代器"""def __init__(self, batch_size, num_steps, use_random_iter, max_tokens):if use_random_iter:self.data_iter_fn = seq_data_iter_randomelse:self.data_iter_fn = seq_data_iter_sequentialself.corpus, self.vocab = lp.load_corpus_time_machine(max_tokens)self.batch_size, self.num_steps = batch_size, num_stepsdef __iter__(self):return self.data_iter_fn(self.corpus, self.batch_size, self.num_steps)def load_data_time_machine(batch_size, num_steps,  #@saveuse_random_iter=False, max_tokens=10000):"""返回时光机器数据集的迭代器和词表"""data_iter = SeqDataLoader(batch_size, num_steps, use_random_iter, max_tokens)return data_iter, data_iter.vocab

动手学深度学习（Pytorch版）代码实践 -循环神经网络-53语言模型和数据集

53语言模型和数据集 1.自然语言统计引入库和读取数据： import random import torch from d2l import torch as d2l import liliPytorch as lp import numpy as np import matplotlib.pyplot as plttokens lp.tokenize(lp.read_time_machine())一元语法&#xf…...

编程日记 2024/7/6 12:03:42

Python 学习之自动化运维技术（八）

Python 的自动化运维技术 Python的自动化运维技术是指利用Python编程语言和相关工具实现运维工作的自动化，以提高效率、减轻工作负担。以下是对Python自动化运维技术的清晰归纳和详细介绍： 一、自动化运维的核心优势 ● 提高效率：通过自动化脚…...

编程日记 2024/7/6 12:01:40

【python】PyQt5可视化开发，如何设计鼠标显示的形状？

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯，先赞后看哦~🎈🎈 🏆 作者简介：景天科技苑 🏆《头衔》：大厂架构师，华为云开发者社区专家博主，…...

编程日记 2024/7/6 12:00:39

利用大模型知识库，优化智能客服问答效果 | 创新场景

ITValue 痛点 SSC（ Share Service Center ，共享服务中心）是企业日常接触最多的场景之一，更多是对内服务，包括 HR 、财务、IT 等。该场景对专业度要求非常高，知识点非常多，对于知识的使用者或者查…...

编程日记 2024/7/6 11:58:37

物联网协议都包含哪些协议？

物联网协议是物联网生态系统中不可或缺的组成部分，它们负责处理和协调物联网设备之间的通信。具体介绍如下： Ethernet：以太网是一种有线网络协议，广泛应用于局域网络(LAN)中，提供稳定的高速数据传输。Wi-Fi&#xff1…...

编程日记 2024/7/6 11:55:33

面试专区|【52道微服务架构高频题整理(附答案背诵版)】

简述什么是微服务？ 微服务是一种软件架构风格，它将应用程序拆分成一系列小型、独立的服务，每个服务都运行在其自己的进程中，通过轻量级通信机制进行通信。每个服务都具有明确的业务能力，并且可以独立开发、测试、部署…...

编程日记 2024/7/6 11:53:31

数据结构之算法的时间复杂度

1.时间复杂度的定义在计算机科学中，算法的时间复杂度是一个函数，它定量描述了算法的运行时间。一个算法所花费的时间与其中语句的执行次数成正比列，算法中的基本操作的执行次数，为算法的时间复杂度例1： 计算Func1…...

编程日记 2024/7/6 11:51:29

unity中物体被激活自动执行挂载代码

在Unity中，如果希望当物体被激活时自动执行特定的函数，可以利用 MonoBehaviour 的生命周期函数 OnEnable()。这个方法会在对象被激活时调用，可以用来执行初始化或者处理其他逻辑。以下是如何在脚本中使用 OnEnable() 方法： using UnityEngine;public class ActivateFuncti…...

编程日记 2024/7/6 11:50:28

Pandas数据可视化详解:大案例解析（第27天）

系列文章目录 Pandas数据可视化解决不显示中文和负号问题matplotlib数据可视化seaborn数据可视化pyecharts数据可视化优衣库数据分析案例文章目录系列文章目录前言1. Pandas数据可视化1.1 案例解析：代码实现 2. 解决不显示中文和负号问题3. matplotlib数据可视化…...

编程日记 2024/7/6 11:49:27

Redis基础教程（七）：redis列表(List)

💝💝💝首先，欢迎各位来到我的博客，很高兴能够在这里和您见面！希望您在这里不仅可以有所收获，同时也能感受到一份轻松欢乐的氛围，祝你生活愉快！ 💝&#x1f49…...

编程日记 2024/7/6 11:47:25

鸿蒙开发：Universal Keystore Kit（密钥管理服务）【生成密钥(C/C++)】

生成密钥(C/C) 以生成ECC密钥为例，生成随机密钥。具体的场景介绍及支持的算法规格。注意： 密钥别名中禁止包含个人数据等敏感信息。开发前请熟悉鸿蒙开发指导文档：gitee.com/li-shizhen-skin/harmony-os/blob/master/README.md点击或者复…...

编程日记 2024/7/6 11:46:25

ssm“落雪”动漫网站-计算机毕业设计源码81664

目录摘要 1 绪论 1.1 研究背景 1.2 研究意义 1.3论文结构与章节安排 2系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据新增流程 3.2.2 数据删除流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析 2.5本章小结 3 系统总体设…...

编程日记 2024/7/6 11:42:16

【面试题】Reactor模型

Reactor模型定义 Reactor模型是一种事件驱动的设计模式，用于处理服务请求。它通过将事件处理逻辑与事件分发机制解耦，实现高性能、可扩展的并发处理。Reactor模型适用于高并发、事件驱动的程序设计，如网络服务器等。特点事件驱动&#…...

编程日记 2024/7/6 11:39:13

RedHat9 | kickstart无人值守批量安装

一、知识补充 kickstart Kickstart是一种用于Linux系统安装的自动化工具，它通过一个名为ks.cfg的配置文件来定义Linux安装过程中的各种参数和设置。 kickstart的工作原理 Kickstart的工作原理是通过记录典型的安装过程中所需人工干预填写的各种参数，…...

编程日记 2024/7/6 11:38:12

k8s-第五节-StatefulSet

StatefulSet StatefulSet 是用来管理有状态的应用，例如数据库。前面我们部署的应用，都是不需要存储数据，不需要记住状态的，可以随意扩充副本，每个副本都是一样的，可替代的。而像**数据库、Redis **这类…...

编程日记 2024/7/6 11:37:11

ai机器狗

ai机器狗的代码很早就开源了，相当于核心，最难东西美国人公开了，开源了，如果有钱，有足够资源的，造出东西有可能比公开这些核心代码的公司或者组织还好。没有技术含量，技术含量别人都解决了&#…...

编程日记 2024/7/6 11:36:09

数据库关键字执行顺序

在 SQL 中，关键字的执行顺序通常如下： FROM：确定要查询的表或数据源，并执行表之间的连接操作（如 INNER JOIN、LEFT JOIN 等）。FROM 子句执行顺序为从后往前、从右到左。ON：应用连接条件&#xf…...

编程日记 2024/7/6 11:34:07

Linux 永久挂载磁盘

文章目录前言一、使用步骤1.命令总结前言一、使用步骤 1.命令第一步：创建挂载点 sudo mkdir /hhkj 第二步：磁盘挂载到挂载点（lsblk、lvdisplay） sudo mount /dev/sdb2 /hhkj 或者 sudo mount /dev/centos/home /hhkj 第三…...

编程日记 2024/7/6 11:32:05

windows启动Docker闪退Docker desktop stopped

Windows启动Docker闪退-Docker desktop stopped 电脑上很早就安装有Docker了，但是有一段时间都没有启动了，今天想启动启动不起来了，打开没几秒就闪退，记录一下解决方案。仅供参考首先，参照其他解决方案，本…...

编程日记 2024/7/6 11:28:01

探索Redis GEOMETRY数据结构：地理空间索引与查询（基于Redis GEO和Java实现附近商户查找功能）

摘要 Redis是一个高性能的键值存储系统，广泛应用于缓存、消息队列、排行榜等场景。本文将介绍Redis中一个假设的GEOMETRY数据结构，用于高效地存储和查询地理空间数据。 1. Redis地理空间数据结构概述地理空间数据结构允许用户存储地理位置信息&#…...

编程日记 2024/7/6 11:27:00

Allegro等长设置翻车实录：拓扑模板法的3个坑与手工PinPair的救赎

Allegro等长设计避坑指南：从拓扑模板到精准PinPair的实战演进在高速PCB设计中，等长匹配如同精密钟表里的齿轮啮合，差之毫厘便可能导致整个系统时序崩塌。当设计从简单的点对点结构升级到多负载复杂拓扑时，Allegro用户常陷入两种典…...

编程新知 2026/5/26 3:32:09

串口通信粘包问题：成因深度解析与项目实战解决方案

在嵌入式开发、工业工控、上位机下位机交互项目中，串口（RS232/RS485）是最基础、最常用的通信方式。绝大多数开发者都遇到过这样的问题：串口接收的数据偶尔错乱、解析报错、数据拼接异常，单次接收的数据时而半包、时而多…...

编程新知 2026/5/26 1:37:09

航空航天为什么离不开高强镁合金？国产替代到哪一步了

飞机每减重一千克，全年大约节省四千两百美元的燃油费用——这是航空工程师熟悉的经验值。在商业航空领域，这个数字还只是财务账；在战斗机、导弹和卫星的世界里，减重的收益被换算成更远的航程、更大的载荷、更高的机动性&#xff0…...

编程新知 2026/5/26 0:32:21

2026论文降AI怎么挑？亲测好用工具附免费降AI指南

“您的论文AIGC率为42%，超出学校30%的合格线，请修改后重新提交。”赶毕业论文的同学这段时间估计没少收到这样的提醒。2026年知网、万方、维普等主流平台的AI检测算法持续迭代，把AI生成内容改到符合学校要求，已经成了毕业生的刚需…...

编程新知 2026/5/26 0:10:05

巧用对称性与平均值原理：低成本实现高精度电阻分压器校准

1. 项目概述：用数学思维突破测量设备的精度极限在电子实验室里捣鼓精密电路，尤其是涉及到电压基准、信号调理或者高精度ADC前端时，一个绕不开的坎就是精密分压器。你可能在设计一个需要0.1%甚至更高精度的分压网络，但手头的万用表…...

编程新知 2026/5/25 23:27:14

Unity UI交互进阶：手把手教你打造一个支持单击、双击、长按的万能按钮组件

Unity UI交互进阶：手把手教你打造一个支持单击、双击、长按的万能按钮组件在游戏开发中，UI交互的流畅性和多样性直接影响玩家的游戏体验。想象一下，当你在开发一个RPG游戏的背包系统时，需要实现道具的单击查看详情、双击快速使用、…...

编程新知 2026/5/25 23:18:55

交流电机驱动器的三种控制模式：前沿切相、后沿切相与同步模式详解

1. 项目概述：一个能玩出花的交流电机驱动器在汽车改装、工业控制或者一些创客项目里，驱动一个交流电机听起来简单，但想让它听话地变速、正反转，甚至实现软启动和精确同步，往往就得搬出笨重又昂贵的工业变频器。今天分享…...

编程新知 2026/5/25 22:10:18

1688运营培训/询盘成本从500元降到63.9！1688运营培训还原1688真实玩法

1688运营培训/询盘成本从500元降到63.9！1688运营培训还原1688真实玩法500块钱一个询盘，你敢信？做1688运营培训这么多年，这个数字我都觉得离谱。前阵子遇到一个老板，一上来就开始吐槽1688，说1688就是个垃圾平…...

编程新知 2026/5/25 21:15:34

Claude端到端测试设计终极清单：覆盖17类非功能需求（含延迟敏感度分级、幻觉熔断阈值、多轮对话状态持久化验证）

更多请点击： https://kaifayun.com 第一章：Claude端到端测试设计的演进逻辑与核心范式 Claude端到端测试并非静态产物，而是随模型能力边界拓展、交互场景复杂化及可靠性要求升级而持续演化的工程实践。其演进逻辑根植于三个关键张力&#xf…...

编程新知 2026/5/25 20:30:09

BetterJoy终极指南：3分钟让你的Switch手柄变身PC游戏神器

BetterJoy终极指南：3分钟让你的Switch手柄变身PC游戏神器【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gitcode.c…...

编程新知 2026/5/25 19:36:54

53语言模型和数据集

1.自然语言统计

2.读取长序列数据

相关文章：