当前位置：首页 > news >正文

Transformer中的数据输入构造

news 2026/5/13 8:34:25

文章目录

- 1. 文本内容
- 2. 字典构造
- - 2.1 定义一个类用于字典构造
  - 2.2 拆分文本
  - 2.3 构造结果
- 3. 完整代码

1. 文本内容

假如我们有如下一段文本内容：

Optics

It is the branch of physics that studies the behaviour and properties of light .

Optical Science

这段文本有5行，第一行内容为 ’Optics‘，第二行为空行，第三行内容为 ’It is the branch of physics that studies the behaviour and properties of light .‘，第四行内容为空行，第五行内容为’Optical Science‘
根据这段文本，可以构造一个字典。在这个字典中，每一个单词有一个编号（ $\mathrm{index}$ ），根据这个编号，我们就能知道这个编号对应哪个单词。
将这段文本以 $\mathrm{.txt}$ 文件的形式放在 $\mathrm{data}$ 文件夹下。这里， $\mathrm{.txt}$ 文件和 $\mathrm{data}$ 文件夹都可以自己创建，如下图所示

2. 字典构造

2.1 定义一个类用于字典构造

import os
from io import open
import torchclass Dictionary(object):def __init__(self):self.word2idx = {}self.idx2word = []def add_word(self, word):if word not in self.word2idx:self.idx2word.append(word)self.word2idx[word] = len(self.idx2word) - 1return self.word2idx[word]def __len__(self):return len(self.idx2word)

self.word2idx = {} 是建立一个空字典来存放每一个单词对应的 $\mathrm{index}$ 。self.idx2word = [] 是建立一个空列表来存放 $\mathrm{index}$ 对应的单词；
第二个函数 add_word 用来接收输入的文本数据，然后用 self.idx2word.append(word) 一个一个的放进 self.idx2word = [] 这个空列表里。self.word2idx[word] = len(self.idx2word) - 1 是为每一个加进来的单词分配一个 $\mathrm{index}$ ，然后 $\mathrm{word:index}$ 作为键值对放进self.word2idx = {} 建立的空字典里。
第三个函数返回的是在这个字典中总共有多少个单词（包括标点符号，例如上面文本中的句号 $\cdot$ ）。

2.2 拆分文本

$\mathrm{Dictionary}$ 这个类需要输入数据来产生词典，所以接下来要制作数据，这个数据来源就是 $1$ 中的文本内容。这里，可以定义如下的一个 $\mathrm{Data}$ 类：

import os
from io import open
import torchclass Data(object):def __init__(self, path):self.dictionary = Dictionary()self.demo = self.tokenize(os.path.join(path, 'demo_text.txt'))def tokenize(self, path):"""Tokenizes a text file."""assert os.path.exists(path)# Add words to the dictionarywith open(path, 'r', encoding="utf8") as f:for line in f:words = line.split() + ['<eos>']for word in words:self.dictionary.add_word(word)# Tokenize file contentwith open(path, 'r', encoding="utf8") as f:idss = []for line in f:words = line.split() + ['<eos>']ids = []for word in words:ids.append(self.dictionary.word2idx[word])idss.append(torch.tensor(ids).type(torch.int64))ids = torch.cat(idss)return ids

self.dictionary = Dictionary() 就是将 $2.1$ 中构造的字典类实例化，以方便调用。self.demo = self.tokenize(os.path.join(path, 'demo_text.txt')) 是将 $\mathrm{demo\_text.txt}$ 中的内容转化为一个个的 $\mathrm{index}$ 。
tokenize(self, path) 这个函数就是用来实现将 $\mathrm{demo\_text.txt}$ 中的内容转化为一个个的 $\mathrm{index}$ 。
在tokenize(self, path) 这个函数中，第一个 with open(path, 'r', encoding="utf8") as f: ： $\mathrm{open}$ 函数打开文本内容后，用 $\mathrm{for}$ 循环，逐行拆分文本为一个个单词（包括标点符号），然后用 self.dictionary.add_word(word) 这个函数将每一个单词放进字典里。注意 words = line.split() + ['<eos>'] ,这里给每一行的末尾加了一个字符 $\mathrm{'<eos>'}$ 用于提示一行结束。
在tokenize(self, path) 这个函数中，第二个 with open(path, 'r', encoding="utf8") as f: ： $\mathrm{open}$ 函数打开文本内容后，用 $\mathrm{for}$ 循环，逐行拆分文本为一个个单词（包括标点符号），然后用 ids.append(self.dictionary.word2idx[word]) 这个函数将每一个单词对应的 $\mathrm{index}$ 放进列表里。
idss.append(torch.tensor(ids).type(torch.int64)) 是将每一循环得到的 $\mathrm{ids}$ 存起来。
因为每一循环得到 $\mathrm{ids}$ 是一个 $\mathrm{tensor}$ ，所以 $\mathrm{idss}$ 里有很多个 $\mathrm{tensor}$ ，最后用 ids = torch.cat(idss) 把所有数据整合成一个 $\mathrm{tensor}$ 。

2.3 构造结果

输出字典代码如下：

data = Data('./data') # 给定数据文件夹
data_dict = data.dictionary.word2idx
print(f'由给定文本构造的词典为：\n{data_dict}')

输出结果如下：

由给定文本构造的词典为：
{'Optics': 0, '<eos>': 1, 'It': 2, 'is': 3, 'the': 4, 'branch': 5, 'of': 6, 'physics': 7, 'that': 8, 'studies': 9,
'behaviour': 10, 'and': 11, 'properties': 12, 'light': 13, '.': 14, 'Optical': 15, 'Science': 16}

对比原文本，可以发现，每一个单词有一个对应的编号，其中 '<eos>' 是我们主动添加的代表一行结束的字符。

由给定的文本产生的 $\mathrm{index}$ 编码输出为：

data_demo = data.demo
print(f"给定文本所产生的index编码输出为：\n{data_demo}")
# 给定文本所产生的index编码输出为：
# tensor([ 0,  1,  1,  2,  3,  4,  5,  6,  7,  8,  9,  4, 10, 11, 12,  6, 13, 14,
#          1,  1, 15, 16,  1])

第一个数字0代表 $\mathrm{Optics}$ , 第二个数字1代表 $\mathrm{Optics}$ 后的行结束符 '<eos>' 。
第三个数字1代表空行里的结束符 '<eos>'。
第四个数字2代表第三行的第一个单词 $\mathrm{It}$ 。可以类比文本和 $\mathrm{index}$ 的编码输出，都可以通过字典一一对应。
这里的 $\mathrm{index}$ 的编码输出就是用于 $\mathrm{transformer}$ 的训练数据。

3. 完整代码

# %%
import os
from io import open
import torch# %% Dictionary
class Dictionary(object):def __init__(self):self.word2idx = {}self.idx2word = []def add_word(self, word):if word not in self.word2idx:self.idx2word.append(word)self.word2idx[word] = len(self.idx2word) - 1return self.word2idx[word]def __len__(self):return len(self.idx2word)# %% Data
class Data(object):def __init__(self, path):self.dictionary = Dictionary()self.demo = self.tokenize(os.path.join(path, 'demo_text.txt'))def tokenize(self, path):"""Tokenizes a text file."""assert os.path.exists(path)# Add words to the dictionarywith open(path, 'r', encoding="utf8") as f:for line in f:words = line.split() + ['<eos>']for word in words:self.dictionary.add_word(word)# Tokenize file contentwith open(path, 'r', encoding="utf8") as f:idss = []for line in f:words = line.split() + ['<eos>']ids = []for word in words:ids.append(self.dictionary.word2idx[word])idss.append(torch.tensor(ids).type(torch.int64))ids = torch.cat(idss)return ids# %%
data = Data('./data')  # 给定数据文件夹
data_dict = data.dictionary.word2idx
print(f'由给定文本构造的词典为：\n{data_dict}')
# 由给定文本构造的词典为：
# {'Optics': 0, '<eos>': 1, 'It': 2, 'is': 3, 'the': 4, 'branch': 5, 'of': 6, 'physics': 7, 'that': 8, 'studies': 9,
# 'behaviour': 10, 'and': 11, 'properties': 12, 'light': 13, '.': 14, 'Optical': 15, 'Science': 16}
data_demo = data.demo
print(f"给定文本所产生的index编码输出为：\n{data_demo}")
# 给定文本所产生的index编码输出为：
# tensor([ 0,  1,  1,  2,  3,  4,  5,  6,  7,  8,  9,  4, 10, 11, 12,  6, 13, 14,
#          1,  1, 15, 16,  1])

Transformer中的数据输入构造

文章目录 1. 文本内容2. 字典构造2.1 定义一个类用于字典构造2.2 拆分文本2.3 构造结果 3. 完整代码 1. 文本内容假如我们有如下一段文本内容： Optics It is the branch of physics that studies the behaviour and properties of light . Optical Science 这段…...

编程日记 2024/5/9 21:03:02

完美实现vue3异步加载组件

经过几个小时的努力，终于实现了，根据组件名异常加载组件，直接上代码，网上的很多代码方都有坑，先贴出比较坑的代码： <template><view class"main"> <view class"tops"…...

编程日记 2024/5/9 21:02:00

点云成图原理

点成图（Point Cloud）是指由一组离散的点构成的图形，它们在空间中没有任何连接关系。点成图通常是由激光雷达、相机或其他传感器获取的三维数据，用于表示现实世界中的物体或场景。三角成图（Triangulation）…...

编程日记 2024/5/9 20:59:58

如何将jsp项目转成springboot项目

昨天说过，springboot推荐使用Thymeleaf作为前后端渲染的模板引擎，为什么推荐用Thymeleaf呢，有以下几个原因： 动静结合：Thymeleaf支持HTML原型，允许在HTML标签中增加额外的属性来实现模板与数据的结合。这样…...

编程日记 2024/5/9 20:56:53

C语言：环形链表

1.例子1：环形链表 142. 环形链表 II - 力扣（LeetCode） 思路：我们先定义两个变量slow和fast，slow每次走一步，fast每次走两步，如果链表是环形链表，那么必定存在fast不会走到链表的最后…...

编程日记 2024/5/9 20:54:51

Playlist Soundness What’s up, friend?! I’m so pumped you’re joining us. We’ve got a sick project we could totally use your help on! See, someone’s giving us amazing recommendations for songs to play. But they’re not just coming in as songs. Someti…...

编程日记 2024/5/9 20:53:49

零基础入门学习Python第二阶02面向对象，迭代器生成器，并发编程

Python语言进阶面向对象相关知识三大支柱：封装、继承、多态例子：工资结算系统。 """月薪结算系统 - 部门经理每月15000 程序员每小时200 销售员1800底薪加销售额5%提成"""from abc import ABCMeta, abstractmethodcl…...

编程日记 2024/5/9 20:52:47

Unity | Shader基础知识(第十三集：编写内置着色器阶段总结和表面着色器的补充介绍)

目录前言一、表面着色器的补充介绍二、案例viewDir详解 1.viewDir是什么 2.viewDir的作用 3.使用viewDir写shader 前言注意观察的小伙伴会发现，这组教程前半部分我们在编写着色器的时候，用的是顶点着色器和片元着色器的组合。 SubShader{CGPRO…...

编程日记 2024/5/9 20:51:45

JavaScript map对象/set对象详解

文章目录一、map对象二、map对象应用场景1. 数组元素转换2. 对象数组的属性提取或转换3. 数组元素的复杂转换4. 与其他数组方法结合使用5. 与异步操作结合（使用 Promise）6. 生成新的数据结构7. 数学和统计计算三、set对象1. 基本使用2. 特性3. 注意事项…...

编程日记 2024/5/9 20:50:44

【kettle017】kettle访问DB2数据库并处理数据至execl文件（最近完善中）

1.一直以来想写下基于kettle的系列文章，作为较火的数据ETL工具，也是日常项目开发中常用的一款工具，最近刚好挤时间梳理、总结下这块儿的知识体系。 2.熟悉、梳理、总结下DB2数据库（IBM公司开发的一套关系型数据库管理系统&#xf…...

编程日记 2024/5/9 20:49:42

Spring Cloud原理详解和作用特点

当涉及到构建和管理分布式系统的微服务架构时，Spring Cloud 是一个备受欢迎的选择。它提供了一套强大的工具和组件，使开发者能够轻松地构建、部署和管理微服务应用程序。本文将深入探讨 Spring Cloud 的原理和作用特点。 1. Spring Cloud 的原理 Sprin…...

编程日记 2024/5/9 20:48:41

Linux —— 进程间通信

目录一、进程间通信的介绍二、管道三、匿名管道四、命名管道五、system V进程间通信一、进程间通信的介绍 1.进程间通信的概念进程通信（Interprocess communication），简称：IPC； 本来进程之间是相互独立的。但是…...

编程日记 2024/5/9 20:46:39

ASP.NET信息安全研究所设备管理系统的设计与实现

摘要以研究所的设备管理系统为背景，以研究所设备管理模式为研究对象，开发了设备管理系统。设备管理系统是设备管理与计算机技术相结合的产物，根据系统的功能需求分析与定义的数据模式，分析了应用程序的主要功能和系统实现的主…...

编程日记 2024/5/9 20:45:38

＜网络安全＞《81 微课堂＜安全产品微简介（1）＞》

1 简单的了解复杂的安全产品产品简要防火墙网络区域边界上部署，主要作用是隔离阻断。安全审计一般包括网络日志的分析、网络流量的监控和用户行为的跟踪等。发现网络中的潜在问题和漏洞。入侵检测IDS实时监控和检测网络中的异常活动和入侵行为。入侵防御IPS防病毒…...

编程日记 2024/5/9 20:44:36

【6D位姿估计】FoundationPose 跑通demo 训练记录

前言本文记录在FoundationPose中，跑通基于CAD模型为输入的demo，输出位姿信息，可视化结果。然后分享NeRF物体重建部分的训练，以及RGBD图为输入的demo。 1、搭建环境方案1：基于docker镜像（推荐&#xf…...

编程日记 2024/5/9 20:43:35

Python 中 “yield“ 的不同行为

在我们使用Python编译过程中，yield 关键字用于定义生成器函数，它的作用是将函数变成一个生成器，可以迭代产生值。yield 的行为在不同的情况下会有不同的效果和用途。 1、问题背景在 Python 中，“yield” 是一种生成器&#xff0…...

编程日记 2024/5/9 20:40:32

迅睿CMS中实现关键词搜索高亮

在迅睿CMS系统中实现关键词搜索高亮是提升用户体验和搜索效果的重要手段。当用户搜索某个关键词时，将搜索结果中的关键词高亮显示，可以帮助用户更快速地定位到所需信息。关键词高亮的实现在迅睿CMS中，你可以使用内置的dr_keyword_highlig…...

编程日记 2024/5/9 20:39:31

晶振的精度与稳定性有什么关系？

晶振的精度和稳定性是电子设备中非常重要的参数，它们受到多种因素的影响，主要包括： 精度的影响因素： 温度变化：晶体的温度系数会使得频率随温度变化而变化，通常在0C到55C的工业标准温度范围内，…...

编程日记 2024/5/9 20:38:29

【C】137 只出现一次的数字

给你一个整数数组 nums ，除某个元素仅出现一次外，其余每个元素都恰出现三次。请你找出并返回那个只出现了一次的元素。你必须设计并实现线性时间复杂度的算法且使用常数级空间来解决此问题。解法一 #include <stdio.h>int singleNumber(i…...

编程日记 2024/5/9 20:37:28

51单片机入门：DS1302时钟

51单片机内部含有晶振，可以实现定时/计数功能。但是其缺点有：精度往往不高、不能掉电使用等。我们可以通过DS1302时钟芯片来解决以上的缺点。 DS1302时钟芯片功能：DS1302是一种低功耗实时时钟芯片，内部有自动的计时功能&#x…...

编程日记 2024/5/9 20:36:26

基于硬件虚拟化的AI智能体安全隔离方案Clawcage设计与实现

1. 项目概述：为AI智能体打造一个坚不可摧的“笼子”如果你最近在尝试运行一些本地的AI智能体，比如Claude Desktop、Cursor的Agent模式，或者各种开源的AI助手工具，心里可能总会有点打鼓。这些工具功能强大，但它们背后运…...

编程新知 2026/5/13 8:23:40

阴阳师自动化脚本终极指南：解放双手，轻松刷百鬼夜行

阴阳师自动化脚本终极指南：解放双手，轻松刷百鬼夜行【免费下载链接】OnmyojiAutoScript Onmyoji Auto Script | 阴阳师脚本项目地址: https://gitcode.com/gh_mirrors/on/OnmyojiAutoScript 你是否厌倦了在阴阳师百鬼夜行中反复点击屏幕&#x…...

编程新知 2026/5/13 8:21:34

AI编程助手集成飞书MCP：零依赖单文件实现工作流自动化

1. 项目概述：连接AI编程助手与飞书工作流如果你和我一样，每天的工作流都离不开飞书（Lark）——写文档、拉群沟通、排会议日程、更新多维表格，然后在IDE和浏览器之间来回切换，那么你一定会对这个项目感兴趣…...

编程新知 2026/5/13 7:48:00

基于MCP协议与向量检索，为AI编程助手构建跨会话持久记忆

1. 项目概述：为AI编程助手构建持久记忆如果你和我一样，日常重度依赖Cursor、Claude Code、Windsurf这类AI编程助手，那你一定遇到过这个让人头疼的场景：昨天在Cursor里花了半小时跟AI解释清楚了一个复杂模块的业务逻辑和设计思路&a…...

编程新知 2026/5/13 6:27:37

ISSCC传感器设计启示：从高精度温度测量到低功耗系统优化

1. 从ISSCC看传感器设计的巅峰与启示每年二月的国际固态电路会议，对于像我这样泡在实验室和产线里的硬件工程师来说，就像一场技术界的“春晚”。它不发布概念，不空谈趋势，只展示过去一年里，全球顶尖研究团队在硅片上实…...

编程新知 2026/5/13 6:16:55

为什么我们的浏览器操作效率低下？如何用Shortkeys扩展实现3倍效率提升

为什么我们的浏览器操作效率低下？如何用Shortkeys扩展实现3倍效率提升【免费下载链接】shortkeys A browser extension for custom keyboard shortcuts 项目地址: https://gitcode.com/gh_mirrors/sh/shortkeys 每天在浏览器上，我们花费大量时间…...

编程新知 2026/5/13 4:57:39

Python自动化红头文件生成：ReportLab与Jinja2技术实践

1. 项目概述：一个自动化的红头文件生成工具最近在整理一些行政和项目文档时，经常需要处理格式要求极为严格的“红头文件”。这类文件通常用于正式通知、公告或批复，其版头、字体、字号、间距乃至印章位置都有近乎刻板的规定。手动在Word里调…...

编程新知 2026/5/13 4:47:06

模块二-数据选择与索引——08. 条件筛选

08. 条件筛选 1. 概述条件筛选是数据分析中最常用的操作之一。通过布尔表达式，可以快速筛选出满足特定条件的数据行，实现数据过滤、异常检测、子集提取等功能。 import pandas as pd import numpy as np# 创建示例数据 np.random.seed(42) df pd.DataF…...

编程新知 2026/5/13 1:45:45

抖音图片怎么去水印？2026实测免费去水印方法全盘点，这几款工具真好用

抖音图片怎么去水印？2026实测免费去水印方法全盘点，这几款工具真好用刷抖音的时候，你有没有遇到过这种情况：看到一张超好看的图片，点保存，结果发现角落里多了一行「用户名」或者一个抖音 Logo，…...

编程新知 2026/5/13 1:07:11

保边滤波深度学习红外可见光融合算法【附程序】

✨ 长期致力于红外与可见光图像融合、快速引导滤波器、交替引导滤波器、深度学习、卷积神经网络研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）双支流…...

编程新知 2026/5/13 0:51:00

Transformer中的数据输入构造

文章目录

1. 文本内容

2. 字典构造

2.1 定义一个类用于字典构造

2.2 拆分文本

2.3 构造结果

3. 完整代码

相关文章：

Transformer中的数据输入构造

完美实现vue3异步加载组件

点云成图原理

如何将jsp项目转成springboot项目

C语言：环形链表

typescript综合练习1（展开音乐播放列表）

零基础入门学习Python第二阶02面向对象，迭代器生成器，并发编程

Unity | Shader基础知识(第十三集：编写内置着色器阶段总结和表面着色器的补充介绍)

JavaScript map对象/set对象详解

【kettle017】kettle访问DB2数据库并处理数据至execl文件（最近完善中）

Spring Cloud原理详解和作用特点

Linux —— 进程间通信

ASP.NET信息安全研究所设备管理系统的设计与实现

＜网络安全＞《81 微课堂＜安全产品微简介（1）＞》

【6D位姿估计】FoundationPose 跑通demo 训练记录

Python 中 “yield“ 的不同行为

迅睿CMS中实现关键词搜索高亮

晶振的精度与稳定性有什么关系？

【C】137 只出现一次的数字

51单片机入门：DS1302时钟

基于硬件虚拟化的AI智能体安全隔离方案Clawcage设计与实现

阴阳师自动化脚本终极指南：解放双手，轻松刷百鬼夜行

AI编程助手集成飞书MCP：零依赖单文件实现工作流自动化

基于MCP协议与向量检索，为AI编程助手构建跨会话持久记忆

ISSCC传感器设计启示：从高精度温度测量到低功耗系统优化

为什么我们的浏览器操作效率低下？如何用Shortkeys扩展实现3倍效率提升

Python自动化红头文件生成：ReportLab与Jinja2技术实践

模块二-数据选择与索引——08. 条件筛选

抖音图片怎么去水印？2026实测免费去水印方法全盘点，这几款工具真好用

保边滤波深度学习红外可见光融合算法【附程序】