当前位置: 首页 > article >正文

Tokenizer与Embedding

Transformers 系列文章目录第一章 Transformers 简介第二章 Transformers 模型推理第三章 Tokenizer 与 Embedding文章目录Transformers 系列文章目录前言Tokenizer与Embedding一、Tokenizer分词器和Embedding词嵌入1.Tokenizer分词器和Embedding词嵌入是在自然语言处理中常用的两种技术用于将文本转换为计算机可以处理的数字表示。2.Tokenizer分词器3.Embedding词嵌入4.高维度稀疏向量与低维度稠密向量5.分词器和词嵌入技术联合使用6.Tokenizer/Embedding数据处理流程二、Tensorflow使用Tokenizer和Padding1.使用tensorflow.keras.preprocessing.text里的Tokenizer()方法将句子分词并以数值代替词。2.使用tensorflow.keras.preprocessing.sequence里的pad_sequences()方法将token补全。3.实例三、Hugging Face的Tokenizer1.Tokenizer定义2.Tokenizer的主要功能3.Tokenizer其中的词汇化功能4.Hugging Face模型内置Embedding层5.Tokenizer与Model的数据流向四、transformers报错1.模型损坏报错总结前言本文主要整理 Transformers 中 Tokenizer 与 Embedding 的基础概念、两者的数据处理流程、TensorFlow 中 Tokenizer/Padding 的使用方式、Hugging Face Tokenizer 的功能、Tokenizer 与模型的数据流向以及常见 transformers 模型损坏报错的原因。Tokenizer与Embedding一、Tokenizer分词器和Embedding词嵌入1.Tokenizer分词器和Embedding词嵌入是在自然语言处理中常用的两种技术用于将文本转换为计算机可以处理的数字表示。2.Tokenizer分词器Tokenizer是将文本转换为一个个单词的过程。在自然语言处理中文本通常是由一系列单词组成的而分词器的任务就是将这些单词从文本中分离出来。例如在英文中可以使用空格或标点符号将单词分开在中文中需要使用中文分词技术将连续的汉字分成词语。分词器可以使用基于规则、基于统计或基于神经网络的方法来实现。Tokenizer将文本转换为多个单词后还有一步骤可能不属于Tokenizer将每个单词根据Embedding提供的词汇表转换为数字便于电脑理解。词汇表一般是tokenizer.json文件定义单词到token_id的映射规则。如果没有词汇表比如直接使用keras提供tokenizer方法会按顺序定义token_id。3.Embedding词嵌入Embedding是将单词转换为向量表示的过程。其实不是单词而是tokenizer输出的token_id数字索引Embedding训练时也是通过索引来训练的而非文字。所以Embedding能够理解tokenizer输出的token_id数字Embedding模型和词汇表是对应的。如果没有词汇表Embedding模型是不能使用的。在自然语言处理中单词通常被表示为一个高维度的稀疏向量其中每个维度对应一个单词的特征。例如在一个包含10000个单词的词表中每个单词可以表示为一个大小为10000的稀疏向量其中只有一个维度为1其余维度都为0。这种高维度的稀疏表示不仅浪费存储空间而且难以计算单词之间的相似度。因此词嵌入技术被用来将单词或子词映射到一个低维度的稠密向量空间中从而可以更有效地表示和计算单词之间的相似度。词嵌入模型通常使用神经网络例如Word2Vec、GloVe和FastText等。高维度的稀疏向量与低维度的稠密向量所说的维度就是向量数据库里的维度数4.高维度稀疏向量与低维度稠密向量高维度稀疏向量High-Dimensional Sparse Vectors如[0,0,0,0,...,1,0,0,0]维度为1000有1000个数据低维度稠密向量Low-Dimensional Dense Vectors如[0.2548,-0.2215,0.8522,...,0.7458]维度为128有128个数据5.分词器和词嵌入技术联合使用在自然语言处理任务中分词器和词嵌入技术通常是联合使用的目的是将文本转换为计算机可以处理的向量数字。例如在文本分类任务中可使用分词器将文本分成单词序列然后使用词嵌入技术将每个单词表示为一个向量最后将这些向量输入到神经网络中进行分类。这种联合使用的技术被广泛应用于文本分类、文本生成、机器翻译、问答系统等自然语言处理任务中。6.Tokenizer/Embedding数据处理流程二、Tensorflow使用Tokenizer和Padding1.使用tensorflow.keras.preprocessing.text里的Tokenizer()方法将句子分词并以数值代替词。使用tensorflow.keras.preprocessing.text里的Tokenizer()方法将句子分词并以数值代替词。返回分词器对象。公式tokenizer Tokenizer(num_wordsNone, oov_tokenNone)参数num_words设置最频繁使用的数值数量比如一共有100个数值但是num_words值为5那么只有最频繁的5个会被使用。oov_token当对没有设数值的词时使用的代替符号默认为None为空。返回分词器对象后使用tokenizer.fit_on_texts(texts)根据texts句子内容建立对应的分词列表索引。返回分词器对象后使用tokenizer.word_index返回分词列表索引返回分词器对象后使用tokenizer.texts_to_sequences(texts)对texts句子做分词并以数值代替。2.使用tensorflow.keras.preprocessing.sequence里的pad_sequences()方法将token补全。公式padded pad_sequences(sequences, maxlenNone, paddingpre, value0.)参数sequences句子内容字符串maxlen句子最长的长度数值过长会被截断。默认None不限制长度。padding补充方式默认’pre’为前补全。post’为后补全value补全的内容默认为数值03.实例代码fromtensorflow.keras.preprocessing.textimportTokenizerfromtensorflow.keras.preprocessing.sequenceimportpad_sequences sentences[I love my dog,I love my cat,You love my dog!,Do you think my dog is amazing?]tokenizerTokenizer(num_words100,oov_tokenOOV)tokenizer.fit_on_texts(sentences)word_indextokenizer.word_index sequencestokenizer.texts_to_sequences(sentences)print(word_index)print(sequences)test_data[I really love my dog,My dog loves my manatee]test_seqtokenizer.texts_to_sequences(test_data)print(test_seq)paddedpad_sequences(sequences,paddingpost,maxlen6)print(padded)结果{OOV: 1, my: 2, love: 3, dog: 4, i: 5, you: 6, cat: 7, do: 8, think: 9, is: 10, amazing: 11} [[5, 3, 2, 4], [5, 3, 2, 7], [6, 3, 2, 4], [8, 6, 9, 2, 4, 10, 11]] [[5, 1, 3, 2, 4], [2, 4, 1, 2, 1]] [[ 5 3 2 4 0 0] [ 5 3 2 7 0 0] [ 6 3 2 4 0 0] [ 6 9 2 4 10 11]]三、Hugging Face的Tokenizer1.Tokenizer定义在Hugging Face的Transformers框架中Tokenizer是一个用于将文本转换为输入模型所需的tokens子词序列的工具。Tokenizer的主要作用是将文本分解为模型能够处理的基本单元。2.Tokenizer的主要功能分词将输入文本拆分为单个的词或子词。这可能包括去除标点符号、数字和其他非字母字符将剩余的字母字符拆分为单词。词汇化根据Embedding提供的词汇表将单词转换为模型已知的索引。这意味着每个单词都会映射到一个唯一的整数该整数表示在词汇表中的位置。添加特殊标记将文本中的特殊标记如开头标记、结尾标记和分隔符添加到输入序列中以便模型能够识别文本结构。添加Padding和Masking将输入序列padding填充到最长序列的长度以便所有输入样本都有相同的形状。此外它会将输入序列中的填充位置标记为0以便模型能够区分实际的单词和填充位置。Masking掩码侧将过长的序列忽略掉多余的单词。3.Tokenizer其中的词汇化功能当有输入到模型时Tokenizer会将文本转换为输入序列tokens再将这些tokens转换为词汇表中的索引。词汇表索引是生成预训练模型时同时生成的就是说生成预训练模拟的同时使用Embedding层生成这个索引表。然后Embedding层就是将这些索引转换为一个具有固定大小的向量表示。Embedding层的作用是将离散的词汇表索引映射到连续的向量空间中。这有助于解决词汇表中的词汇之间在语义和语法上的关系使模型能够捕捉到这些关系。Embedding向量通常具有较低的维度例如128或256这使得模型能够在训练过程中学习这些向量之间的相互作用。在传递给Transformer模型的输入序列中Embedding层为每个token生成一个固定大小的向量表示。这些向量表示将被模型的各个层处理以生成最终的预测。因此Tokenizer和Embedding层在将文本转换为模型能够处理的形式方面起到关键作用。4.Hugging Face模型内置Embedding层在Hugging Face的Transformers框架中大多数预训练模型包括语言模型和视觉模型都包含内置的Embedding层。这意味着在使用模型时Embedding层已经设置好了无需自行添加Embedding层。当使用AutoModel、AutoTokenizer和AutoModelForSequenceClassification等自动化构建模型时Embedding层已经在模型的底层构建好无需添加Embedding层。使得使用Hugging Face的Transformers框架更加简单和直观查看输入文本对应的词汇索引实例代码fromtransformersimportAutoTokenizer,AutoModel# 加载预训练模型和对应的Tokenizermodel_namebert-base-uncasedtokenizerAutoTokenizer.from_pretrained(model_name)modelAutoModel.from_pretrained(model_name)# 输入文本input_textHello, how are you?# 使用 Tokenizer 将文本转换为模型输入input_idstokenizer.encode(input_text,add_special_tokensTrue)# 将输入传递给模型outputsmodel(torch.tensor([input_ids]))5.Tokenizer与Model的数据流向四、transformers报错1.模型损坏报错报错内容safetensors_rust.SafetensorError: Error while deserializing header: MetadataIncompleteBuffer原因错误是指在解析预训练模型文件的头部信息时出现了问题。这通常由模型文件损坏引起预训练模型的文件可能在下载或保存时损坏了。总结提示这里对文章进行总结本文整理了 Tokenizer 与 Embedding 的核心关系Tokenizer 负责把文本切分并转换为 token/token_idEmbedding 负责把 token_id 映射为向量表示。对于 Transformers 模型来说Tokenizer、词汇表、Embedding 层和模型结构通常是配套使用的因此在实际推理或训练时需要保持模型文件、Tokenizer 文件和词汇表文件的一致性。

相关文章:

Tokenizer与Embedding

Transformers 系列文章目录 第一章 Transformers 简介 第二章 Transformers 模型推理; 第三章 Tokenizer 与 Embedding 文章目录Transformers 系列文章目录前言Tokenizer与Embedding一、Tokenizer(分词器)和Embedding(词嵌入&a…...

书匠策AI:那个让你论文查重从“红色地狱“直接变“绿色天堂“的神器

各位正在跟论文死磕的同学们,先别划走。 今天咱们不聊怎么写开题报告,不聊怎么搭框架,咱们聊一个所有人写完初稿后都会遭遇的终极BOSS——查重。 你有没有经历过这种崩溃:熬夜写了一万字,信心满满提交查重&#xff0…...

微服务架构下的旺店通与畅捷通T+系统集成

旺店通与畅捷通T系统集成方案轻易云数据集成平台为企业提供高效、稳定的系统对接解决方案,实现旺店通企业奇门与畅捷通T系统的无缝数据流转。该方案充分发挥轻易云平台的智能化数据处理能力,确保业务数据在跨系统传输过程中的准确性和时效性。系统简介旺…...

SR全光谱反射式膜厚仪

作者:李志松Pioneer 翟天保Steven 田雨阳 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处注:本文所讲设备由李志松教授团队研发,属于商业产品矩阵内容,商业技术合…...

Unity+C#开发万人MMO服务器的实战架构与同步优化

1. 这不是“写个服务器”那么简单:先撕开“万人在线”的真实含义很多人看到“UnityC#开发万人MMO服务器”这个标题,第一反应是:“哦,用Unity做客户端,C#写个后端,Socket连一连,再加个数据库&…...

Unity+C#开发MMO服务端的务实架构与万人连接实战

1. 先泼一盆冷水:所谓“万人同时在线”的真实含义与常见误解 很多人看到“UnityC#开发万人MMO服务器”这个标题,第一反应是:哇,这得用多牛的分布式架构?是不是要上Kubernetes集群、分库分表、消息中间件全配齐&#xf…...

【Elasticsearch从入门到精通】第10篇:Elasticsearch REST API最佳实践——Content-Type、模糊性与访问控制

上一篇【第09篇】Elasticsearch API规范详解——多索引、日期数学与通用选项 下一篇【第11篇】Elasticsearch索引API详解——索引创建、删除与别名管理(明日更新,敬请期待) 摘要 掌握Elasticsearch REST API的使用规范不仅能避免常见错误&am…...

【Elasticsearch从入门到精通】第08篇:Elasticsearch集群扩展与运维——水平扩展与节点管理

上一篇【第07篇】Elasticsearch集群安全配置——TLS/SSL与密钥库管理 下一篇【第09篇】Elasticsearch API规范详解——多索引、日期数学与通用选项 摘要 Elasticsearch天生为分布式设计,其高扩展性和高可用性是核心优势。但在实际生产中,如何合理规划节…...

Unity游戏运行时自动翻译引擎原理与实战配置

1. 为什么Unity游戏翻译不能只靠“改文本”——XUnity.AutoTranslator不是插件,而是运行时翻译引擎 你有没有试过打开一个Unity游戏的Assets文件夹,用文本编辑器搜索中文字符串,然后手动替换成英文?我试过三次,每次都在…...

Unity本地化工作流:基于ULP的可维护多语言工程实践

1. 这不是“加个插件就完事”的翻译方案,而是Unity项目里真正能落地的本地化工作流 “Unity游戏自动翻译插件”——光看标题,很多人第一反应是:拖进Project窗口、点几下按钮、导出Excel、等AI吐出译文、再一键回填……然后就上线多语言了&…...

终极Windows激活解决方案:5步实现永久免费激活的完整指南

终极Windows激活解决方案:5步实现永久免费激活的完整指南 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统激活弹窗烦恼吗?是否经历过Office突然变成只读…...

为什么92%的团队误用Gemini做Java审查?资深架构师拆解3个致命配置陷阱及修复命令集

更多请点击: https://codechina.net 第一章:Gemini Java代码审查的真相与误区 Gemini 并非专为 Java 代码审查设计的工具,其底层模型(如 Gemini 1.5 Pro)虽具备强大的自然语言理解与代码生成能力,但缺乏静…...

为什么92%的团队仍在手写API文档?ChatGPT驱动的智能生成方案已上线,你还在等什么?

更多请点击: https://kaifayun.com 第一章:API文档手写困局的根源与行业现状 在现代微服务与云原生架构普及的背景下,API已成为系统间协作的核心契约。然而,大量团队仍依赖人工编写和维护 OpenAPI(Swagger&#xff0…...

ZStack控制台报错Failed to connect to console排查指南

1. 问题现场还原:不是连接失败,而是控制台页面直接报错弹窗Zstack 打开控制台报错——这六个字背后藏着一个在私有云运维一线高频出现、却常被误判为“网络不通”或“浏览器问题”的典型故障。我第一次遇到它是在给某制造企业做ZStack 4.5.2升级后的验收…...

ElevenLabs安徽话输出失真?3类高频崩溃场景+5行Python代码实时修复音频相位偏移

更多请点击: https://codechina.net 第一章:ElevenLabs安徽话语音输出失真现象全景扫描 ElevenLabs 作为当前主流的高质量文本转语音(TTS)服务提供商,其多语言支持能力广受开发者青睐。然而,在面向中文方言…...

车站安全管控升级:黎阳之光人员无感定位,让隐患早察觉、事件可追溯

车站作为人员密集流动的公共空间,安全管理始终是运营的核心重点。传统管理多依赖人工巡查与固定监控,覆盖有限、响应偏慢,对人员越界、违规停留、异常聚集等情况难以做到及时预警与全程追溯。黎阳之光依托自研人员无感定位技术,为…...

Burp Suite安装失败原因与Java环境精准配置指南

1. 为什么Burp Suite的安装总让人卡在第一步?——从“打不开”到“能用”的真实断点 你是不是也经历过:下载完Burp Suite官方压缩包,双击 burpsuite_pro.jar 没反应?或者弹出一句“找不到Java环境”就戛然而止?又或…...

AI——LangChain 三大核心概念

LangChain 三大核心概念一、LangChain 三大核心概念1. 提示词模板 PromptTemplate2. 模型调用 ChatOpenAI / ChatZhipuAI3. 链 Chain二、完整可运行代码(带角色设定)功能三、如果你想用 **智谱 GLM**四、总结一、LangChain 三大核心概念 1. 提示词模板 …...

UE5 GAS中安全修改Attribute值的四种正确方式

1. 这不是简单的“赋值操作”,而是GAS系统中一次精准的属性干预在UE5的Gameplay Ability System(GAS)架构下,修改一个Attribute的值——比如让角色的生命值从100变成120,或者让法力值在施法后扣减30点——表面看只是调…...

全开源进销存源码ERP系统深度测评:部署实测+完整教程+二开

在中小企业数字化转型的浪潮中,ERP(企业资源计划)和进销存系统可以说是绝对的刚需。在开源世界里,隐藏着许多宝藏级的开源进销存ERP系统。今天,我们将选取一款基于 Laravel 10 MySQL构建的高颜值、高实用性开源进销存…...

什么是电子铅封管理系统APP 有那些功能

电子铅封管理系统APP,简单来说,就是用手机App来管理和操作电子铅封的移动端软件。一、传统铅封 vs 电子铅封对比项传统铅封(塑料封/钢丝封)电子铅封防伪性易仿制,肉眼难辨真假全球唯一芯片ID,无法复制追溯能…...

UE5 GAS修改Attribute的四种正确方式与原理

1. 为什么改Attribute不是简单赋值,而是要走GAS的整套流程 在UE5中用Gameplay Ability System(GAS)做RPG,很多人刚上手时都会卡在一个看似最基础的问题上: “我想让角色血量100,直接写 Attributes.Health…...

Blender模型导入Unity材质丢失的根因与自动化修复方案

1. 这不是“导出再导入”那么简单:为什么Blender模型进Unity后总变灰、贴图全丢、材质不认 你刚在Blender里花三小时调好一个带PBR材质、多层UV、自发光贴图和顶点色的机械臂模型,导出FBX,拖进Unity——结果:模型是黑的&#xff0…...

PddConsumptionModel.java

package pdd;import java.util.ArrayList; import java.util.List; import java.util.Random;/*** 某多多的商业模式,砍价格算法模拟下哈* * * author ZengWenFeng* email 117791303QQ.com* mobile 13805029595* date 2023.11.17*/ public class PddConsumptionMode…...

uTinyRipper零基础实战:Unity游戏资产提取与反序列化指南

1. 这不是“破解工具”,而是一把Unity游戏资产的“数字考古铲” 你刚下载完一款国产独立游戏,想看看它的UI贴图是怎么做的;或者在学习Unity Shader时,想拆解某款商业Demo里那个流光溢散的粒子特效;又或者,你…...

Unity资源提取原理与uTinyRipper实战指南

1. 为什么你第一次打开uTinyRipper时会“卡在加载界面”——这不是软件坏了,是Unity资源结构在对你说话 “零基础入门:uTinyRipper Unity资产提取完全指南”这个标题里藏着一个被绝大多数新手忽略的关键前提: uTinyRipper不是万能解包器&…...

Burp Suite客户端证书不生效的三大底层原因与排错指南

1. 这不是证书问题,是信任链断裂的错觉 你刚在Burp Suite里导入了Client SSL Certificate,勾选了“Use client certificate for all requests”,点下Send,结果服务器返回400 Bad Request或直接断连;换一台机器重装Burp…...

Burp Suite客户端证书失效的三大TLS握手决策点解析

1. 这不是证书问题,是Burp对TLS握手阶段的“信任错位”你有没有遇到过这样的场景:在Burp Suite里配置好了Client SSL Certificate,也勾选了“Use client certificate for all requests”,可一发请求,目标服务器就直接返…...

Windows curl证书错误SEC_E_UNTRUSTED_ROOT解决方案

1. 这个错误不是curl的问题,而是Windows在替你“把关” 你在Windows命令行里敲下 curl https://api.example.com ,结果弹出一串红色报错: curl: (35) schannel: next InitializeSecurityContext failed: Unknown error (0x80092012) - T…...

FastAdmin任意文件读取漏洞CVE-2024-7928深度解析与三阶段修复

1. 这个漏洞不是“能读任意文件”那么简单,而是整个FastAdmin旧版本的信任基石崩塌了你可能在安全通报里看到过CVE-2024-7928的简短描述:“FastAdmin框架存在任意文件读取漏洞”,甚至有些文章直接写成“可读取服务器任意配置文件”。但我在给…...