NLP masked_tokens[]、token_masks[]是什么?
1、masked_tokens[]、token_masks[]介绍
masked_tokens和token_masks两个列表用于存储mask处理后的token(分词)结果和对应的mask标志。
-
masked_tokens列表存储经过mask处理后的分词结果。 -
token_masks列表存储与每个分词结果对应的mask标志。
2、示例说明:
例如一个 masked_tokens[0]是:
['C', 'N', '[C@H]', '(', 'c', '1', 'c', 'c', '(', 'Br', ')', 'c', 'c', 'c', '1', 'F', ')', '<MASK>', '(', '<MASK>', '<MASK>', '<MASK>', 'C', '1']
token_masks[0]是:
[False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, True, False, True, True, True, False, False]
它们的长度都是28
3、代码示例:
下面代码就是先对句子进行了token处理,然后进行了mask处理:
# 通过正则匹配对第一个句子(sents1)进行分词,得到tokens。
tokens = self._regex_match(sents1)
# 对tokens进行mask处理
m_tokens, token_masks = self._mask_tokens(tokens, empty_mask=mask)
4、mask的类型
span mask
def _mask_span(self, ts):curr_token = 0masked = []token_mask = []mask_bools = [True, False]weights = [self.mask_prob, 1 - self.mask_prob]sampled_mask = random.choices(mask_bools, weights=weights, k=len(ts))while curr_token < len(ts):# If mask, sample from a poisson dist to get length of maskif sampled_mask[curr_token]:mask_len = torch.poisson(torch.tensor(self.span_lambda)).long().item()masked.append(self.mask_token)token_mask.append(True)curr_token += mask_len# Otherwise don't maskelse:masked.append(ts[curr_token])token_mask.append(False)curr_token += 1return masked, token_mask
随机对某些位置进行mask,从泊松区取样得到mask的长度,mask前后序列的长度可能会发生变化
replace mask
def _mask_replace(self, ts):mask_bools = [True, False]weights = [self.mask_prob, 1 - self.mask_prob]token_mask = random.choices(mask_bools, weights=weights, k=len(ts))masked = [self._mask_token(ts[i]) if m else ts[i] for i, m in enumerate(token_mask)]return masked, token_mask
根据权重Weight随机对某些位置进行mask,mask前后序列的长度不会发生变化
权重Weight:例如,如果设定 self.mask_prob = 0.7,则掩码标记 True 的权重为 0.7,掩码标记 False 的权重为 0.3
相关文章:
NLP masked_tokens[]、token_masks[]是什么?
1、masked_tokens[]、token_masks[]介绍 masked_tokens和token_masks两个列表用于存储mask处理后的token(分词)结果和对应的mask标志。 masked_tokens列表存储经过mask处理后的分词结果。 token_masks列表存储与每个分词结果对应的mask标志。 2、示例…...
aoa_android工程编译注意事项
1. android studio 版本 : 3.0.0 Android Studio 下载文件归档 | Android 开发者 | Android Developers (google.cn) 下载地址: https://redirector.gvt1.com/edgedl/android/studio/install/3.0.0.18/android-studio-ide-171.4408382-windows.ex…...
java篇 类的进阶0x06:可见性修饰符(访问修饰符)
文章目录 可见性修饰符(访问修饰符)成员变量都应该是 private构造方法可以是 private 的public 修饰的东西尽量不要改动非 public 的类,类名可以不和文件名相同protected 继承专属的访问控制 可见性修饰符(访问修饰符)…...
Java 贪心算法经典问题解决
文章目录 分金条题目思路代码实现测试用例以及结果输出 花费资金做项目最大收益题目思路代码实现测试用例以及结果输出 预定会议室题目思路代码实现测试用例以及结果输出 取中位数题目思路代码实现测试用例以及结果输出 最低字典序题目思路代码实现测试用例以及结果输出 结语 分…...
所有docker命令无效,解决办法
目录 ■前言 今天使用docker时,所有命令无效 ■解决办法如下 1.停止docker服务 2.查看状态 3.删除之前的docker相关的文件 4.再次查看状态 5.使用相关命令 (好用了) 6.重新下载镜像 ■前言 今天使用docker时,所有命令无…...
系列一、创建者模式
一、概述 创建者模式的主要关注点是"怎样创建对象?",它的主要特点是"将对象的创建与使用分离"。这样可以降低系统的耦合度,使用者不需要关注对象的创建细节。 二、分类 单例模式工厂方法模式抽象工厂模式原型模式建造者模式...
数据库系列:覆盖索引和规避回表
1 介绍 在MySQL数据库查询过程中,索引覆盖和避免不必要的回表,是减少检索步骤,提高执行效率的有效手段。下面从这两个角度分析如何进行MySQL检索提效。 2 数据准备 模拟一个500w数据容量的部门表 emp,表结构如下,并…...
java Spring Boot上线运维 启动jar时控制台调整零时变量
前面的文章 java 打包Spring Boot项目,并运行在windows系统中和将Spring Boot项目打包部署到阿里云linux服务器讲述了Spring Boot项目打包部署的过程 但是 这里 我们可能会遇到一种情况 此时 我们服务器 java项目占用了 80端口 但我们需要放上去一个更重要的东西&am…...
java后端校验
Java 后端数据校验 一、概述 当我们想提供可靠的 API 接口,对参数的校验,以保证最终数据入库的正确性,是 必不可少 的活。比如下图就是 我们一个项目里 新增一个菜单校验 参数的函数,写了一大堆的 if else 进行校验,…...
PowerPoint如何修改“默认保存路径”?
很多时候,我们做好PPT后都要保存,一般会保存在创建PPT的文件夹里,或者另外设置保存的路径。 如果经常需要制作PPT,又不想每次都要重新选择保存位置,我们可以创建或修改“默认保存路径”,这样每次关闭PPT后…...
【PMP】有没有项目经理能看得懂这九张图?求挑战
这九张图,全是圈圈我的肺腑之言啊!谁痛谁知道! 做技术时,就想着30岁就转管理,管理岗位赚得多,结果发现全是烟雾弹。 做技术和代码打交道,做管理跟人打交道。天天开不完的会、说不完的话…...
ES6学习记录—自己记录一直更新版
1. 什么是ECMA 全称:European computer manufacturers association欧洲计算机制造联合会; 2、它的标准名单中的:ECMA — 262脚本语言的规范:规范化脚本语言,叫ECMAScript ( 一定要记住);像ES5 ES6就是这样来的…...
linux操作gpio的一些记录
在linux里面使用GPIO的一些知识点记录如下: 一、驱动里面操作GPIO 在linux内核里面如果 pinctrl 子系统将一个 PIN 复用为 GPIO 的话,那么就可以用gpio 子系统提供的 API 函数操做gpio,比如设置 GPIO为输入输出,读取 GPIO 的值等…...
目前新能源汽车充电桩的发展受到哪些不利因素的影响?
目前新能源汽车充电桩的发展受到哪些不利因素的影响? 一是安装难,很多老旧小区没有充电桩配套施工规范,充电桩建设比较难,受到充电容量不足电表箱供电等局限性的制约,同时缺乏充电桩配套设施的统一规划,小区内只能安装…...
jenkins
Gitlab添加钩子 测试钩子 添加完成后,下面会出现钩子选择。点击test中的,push event。 出现successful,既添加成功。 如果添加失败,报错,更改Network...
基于深度学习的图像分割技术探究
导言: 图像分割是计算机视觉领域的重要任务,旨在将图像划分为不同的语义区域,实现对图像中感兴趣物体的定位和提取。深度学习作为图像分割的新兴技术,通过卷积神经网络(CNN)等模型,取得了显著的…...
【c++】vector的使用与模拟实现
🚀write in front🚀 📜所属专栏:初阶数据结构 🛰️博客主页:睿睿的博客主页 🛰️代码仓库:🎉VS2022_C语言仓库 🎡您的点赞、关注、收藏、评论,是对…...
记录安装stable diffusion webui时,出现的gfpgan安装卡住的问题
参考链接:(145条消息) 使用stable diffusion webui时,安装gfpgan失败的解决方案(windows下的操作)_新时代原始人的博客-CSDN博客...
【开发环境】Windows下搭建TVM编译器
关于搭建TVM编译器的官方文档:Install from Source — tvm 0.14.dev0 documentation (apache.org) 1. 安装Anaconda 首先我们需要安装Anaconda,因为其中包含着我们所需要的各类依赖: 进入Anaconda官网https://www.anaconda.com/products/d…...
了解Unity编辑器之组件篇Video(二)
Video Player组件:用于在游戏中播放视频的组件。它提供了一系列属性来控制视频的播放、显示和交互。 1.Source(视频源):用于指定视频的来源。可以选择两种不同的视频源类型: (1)Vieo Clip&#…...
Qwen3-ForcedAligner-0.6B模型量化实战:减小部署体积
Qwen3-ForcedAligner-0.6B模型量化实战:减小部署体积 语音处理中的强制对齐技术,能够精确匹配文本与语音的时间戳,是语音识别、字幕生成等应用的关键环节。Qwen3-ForcedAligner-0.6B作为一款基于大语言模型的强制对齐工具,支持11种…...
5个PathPicker高级技巧:掌握$F令牌与自定义命令的终极指南
5个PathPicker高级技巧:掌握$F令牌与自定义命令的终极指南 【免费下载链接】PathPicker PathPicker accepts a wide range of input -- output from git commands, grep results, searches -- pretty much anything. After parsing the input, PathPicker presents …...
Qwen3-VL-8B-Instruct-GGUF实战:上传图片秒懂内容,智能问答体验分享
Qwen3-VL-8B-Instruct-GGUF实战:上传图片秒懂内容,智能问答体验分享 1. 模型概述与核心优势 Qwen3-VL-8B-Instruct-GGUF是阿里通义最新推出的中量级多模态模型,它最大的特点可以用一句话概括:用8B参数实现72B级别的视觉语言理解…...
DeepSeek-R1-Distill-Llama-8B行业落地:金融研报初稿生成与合规性校验辅助应用实践
DeepSeek-R1-Distill-Llama-8B行业落地:金融研报初稿生成与合规性校验辅助应用实践 1. 引言:金融分析师的新助手 如果你在金融行业工作,每天都要写各种研究报告,那你一定知道这个过程有多耗时耗力。从收集数据、分析趋势&#x…...
别再只刷固件了!深入解读BLheli电调硬件:从XP-12A电路到全N管驱动设计
深入解析BLheli电调硬件架构:从XP-12A经典设计到全N管驱动方案 在无刷电机控制领域,BLheli电调固件因其出色的性能和开源特性广受开发者青睐。然而,许多用户仅停留在刷写固件的层面,对硬件设计原理知之甚少。本文将带您深入剖析基…...
告别官方版SSE2坑!用linsys_pjsip 2.11.8在ARM32平台快速集成SIP与WebRTC AEC3
ARM32平台高效集成SIP与WebRTC AEC3:linsys_pjsip 2.11.8实战指南 在嵌入式音视频通信领域,ARM32架构设备因其低功耗和成本优势被广泛应用。但当你尝试在这些设备上部署PJSIP时,官方版本的SSE2指令集依赖就像一堵高墙,让许多开发者…...
OpenClaw模型微调:Kimi-VL-A3B-Thinking领域适配数据准备指南
OpenClaw模型微调:Kimi-VL-A3B-Thinking领域适配数据准备指南 1. 为什么需要领域特定数据微调 当我第一次尝试将Kimi-VL-A3B-Thinking模型应用到医疗影像分析场景时,发现模型对专业术语的理解和图像特征的把握都不够精准。这让我意识到,即使…...
【高等数学】第一讲:函数与初等函数
目录 函数的基本概念 函数的表示法 函数的几种重要特性 有界性 例子 区间的有界性 仅单侧有界的函数 单调性 全定义域上严格单调的函数 分区间单调的函数 奇偶性 偶函数 奇函数 分段函数奇偶性 分段奇函数 分段偶函数 周期性 初等函数 常数函数 幂函数…...
YOLOv11桌面应用实战:PyQt5打造智能监控与目标追踪系统
1. YOLOv11与PyQt5的强强联合 在计算机视觉领域,YOLO系列模型一直以其实时性和准确性著称。最新发布的YOLOv11在保持原有优势的基础上,进一步优化了模型结构和训练策略,使其在小目标检测和复杂场景下的表现更加出色。而PyQt5作为Python生态中…...
MPI-3.x,4.x,5.x新增核心功能
文章目录MPI-3.x,4.x,5.x新增核心功能一、MPI 3.x 系列(现代MPI的基石)MPI 3.0(2012)——革命性升级MPI 3.1(2015)——小幅增强二、MPI 4.x 系列(超大问题 下一代架构)MPI 4.0&…...
