分词算法BPE详解和CLIP的应用
一、TL;DR
- BPE通过替换相邻最频繁的字符和持续迭代来实现压缩
- CLIP对text进行标准化和预分词后,对每一个单词进行BPE编码和查表,完成token_id的转换
二、BPE算法
2.1 核心思想和原理
paper:Neural Machine Translation of Rare Words with Subword Units
地址:https://arxiv.org/pdf/1508.07909
核心思想:
从字符级别开始,通过统计频率最高的字符对或子词对,通过逐步迭代构建一个的词汇表,用于表示文本中的单词或子词单元。
优势:
简单高效,保留词的语义信息,又能灵活处理未见过的新词(out-of-vocabulary, OOV)
原理(paper思路):
通过迭代地将序列中出现最频繁的一对字节替换为一个未使用的字节来实现压缩
- 用字符词汇表初始化符号词汇表,并将每个单词表示为字符序列,加上一个特殊的单词结束符号“·”,这使我们能够在翻译后恢复原始的分词。
- 迭代地统计所有符号对,并将出现最频繁的符号对(“A”,“B”)替换为一个新的符号“AB”。
- 每次合并操作都会产生一个新的符号,该符号代表一个字符n-gram。频繁的字符n-gram(或整个单词)最终会被合并为一个符号,
- 合并操作的次数是唯一的超参数。
2.2 伪代码和说人话
说人话:
2.2.1 训练阶段-构建词汇表:
- 假设对一个大规模语料库进行统计,先按照空格和标点符号进行切分,得到各种单词,并在单词的末尾加上</w>
-
"low": l o w </w>, 5次 "lower": l o w e r </w>, 3次 "new": n e w </w>, 4次
-
- 统计字符对的频率
-
l o: 8次(5次来自 "low",3次来自 "lower") o w: 8次(5次来自 "low",3次来自 "lower") w </w>: 9次(5次来自 "low",4次来自 "new")
-
-
合并频率最高的字符对
-
"low": lo w </w>, 5次 "lower": lo w e r </w>, 3次 "new": n e w </w>, 4次
-
-
迭代执行,则词汇表就包括lo等词汇,假设第二次迭代发现low也是一个高频词,则将其放入词汇表
-
[l, o, w, e, r, n, </w>, lo, low, new, ...]
-
- 输出词汇表:
- 训练完成后,得到一个包含字符和子词的词汇表,用于后续的分词。
2.2.2 应用阶段-分词器分词
BPE 使用训练好的词汇表将新输入的文本进行分词:
- 单词拆分成字符
- 对于输入单词(如 “lowest”),先将其拆分为字符序列并添加词尾标记:
l o w e s t </w>
。
- 对于输入单词(如 “lowest”),先将其拆分为字符序列并添加词尾标记:
- 贪心合并
-
根据训练阶段生成的词汇表,依次尝试合并字符对,优先选择词汇表中最长的子词单元。例如:
检查 l o,发现 lo 在词汇表中,合并为 lo w e s t </w>。
检查 lo w,发现 low 在词汇表中,合并为 low e s t </w>。
检查 e s,不在词汇表中,继续检查 e s t,不在词汇表中,最终结果可能是 low e s t </w>。
-
-
输出子词序列:
- 最终输出分词结果:
[low, e, s, t]
,作为模型的输入 token。
- 最终输出分词结果:
伪代码:
三、CLIP的应用
3.1 CLIP的框架图
如题,CLIP的分词器通常使用的是Byte Pair Encoding(BPE)算法。下图中clip的文本预处理就是使用的BPE分词器,将完整的文本转化为一个一个的token_id
3.2 应用编码细节
说人话:先做文本预处理,变成自己想要关注的标准文本,然后使用正则表达式变成单词list,对list里面的每一个单词进行BPE编码,按照频率最高的进行合并,最后反查对应的token_id
编码的过程大致分为4步:
- 将文本进行标准化normalization。主要是对文本的一些空白剔除、所有大写转换成小写,其实还可以做一些你不想要的字符剔除,使得变成一个标准的文本
-
Before: Electric Power is Everywhere Present In Unlimited Quantities, It Can Drive The World's Machinery Without The Need Of Coal, Oil, Gas Or Any Other Fuel. After: electric power is everywhere present in unlimited quantities, it can drive the world's machinery without the need of coal, oil, gas or any other fuel.
-
- 将标准化后的文本进行预分词,pre tokenization,变成字符串列表。
-
electric power is everywhere present in unlimited quantities , it can drive the world 's machinery without the need of coal , oil , gas or any other fuel .
-
-
对列表里面的每一个字符串进行BPE编码,然后按照高频子串的出现规律进行合并
-
比如(e l) (l e) (e c) (c t) (t r) (r i) (i c</w>),通过查表后le是最靠前的,在查表里面是第24行,则变成e le c t r i c</w>
-
然后重复执行,持续查表,直到没有办法在合并词字典中找到任何可以合并的内容或者直到没有任何内容可以拆分为止
-
-
- 按照顺序查出上面拆分在合并的所有子字符串对应的ID,即为转换为token_id,对应的文件是vocab.json
相关文章:

分词算法BPE详解和CLIP的应用
一、TL;DR BPE通过替换相邻最频繁的字符和持续迭代来实现压缩CLIP对text进行标准化和预分词后,对每一个单词进行BPE编码和查表,完成token_id的转换 二、BPE算法 2.1 核心思想和原理 paper:Neural Machine Translation of Rare…...

STM32F103_Bootloader程序开发02 - Bootloader程序架构与STM32F103ZET6的Flash内存规划
导言 在工业设备和机器人项目中,固件远程升级能力已成为提升设备维护性与生命周期的关键手段。本文将围绕STM32平台,系统性介绍一个简洁、可靠的Bootloader程序设计思路。 我们将Bootloader核心流程划分为五大功能模块: 启动入口与升级模式判…...

通过Auto平台与VScode搭建远程开发环境(以Stable Diffusion Web UI为例)
文章目录 Stable Diffusion Web UI一、🎯主要功能概述二、🧠支持的主要模型体系三、📦安装方式简述✅ 一、前提准备✅ 二、安装步骤混乱版本(仅用于记录测试过程)第一步:克隆仓库(使用清华大学镜…...
Windows_Rider C#语言开发环境构建
Windows_Rider C#语言开发环境构建 一、C#语言简介历史背景语言特点应用领域开发工具未来发展方向 二、Rider简介功能特点支持的语言免费版本最新更新 三、开发环境构建(一)安装 JetBrains Rider(二)安装 .NET SDK(三&…...

Unity 打包程序全屏置顶无边框
该模块功能: 1. 打包无边框 2. 置顶 3. 不允许切屏 4.多显示器状态下,程序只在主显示上运行 5.全屏 Unity 打包设置: 如果更改打包设置,最好将Version版本增加一下,否则可能不会覆盖前配置文件 代码: 挂在场景中即可 using UnityEngine; using System; // 确保这行存…...

GAMES104 Piccolo引擎搭建配置
操作系统:windows11 家庭版 inter 17 12 th 显卡:amd 运行内存:>12 1、如何构建? 在github下载:网址如下 https://github.com/BoomingTech/Piccolo 下载后安装 git、vs2022 Git Visual Studio 2022 IDE - …...
第 29 场 蓝桥·算法入门赛
1. 不油腻的星座 "我们只欢迎不油腻的星座!" 在「非哺乳动物星座联盟」的派对上,主持人突然宣布:"请在场的 12 星座中,名字里包含哺乳动物的立刻离场",结果白羊、金牛、狮子、摩羯 44 个星座红着脸…...

用service 和 SCAN实现sqlplus/jdbc连接Oracle 11g RAC时负载均衡
说明 11.2推出的SCAN ,简化了客户端连接(当增加或者减少RAC实例时,不需要修改客户端配置,并且scan listener有各个实例的负载情况,可以实现连接时负载均衡。 不过客户端需要使用专门建立的service,而不能用RAC数据库…...
Jenkins 中获取构建触发用户的完整指南
在持续集成(CI/CD)流程中,追踪构建的触发用户是排查问题、审计操作或通知相关人员的重要需求。然而,Jenkins 默认不直接暴露触发构建的用户信息,尤其是在自动触发场景下。本文将详细介绍 多种获取 Jenkins 构建触发用户的方法,涵盖插件使用、脚本编写和 API 查询,并提供…...

防火墙流量管理
带宽管理介绍 针对企业用户流量,防火墙提供了带宽管理功能,基于出/入接口、源/目的安全区域、源/目的地址、时间段、报文DSCP优先级等信息,对通过自身的流量进行管理和控制。 带宽管理提供带宽限制、带宽保证和连接数限制功能,可…...
uniapp+ts 多环境编译
1. 创建项目 npx degit dcloudio/uni-preset-vue#vite-ts [项目名称] 2.创建env目录 多环境配置文件命名为.env.别名 添加index.d.ts interface ImportMetaEnv{readonly VITE_ENV:string,readonly UNI_PLATFORM:string,readonly VITE_APPID:string,readonly VITE_NAME:stri…...

Linux系统移植①:uboot概念
Linux系统移植①:uboot概念 uboot概念 1、uboot是一个比较复杂的裸机程序。 2、uboot就是一个bootloader,作用就是用原于启动Linux或其他系统。uboot最主要的工作就是初始化DDR。因为Linux是运行再DDR里面的。一般Linux镜像zImage(uImage)设…...
linux 学习之位图(bitmap)数据结构
bitmap 可以高效地表示大量的布尔值,并且在许多情况下可以提供快速的位操作。 1 定义 enum device_state{DOWN,DOEN_DONE,MAILBOX_READY,MAILBOX_PENDING,STATE_BUILD };DECLARE_BITMAP(state,STATE_BUILD);相当于》u32 state[BITS_TO_LONGS(4)] BIT…...

DAY 35
import torch import torch.nn as nn import torch.optim as optim from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import MinMaxScaler import time import matplotlib.pyplot as plt# 设置GPU设…...
理论篇一:了解webpack是什么,能解决什么问题,如何使用
Webpack 是前端工程化的核心工具之一,它的核心目标是将前端项目中的各种资源(JS、CSS、图片等)高效打包成浏览器可运行的静态文件。以下是系统化的解答: 一、Webpack 是什么? 1. 定义 Webpack 是一个 静态模块打包工具(Static Module Bundler),它通过分析项目的依赖关…...

AWS EC2实例安全远程访问最佳实践
EC2 远程连接方案对比 远程访问 Amazon EC2 实例主要有以下四种方式: Secure Shell (SSH) 远程访问AWS Systems Manager 会话管理器适用于 Linux 实例的 EC2 Serial ConsoleAmazon EC2 Instance Connect SSH 远程访问 SSH(Secure Shell)广…...
集群、容器云与裸金属服务器的全面对比分析
文章目录 引言 集群 2.1 定义 2.2 特点 2.3 应用场景 容器云 3.1 定义 3.2 核心功能 3.3 应用场景 裸金属 4.1 定义 4.2 特点 4.3 应用场景 三者的区别 5.1 架构与性能 5.2 管理与运维 5.3 成本与灵活性 总结 1. 引言 在云计算和数据中心领域,50…...

【强化学习】#7 基于表格型方法的规划和学习
主要参考学习资料:《强化学习(第2版)》[加]Richard S.Suttion [美]Andrew G.Barto 著 文章源文件:https://github.com/INKEM/Knowledge_Base 本章更是厘清概念厘到头秃,如有表达不恰当之处还请多多指教—— 概述 环境…...

EasyRTC嵌入式音视频通信SDK一对一音视频通信,打造远程办公/医疗/教育等场景解决方案
一、方案概述 数字技术发展促使在线教育、远程医疗等行业对一对一实时音视频通信需求激增。传统方式存在低延迟、高画质及多场景适配不足等问题,而EasyRTC凭借音视频处理、高效信令交互与智能网络适配技术,打造稳定低延迟通信,满足基础通信…...
Linux/aarch64架构下安装Python的Orekit开发环境
1.背景 国产化趋势越来越强,从软件到硬件,从操作系统到CPU,甚至显卡,就产生了在国产ARM CPU和Kylin系统下部署Orekit的需求,且之前的开发是基于Python的,需要做适配。 2.X86架构下安装Python/Orekit开发环…...

网络安全-等级保护(等保) 3-2-1 GB/T 28449-2019 第6章 方案编制活动
################################################################################ GB/T 28449-2019《信息安全技术 网络安全等级保护测评过程指南》是规定了等级测评过程,是纵向的流程,包括:四个基本测评活动:测评准备活动、方案编制活…...
Oracle Enqueue Names
Oracle Enqueue Names Enqueue(排队锁)是Oracle数据库中用于协调多进程并发访问共享资源的锁机制。 This appendix lists Oracle enqueues. Enqueues are shared memory structures (locks) that serialize access to database resources. They can be…...

【免费使用】剪Y专业版 8.1/CapCut 视频编辑处理,素材和滤镜
—————【下 载 地 址】——————— 【本章下载一】:https://pan.xunlei.com/s/VOQxk38EUe3_8Et86ZCH84JsA1?pwdkp7h# 【本章下载二】:https://pan.quark.cn/s/388008091ab4 【本章下载三】:https://drive.uc.cn/s/d5ae5c725637…...
【DCGMI专题1】---DCGMI 在 Ubuntu 22.04 上的深度安装指南与原理分析(含架构图解)
目录 一、DCGMI 概述与应用场景 二、Ubuntu 22.04 系统准备 2.1 系统要求 2.2 环境清理(可选) 三、DCGMI 安装步骤(详细图解) 3.1 安装流程总览 3.2 分步操作指南 3.2.1 系统更新与依赖安装 3.2.2 添加 NVIDIA 官方仓库 3.2.3 安装数据中心驱动与 DCGM 3.2.4 服务…...
道德经总结
道德经 《道德经》是中国古代伟大哲学家老子所著,全书约五千字,共81章,分为“道经”(1–37章)和“德经”(38–81章)两部分。 《道德经》是一部融合哲学、政治、人生智慧于一体的经典著作。它提…...

实现rpc通信机制(待定)
一、概述 (1)rpc(remote procedure call, 远程接口调用),就像在本地调用函数一样,是应用组成服务内部分布式的基础功能。应用场景是在内网中的计算,比如:(a) 为上传的一张图片加水印、…...
MATLAB 2023b 配电柜温度报警系统仿真
MATLAB 2023b 配电柜温度报警系统仿真 下面是一个配电柜温度报警系统的MATLAB仿真代码,包含温度监测、断路器控制和声光报警功能。 classdef ElectricalPanelTemperatureAlertSystem < handleproperties% 系统参数TemperatureThreshold = 94; % 温度阈值(摄氏度)Simulati…...

代码随想录打卡|Day45 图论(孤岛的总面积 、沉没孤岛、水流问题、建造最大岛屿)
图论part03 孤岛的总面积 代码随想录链接 题目链接 视频讲解链接 思路:既然某个网格在边界上的岛屿不是孤岛,那么就把非 孤岛的所有岛屿变成海洋,最后再次统计还剩余的岛屿占据的网格总数即可。 dfs: import java.util.Scanner…...

SpringCloud实战:使用Sentinel构建可靠的微服务熔断机制
上篇文章简单介绍了SpringCloud系列Gateway的基本用法以及Demo搭建,今天继续讲解下SpringCloud Gateway实战指南!在分享之前继续回顾下本次SpringCloud的专题要讲的内容: 本教程demo源码已放入附件内 技术准备 读者须知: 本教程…...

张 Prompt Tuning--中文数据准确率提升:理性与冲动识别新突破
Prompt Tuning–中文数据准确率提升:理性与冲动识别新突破 中文数据,准确率 数据标签三类:冲动21,理性21,(中性设为理性40:说明prompt 修正的有效性) 测试数据:冲动4,理性4,中性设为理性10 为了可视化做了 词嵌入 空间的相似文本计算,但是实际当loss 比较小的时…...