【深度学习】sdxl中的 tokenizer tokenizer_2 区别
代码仓库:
https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/tree/main
截图:

为什么有两个分词器 tokenizer 和 tokenizer_2?
在仔细阅读这些代码后,我们了解到 tokenizer_2 主要是用于 refiner 模型的。
# Load text tokenizer(s)
if not self.pipeline_type.is_sd_xl_refiner():self.tokenizer = make_tokenizer(self.version, self.pipeline_type, self.hf_token, framework_model_dir)
if self.pipeline_type.is_sd_xl():self.tokenizer2 = make_tokenizer(self.version, self.pipeline_type, self.hf_token, framework_model_dir, subfolder='tokenizer_2')
代码片段:
elif version == 'xl-1.0':if pipeline.is_sd_xl_base():return "stabilityai/stable-diffusion-xl-base-1.0"elif pipeline.is_sd_xl_refiner():return "stabilityai/stable-diffusion-xl-refiner-1.0"else:raise ValueError(f"Unsupported SDXL 1.0 pipeline {pipeline.name}")
什么是分词器?
分词器(Tokenizer)是自然语言处理(NLP)中的一种工具,其主要任务是将文本划分成更小的单元,通常是词语或子词。这些小单元被称为标记(tokens)。分词器在NLP任务中扮演着关键角色,其主要应用包括:
-
文本预处理: 在将文本输入NLP模型之前,通常需要对文本进行预处理。分词器负责将连续的文本转换成离散的标记序列,以便模型更好地理解和处理文本。
-
特征提取: 在一些NLP任务中,模型需要将文本表示为数值向量,以进行机器学习任务。分词器的作用是将文本转换成模型能理解的标记序列,然后进行嵌入(embedding)等操作,最终得到文本的数值向量表示。
-
语言模型训练: 在训练语言模型时,分词器帮助模型理解文本结构,学习单词或子词之间的关系,以及捕捉语法和语义信息。
-
机器翻译: 在机器翻译任务中,分词器有助于将源语言和目标语言的文本分别转换成标记序列,使模型能更好地理解和转换语言之间的对应关系。
-
信息检索: 在信息检索任务中,分词器有助于将用户查询或文档文本转换成可检索的标记序列,以便进行文本匹配和检索相关信息。
在NLP领域中,分词器的选择通常取决于任务的性质和语言的特点。不同的语言和任务可能需要不同类型的分词策略,包括基于词典的方法、统计方法、基于深度学习的方法等。一些流行的分词器包括基于深度学习的BERT Tokenizer、基于规则的NLTK分词器、基于统计的Stanford分词器等。
相关文章:
【深度学习】sdxl中的 tokenizer tokenizer_2 区别
代码仓库: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/tree/main 截图: 为什么有两个分词器 tokenizer 和 tokenizer_2? 在仔细阅读这些代码后,我们了解到 tokenizer_2 主要是用于 refiner 模型的。 #…...
使用一个定时器(timer_fd)管理多个定时事件
使用一个定时器(timer_fd)管理多个定时事件 使用 timerfd_xxx 系列函数可以很方便的与 select、poll、epoll 等IO复用函数相结合,实现基于事件的定时器功能。大体上有两种实现思路: 为每个定时事件创建一个 timer_fd,绑定对应的定时回调函数…...
C++:使用tinyXML生成矢量图svg
先说一下tinyXML库的配置: 很简单,去下面官网下载 TinyXML download | SourceForge.net 解压后是这样 直接将红框中的几个文件放到项目中即可使用 关于svg文件,SVG是基于XML的可扩展矢量图形,svg是xml文件,但是xml…...
day34_js
今日内容 0 复习昨日 1 事件 1.1 事件介绍 1.2 事件绑定方式 1.3 不同事件的演示 2 DOM操作 2.1 概述 2.2 查找元素 2.3 元素内容的查找和设置 2.4 元素属性的查找和设置 2.5 元素CSS样式的查找和设置 2.6 创建元素 2.7 创建文本节点 2.8 追加元素 2.9 删除元素 3 案例练习 0 复…...
AR 自回归模型
文章目录 总的代码ADF 检验(是否平稳)差分操作拟合AR 模型预测可视化总的代码 import pandas as pd import numpy as np import matplotlib.pyplot as plt from statsmodels.tsa.ar_model import AutoReg from statsmodels.tsa.stattools import adfuller# 生成一个示例时间序…...
51单片机ESP8266
一、MQTT透传AT固件 安信可提供的烧录WiFi固件工具: 链接: https://docs.ai-thinker.com/%E5%BC%80%E5%8F%91%E5%B7%A5%E5%85%B72 安信可提供的固件库链接: https://docs.ai-thinker.com/%E5%9B%BA%E4%BB%B6%E6%B1%87%E6%80%BB 经过测试,选择这个不可以…...
php 源码加密保护 bease方案
推荐使用 php-bease 这个免费开源方案。 有一说一,这个项目上次更新时间是2021年… 多好的项目呀。 作者说在 php5.1 ~ php7.2 上都测试过。 源码地址: C源码: https://github.com/liexusong/php-beast dll版: https://github…...
FFMPEG解析ts流
三篇相关联的文章: ffmpeg下HLS解析过程-CSDN博客TS文件格式详解及解封装过程-CSDN博客 FFMPEG解析ts流-CSDN博客 一、简介 关于TS格式解析,可以参考《TS文件格式详解及解封装过程-CSDN博客》,本文主要代码部分解读。建议大家熟读iso138…...
Java基础-实现猜数字小游戏
1. 实现控制台的猜数字游戏。游戏运行时产生一个1~100之间的随机数字; 2. 要求用户从控制台输入数字,若输入的数字比随机数小,则提示太小了;若输入的数字比随机数大,则提示太大了,若输入的数字与随机数相同…...
爬虫(一)
1. HTTP协议与WEB开发 1. 什么是请求头请求体,响应头响应体 2. URL地址包括什么 3. get请求和post请求到底是什么 4. Content-Type是什么1.1 简介 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于万维网(…...
【软件测试】学习笔记-Nginx 在系统架构中的作用
本篇文章你探讨 Nginx 在应用架构中的作用,并从性能测试角度看如何利用 Nginx 数据统计用户访问量。 Nginx 重要的两个概念 代理 首先要来解释一下什么是代理,正向代理和反向代理是什么意思?各自作用是什么?不少同学经常听到这…...
鸿蒙开发【应用开发基础知识】
应用开发介绍 1. 项目说明 通过OpenHarmony提供的Stage模型和ArkUI的eTS声明式开发规范,结合简单的Demo,分享学习OpenHarmony/docs/application-dev[应用开发文档] 2. 主要功能 目录标题展示,目录列表展示点击目录列表,查看列…...
腾讯云幻兽帕鲁4核16G14M服务器性能测评和价格
腾讯云幻兽帕鲁服务器4核16G14M配置,14M公网带宽,限制2500GB月流量,系统盘为220GB SSD盘,优惠价格66元1个月,277元3个月,支持4到8个玩家畅玩,地域可选择上海/北京/成都/南京/广州,腾…...
Linux第一个小程序——进度条
目录 回车和换行 缓冲区 设计倒计时 进度条(多文件操作) Version1:进度条 Version2:应用场景进度条 Version3:升级彩色进度条 回车和换行 回车\r:r 回车,回到当前行的行首,而…...
(N-141)基于springboot,vue网上拍卖平台
开发工具:IDEA 服务器:Tomcat9.0, jdk1.8 项目构建:maven 数据库:mysql5.7 系统分前后台,项目采用前后端分离 前端技术:vueelementUI 服务端技术:springbootmybatis-plusredi…...
深入了解Figure的结构与层次
深入了解Figure的结构与层次 一 Matplotlib中的Figure1.1 Figure的概念和作用:1.2.创建Figure对象:1.3 Figure的属性和方法: 二 子图(Axes)的角色与创建2.1 子图(Axes)的概念:2.2 创建子图的方法:2.3 Axes的…...
c语言基础6
1.逗号表达式 逗号表达式,就是用逗号隔开的多个表达式。 逗号表达式,从左向右依次执行。整个表达式的结果是最后⼀个表达式的结果。 我们来看下面的一个代码: int main() {int a 1;int b 2;int ret (a > b, a b 2, b, b a 1);p…...
kotlin sum 与 sumOf
kotlin 中 sum 的作用: 计算一个列表里面数字的总和: val numbers listOf(1, 2, 3, 4, 5) val sum numbers.sum() println("The sum is: $sum") // 打印结果: The sum is: 15 kotlin中sumOf的作用: 也是计算一个列表里面数字…...
php怎么输入一个变量,http常用的两种请求方式getpost(ctf基础)
php是网页脚本语言,网页一般支持两种提交变量的方式,即get和post get方式传参 直接在网页URL的后面写上【?a1027】,如果有多个参数则用&符号连接, 如【?a10&b27】 post方式传参 需要借助插件,ctfer必备插…...
Spring Boot 项目配置文件
文章目录 配置文件的作用properties基本语法读取文件信息缺点 yml基本语法优点配置不同数据类型字符串类型的写法 配置对象配置集合 读取配置文件的几种方法EnvironmentPropertySource使用原生方式读取 设置不同环境的配置文件 配置文件的作用 整个项目中重要的数据都是在配置…...
旧Mac升级终极指南:用OpenCore Legacy Patcher解锁新系统完整方案
旧Mac升级终极指南:用OpenCore Legacy Patcher解锁新系统完整方案 【免费下载链接】OpenCore-Legacy-Patcher 体验与之前一样的macOS 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 当你的老款Mac提示"此设备不支持最新ma…...
告别跨平台存储难题:exfat-nofuse内核驱动深度实战指南
告别跨平台存储难题:exfat-nofuse内核驱动深度实战指南 【免费下载链接】exfat-nofuse Android ARM Linux non-fuse read/write kernel driver for exFat and VFat Android file systems 项目地址: https://gitcode.com/gh_mirrors/ex/exfat-nofuse 在Linux与…...
Wan2.2-I2V-A14B开源大模型:支持LoRA微调与私有领域视频风格迁移
Wan2.2-I2V-A14B开源大模型:支持LoRA微调与私有领域视频风格迁移 1. 模型概述与核心能力 Wan2.2-I2V-A14B是一款开源的文生视频大模型,专为高质量视频生成任务设计。该模型在保持开源特性的同时,通过LoRA微调技术实现了对私有领域视频风格的…...
最新变频恒压供水西门子s7-200梯形图程序组态王仿真设计 基于plc和组态王四泵恒压供水系统设计
最新变频恒压供水西门子s7-200梯形图程序组态王仿真设计 基于plc和组态王四泵恒压供水系统设计 (含西门子plc程序s7-200梯形图,组态王6.55仿真画面程序,plc虚拟仿真,两万字论文以及io分配,plc外部接线图)深夜的实验室里࿰…...
CosyVoice集成Java Web应用:构建智能语音播报后端服务
CosyVoice集成Java Web应用:构建智能语音播报后端服务 最近在做一个在线教育平台的项目,需要给课程内容加上语音播报功能。一开始我们试过一些现成的语音合成服务,要么价格太贵,要么声音不够自然。后来发现星图GPU平台上有个Cosy…...
别再让串口指示灯‘瞎闪’了!手把手教你用LM358运放做个‘聪明’的LED驱动电路
别再让串口指示灯‘瞎闪’了!手把手教你用LM358运放做个‘聪明’的LED驱动电路 调试串口通信时,最让人头疼的莫过于那些"瞎闪"的指示灯——波特率一高,LED就像得了癫痫,微弱的光斑根本分不清是发送还是接收。我曾在一个…...
PostgreSQL杂谈 13—GIN索引的优化策略与实战调优
1. GIN索引的核心原理与性能瓶颈 GIN(Generalized Inverted Index)作为PostgreSQL中的"万能工具箱",特别擅长处理数组、全文搜索这类"一对多"的数据关系。它的核心设计借鉴了搜索引擎的倒排索引思想,但比传统…...
Codex CLI 配置避坑指南:从 TOML 语法到沙箱策略的 5 个实战技巧
Codex CLI 配置避坑指南:从 TOML 语法到沙箱策略的 5 个实战技巧 如果你已经初步了解 Codex CLI 的基本用法,但在实际配置过程中频繁踩坑,这篇文章就是为你准备的。我们将深入探讨那些官方文档没有详细说明的细节问题,以及如何通过…...
别再只盯着username了!CTF表单注入题中,用Sqlmap探测password等隐藏参数的高效技巧
突破思维定式:CTF表单注入中隐藏参数的高阶利用策略 在CTF竞赛的Web安全赛道上,SQL注入始终是选手们的必修课。但当我们反复练习username参数注入时,出题人早已在暗处微笑——他们知道大多数选手会形成路径依赖。我曾在一个省级CTF比赛中遇到…...
Phi-3-Mini-128K实操手册:模型加载耗时优化技巧——分层加载与缓存机制应用
Phi-3-Mini-128K实操手册:模型加载耗时优化技巧——分层加载与缓存机制应用 1. 项目概述 Phi-3-Mini-128K是基于微软Phi-3-mini-128k-instruct模型开发的轻量化对话工具,专为本地部署和高效推理场景设计。该工具通过多项技术创新,显著提升了…...
