当前位置: 首页 > article >正文

基于 Transformer 架构的翻译模型实践 - 主流分词器(Tokenizer)的对比

基于 Transformer 架构的翻译模型实践 - 主流分词器Tokenizer的对比flyfish参考https://github.com/shaoshengsong/ pytorch -transformer-en-zh-translation-demo对hello不同的分词方案可以分为单个字符【hello】 也可以类似【hello】分词算法比较上图来源是ByteByteGo颜色类型说明青色完整单词Complete Words保留原词不拆分橙色子词Subwords拆分后的词片段非词缀绿色前缀Prefixes词的开头部分如un-、pre-紫色字符Characters单个字符/数字如1、e粉色特殊TokenSpecial Tokens词首标记如SentencePiece的▁、特殊符号米黄色空格Spaces文本中的空格如BPE会单独处理蓝色表情符号Emojis单个emoji作为独立token黄色标点符号Punctuation标点如-1. BPEByte Pair Encoding字节对编码从单个字符开始不断合并语料中出现频率最高的相邻符号生成子词。不区分词首/词中直接合并高频序列空格可单独作为token处理。示例unhappy→un前缀 happy子词 → 2个tokenHello world→Hello完整词 空格 world完整词 → 3个tokenlearning123→learning123→ 5个token2. WordPieceGoogle的方法BERT等模型使用与BPE类似但优先保留词首用##标记非词首的子词表示“前面还有内容”避免歧义。通过##明确区分词首和词中空格通常不单独作为token会被隐式合并到词中。示例unhappy→un词首前缀 ##happy词中子词 → 2个tokenHello world→Helloworld空格被隐式处理不单独分词 → 2个tokenpre-trained→pre##-##train##ed→ 4个token##-表示标点是前面内容的延续3. SentencePiece语言无关LLaMA、T5等模型使用直接对**整个文本包括空格**进行分词用▁下划线表示词首的空格实现“语言无关”无需提前做空格/分词预处理适配中文、日文等无空格语言。把空格作为token的一部分用▁标记无需依赖空格分词子词拆分更灵活。示例unhappy→▁词首空格标记 unhappy→ 3个tokenHello world→▁Hello▁world每个词前加▁空格被替换为▁ → 2个tokenEmojis→▁→ 3个token开头的空格被标记为▁4. Unigram概率方法XLNet、ALBERT等模型使用基于概率模型保留语料中概率最高的子词组合从大词表开始删减保留最优token。倾向于保留更“合理”的长片段高频词可能直接作为完整token同样用▁处理空格和SentencePiece类似。示例unhappy→ 直接作为完整词概率最高 → 1个tokenlearning123→▁learning完整词 123合并的数字片段 → 3个tokenpre-trained→▁pre-trainedtrained作为完整词 → 4个token

相关文章:

基于 Transformer 架构的翻译模型实践 - 主流分词器(Tokenizer)的对比

基于 Transformer 架构的翻译模型实践 - 主流分词器(Tokenizer)的对比 flyfish 参考 https://github.com/shaoshengsong/ pytorch -transformer-en-zh-translation-demo对hello不同的分词方案可以分为单个字符【h,e,l,…...

CARTGen-IR: Synthetic Tabular Data Generation for Imbalanced Regression——基于CART的表格数据不平衡回归合成采样方法

一、研究问题与背景 1.1 问题定义 不平衡回归:在连续目标变量中,极端值(高值或低值)样本稀少,导致模型偏向预测平均值,忽略重要极端情况。 应用场景:极端天气预测、海面温度异常、药物敏感性检…...

【从零学Vibe Coding】第一章:Vibe Coding 到底是什么?

第一章:Vibe Coding 到底是什么? 先说结论 Vibe Coding 不是"不写代码",而是"先用自然语言描述意图,再让 AI 生成代码,人类负责判断、修正和推进结果"。 这个词在 2025 年突然出圈,不…...

【从零学Vibe Coding】前言:为什么要写这份教程

前言:为什么要写这份教程 一切从一个画面开始 2025 年,你大概率刷到过这样的画面: 有人对着 AI 说一句"帮我做个记账 App"十几分钟后,页面已经能点、能跳、能保存数据评论区一半人在惊呼"程序员要失业了"另…...

QEMU理解与分析系列(16):QEMU启动方式分析

QEMU启动方式分析启动流程RISC-V specific│┌──────────────────┼──────────────────┐▼ ▼ ▼┌──────────────┐ ┌──────────────┐ ┌───────────…...

GNSS模块教程:大夏龙雀 DX-GP21,从硬件接线到 NMEA 数据解析

在物联网、无人机、精准农业等场景中,高精度定位是核心需求。深圳大夏龙雀科技的 DX-GP21 作为一款多模多频 GNSS 模块,支持北斗、GPS、Galileo 等多系统联合定位,定位精度<1.0m,兼具低功耗、小尺寸特性,性…...

【Java+AI】Java正在悄然“杀死“Python的AI霸权——虚拟线程与GraalVM如何重写企业级AI推理规则

——尘一不染 为什么说Java才是企业AI的未来?一场迟到的技术平反 副标题:当你还在用Python调参时,成熟的企业已经在用Java构建生产级AI推理引擎了 开篇:那些年,我们对Java的误解有多 每次技术大会,只要…...

COMSOL电磁超声仿真避坑指南:从‘域不适用’报错到结果收敛的完整调试流程

COMSOL电磁超声仿真避坑指南:从‘域不适用’报错到结果收敛的完整调试流程 电磁超声仿真作为多物理场耦合的典型应用场景,其复杂性往往让即使有一定COMSOL基础的用户也频频"踩坑"。当你在深夜盯着屏幕上鲜红的"域不适用"报错&#x…...

Taotoken多模型聚合在批量内容生成任务中的稳定性观察

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Taotoken多模型聚合在批量内容生成任务中的稳定性观察 1. 任务背景与挑战 在涉及大规模、长时间运行的内容生成任务中&#xff0c…...

高级音频解密技术实现:ncmdump模块化架构解析与自动化工作流

高级音频解密技术实现:ncmdump模块化架构解析与自动化工作流 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 在数字音乐版权保护日益严格的今天,网易云音乐的NCM加密格式为用户带来了设备兼容性的技术挑战。n…...

[具身智能-824]:人的大脑,如何实现高实时、多模态联合、发现表象背后的各种规律和层层叠叠的不同层次的语义的?

人脑实现:高实时响应 多模态融合 深挖底层规律 多层级语义解析 完整原理一、先总述核心机制人脑不是串行流水线,是并行分布式神经集群架构依靠分层神经通路 并行同步处理 经验记忆锚定 潜意识预推理,天然完成:毫秒级高实时、…...

【C++】类和对象( 类的定义、实例化、 this指针、 C++和C语言实现Stack对比)

小编主页详情<-请点击 小编gitee代码仓库<-请点击 本文主要介绍了类和对象&#xff08; 类的定义、实例化、 this指针、 C和C语言实现Stack对比&#xff09;&#xff0c;内容全由作者原创&#xff08;无AI&#xff09;&#xff0c;并带有配图帮助博友们更好的理解&#x…...

杰理微蓝牙芯片AC696系列入门

1.文章背景 此篇文章以ac696n_soundbox_sdk_v1.7.0版本进行入门讲解&#xff1a; 写这篇文章的目的是因为自己在尝试入门杰理微的时候遇到了好多的问题点&#xff0c;想尝试用买到的开发板来驱动一颗LED闪烁却一直没有按自己想象的逻辑成功跑出效果&#xff0c;在网上到处翻找手…...

电脑截图工具深度测评:PixPin、Snipaste、兔灵截图(Utools插件)

日常办公、写教程、做笔记&#xff0c;截图是高频刚需。Windows自带截图简陋&#xff0c;截图功能有限&#xff0c;精准标注、长截图、OCR识别等需求&#xff0c;需要专业工具来满足。 本文实测3款「免费无广告、口碑拉满」的截图工具&#xff1a;PixPin、Snipaste、兔灵截图&a…...

一条 SQL 干掉 8 秒卡顿,只因改了一个索引

一条 SQL 干掉 8 秒卡顿,只因改了一个索引 上周五晚上十一点,线上告警突然炸了,用户反馈下单接口卡成 PPT。打开慢查询日志一看,一条最普通的订单查询 SQL 居然跑了 8 秒多。当时我脑子里只有一个念头:这条 SQL 我上周才写的,测试环境明明只要 200 毫秒啊。排查了一整晚,…...

【Java入门|集合全解析:List、Set与Map详解】

Java集合Java集合分为单列集合和双列集合&#xff0c;也就是 Collection 和 Map 。顾名思义&#xff0c; Collection 一个位置上仅存放一个元素&#xff1b; Map 一个位置上有两个元素&#xff08;分为键和值&#xff09;。 Map 和 Collection 下又分别衍生出多种集合种类&…...

晶振参数深度解读与替代选型实战(55.2MHz 工业级无源晶振案例)

前言作为嵌入式 / 硬件 FAE&#xff0c;日常工作中晶振的参数解读、客户需求替代是高频场景。最近遇到一个典型的工业级宽温晶振客户需求&#xff0c;参数里藏着很多新手容易踩的坑&#xff0c;比如 “负频率” 的误解、负载电容不匹配、宽温范围忽略等问题。本文以客户的55.2M…...

Android 开发问题:It‘s possible to extract method returning XXX from a long surrounding...

在 Android 开发中&#xff0c;Android Studio 出现如下提示信息 Its possible to extract method returning TakeCardRecordListDTO from a long surrounding method# 解读可以从长方法中提取返回“TakeCardRecordListDTO”的方法问题原因这段提示是提取方法重构策略&#xff…...

推客系统开发|企业私域裂变刚需,低成本自动获客变现

公域投流成本居高不下、流量转化疲软&#xff0c;当下多数商家、企业都在转型私域运营。推客系统凭借低成本裂变、自动化运营、高留存等优势&#xff0c;成为企业盘活自有流量、实现自主拓客的核心工具。一、专属定制开发&#xff0c;适配各类业态支持个性化定制&#xff0c;自…...

别再只问哪个大模型更强了,2026年真正决定AI Agent上限的,是向量引擎

别再只问哪个大模型更强了&#xff0c;2026年真正决定AI Agent上限的&#xff0c;是向量引擎 这两年做AI的人&#xff0c;最容易掉进一个坑。 每天盯着模型榜单看。 今天这个模型会写代码了。 明天那个模型会看视频了。 后天又有一个模型说自己推理能力更强了。 看久了以后&…...

别再傻等!EPLAN部件库导入太慢?试试这个解压导入法,效率翻倍

EPLAN部件库高效导入实战&#xff1a;解压法与便携式部署全解析 电气工程师们对EPLAN的部件库导入速度缓慢一定深有体会——当你拿到一个几百兆的EDZ文件&#xff0c;点击导入后泡杯咖啡回来可能进度条才走了一半。这种等待不仅浪费时间&#xff0c;更会打断工作节奏。本文将彻…...

从“黑盒”到“白盒”:深入理解PHP伪协议php://input的底层机制与安全开发启示

从“黑盒”到“白盒”&#xff1a;深入理解PHP伪协议php://input的底层机制与安全开发启示 在Web安全领域&#xff0c;文件包含漏洞一直是攻击者青睐的攻击向量。而PHP伪协议php://input的巧妙利用&#xff0c;往往能让看似无害的文件包含操作演变为致命的远程代码执行漏洞。本…...

Zotero安装后必做的5件事:从浏览器抓取到PDF重命名,新手避坑指南

Zotero安装后必做的5件事&#xff1a;从浏览器抓取到PDF重命名&#xff0c;新手避坑指南 第一次打开Zotero时&#xff0c;面对空荡荡的界面和密密麻麻的菜单选项&#xff0c;很多科研新手都会感到无从下手。作为一款功能强大的开源文献管理工具&#xff0c;Zotero的真正价值往往…...

Microchip安卓配件开发平台:MCU与安卓系统高效协同实战指南

1. 项目概述&#xff1a;当单片机巨头拥抱安卓生态作为一名在嵌入式领域摸爬滚打了十几年的老工程师&#xff0c;我经历过从8位机到32位ARM&#xff0c;再到各种RTOS的变迁。但最近几年&#xff0c;一个趋势越来越明显&#xff1a;越来越多的智能设备&#xff0c;特别是那些需要…...

拓璞数控港股上市:市值142亿港元 年营收5.8亿,净利163万

雷递网 雷建平 5月20日上海拓璞数控科技股份有限公司&#xff08;简称&#xff1a;“拓璞数控”&#xff0c;股票代码&#xff1a;“07688”&#xff09;今日在港交所上市。拓璞数控此次发售6533万股&#xff0c;发售价26.39港元&#xff0c;募资总额为17.24亿港元&#xff1b;…...

港科大沈劭劼、谭平团队最新成果:开源280万全景数据集,实现零样本立体匹配

「一举攻克全景3D视觉两大瓶颈」 目录 01 行业痛点&#xff1a;数据匮乏与畸变失效的双重桎梏 1. 数据集稀缺&#xff0c;泛化能力受限 2. 球面畸变破坏单目先验一致性 02 核心突破&#xff1a;超大数据与航向对齐先验双驱动 1. 280万级合成数据集&#xff0c;打破数据壁…...

保姆级教程:在S32G274ARDB2上,用IPCF点亮RGB LED(附源码解析)

从零玩转S32G2核间通信&#xff1a;手把手实现IPCF控制RGB灯效 拿到S32G274A开发板的第一天&#xff0c;我就被那个三色RGB LED吸引了——这不仅是硬件调试的指示灯&#xff0c;更是验证核间通信的绝佳媒介。作为多核异构处理器&#xff0c;S32G2的A53与M7核心如何协同工作&…...

基于PSoC 6与BMI160构建嵌入式IMU测试系统:从驱动到上位机全流程

1. 项目概述&#xff1a;从一颗传感器到一个完整的测试系统最近在做一个嵌入式项目&#xff0c;需要用到一款高性能的惯性测量单元&#xff08;IMU&#xff09;——博世的BMI160。这颗芯片在消费电子和物联网领域很常见&#xff0c;三轴加速度计加三轴陀螺仪&#xff0c;精度和…...

告别MPU6050例程!ATK-IMU901与Arduino串口通信的3个关键避坑点

ATK-IMU901与Arduino串口通信的实战避坑指南 当你从MPU6050切换到ATK-IMU901时&#xff0c;可能会发现原本顺畅的代码突然"罢工"了。这不是你的错——这两款IMU模块在设计理念上存在本质差异。本文将带你深入理解ATK-IMU901的通信机制&#xff0c;避开三个最常见的移…...

cp520靶场学习笔记

正文1、端口扫描2、web登录页面用户密码爆破3、文件上传漏洞利用4、nc 反弹5、Linux用户检索与特权分析6、图片隐写7、解密与格式转换8、cp命令横向获取用户密码9、diff命令进行文件比较正文 kali攻击机地址&#xff1a;192.168.1.4 靶场地址&#xff1a;192.168.1.15 1、端口…...