当前位置: 首页 > article >正文

CMU Subword Modeling | 15 Orthography versus IPA: Why We Need Both

本文解读 CMU “Subword Modeling” (Spring 2026) 第15讲Orthography versus IPA: Why We Need Both。这节课回答一个 NLP 从业者常见的疑问「普通字母表不就能表示声音了吗为什么还需要 IPA」答案是文字到语音的映射在三个方向上都是有歧义的、不可靠的、语言相关的而这些歧义直接影响模型能从文字中提取到多少语言信息。1. NLP 从业者的常见疑问有一个问题经常出现「我们已经有了字母表字母不就是用来记录声音的吗如果需要语音信息用 character-level model 把它学出来不就好了为什么还要折腾 IPA」Mortensen 的回答是因为文字和语音之间的映射关系在三个方向上都是坏的。2. 歧义一同一个发音多种写法英语里这三个词⟨maze⟩迷宫⟨maize⟩玉米⟨Mays⟩五月的复数它们的发音完全一样/meiz/。光听发音你不知道对方说的是哪个词也不知道该怎么拼。这就是同音异形词homophony。英语有不少这种情况⟨principle⟩ vs ⟨principal⟩、⟨discreet⟩ vs ⟨discrete⟩但法语更多比如 ⟨pair⟩同伴、⟨paire⟩一对、⟨père⟩父亲发音都是一样的。而中文在这方面碾压所有其他语言。光一个 /pu˥˩/ 的发音对应的汉字就有不、埔、布、怖、步、簿、部、钚……一共十几个。这种歧义对「语音→文字」方向的转换是一个障碍——没有语言模型来做上下文消歧根本无法完成这个任务。但反过来说如果只是从文字提取语音表示这个方向的歧义倒不算致命。真正麻烦的是下一种。3. 歧义二同一种写法多个发音这比第一种歧义更棘手。同一个拼写对应不同的发音意味着文字系统丢失了信息。英语里有一堆这样的词“advocate” 做名词和做动词时重音位置不同元音也不同“bass” 可以是鱼/bæs/也可以是低音/beɪs/“live” 做形容词/laɪv/和做动词/lɪv/时发音不同“bow” 可以是蝴蝶结/boʊ/也可以是鞠躬/baʊ/英语已经够乱了但阿拉伯语和希伯来语把这个问题推到了极端。这两种语言使用的是abjad文字系统——只写辅音和长元音短元音完全不标。结果就是阿拉伯语的 بتك 这个拼写既可以读成 kataba他写了也可以读成 kutiba被写了。虽然可以通过加注标来消歧但实际上只有宗教文本才会这样做因为一个小歧义可能导致教义解读出问题。日常文本里这些词就是长得一模一样。这对 NLP 来说意味着什么如果想从文字中恢复出完整的语音表示就必须从上下文中推断出文字里没有明确写出来的信息。这不是查表能解决的问题这是一个需要语言模型介入的序列解码问题。4. 歧义三同一个字母在不同语言里代表不同的音前两种歧义是单一语言内部的问题。第三种歧义出现在跨语言的时候。4.1 汉字一个字十种读法中文各方言之间的语音差异巨大语言学家通常把它们视为不同的语言。但它们共享同一套文字系统。Mortensen 给出了「犬」「月」「人」三个字在粤语、赣语、客家话、晋语、普通话、闽南语、吴语、湘语中的读音——差异极大但写出来都是同一个字。这是一个极端的例子同一个正字法符号在不同语言变体中的语音实现完全不同。4.2 拉丁字母 ⟨x⟩一个字母十一种音即便在「看起来比较透明」的拉丁字母体系中同一个字母在不同语言里的读音也可能天差地别。Mortensen 列出了 Epitran G2P 系统中拉丁字母 ⟨x⟩ 在不同语言里对应的语音ks、s、ʃ、ɖ、ɕ、x、z、tʼ、ħ、χ、kǁ、ǁ一个字母十二种完全不同的音——从清擦音到搭嘴音从挤喉音到咽擦音。如果一个模型只看到字母 ⟨x⟩不知道当前处理的是哪种语言它根本无法知道这个字母代表什么声音。所以结论很明确当需要跨语言比较语音信息的时候正字法完全不能胜任必须用 IPA。5. 那为什么还需要正字法既然 IPA 这么好为什么不直接全部换成 IPA因为实际中 NLP 面对的输入几乎都是正字法文本。IPA 转写的语料极其稀少绝大多数语言没有大规模的 IPA 标注数据。所以现实情况是我们两个都需要。正字法是实际可用的数据来源IPA 是更干净、更系统、跨语言可比的表示两者之间的桥梁就是G2PGrapheme-to-Phoneme——把正字法转成 IPA。后续的课程会介绍基于规则的和数据驱动的 G2P 方法。6. IPA 在 NLP 中的实际价值有人可能还是会问NLP 主要处理的是文本语音处理有声学信号可以用IPA 到底在哪些场景下不可替代Mortensen 给了三个理由跨语言的科学研究。要系统地比较不同语言的语音现象必须有一个语言中立的标注方式。正字法做不到这一点。非标准发音的标注。在语言治疗和二语教学中需要精确描述「学习者发的音跟目标音差在哪」。这只有在有一个系统化的标音方案时才能做到。语音相似性作为 NLP 任务的信号。在命名实体识别NER、问答QA、机器翻译MT、实体链接Entity Linking等任务中词的发音相似性可以提供有用的线索。Bharadwaj et al. (2016) 的工作就表明在低资源跨语言迁移的场景下phonologically aware 的模型在 NER 上效果更好。Chaudhary et al. (2018) 则用语音和形态学子词表示来帮助词嵌入适应新语言。这些都是文字层面的表示很难直接提供的信号。7. 总结这节课的核心论点可以用一张表格来概括歧义方向含义例子对 NLP 的影响音→字 多对多同一发音有多种拼法英语 maze/maize/Mays中文 /pu˥˩/ 对应十几个汉字语音转文字需要语言模型消歧字→音 多对多同一拼写有多种读法英语 live/bow阿拉伯语 abjad 不标短元音文字转语音需要从上下文恢复丢失信息跨语言不一致同一字母在不同语言里代表不同的音拉丁字母 ⟨x⟩ 有12种读法同一个汉字在各方言中读音迥异跨语言任务必须用语言中立的表示核心 takeaway文字到语音的映射是有损的、有歧义的、语言特定的。当 NLP 任务需要用到语音层面的信息时尤其是跨语言场景仅靠正字法是不够的。IPA 提供了一个语言中立的、系统化的表示空间而 G2P 是连接这两个世界的桥梁。这不是在说正字法没用而是在说正字法和 IPA 解决的是不同的问题。文字是我们拥有的数据IPA 是我们需要的表示。理解它们之间的 gap 有多大、gap 的结构是什么才能更好地设计模型来弥合这个 gap。

相关文章:

CMU Subword Modeling | 15 Orthography versus IPA: Why We Need Both

本文解读 CMU “Subword Modeling” (Spring 2026) 第15讲:Orthography versus IPA: Why We Need Both。 这节课回答一个 NLP 从业者常见的疑问:「普通字母表不就能表示声音了吗?为什么还需要 IPA?」答案是文字到语音的映射在三个…...

DNS解析故障排查实战:从“网络不通“到定位根因的完整方法论

DNS解析故障排查实战:从"网络不通"到定位根因的完整方法论 为什么 DNS 故障总是最难发现的那一类 网络故障里,DNS 问题有一个特殊的迷惑性:它让你以为是别的问题。 用户反馈"网络断了"——其实是 DNS 解析失败&#x…...

用 QClaw 打造 AI 小说家,30 万字签约全流程复盘

文章目录前言第一步:下载安装 QClaw第二步:新建自定义 Agent第三步:精心设计小说家人设第四步:对 AI 小说家进行专项培训第五步:明确平台调性,设计世界观第六步:正式派发创作任务总结前言 最近…...

别再花钱买NAS了!用HFS+Nat123在Windows上5分钟搭建个人网盘(附中文汉化)

零成本打造个人云存储:WindowsHFSNat123实战指南 手里有台闲置的Windows电脑?别让它吃灰了。今天我要分享的这套方案,能让你用不到5分钟时间,把旧电脑变成随时可访问的私人云盘。相比动辄上千元的NAS设备,这套方案不仅…...

从零到一:三维重建技术全流程解析

从零到一:三维重建技术全流程解析 三维重建技术正在重塑我们与数字世界的交互方式。想象一下,仅凭几张普通照片就能在计算机中还原出物体的三维形态——这项看似科幻的能力,如今已成为医疗影像、工业检测、文化遗产保护等领域的常规操作。不…...

用PyTorch3D玩转3D艺术:手把手教你生成渐变小牛和旋转植物GIF

用PyTorch3D玩转3D艺术:手把手教你生成渐变小牛和旋转植物GIF 在数字艺术与创意编程的交汇处,PyTorch3D正成为技术爱好者手中的魔法棒。当传统3D建模软件需要复杂操作时,这个基于PyTorch的库让代码生成炫酷视觉效果变得像搭积木一样简单。本文…...

用PyTorch的F.cosine_similarity实现文本/向量两两相似度计算:以推荐系统为例

PyTorch向量相似度计算的工程实践:从原理到推荐系统实战 在推荐系统和自然语言处理领域,向量相似度计算是最基础也最频繁的操作之一。想象一下这样的场景:你的推荐系统需要实时为百万级用户计算他们可能感兴趣的物品,而每个用户和…...

<climits>

简介这个头文件比较特殊,不包含复杂的函数,而是定义了一系列宏常量,用于描述当前编译平台下各种整型数据类型的取值范围(最小值和最大值)UCHAR_MAX //(255U): 无符号字符型的最大值。U 表示无符号常量SCHAR_MIN //-12…...

文档批量加水印这个工具帮我解决了文档版权追踪的问题

在日常工作中,文档的版权保护一直是个头疼的问题。特别是对于需要向外部分发的文件,怎么证明"这份文档是从我这儿出去的",怎么在泄露发生时能够追踪到源头?这篇文章介绍一个能批量给文档添加不可见水印的工具&#xff0…...

告别几十个ECU!手把手拆解车身域控制器(附SPC58NH/S32G方案选型指南)

车身域控制器实战指南:从传统ECU到集中式架构的硬件整合 车身电子系统正经历一场从分散到集中的革命。想象一下,一辆现代汽车内部可能分布着上百个独立工作的电子控制单元(ECU),它们各自为政,通过复杂的线束网络相互连接。这不仅增…...

AO3镜像站:为创意自由搭建的桥梁

AO3镜像站:为创意自由搭建的桥梁 【免费下载链接】AO3-Mirror-Site 项目地址: https://gitcode.com/gh_mirrors/ao/AO3-Mirror-Site 在数字时代的创作海洋中,Archive of Our Own(AO3)如同一个巨大的创意港湾,汇…...

来自学习的第二天

今天是我学习编程的第二天,希望能够学好,能够学得多,以后当个大佬,我相信我一定可以的...

平衡二叉树的奥秘:AVLTree高效实现解析

平衡二叉树(AVLTree)平衡二叉树(AVLTree)是一种自平衡二叉搜索树,由 Adelson-Velsky 和 Landis 于 1962 年提出。它通过维护每个节点的平衡因子(定义为左子树高度减去右子树高度)来确保树的高度…...

别再傻傻分不清!用一杯水和一把尺子,5分钟搞懂ADC的LSB与精度

用一杯水破解ADC的奥秘:分辨率与精度的生活实验 实验室里那些闪烁的示波器和密密麻麻的数据手册总让人望而生畏,但理解模数转换(ADC)的核心概念其实可以像观察一杯水那样简单。今天我们就用厨房里最常见的量杯和直尺,来…...

C++函数模板:OOP中的万能利器

C 面向对象编程中的函数模板在C面向对象编程(OOP)中,类和对象是核心概念。函数模板是一种强大的特性,允许我们编写通用的、可复用的代码,适用于多种数据类型。结合OOP,函数模板可以用于类的方法中&#xff…...

递归算法:合并与反转链表的艺术

合并两个有序链表合并两个有序链表是将两个升序排列的链表合并成一个新的升序链表。使用递归方法时,核心思路是:比较两个链表的头节点值,选择较小的节点作为新链表的头,然后递归地合并剩余部分。如果其中一个链表为空,…...

CREO实战宝典:从阵列到骨架模型,解锁十大经典零件设计全流程(曲柱、风扇叶、齿轮参数化、油缸等)

1. CREO零件设计实战入门:从零到精通的必经之路 刚开始接触CREO时,我总被那些复杂的参数和命令搞得晕头转向。直到后来才发现,掌握几个核心功能就能解决80%的日常设计需求。阵列、参数化设计和骨架模型这三个功能,就像设计界的&qu…...

Untrunc终极指南:三步修复损坏MP4/MOV视频的完整教程

Untrunc终极指南:三步修复损坏MP4/MOV视频的完整教程 【免费下载链接】untrunc Restore a truncated mp4/mov. Improved version of ponchio/untrunc 项目地址: https://gitcode.com/gh_mirrors/un/untrunc 你是否曾经因为意外断电、传输中断或存储错误而丢失…...

解决VisualStudio2026中文打印报错或者乱码

...

鸣潮自动化终极指南:如何用ok-ww实现智能自动战斗与资源收集

鸣潮自动化终极指南:如何用ok-ww实现智能自动战斗与资源收集 【免费下载链接】ok-wuthering-waves 鸣潮 后台自动战斗 自动刷声骸 一键日常 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 鸣潮自动化…...

【AGI军事伦理红区预警】:20年国防科技专家首次公开3大不可逾越的AI作战红线

第一章:AGI与军事应用的伦理边界 2026奇点智能技术大会(https://ml-summit.org) 通用人工智能(AGI)在军事系统中的深度集成正以前所未有的速度推进,从自主侦察分析到动态战术推演,其能力已超越传统自动化范畴。然而&…...

告别拖拽画布:用ABAP Dialog Screen手搓一个订单管理界面(附完整代码)

从零构建ABAP Dialog Screen订单管理系统的实战指南 在SAP生态中,Dialog Screen开发一直是ABAP程序员的核心技能之一。与简单的拖拽式界面设计不同,真正掌握Dialog Screen开发意味着能够深入理解屏幕背后的运行机制,构建出既美观又高效的业务…...

【卷卷观察】Vibe Coding 时代:有些人已经在用 AI 写代码,有些人还在争论 AI 能不能写代码

结论先说:Vibe Coding 这事,已经不是"趋势"了,是既成事实。92% 的美国开发者每天在用,41% 的代码是 AI 生成的。但这篇文章不想重复这些数字——数字你网上随便都能查到。我想聊的是:这事到底意味着什么&…...

VLN 与世界模型的关系

先唠两句:参数就像餐厅点单 把API想象成一家餐厅的“后厨系统”。 ? 路径参数/dishes/{dish_id} -> 好比你要点“宫保鸡丁”这道具体的菜,它是菜单(资源路径)的一部分。查询参数/dishes?spicytrue&typeSichuan -> 好比…...

自建 code-server vs CloudStudio:为什么插件不能用?

# 自建 code-server vs CloudStudio:为什么插件不能用?## 问题背景办公室有一台 Lubuntu 电脑,安装了 code-server,通过内网穿透在家的浏览器可以正常访问和使用。但是有两个问题:- CodeBuddy 插件无法使用- MySQL 插件…...

Claude Code vs Codex:谁才是最强 AI 编程工具?我的真实体验分享

pagehelper整合 引入依赖com.github.pagehelperpagehelper-spring-boot-starter2.1.0compile编写代码 GetMapping("/list/{pageNo}") public PageInfo findAll(PathVariable int pageNo) {// 设置当前页码和每页显示的条数PageHelper.startPage(pageNo, 10);// 查询数…...

避开这些坑,你的Android设备才能顺利通过Google认证:XTS测试环境与版本配置指南

避开这些坑,你的Android设备才能顺利通过Google认证:XTS测试环境与版本配置指南 在Android设备生态中,Google认证是确保设备兼容性和质量的重要门槛。然而,许多团队在送测前常因环境配置和版本管理的疏忽而反复失败。本文将深入剖…...

嵌入式GUI框架怎么选?从LVGL、TouchGFX到AWTK,5分钟帮你理清思路

嵌入式GUI框架选型实战指南:从LVGL到QT的深度解析 在嵌入式系统开发中,图形用户界面(GUI)的设计往往成为项目成败的关键因素之一。面对市场上琳琅满目的GUI框架,开发者常常陷入选择困难——是追求极致性能还是开发效率?是选择开源…...

CLAUDE.md:90%人用错了

CLAUDE.md:90%人用错了 我用这个文件,让AI记住我项目的所有秘密。先讲个故事 上周,团队新来一个实习生。 我让他帮改个功能,3小时没搞定。后来我自己上,10分钟改完了。 差距在哪? 不是我比他强,…...

Canvas水印实战:5分钟搞定前端图片防盗,附完整代码与避坑指南

Canvas水印实战:5分钟实现前端图片版权保护 在数字内容爆炸式增长的今天,图片盗用已成为困扰创作者的核心痛点。最近一位独立摄影师发现,其发布于社交平台的作品被某电商商家直接盗用,导致每月损失近万元订单。这样的案例并非孤例…...