三、N元语法(N-gram)
为了弥补 One-Hot 独热编码的维度灾难和语义鸿沟以及 BOW 词袋模型丢失词序信息和稀疏性这些缺陷,将词表示成一个低维的实数向量,且相似的词的向量表示是相近的,可以用向量之间的距离来衡量相似度。
N-gram 统计语言模型是用来计算句子概率的概率模型,即某一个词的出现由其前面每一个词出现的概率决定。假设一个长度为N的句子,句子 S=(X1,...,XN),那么这个句子的概率(也就是这 N 个词共同出现的概率)如下:
| N的取值 | 名称 | 含义 |
| 1 | Unigram | 当前词出现的概率仅仅与自身相关 |
| 2 | Bigram | 当前词出现的概率仅仅与前面的1个词相关 |
| 3 | Trigram | 当前词出现的概率仅仅与前面的2个词相关 |
| ... | ... | ... |
| N | N-gram | 当前词出现的概率仅仅与前面的(N-1)个词相关 |
例如,长度为4的序列X1, X2, X3, X4 在Ungram、Bigram和Trigram中的概率分别为:
P(X1, X2, X3, X4) = P(X1)P(X2)P(X3)P(X4)
P(X1, X2, X3, X4) = P(X1)P(X2|X1)P(X3|X2)P(X4|X3)
P(X1, X2, X3, X4) = P(X1)P(X2|X1)P(X3|X1, X2)P(X4|X2, X3)
随着 N 的取值越大,N-gram 模型在理论上越精确,但是也越复杂,需要的计算量和训练语料数据量也就越大,并且精度提升的不够明显,所以在实际的任务中很少使用 n>3 的语言模型。
例如,使用一个含有三句话的微型语料库,而且需要在这三句话的前后分别加上开始符
<BOS>和结束符<EOS>(目的是为了让以某一词为条件的所有概率加起来是 1,从而保证这确实是一个合法的概率分布)接下来我们来看语料:<BOS>我爱你<EOS> <BOS>我爱她<EOS> <BOS>她爱你<EOS>BOS:Begining Of Sequence,代表序列开始。 EOS:End Of Sequence,代表序列结束。
利用 Bi-gram 计算各个词出现的概率:
- 单词 "<BOS>" 出现的次数:3次
- 单词 "我" 出现的次数:2次
- 单词 "爱" 出现的次数:3次
- 单词 "你" 出现的次数:2次
- 单词 "她" 出现的次数:2次
- 单词 "<EOS>" 出现的次数:3次
- 二元组 "我爱" 出现的次数:2次
- 二元组 "爱你" 出现的次数:2次
- 二元组 "她爱" 出现的次数:1次
- 二元组 "爱她" 出现的次数:1次
- 二元组 "<BOS>我" 出现的次数:2次
- 二元组 "<BOS>她" 出现的次数:1次
- 二元组 "你<EOS>" 出现的次数:2次
- 二元组 "她<EOS>" 出现的次数:1次
利用 Bi-gram 计算相邻两个词先后出现的概率:
- P(我|
<BOS>) = Count(<BOS>我) / Count(<BOS>) = 2/3;- P(她|
<BOS>) = Count(<BOS>她) / Count(<BOS>) = 1/3;- P(爱|
我) = Count(我爱) / Count(我) = 1;- P(
<EOS>|你) = Count(你<EOS>) / Count(你) = 1;- P(你|
爱) = Count(爱你) / Count(爱) = 2/3;- P(她|爱) = Count(爱她) / Count(爱) = 1/3;
- P(爱|
她) = Count(她爱) / Count(她) = 1/2;- P(
<EOS>|她) = Count(她<EOS>) / Count(她) = 1/2.
这样我们就完成了 Bi-gram 各个概率值的计算,整个句子的概率就是挑选出对应的概率相乘即可。
- P(
<BOS>我爱你<EOS>) = P(我|<BOS>) × P(爱|我) × P(你|爱) × P(<EOS>|你) = 2/3 × 1 × 2/3 ×1 = 4/9- P(
<BOS>我爱她<EOS>) = P(我|<BOS>) × P(爱|我) × P(她|爱) × P(<EOS>|你) = 2/3 × 1 × 1/3 ×1 = 2/9- P(
<BOS>她爱你<EOS>) = P(她|<BOS>) × P(爱|她) × P(你|爱) × P(<EOS>|你) = 1/3 × 1 × 1 × 2/3 = 2/9
N-gram 语言模型使用统计频次来近似概率值,可能会出现数据稀疏问题:
- 如果分子为0,估计的概率值为0,由于连乘的方式会导致最终计算出句子的概率值为0;
- 如果分母为0,分母为0,计算的公式将没有任何意义
相关文章:
三、N元语法(N-gram)
为了弥补 One-Hot 独热编码的维度灾难和语义鸿沟以及 BOW 词袋模型丢失词序信息和稀疏性这些缺陷,将词表示成一个低维的实数向量,且相似的词的向量表示是相近的,可以用向量之间的距离来衡量相似度。 N-gram 统计语言模型是用来计算句子概率的…...
QML 3D入门知识路线
目前使用的版本 v5.14.0 模块导入 使用QML 3D时需要 import Qt3D.Core 2.14 核心模块类 V6以上的版本已经发布,所以有很多module会发生变化,主要有核心module、输入、逻辑、渲染、动画和扩展module,以及2D/3D场景模块 类名 能…...
蓝牙系列五:开源蓝牙协议BTStack框架代码阅读(1)
蓝牙学习系列,借鉴卫东上老师的蓝牙视频教程。 BTStack协议栈学习。首先来看一下,对于硬件操作,它是如何来进行处理的。在上篇文章中曾说过,在main函数里面它会调用硬件相关的代码,调用操作系统相关的代码。在BTStack中,可以搜索一下main.c,将会发现有很多main.c,都是…...
c++ 类内可以定义引用数据成员吗?
在C中,类内是可以定义引用数据成员的,但是在初始化对象时,必须在构造函数的成员初始化列表中对引用进行初始化,因为引用必须在创建时被初始化,并且不能在其生存期内引用不同的对象。下面是一个简单的示例: …...
MacBook2024苹果免费mac电脑清理垃圾软件CleanMyMac X
CleanMyMac X是一款专业的Mac清理软件,具备多种强大功能。首先,它能够智能清理Mac磁盘上的垃圾文件和多余语言安装包,从而快速释放电脑内存。其次,CleanMyMac X可以轻松管理和升级Mac上的应用,同时强力卸载恶意软件并修…...
Vue.js计算属性:实现数据驱动的利器
🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…...
10-ARM gicv3/gicv4的总结-基础篇
目录 1、gic的版本2、GICv3/gicv4的模型图3、gic中断号的划分4、GIC连接方式5、gic的状态6、gic框架7、gic Configuring推荐 本文转自 周贺贺,baron,代码改变世界ctw,Arm精选, armv8/armv9,trustzone/tee,s…...
数据库系统概论(超详解!!!) 第三节 关系数据库
1.基本概念 1. 域(Domain) 域是一组具有相同数据类型的值的集合。 2. 笛卡尔积(Cartesian Product) 给定一组域D1,D2,…,Dn,允许其中某些域是相同的。 D1,D2…...
Springboot 集成kafka 消费者实现ssl方式连接监听消息实现消费
证书准备:springboot集成kafka 消费者实现 如何配置是ssl方式连接的时候需要进行证书的转换。原始的证书是pem, 或者csr方式 和key方式的时候需要转换,因为kafka里面是jks 需要通过openssl进行转换。 证书处理: KeyStore 用于存储客户端的证…...
spark 实验二 RDD编程初级实践
目录 一. pyspark交互式编程示例(学生选课成绩统计) 该系总共有多少学生; 该系DataBase课程共有多少人选修; 各门课程的平均分是多少; 使用累加器计算共有多少人选了DataBase这门课。 二.编写独立应用程序实现数…...
【MySQL】not in遇上null的坑
今天遇到一个问题: 1、当 in 内的字段包含 null 的时候,正常过滤; 2、当 not in 内的字段包含 null 的时候,不能正常过滤,即使满足条件,最终结果也为 空。 测试如下: select * from emp e;当…...
鸿蒙4.0-DevEco Studio界面工程
DevEco Studio界面工程 DevEco Studio 下载与第一个工程新建的第一个工程界面回到Project工程结构来看 DevEco Studio 下载与第一个工程 DevEco Studio 下载地址:点击跳转 https://developer.harmonyos.com/cn/develop/deveco-studio#download 学习课堂以及文档地址…...
前端将html导出pdf文件解决分页问题
这是借鉴了qq_251025116大佬的解决方案并优化升级完成的,原文链接 1.安装依赖 npm install jspdf html2canvas2.使用方法 import htmlToPdffrom ./index.jsconst suc () > {message.success(success);};//记得在需要打印的div上面添加 idlet dom document.que…...
openssl3.2 - exp - 产生随机数
文章目录 openssl3.2 - exp - 产生随机数概述笔记END openssl3.2 - exp - 产生随机数 概述 要用到openssl产生的随机数, 查了资料. 如果用命令行产生随机数, 如下: openssl rand -hex -num 6 48bfd3a64f54单步跟进去, 看到主要就是调用了一个RAND_bytes(), 没其他了. 官方说…...
【三两波折】char *foo[]和char(*foo)[]有何不同?
1、先谈优先级 最高级别 —— 有四个,他们并不像运算符: []数组下标左到右结合()用于(表达式) or 函数名(形参表)左到右结合.读取结构体成员左到右结合->读取结构体成员(通过指针)左到右结合 第二级别…...
k8s(kubernetes)怎么查看pod服务对应哪些docker容器
Kubernetes(k8s)中的Pod是一组共享网络和存储资源的容器集合。每个Pod都包含一个或多个Docker容器,这些容器共享网络命名空间和存储卷,并在同一主机上运行。因此,可以将Pod视为一组紧密相关的Docker容器的逻辑主机&…...
[2023年]-hadoop面试真题(二)
[2023年]-hadoop面试真题(一) (北京) Maptask的个数由什么决定?(北京) 如何判定一个job的map和reduce的数量 ?(北京) MR中Shuffle过程 ?(北京) MR中处理数据流程 ?(…...
蓝桥杯备战刷题-滑动窗口
今天给大家带来的是滑动窗口的类型题,都是十分经典的。 1,无重复字符的最长子串 看例三,我们顺便来说一下子串和子序列的含义 子串是从字符串里面抽出来的一部分,不可以有间隔,顺序也不能打乱。 子序列也是从字符串里…...
LLM(十一)| Claude 3:Anthropic发布最新超越GPT-4大模型
2024年3月4日,Anthropic发布最新多模态大模型:Claude 3系列,共有Haiku、Sonnet和Opus三个版本。 Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,超过OpenAI的GPT-4。 Haiku模型更注重效率,能…...
20-Java备忘录模式 ( Memento Pattern )
Java备忘录模式 摘要实现范例 备忘录模式(Memento Pattern)保存一个对象的某个状态,以便在适当的时候恢复对象 备忘录模式属于行为型模式 摘要 1. 意图 在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对…...
Java面试必备:LiuJuan20260223Zimage常见问题解析
Java面试必备:LiuJuan20260223Zimage常见问题解析 本文针对Java面试中常见的LiuJuan20260223Zimage相关问题进行深度解析,涵盖核心原理、代码实现、优化策略等实用内容,帮助面试者系统掌握这一技术点。 1. 什么是LiuJuan20260223Zimage LiuJ…...
华为OD机试 - 几何平均值最大子数组 - 二分查找(Java 新系统 200分)
华为OD机试 新系统 题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题》。 刷的越多,抽中的概率越大,私信哪吒,备注华为OD,加入华为OD刷题交流群,每一题都有…...
PP-DocLayoutV3助力学术出版:LaTeX论文手稿的自动排版分析
PP-DocLayoutV3助力学术出版:LaTeX论文手稿的自动排版分析 每次看到那些排版精美、公式复杂的学术论文,你是不是也好奇过,这些文档里的结构信息——比如哪部分是标题、哪部分是公式、参考文献又在哪里——能不能被机器自动识别出来ÿ…...
VS Code高效同步本地项目至Gitee的完整指南
1. 为什么选择VS Code同步项目到Gitee 作为国内开发者最常用的代码托管平台之一,Gitee提供了稳定的Git服务和友好的中文界面。而VS Code凭借其轻量级和丰富的插件生态,已经成为许多程序员的首选编辑器。将两者结合使用,可以实现本地开发与云…...
03-高并发写架构详解
高并发写架构详解 一、知识概述 高并发写场景常见于日志采集、订单创建、消息发送、数据上报等业务,核心挑战是如何高效处理海量写入请求,同时保证数据不丢失、系统不崩溃。 核心指标: 写入TPS:1万 - 100万+ 数据可靠性:99.999% 写入延迟:P99 < 100ms 典型特征: 写…...
告别样板代码:用CommunityToolkit.MVVM简化你的WPF开发(最新版指南)
告别样板代码:用CommunityToolkit.MVVM重构WPF开发范式 当你在WPF项目中第20次手动实现INotifyPropertyChanged接口时,是否想过这种重复劳动正在吞噬宝贵的开发时间?MVVM模式虽优雅,但传统实现方式往往伴随着大量样板代码。这正是…...
2026奇点智能技术大会前瞻:为什么92%的搜索产品将在18个月内被淘汰?(AIAgent替代路径白皮书)
第一章:2026奇点智能技术大会:AIAgent智能搜索 2026奇点智能技术大会(https://ml-summit.org) 核心能力演进 AIAgent智能搜索在2026大会上首次公开全栈式语义理解架构,支持跨模态上下文延续、多跳推理与自主工具调用。相比传统关键词匹配引…...
算法面试通关秘籍:30场CV面试总结的深度学习要点
算法面试通关秘籍:30场CV面试总结的深度学习要点 大家好,我是资深AI讲师与学习规划师。专注计算机视觉教学与算法研发,过去三年我帮超过2500名有Python 基础的入门者,从"像素是什么"到"独立跑通CV项目"。今天…...
终极跨平台串口调试工具:5个秘诀让硬件调试效率翻倍
终极跨平台串口调试工具:5个秘诀让硬件调试效率翻倍 【免费下载链接】SerialPortAssistant This project is a cross-platform serial port assistant. It can run on WINDOWS, linux、android、macos system. 项目地址: https://gitcode.com/gh_mirrors/se/Seri…...
AlienFX-Tools终极指南:释放Alienware设备的全部潜能
AlienFX-Tools终极指南:释放Alienware设备的全部潜能 【免费下载链接】alienfx-tools Alienware systems lights, fans, and power control tools and apps 项目地址: https://gitcode.com/gh_mirrors/al/alienfx-tools AlienFX-Tools是一款功能强大的开源硬…...
