当前位置：首页 > news >正文

李宏毅结构化学习 03

news 2025/7/8 7:01:08

文章目录

一、Sequence Labeling 问题概述
二、Hidden Markov Model(HMM)
三、Conditional Random Field(CRF)
四、Structured Perceptron/SVM
五、Towards Deep Learning

一、Sequence Labeling 问题概述

在这里插入图片描述

二、Hidden Markov Model(HMM)

在这里插入图片描述

在这里插入图片描述
上图 training data 中的黑色字为x，即文字序列。红色字为 $\hat y$ ，即词性序列。

在这里插入图片描述
$co u n t (s)$ 为训练数据中所有 $s$ 的个数。
$\to s')$ 为训练数据中所有 $s 后面接 s^{'}$ 的个数。
$\to t)$ 为训练数据中所有word $t$ 的标签为 $s$ 的个数。
$P(y_1|start)$ 为标签 $y_1$ 在句首出现的个数，除以句子总个数。
$P(end|y_L)$ 为标签 $y_L$ 在句尾出现的个数，除以 $y_L$ 总个数。

在这里插入图片描述

在这里插入图片描述
这里 $\to V \to a$ 并没有在训练数据中出现过，但是计算的概率反而比训练数据中出现过一次的 $\to D \to a$ 高。所以HMM会脑补一些没有出现过的数据。

HMM产生这种脑补的情况是因为转移概率和发射概率是相互独立的。解决这个问题的方法是用一个更复杂的模型去处理这个问题。用CRF也可以处理这个问题。
在这里插入图片描述

三、Conditional Random Field(CRF)

在这里插入图片描述
因为 $\exp (w \cdot \phi (x,y))$ 可能大于1，所以无法把它当成概率，只能说 $P (x, y)$ 正比于它。
因为 $\sum_{y' \in \mathbb{Y}} \exp(w \cdot \phi(x,y'))$ 由于和变量 $y^{'}$ 没有关系，只和 $x$ 有关系，所以简记为 $Z (x)$ 。

在这里插入图片描述

在这里插入图片描述
红色的向量中的每一维都依赖于 $(x, y)$ ，所以可以认为它是这个向量所形成的特征，记为 $\phi(x,y)$

在这里插入图片描述
由于w的元素可正可负，当为正数的时候，求EXP，就会大于1。并且例如，给定s，求和所有的t，我们也无法保证等于1。所以我们说 $\text P(x,y)$ 正比于 $\exp(w \cdot \phi (x,y))$ ，而不说等于。

在这里插入图片描述

在这里插入图片描述
Part 2 的维度大小：|S|个tag中的每个tag后面都能再接|S|个tag，所以是|S| $\times$ |S|。然后start后面能接|S|个tag，end前面能接|S|个tag，所以是2|S|。
CRF比HMM强的点在于，可以自己定义 $\phi(x,y)$

在这里插入图片描述

横轴表示HMM犯错的百分比，纵轴表示CRF犯错的百分比。如果点在 $\degree$ 对角线左侧，表示HMM表现比较好；在 $\degree$ 对角线右侧，表示CRF表现比较好。
在这里插入图片描述

在这里插入图片描述

四、Structured Perceptron/SVM

在这里插入图片描述

在这里插入图片描述
如果CRF中，另学习率为1，那么两者参数迭代的公式是相近的。其中Strucured Perceptron参数迭代公式中，减掉的最后一项 $\phi (x^n, \widetilde y^n)$ 是其概率最大的一项。而CRF减掉的最后一项，则是所有 $\phi(x^n,y')$ 与其概率的加权之和。

在这里插入图片描述

五、Towards Deep Learning

在这里插入图片描述

可以将 $\text P(x_l,y_l)$ 用神经网络，例如RNN的输出进行替换。
在这里插入图片描述
因为用HMM做inference的时候是给定x，看哪一个y可以让这个概率最大。所以x是给定的，不管 $\text P(x_l)$ 是多少，都不会影响最后得到的y了。故，不用管 $\text P(x_l)$ 了。

也有如下应用：
在这里插入图片描述
上图中的x不再是input的，而是RNN的output。

在这里插入图片描述

李宏毅结构化学习 03

文章目录

一、Sequence Labeling 问题概述

二、Hidden Markov Model(HMM)

三、Conditional Random Field(CRF)

四、Structured Perceptron/SVM

五、Towards Deep Learning

相关文章：

李宏毅结构化学习 03

java重点学习-总结

文件操作

docker存储

Ubuntu20.04.6 环境下docker设置proxy

如何给文件夹里面的文件批量添加前缀和编号（利用C#写的小工具）

使用分布式调度框架时需要考虑的问题——详解

C语言编译四大阶段

C# 关于“您与该网站的连接不是私密连接...”的问题

【超详细】基于YOLOv8训练无人机视角Visdrone2019数据集

VUE项目在Linux子系统部署

开源 | 如何在产品上扩展大储存？合宙LuatOS外挂SPI Flash库轻松搞定

20 基于STM32的温度、电流、电压检测proteus仿真系统（OLED、DHT11、继电器、电机）

spring自定义属性编辑器

在VMware16中安装Windows 10：完整教程

MATLAB系列09：图形句柄

把设计模式用起来！（4）用不好模式？之原理不明

安卓13去掉下拉菜单的Dump SysUI 堆的选项 android13删除Dump SysUI 堆

vue3常用的组件间通信

Windows 查找特定进程的ID并杀死

华为云AI开发平台ModelArts

Python：操作 Excel 折叠

深入理解JavaScript设计模式之单例模式

基于Uniapp开发HarmonyOS 5.0旅游应用技术实践

Android15默认授权浮窗权限

汇编常见指令

Java面试专项一-准备篇

图表类系列各种样式PPT模版分享

Go 并发编程基础：通道（Channel）的使用

C++.OpenGL （20/64）混合（Blending）