当前位置: 首页 > article >正文

主题模型三大基石:Unigram、LSA、PLSA详解与对比

🌟 主题模型演进图谱

文本建模三阶段
词袋模型 → 潜在语义 → 概率生成
Unigram → LSA → PLSA → LDA

📦 基础模型:Unigram模型

核心假设

  • 文档中每个词独立生成(词袋假设)

  • 忽略词语顺序和语义关联

  • 文档生成概率:P(d)=∏w∈dP(w)P(d)=∏w∈d​P(w)

数学表示

P(d)=∏i=1NP(wi)P(d)=∏i=1N​P(wi​)
其中:

  • NN为文档词数

  • P(wi)P(wi​)为词wiwi​的全局出现概率

🔍 潜在语义分析:LSA/LSI模型

核心思想

  • 通过矩阵分解发现潜在语义维度

  • 使用SVD分解词-文档矩阵

  • 降维消除噪声,捕捉高阶关联

算法步骤

  1. 构建词-文档矩阵Xm×nXm×n​

  2. 奇异值分解:X=UΣVTX=UΣVT

  3. 选择前kk个奇异值:X~=UkΣkVkTX~=Uk​Σk​VkT​

数学表示

文档向量:dj=ΣkVkT[:,j]dj​=Σk​VkT​[:,j]
词向量:wi=UkΣk[i,:]wi​=Uk​Σk​[i,:]

参数设置

from sklearn.decomposition import TruncatedSVDsvd = TruncatedSVD(n_components=100)  # 选择潜在维度k=100
lsa_matrix = svd.fit_transform(tfidf_matrix)

优缺点对比

优势局限
有效缓解一词多义问题无法处理新文档(冷启动)
数学理论严谨可解释性较差
计算效率较高负值语义解释困难

🎲 概率突破:PLSA模型

核心创新

  • 引入隐变量z表示主题

  • 概率框架建模文档生成过程

  • 联合概率分解:
    P(d,w)=P(d)∑zP(z∣d)P(w∣z)P(d,w)=P(d)∑z​P(z∣d)P(w∣z)

生成过程

  1. 以概率P(d)P(d)选择文档

  2. 根据P(z∣d)P(z∣d)选择主题

  3. 根据P(w∣z)P(w∣z)生成词语

EM算法求解

E-Step:计算主题后验概率
P(z∣d,w)=P(z∣d)P(w∣z)∑z′P(z′∣d)P(w∣z′)P(z∣d,w)=∑z′​P(z′∣d)P(w∣z′)P(z∣d)P(w∣z)​

M-Step:更新参数
P(w∣z)∝∑dn(d,w)P(z∣d,w)P(w∣z)∝∑d​n(d,w)P(z∣d,w)
P(z∣d)∝∑wn(d,w)P(z∣d,w)P(z∣d)∝∑w​n(d,w)P(z∣d,w)

代码实现概览

class PLSA:def __init__(self, n_topics=10, max_iter=50):self.n_topics = n_topicsself.max_iter = max_iterdef fit(self, doc_word_matrix):# 初始化参数self.P_z_d = np.random.rand(n_docs, n_topics)self.P_w_z = np.random.rand(n_topics, n_words)for _ in range(self.max_iter):# E-stepgamma = self.P_z_d[:, None] * self.P_w_z.T[None, :]gamma /= gamma.sum(axis=2, keepdims=True)# M-stepself.P_w_z = (doc_word_matrix[:, None] * gamma).sum(axis=0)self.P_w_z /= self.P_w_z.sum(axis=1, keepdims=True)self.P_z_d = (doc_word_matrix * gamma).sum(axis=2)self.P_z_d /= self.P_z_d.sum(axis=1, keepdims=True)

优缺点分析

突破性优势现存问题
概率框架可解释性强参数数量随文档线性增长
解决一词多义、一义多词问题容易过拟合
支持软聚类缺乏文档生成概率模型

📊 三大模型对比全景图

维度UnigramLSAPLSA
模型类型统计语言模型线性代数模型概率生成模型
核心思想词频独立潜在语义空间主题隐变量
数学工具极大似然估计SVD分解EM算法
可解释性
处理新文档直接计算需重新投影无法处理
参数复杂度O(V)O(k×(V+D))O(D×K + K×V)
主要应用文本分类基线语义检索主题发现

(V: 词表大小, D: 文档数, K: 主题数)

💡 工程应用建议

场景选择指南

  • 短文本快速处理 → Unigram + TF-IDF

  • 语义搜索/推荐系统 → LSA/LSI

  • 主题挖掘/内容分析 → PLSA

参数调优技巧

  1. 累计方差贡献率 > 80%

  2. svd.explained_variance_ratio_.cumsum()[:k]

    PLSA主题数确定

    • 困惑度(Perplexity)最小化

    • 人工评估主题一致性

  3. 防止过拟合

    • 增加平滑项

    • 使用贝叶斯变种(如LDA)

🚀 演进到LDA

PLSA的贝叶斯升级版:

最新进展

掌握这些基础模型,是理解现代NLP技术的必经之路!

  • 引入Dirichlet先验分布

  • 解决过拟合问题

  • 支持新文档推理

    总结与展望

    从Unigram到PLSA的发展历程,体现了文本建模的三大进步:

  • 从独立到关联:打破词袋独立性假设

  • 从显式到潜在:发现隐藏语义结构

  • 从确定到概率:建立生成式模型框架

  • 神经网络主题模型(NTM)

  • 结合预训练语言模型(BERTopic)

    • 动态主题模型(DTM)

  1. 延伸阅读

  2. PLSA原始论文

  3. 主题模型可视化工具

  4. 剑桥大学主题模型讲义

相关文章:

主题模型三大基石:Unigram、LSA、PLSA详解与对比

🌟 主题模型演进图谱 文本建模三阶段: 词袋模型 → 潜在语义 → 概率生成 Unigram → LSA → PLSA → LDA 📦 基础模型:Unigram模型 核心假设 文档中每个词独立生成(词袋假设) 忽略词语顺序和语义关联 …...

Redis 热 key 和大 key 问题

一、什么是 Redis 热 key? 热 key(Hot Key)定义: 在单位时间内被**频繁访问(读/写)**的 key,导致其访问集中、压力过大。 热 key 常见表现: QPS 极高(某 key 每秒被访问…...

基准指数选股策略思路

一种基于Python和聚宽平台的量化交易策略,主要包含以下内容: 1. 导入必要的库 - 导入jqdata和jqfactor库用于数据获取和因子计算。 - 导入numpy和pandas库用于数据处理。 2. 初始化函数 - 设置基准指数为沪深300指数。 - 配置交易参数,如使用…...

SAP接口超时:对 FOR ALL ENTRIES IN 的优化

SAP接口超时 经分析要10多分钟以上才出结果,且是这个语句耗时较长: SELECTaufnrmatnrbdmnglgortmeinschargFROM resbINTO CORRESPONDING FIELDS OF TABLE lt_lylcddxhFOR ALL ENTRIES IN lt_lylcddWHERE aufnr IN r_aufnr发现RESB有420万条记录&#xf…...

如何成功防护T级超大流量的DDoS攻击

防护T级超大流量的DDoS攻击需要综合技术、架构与运营策略的多层次防御体系。以下是基于最新技术实践和行业案例总结的关键防护策略: 一、流量清洗与分布式处理 部署流量清洗中心 T级攻击的核心防御依赖于专业的流量清洗技术。通过部署分布式流量清洗集群&#xff0c…...

【Easylive】为什么需要手动转换 feign.Response 到 HttpServletResponse

【Easylive】项目常见问题解答(自用&持续更新中…) 汇总版 为什么需要手动转换 feign.Response 到 HttpServletResponse? feign.Response 是 Feign 客户端调用远程服务后返回的原始 HTTP 响应对象,而 HttpServletResponse 是…...

深入理解机器学习:人工智能的核心驱动力

在当今数字化时代,机器学习作为人工智能领域的关键技术,正以前所未有的速度改变着我们的生活和工作方式。从智能语音助手到精准的医疗诊断,从个性化的推荐系统到自动驾驶汽车,机器学习的应用无处不在,其影响力深远而广…...

Shell 脚本入门:从零开始写自动化脚本

目录 一、Shell 、Shell 命令、Shell 脚本 二、常用 Shell 命令与注释写法 三、echo 命令的使用 四、Shell 变量类型 五、变量与参数使用 六、读取用户输入 七、算术运算 八、条件判断与流程控制 九、循环结构 十、函数定义与调用 一、Shell 、Shell 命令、Shell 脚本…...

Vibracostic EDI 需求分析

Vibracostic 是德国Freudenberg集团旗下全球领先的减振与噪音控制技术公司,专注于为汽车及工业领域提供高效振动管理和隔音解决方案,客户涵盖宝马、奔驰、特斯拉等主流车企。 Vibracostic EDI 需求分析 供应商接收Vibracostic发来的DELFOR交付预测报文…...

【网络安全】社会工程学策略

1. 社会工程学简介 社会工程攻击是威胁行为者常用的攻击方式。这是因为,诱骗人们提供访问权限、信息或金钱通常比利用软件或网络漏洞更容易。 您可能还记得,社会工程学是一种利用人为错误来获取私人信息、访问权限或贵重物品的操纵技术。它是一个涵盖性…...

项目笔记2:post请求是什么,还有什么请求

在 HTTP(超文本传输协议)中,请求方法用于向服务器表明客户端想要执行的操作。POST 请求是其中一种常见的请求方法,此外还有 GET、PUT、DELETE 等多种请求方法,下面为你详细介绍: POST 请求 定义&#xff…...

【最新版】西陆健身系统源码全开源+uniapp前端

一.系统介绍 一款基于UniappThinkPHP开发健身系统,支持多城市、多门店,包含用户端、教练端、门店端、平台端四个身份。有团课、私教、训练营三种课程类型,支持在线排课。私教可以通过上课获得收益,在线申请提现功能,无…...

常见移动机器人底盘模型对比(附图)

1. 概述 底盘模型驱动场景优势劣势双轮差速两轮驱动室内AGV结构简单、成本低转弯半径大,易打滑四轮差速四轮独立驱动复杂地形无人车全方位转向,机动性强控制复杂,能耗高阿克曼模型前轮转向后驱户外无人驾驶车高速稳定性好转弯半径大&#xf…...

如何在 MinGW 和 Visual Studio (MSVC) 之间共享 DLL

如何在 MinGW 和 Visual Studio (MSVC) 之间共享 DLL ✅ .dll.a 和 .lib 是什么? 1. .dll.a(MinGW 下的 import library) 作用:链接时告诉编译器如何调用 DLL 中的函数。谁用它:MinGW 编译器(如 g&#x…...

【MongoDB】windows安装、配置、启动

🪟 一、下载 MongoDB 安装包 打开官方地址: 👉 https://www.mongodb.com/try/download/community 配置下载选项: 选项设置Version最新(默认就好)OSWindowsPackageMSI(推荐) 点击【D…...

java实现 PDF中的图片文字内容识别

通过Tesseract进行OCR识别 前提:安装好Tesseract并下载好简体中文语言包,本文在Windows上验证过,需要安装包可以关注 公号 easy4java获取 1.配置maven依赖 <!-- pdf 解析--><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdf…...

GitLab_密钥生成(SSH-key)

目录 1.密钥命令 2.自定义路径 3.输2次密码 4.查看公钥&#xff1a;&#xff08;打开文件&#xff09; 5. 把公钥&#xff0c;放到GitLab上面 6.填写公钥标题 7.点击 Add key 按钮 8. 验证添加是否成功 9. 测试 SSH 连接 10.彩蛋&#xff08;把ssh-key添加到python文…...

【视频时刻检索】Text-Video Retrieval via Multi-Modal Hypergraph Networks 论文阅读

Text-Video Retrieval via Multi-Modal Hypergraph Networks 论文阅读 ABSTRACT1 INTRODUCTION2 PRELIMINARIES3 OUR FRAMEWORK3.1 Multi-Modal Hypergraph Networks3.2 Variational Inference 4 EXPERIMENT6 CONCLUSION 文章信息&#xff1a; 发表于&#xff1a;WSDM 24 原文…...

BUUCTF-[GWCTF 2019]re3

[GWCTF 2019]re3 查壳&#xff0c;64位无壳 然后进去发现主函数也比较简单&#xff0c;主要是一个长度校验&#xff0c;然后有一个mprotect函数&#xff0c;说明应该又是Smc&#xff0c;然后我们用脚本还原sub_402219函数处的代码 import idc addr0x00402219 size224 for …...

C++入侵检测与网络攻防之暴力破解

目录 1.nessus扫描任务 2.漏洞信息共享平台 3.nessus扫描结果 4.漏扫报告的查看 5.暴力破解以及hydra的使用 6.crunch命令生成字典 7.其他方式获取字典 8.复习 9.关于暴力破解的防御的讨论 10.pam配置的讲解 11.pam弱密码保护 12.pam锁定账户 13.shadow文件的解析 …...

管理100个小程序-很难吗

20公里的徒步-真难 群里的伙伴发起了一场天目山20公里徒步的活动&#xff0c;想着14公里都轻松拿捏了&#xff0c;思考了30秒后&#xff0c;就借着春风带着老婆孩子就出发了。一开始溪流清澈见底&#xff0c;小桥流水没有人家&#xff1b;青山郁郁葱葱&#xff0c;枯藤老树没有…...

如何在Linux用libevent写一个聊天服务器

废话少说&#xff0c;先看看思路 因为libevent的回调机制&#xff0c;我们可以借助这个机制来创建bufferevent来实现用户和用户进行通信 如果成功连接后我们可以直接在listener回调函数里创建一个bufferevent缓冲区&#xff0c;并为每个缓冲区设置相应的读回调和事件回调&…...

系统设计(1)—前端—CDN—Nginx—服务集群

简介&#xff1a; 本指南旨涵盖前端、CDN、Nginx 负载均衡、服务集群、Redis 缓存、消息队列、数据库设计、熔断限流降级以及系统优化等模块的核心要点。我们将介绍各模块常见的设计方案与优化策略&#xff0c;并结合电商秒杀、SaaS CRM 系统、支付系统等高并发场景讨论实践技巧…...

算法设计与分析7(贪心算法)

Prim 算法&#xff08;寻找最小生成树&#xff09; 用途&#xff1a;Prim 算法是一种贪心算法&#xff0c;用于在加权无向图中寻找最小生成树&#xff08;MST&#xff09;&#xff0c;即能够连接图中所有顶点且边的权重之和最小的子图。基本思路&#xff1a; 从图中任意一个顶…...

马浩棋:产通链CT-Chain 破局不动产 RWA,引领数智金融新变革

全球不动产 RWA 数智金融高峰论坛上马浩棋先生致辞 在全球不动产 RWA 数智金融高峰论坛暨产通链 CT-Chain 上链首发会的现场&#xff0c;犀牛世纪集团&#xff08;香港&#xff09;有限公司董事会主席马浩棋成为众人瞩目的焦点。此次盛会汇聚了全球金融、区块链及不动产领域的…...

神经符号混合与跨模态对齐:Manus AI如何重构多语言手写识别的技术边界

在全球化数字浪潮下,手写识别技术长期面临"巴别塔困境"——人类书写系统的多样性(从中文象形文字到阿拉伯语连写体)与个体书写风格的随机性,构成了人工智能难以逾越的双重壁垒。传统OCR技术在处理多语言手写场景时,准确率往往不足70%,特别是在医疗处方、古代文…...

学习整理在centos7上安装mysql8.0版本教程

学习整理在centos7上安装mysql8.0版本教程 查看linux系统版本下载mysql数据库安装环境检查解压mysql安装包创建MySQL需要的目录及授权新增用户组新增组用户配置mysql环境变量编写MySQL配置文件初始化数据库初始化msyql服务启动mysql修改初始化密码配置Linux 系统服务工具,使My…...

Kubernetes 节点 Not Ready 时 Pod 驱逐机制深度解析(下)

#作者&#xff1a;邓伟 文章目录 三、深度解析&#xff1a;源码逻辑与调优策略四、常见问题与排查五、最新动态与技术演进总结 三、深度解析&#xff1a;源码逻辑与调优策略 TaintManager 核心源码逻辑 &#xff08;1&#xff09;参数定义&#xff08;kube-controller-manage…...

SIEMENS PLC程序解读 -BLKMOV (指定长度数据批量传输)

1、程序代码 2、程序解读 这段西门子 PLC 程序&#xff08;程序段 10&#xff09;实现了基于条件的数据块移动功能&#xff0c;具体解释如下&#xff1a; 条件触点&#xff1a; %M0.1 Always<>(TRUE)&#xff08;注释为 AT<>1&#xff09;&#xff1a;当 M0.1 的值…...

初识HashMap

HashMap&#xff1a;无序&#xff0c;不重复&#xff0c;无索引 HashMap小练习&#xff1a; import java.text.ParseException; import java.util.*; import java.util.function.BiConsumer; import java.util.function.Consumer;import static java.lang.Math.abs;public cla…...