当前位置：首页 > article >正文

用层次聚类给文本自动分个类：从词向量到TF-IDF的完整实战（含Scipy linkage详解）

article 2026/4/19 23:29:09

用层次聚类给文本自动分个类从词向量到TF-IDF的完整实战当面对海量文本数据时如何快速发现隐藏的语义结构层次聚类提供了一种直观的解决方案。不同于K-means需要预设类别数量层次聚类通过构建树状图Dendrogram揭示数据多层次的聚合关系特别适合探索性数据分析。下面我们将从特征工程到结果解读完整走通文本聚类的全流程。1. 文本特征工程从词袋到语义文本聚类的第一步是将非结构化的文字转化为计算机可处理的数值向量。目前主流方法可分为基于统计和基于语义两大类1.1 TF-IDF经典的词频统计方法TF-IDF通过衡量词语在文档中的相对重要性构建特征向量。其核心思想是词频TF词语在当前文档出现的频率逆文档频率IDF降低常见词语权重的惩罚因子from sklearn.feature_extraction.text import TfidfVectorizer corpus [苹果发布新款手机, 新能源汽车销量暴涨, 苹果股价创新高] vectorizer TfidfVectorizer(token_patternr(?u)\b\w\b) X vectorizer.fit_transform(corpus) print(X.toarray())注意中文文本需先分词可通过token_pattern参数调整token匹配规则1.2 词向量捕捉语义关系Word2Vec、FastText等模型生成的词向量能捕捉词语的语义关系。对于文档表示常用方法有简单平均对文档中所有词的向量取均值加权平均结合TF-IDF权重对词向量加权import numpy as np from gensim.models import Word2Vec # 假设已有训练好的词向量模型 model Word2Vec.load(word2vec.model) def doc2vec(doc): vectors [model.wv[word] for word in doc if word in model.wv] return np.mean(vectors, axis0) if vectors else np.zeros(model.vector_size)两种方法的对比特征类型优势局限性TF-IDF计算简单解释性强忽略词序无法捕捉语义词向量保留语义关系需要预训练模型长文档效果不稳定2. 距离度量文本相似性计算选择合适的距离度量对聚类效果至关重要。常见文本距离包括2.1 余弦相似度最适合衡量文本相似度关注向量方向而非长度from scipy.spatial.distance import pdist # 对TF-IDF矩阵计算 tfidf_dist pdist(X.toarray(), metriccosine) # 对词向量矩阵计算 w2v_dist pdist(np.array([doc2vec(doc) for doc in docs]), metriccosine)2.2 其他距离度量对比度量方式公式特点适用场景欧式距离直线距离低维数值数据杰卡德距离集合相似度短文本、关键词集合编辑距离字符操作次数拼写检查、DNA序列提示文本数据通常稀疏且高维余弦距离比欧式距离更合理3. 层次聚类实战Scipy全流程3.1 linkage函数详解scipy.cluster.hierarchy.linkage是层次聚类的核心函数其method参数决定簇间距离的计算方式from scipy.cluster.hierarchy import linkage # 使用Ward方法最小化方差 Z linkage(tfidf_dist, methodward)主要method参数对比single最小距离易形成链条状聚类complete最大距离倾向生成紧凑簇average平衡折中计算复杂度适中ward最小化簇内方差适合均匀大小的簇3.2 树状图可视化树状图直观展示聚类过程帮助确定最佳切割点import matplotlib.pyplot as plt from scipy.cluster.hierarchy import dendrogram plt.figure(figsize(10, 5)) dendrogram(Z, labelslabels, orientationtop) plt.axhline(y0.8, ck, ls--) # 假设0.8为切割阈值 plt.show()树状图解读要点纵轴高度表示合并时的距离横轴标签顺序反映聚类相似性切割线位置决定最终簇数量4. 结果提取与应用4.1 簇标签生成使用fcluster根据阈值获取最终分类from scipy.cluster.hierarchy import fcluster # 按距离阈值切割 clusters fcluster(Z, t0.8, criteriondistance) # 按预设簇数量切割 k 3 clusters fcluster(Z, tk, criterionmaxclust)4.2 结果分析与优化典型的结果分析流程统计簇大小分布检查是否出现极端大簇或大量单点簇关键词提取用TF-IDF或词向量中心点解释簇主题参数调优尝试不同距离度量和linkage方法组合# 分析各簇关键词 from collections import Counter for i in range(max(clusters)): cluster_docs [docs[j] for j in range(len(docs)) if clusters[j]i1] words [word for doc in cluster_docs for word in doc] print(fCluster {i1} top words:, Counter(words).most_common(5))实际项目中建议先用小样本测试不同参数组合再扩展到全量数据。对于新闻标题聚类ward方法余弦距离的组合通常表现稳定而短文本评论可能更适合complete linkage。

用层次聚类给文本自动分个类：从词向量到TF-IDF的完整实战（含Scipy linkage详解）

相关文章：

用层次聚类给文本自动分个类：从词向量到TF-IDF的完整实战（含Scipy linkage详解）

别再手动lock/unlock了！Qt多线程开发中QMutexLocker的正确打开方式（附源码对比）

PoeCharm：10个技巧让你成为流放之路角色构建大师

2026届学术党必备的十大AI辅助写作神器推荐榜单

别再为Linux读卡器发愁了！手把手教你用pcsc-lite搞定USB智能卡驱动（附常见错误排查）

别再傻傻分不清了！GCC、Glibc、Libstdc++ 在 Linux 下到底是啥关系？

python重命名文件发生的一些问题记录

文本文件名相似度筛选

四十二、Fluent欧拉模型流化床模拟：从基础设置到颗粒动力学解析

解密WPF黑盒：5分钟掌握dnSpy BAML反编译核心技术

【量化实战】解码期权PCR：从情绪指标到稳健策略的构建与优化

为何买车不做小白鼠，得看口碑？使用多年的车主指某些电车容易散架！后悔得肠子都青了

基于双向反激变换器的SOC估算与主动均衡仿真的研究

逆向实战：手把手带你用Node.js复现某音a_bogus算法核心步骤（含完整代码）

别再死磕公式了！用MATLAB手把手复现DIC中的FA-GN与IC-GN算法（附完整代码）

用Python和Pandas手把手实现你的第一个Q-learning寻宝游戏（附完整代码）

别再硬啃理论了！用‘主从博弈’的视角理解Benders分解

【GD32】TIMER基本定时器实战：从时钟树解析到精准微秒延时实现

MetaboAnalystR 4.2：代谢组学数据分析的完整R包解决方案指南

梁高直降25cm！HPH新构造省时又省钱

2026届必备的五大AI辅助论文神器推荐榜单

告别工厂模式：用更清晰的方式在Spring Boot里玩转MQTT发布与订阅（附可运行Demo）

ConvNeXt 系列改进：位置信息补全：ConvNeXt 结合 CoordAtt（坐标注意力），提升密集预测任务表现

【算法日记】Day 20 动态规划专题——状态压缩DP（三）

HAKE模型实战：用极坐标嵌入搞定知识图谱的层级关系预测

CANoe COM接口深度探索：如何像查字典一样使用Type Library和对象层次图

Cadence SPB16.6 自带400+原理图库(.olb)快速盘点与高效复用指南

用Python实战模糊粗糙集：从理论到代码，5步搞定高维数据降维

互联网大厂 Java 求职面试：音视频场景中的技术挑战

RKMEDIA VO图层实战：从DRM基础到双屏叠加配置