当前位置：首页 > article >正文

机器学习——聚类评价指标SSE、SC、CH演示案例

article 2026/5/23 16:25:04

一.评价指标简介SSE考虑了簇内因素SSE越越小越好SSE肘部法常用来确定聚类的最佳K值SC轮廓系数法考虑了簇内和簇间因素数值越大越好CH考虑簇内簇间以及K值因素数值越大越好二.代码部分详解1.SSE肘部法#1.演示SSE肘部法 def dm01_SSE(): #1.定义sse列表记录每个k值的SSE值 sse_list [] #生成数据参1样本数量参2特征数参34个簇参4标准差参5随机种子 x, y make_blobs(n_samples1000, n_features2, centers[[-1, -1], [0, 0], [1, 1], [2, 2]], cluster_std[0.4, 0.2, 0.2, 0.2], random_state23) #3.for循环遍历获取到每个K值计算对应的sse值并添加到sse_list 列表中 for k in range(1,100): #3.1 创建k-means对象指定K值迭代次数随机种子 estimator KMeans(n_clustersk, max_iter100, random_state23) #3.2训练模型 estimator.fit(x) #3.3模型预测 #3.4获取到每个簇的sse值 sse_value estimator.inertia_ #3.5将每个K值对应的sse添加到sse_list中 sse_list.append(sse_value) #绘制SSE曲线-》数据的可视化 #4.1创建画布指定尺寸 plt.figure(figsize(20, 10)) #4.2设计标题 plt.title(SSE) #4.3设置x的刻度 plt.xticks(range(0, 100, 3) ) #4.4添加x轴 y轴的标签 plt.xlabel(K) plt.ylabel(SSE) #4.5绘制网格 plt.grid() #4.6绘制折线图 #参1K值参2K对应的sse值 plt.plot(range(1, 100), sse_list) plt.show()2.SC#2.演示SC轮廓系数法 def dm02_SC(): #1.定义sc列表记录每个k值的sc值 sc_list [] #生成数据参1样本数量参2特征数参34个簇参4标准差参5随机种子 x, y make_blobs(n_samples1000, n_features2, centers[[-1, -1], [0, 0], [1, 1], [2, 2]], cluster_std[0.4, 0.2, 0.2, 0.2], random_state23) #3.for循环遍历获取到每个K值计算对应的sc值并添加到sc_list 列表中 for k in range(2, 100): #考虑簇外至少两个簇 #3.1 创建k-means对象指定K值迭代次数随机种子 estimator KMeans(n_clustersk, max_iter100, random_state23) #3.2训练模型 estimator.fit(x) #3.3模型预测 y_pred estimator.predict(x) #3.4获取到每个簇的sc值 sc_value silhouette_score(x, y_pred) #3.5将每个K值对应的sc添加到sc_list中 sc_list.append(sc_value) #绘制sc曲线-》数据的可视化 #4.1创建画布指定尺寸 plt.figure(figsize(20, 10)) #4.2设计标题 plt.title(sc) #4.3设置x的刻度 plt.xticks(range(0, 100, 3) ) #4.4添加x轴 y轴的标签 plt.xlabel(K) plt.ylabel(sc) #4.5绘制网格 plt.grid() #4.6绘制折线图 #参1K值参2K对应的sc值 plt.plot(range(2, 100), sc_list) plt.show()3.CH#3.演示CH轮廓系数法 def dm03_ch(): #1.定义ch列表记录每个k值的ch值 ch_list [] #生成数据参1样本数量参2特征数参34个簇参4标准差参5随机种子 x, y make_blobs(n_samples1000, n_features2, centers[[-1, -1], [0, 0], [1, 1], [2, 2]], cluster_std[0.4, 0.2, 0.2, 0.2], random_state23) #3.for循环遍历获取到每个K值计算对应的ch值并添加到ch_list 列表中 for k in range(2, 100): #考虑簇外至少两个簇 #3.1 创建k-means对象指定K值迭代次数随机种子 estimator KMeans(n_clustersk, max_iter100, random_state23) #3.2训练模型 estimator.fit(x) #3.3模型预测 y_pred estimator.predict(x) #3.4获取到每个簇的ch值 ch_value calinski_harabasz_score(x, y_pred) #3.5将每个K值对应的ch添加到ch_list中 ch_list.append(ch_value) #绘制ch曲线-》数据的可视化 #4.1创建画布指定尺寸 plt.figure(figsize(20, 10)) #4.2设计标题 plt.title(ch) #4.3设置x的刻度 plt.xticks(range(0, 100, 3) ) #4.4添加x轴 y轴的标签 plt.xlabel(K) plt.ylabel(ch) #4.5绘制网格 plt.grid() #4.6绘制折线图 #参1K值参2K对应的ch值 plt.plot(range(2, 100), ch_list) plt.show()4.完整代码 SSE:只考虑簇内部值越小越好 SC:考虑了簇内和簇间值越大越好 CH考虑了簇内簇间以及K值值越大越好 #导包 from sklearn.cluster import KMeans import matplotlib.pyplot as plt from sklearn.datasets import make_blobs from sklearn.metrics import calinski_harabasz_score, silhouette_score import matplotlib matplotlib.use(TkAgg) # 解决后端错误 #1.演示SSE肘部法 def dm01_SSE(): #1.定义sse列表记录每个k值的SSE值 sse_list [] #生成数据参1样本数量参2特征数参34个簇参4标准差参5随机种子 x, y make_blobs(n_samples1000, n_features2, centers[[-1, -1], [0, 0], [1, 1], [2, 2]], cluster_std[0.4, 0.2, 0.2, 0.2], random_state23) #3.for循环遍历获取到每个K值计算对应的sse值并添加到sse_list 列表中 for k in range(1,100): #3.1 创建k-means对象指定K值迭代次数随机种子 estimator KMeans(n_clustersk, max_iter100, random_state23) #3.2训练模型 estimator.fit(x) #3.3模型预测 #3.4获取到每个簇的sse值 sse_value estimator.inertia_ #3.5将每个K值对应的sse添加到sse_list中 sse_list.append(sse_value) #绘制SSE曲线-》数据的可视化 #4.1创建画布指定尺寸 plt.figure(figsize(20, 10)) #4.2设计标题 plt.title(SSE) #4.3设置x的刻度 plt.xticks(range(0, 100, 3) ) #4.4添加x轴 y轴的标签 plt.xlabel(K) plt.ylabel(SSE) #4.5绘制网格 plt.grid() #4.6绘制折线图 #参1K值参2K对应的sse值 plt.plot(range(1, 100), sse_list) plt.show() #2.演示SC轮廓系数法 def dm02_SC(): #1.定义sc列表记录每个k值的sc值 sc_list [] #生成数据参1样本数量参2特征数参34个簇参4标准差参5随机种子 x, y make_blobs(n_samples1000, n_features2, centers[[-1, -1], [0, 0], [1, 1], [2, 2]], cluster_std[0.4, 0.2, 0.2, 0.2], random_state23) #3.for循环遍历获取到每个K值计算对应的sc值并添加到sc_list 列表中 for k in range(2, 100): #考虑簇外至少两个簇 #3.1 创建k-means对象指定K值迭代次数随机种子 estimator KMeans(n_clustersk, max_iter100, random_state23) #3.2训练模型 estimator.fit(x) #3.3模型预测 y_pred estimator.predict(x) #3.4获取到每个簇的sc值 sc_value silhouette_score(x, y_pred) #3.5将每个K值对应的sc添加到sc_list中 sc_list.append(sc_value) #绘制sc曲线-》数据的可视化 #4.1创建画布指定尺寸 plt.figure(figsize(20, 10)) #4.2设计标题 plt.title(sc) #4.3设置x的刻度 plt.xticks(range(0, 100, 3) ) #4.4添加x轴 y轴的标签 plt.xlabel(K) plt.ylabel(sc) #4.5绘制网格 plt.grid() #4.6绘制折线图 #参1K值参2K对应的sc值 plt.plot(range(2, 100), sc_list) plt.show() #3.演示CH轮廓系数法 def dm03_ch(): #1.定义ch列表记录每个k值的ch值 ch_list [] #生成数据参1样本数量参2特征数参34个簇参4标准差参5随机种子 x, y make_blobs(n_samples1000, n_features2, centers[[-1, -1], [0, 0], [1, 1], [2, 2]], cluster_std[0.4, 0.2, 0.2, 0.2], random_state23) #3.for循环遍历获取到每个K值计算对应的ch值并添加到ch_list 列表中 for k in range(2, 100): #考虑簇外至少两个簇 #3.1 创建k-means对象指定K值迭代次数随机种子 estimator KMeans(n_clustersk, max_iter100, random_state23) #3.2训练模型 estimator.fit(x) #3.3模型预测 y_pred estimator.predict(x) #3.4获取到每个簇的ch值 ch_value calinski_harabasz_score(x, y_pred) #3.5将每个K值对应的ch添加到ch_list中 ch_list.append(ch_value) #绘制ch曲线-》数据的可视化 #4.1创建画布指定尺寸 plt.figure(figsize(20, 10)) #4.2设计标题 plt.title(ch) #4.3设置x的刻度 plt.xticks(range(0, 100, 3) ) #4.4添加x轴 y轴的标签 plt.xlabel(K) plt.ylabel(ch) #4.5绘制网格 plt.grid() #4.6绘制折线图 #参1K值参2K对应的ch值 plt.plot(range(2, 100), ch_list) plt.show() #4.测试 if __name__ __main__: #dm01_SSE() #dm02_SC() dm03_ch()三.总结加强了对于对于聚类算法评价指标的练习。

机器学习——聚类评价指标SSE、SC、CH演示案例

相关文章：

机器学习——聚类评价指标SSE、SC、CH演示案例

5分钟掌握OpenTracks：隐私优先的开源运动跟踪应用全面指南

Taotoken官方折扣活动如何帮助开发者降低大模型使用门槛

通过 TaoToken 统一网关体验不同主流模型的生成效果差异

AI调用BurpSuite实现可审计漏洞检测闭环

AI模型连接失败的四大根源与10分钟排查指南

Qwen-Image-2512+LoRA：构建Godot原生像素素材生成管线

LivePortrait技术突破：企业级肖像动画生成与部署实战指南

FTP明文传输风险与Wireshark抓包实证分析

初步认识假设检验

中国开源大模型工程化实践：从数据治理到企业落地

如何快速构建数学可视化：Manim交互式开发完整教程

OpenSpeedy：开源游戏加速神器，彻底告别卡顿体验

CV产线MLOps平台：图像原生处理与硬件感知交付

Triton模型服务化实战：从Notebook到高可用推理API

Akamai通用版边缘认证参数固化与SHA256签名还原

AI Agent自主操作软件的“最后一公里”危机：当它成功调用API却误删生产数据库——12个真实事故根因与防御性沙箱配置模板

【限时公开】华为昇腾+寒武纪MLU双平台AI Agent边缘部署Checklist（含功耗约束下模型剪枝精度损失≤0.3%的黄金参数表）

FModel实战指南：UE4/5游戏pak资源提取与3D模型导出

Agent驱动的机器学习 pipeline 全链路拆解，深度解析LLM+ML协同训练的4大范式演进

Unity WebGL文本输入解决方案：WebGLInput原理与集成指南

AI Agent驱动的管理咨询实战手册（麦肯锡/BCG未公开方法论首次披露）

GPU选型实战指南：TFLOPS、VRAM、HBM与NVLink的工程真相

企业从 Excel 管理转向系统化管理的关键步骤

零基础30天掌握渗透测试实战路径

渗透测试小白上手指南：系统化故障排查能力迁移手册

Rshell框架实战：红队内网渗透的信道管理与双平台协同

Hurley：C#到裸机C的语义重铸编译器

垂直领域搜索效果提升300%的关键路径，如何用DeepSeek精准捕获代码、论文、API三类技术语义？

Unity风格化山脉系统：程序化生成与运行时自然逻辑