当前位置：首页 > article >正文

KMeans算法案例

article 2026/2/17 4:23:30

KMeans算法案例

案例介绍

已知：客户性别、年龄、年收入、消费指数

需求：对客户进行分析，找到业务突破口，寻找黄金客户

数据集共包含顾客的数据, 数据共有 4 个特征, 数据共有 200 条。接下来，使用聚类算法对具有相似特征的的顾客进行聚类，并可视化聚类结果。

案例实现

确定最佳K值

import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score

# 聚类分析用户分群
dataset = pd.read_csv('data/customers.csv')
dataset.info()
print('dataset-->\n', dataset)
X = dataset.iloc[:, [3, 4]]
print('X-->\n', X)mysse = []
mysscore = []# 评估聚类个数
for i in range(2, 11):mykeans = KMeans(n_clusters=i)mykeans.fit(X)mysse.append(mykeans.inertia_)  # inertia 簇内误差平方和ret = mykeans.predict(X)mysscore.append(silhouette_score(X, ret))  # sc系数 聚类需要1个以上的类别plt.plot(range(2, 11), mysse)
plt.title('the elbow method')
plt.xlabel('number of clusters')
plt.ylabel('mysse')
plt.grid()
plt.show()
plt.title('sh')
plt.plot(range(2, 11), mysscore)
plt.grid(True)
plt.show()

通过肘方法、sh系数都可以看出，聚成5类效果最好

顾客聚类

dataset = pd.read_csv('data/customers.csv')
dataset.head()
#全部行，第四第五列  Annual Income (k$) 和 Spending Score (1-100)
X = dataset.iloc[:, [3, 4]].values  # 返回的是numpy的ndarray
kmeans = KMeans(n_clusters = 5, init = 'k-means++', random_state = 42) #k=5 
y_pred = kmeans.fit_predict(X)

解释：

获取质心坐标

# 获取质心点坐标
centroids = kmeans.cluster_centers_
"""
结果是二维数组
[[25.72727273 79.36363636][87.75       17.58333333][55.0875     49.7125    ][86.53846154 82.12820513][26.30434783 20.91304348]]
"""

获取每簇的点

y_pred == 0
：这是一个布尔索引操作，它会创建一个布尔数组，其中每个元素表示对应的样本是否属于簇0。
例如，如果 y_pred 是 [0, 1, 0, 2, 0]，那么 y_pred == 0 的结果将是 [True, False, True, False, True].X[y_pred == 0, 0]
：这行代码使用布尔索引从数据集 X 中选择所有属于簇0的样本的第一个特征值。
具体来说，它会返回一个一维数组，包含所有被标记为簇0的样本的第一个特征值.例如，假设 
X 是一个二维数组，形状为 
(n_samples, n_features)，其中 n_samples 是样本数量，n_features 是特征数量。如果 
y_pred 是 [0, 1, 0, 2, 0]，那么X[y_pred == 0, 0] 将返回一个一维数组，包含X 中索引为0、2和4的样本的第一个特征值.

画图展示聚类结果

# 画图展示聚类结果
plt.scatter(X[y_pred == 0, 0], X[y_pred == 0, 1], s = 100, c = 'red', label = 'Standard')
plt.scatter(X[y_pred == 1, 0], X[y_pred == 1, 1], s = 100, c = 'blue', label = 'Traditional')
plt.scatter(X[y_pred == 2, 0], X[y_pred == 2, 1], s = 100, c = 'green', label = 'Normal')
plt.scatter(X[y_pred == 3, 0], X[y_pred == 3, 1], s = 100, c = 'cyan', label = 'Youth')
plt.scatter(X[y_pred == 4, 0], X[y_pred == 4, 1], s = 100, c = 'magenta', label = 'TA')
# kmeans.cluster_centers_:聚类后每类的中心点
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s = 300, c = 'black', label = 'Centroids')
plt.title('Clusters of customers')
plt.xlabel('Annual Income (k$)')
plt.ylabel('Spending Score (1-100)')
plt.legend()
plt.show()

从图中可以看出，聚成5类，右上角属于挣的多，消费的也多黄金客户群

KMeans算法案例

KMeans算法案例案例介绍已知：客户性别、年龄、年收入、消费指数需求：对客户进行分析，找到业务突破口，寻找黄金客户数据集共包含顾客的数据, 数据共有 4 个特征, 数据共有 200 条。接下来，使用聚类算法对具有相似…...

编程日记 2026/2/15 5:52:06

IDApro直接 debug STM32 MCU

使用IDA pro 逆向分析muc 固件的时候， 难免要进行一些动态的debug，来进一步搞清楚一些内存的数据、算法等，这时候使用远程debug 的方式直接在mcu上进行debug 最合适不过了。不过有个前提条件就是一般来说有的mcu 会被运行中的代码屏蔽 RDP、…...

编程日记 2026/2/15 19:11:28

六十天前端强化训练之第三十六天之E2E测试（Cypress）大师级完整指南

欢迎来到编程星辰海的博客讲解看完可以给一个免费的三连吗，谢谢大佬！ 目录一、知识讲解 1. E2E测试核心概念 2. Cypress框架特性 3. 工作原理 4. 测试金字塔定位二、核心代码示例：用户登录全流程测试三、实现效果展示四、学习要…...

编程日记 2026/2/13 13:57:50

创建和管理Pod

创建和管理Pod 文章目录创建和管理Pod[toc]一、什么是Pod1.Pod 的核心定义2.Pod 的组成与结构3.Pod 的生命周期4.Pod 的使用场景5.高级特性二、Pod与容器1. 为什么使用 Pod 作为 Kubernetes 的最小部署单元？2. 单一容器 Pod3. 多容器 Pod4. 初始化容器&#xff08…...

编程日记 2026/2/15 5:26:34

20250330-傅里叶级数专题之离散傅里叶变换(5/6)

5. 傅里叶级数专题之离散傅里叶变换推荐视频: 工科生以最快的速度理解离散傅立叶变换(DFT) 哔哩哔哩 20250328-傅里叶级数专题之数学基础(0/6)-CSDN博客20250330-傅里叶级数专题之傅里叶级数(1/6)-CSDN博客20250330-傅里叶级数专题之傅里叶变换(2/6)-CSDN博客20250330-傅里叶…...

编程日记 2026/2/16 23:31:04

Android设计模式之代理模式

一、定义： 为其他对象提供一种代理以控制对这个对象的访问。二、角色组成： Subject抽象主题：声明真是主题与代理的共同接口方法，可以是一个抽象类或接口。 RealSubject真实主题：定义了代理表示的真实对象&#xff0c…...

编程日记 2026/2/15 3:48:56

《非暴力沟通》第十二章 “重获生活的热情” 总结

《非暴力沟通》第十二章 “重获生活的热情” 的核心总结： 本章将非暴力沟通的核心理念延伸至生命意义的探索，提出通过觉察与满足内心深处的需要，打破“义务性生存”的桎梏，让生活回归由衷的喜悦与创造。作者强调，当行动…...

编程日记 2025/4/19 0:54:57

3.29:数据结构-绪论线性表-上

一、时间复杂度 1、ADT 2、定义法计算时间复杂度：统计核心语句的总执行次数 （1）例题1，与2022年的真题对比着写此题关键在于求和公式的转化，类型为：线性循环嵌套非线性循环 2022年那道题如果考场上实在脑…...

编程日记 2026/2/11 9:26:23

1.java把项目打包成jar 步骤一、IDEA -> File -> Project Structure -> Artifacts -> -> JAR -> From moduls with dependencies... -> 选择 Module 和 Main Class -> 选择 JAR files from libraries JAR files from libraries 解释 extract to the t…...

编程日记 2026/2/16 20:08:45

【奶茶经济学的符号暴力本质】

金字塔式七层分析框架：奶茶经济学的符号暴力本质第一层：缺货的戏剧经济学结论：13.7%缺货率是精密计算的神经钩机制：喜茶新品首日仅投放86.3%门店，制造"限量焦虑"激活前额叶决策区矛盾验证： …...

编程日记 2026/2/14 14:31:15

Python PDF解析利器：pdfplumber | AI应用开发

Python PDF解析利器：pdfplumber全面指南 1. 简介与安装 1.1 pdfplumber概述 pdfplumber是一个Python库，专门用于从PDF文件中提取文本、表格和其他信息。相比其他PDF处理库，pdfplumber提供了更直观的API和更精确的文本定位能力。主要特点…...

编程日记 2026/2/16 12:11:37

大模型架构记录13【hr agent】

一 Function calling 函数调用 from dotenv import load_dotenv, find_dotenvload_dotenv(find_dotenv())from openai import OpenAI import jsonclient OpenAI()# Example dummy function hard coded to return the same weather # In production, this could be your back…...

编程日记 2026/2/15 16:40:56

conda 清除 tarballs 减少磁盘占用、 conda rename 重命名环境、conda create -n qwen --clone 当前环境

🥇 版权: 本文由【墨理学AI】原创首发、各位读者大大、敬请查阅、感谢三连 🎉 声明: 作为全网 AI 领域干货最多的博主之一，❤️ 不负光阴不负卿 ❤️ 文章目录 conda clean --tarballsconda rename 重命名环境conda create -n qwen --clone …...

编程日记 2026/2/17 3:05:19

Java基础-24-继承-认识继承-权限修饰符-继承的特点

在Java中，继承是面向对象编程（OOP）的一个重要特性。通过继承，一个类可以复用另一个类的属性和方法，从而实现代码的重用性和扩展性。以下是关于继承的一些关键点，包括权限修饰符和继承的特点。 1. 继承的基本…...

编程日记 2026/2/14 15:07:40

Bootstrap 表格：高效布局与动态交互的实践指南

Bootstrap 表格：高效布局与动态交互的实践指南引言 Bootstrap 是一个流行的前端框架，它为开发者提供了丰富的组件和工具，使得构建响应式、美观且功能丰富的网页变得更加简单。表格是网页中常见的元素，用于展示数据。Bootstrap 提供了强大的表格组件，可以帮助开发者轻松…...

编程日记 2026/2/14 4:17:48

pycharm相对路径引用方法

用于打字不方便，以下直接手写放图，直观理解...

编程日记 2026/2/14 12:36:57

新能源智慧灯杆的智能照明系统如何实现节能？

叁仟新能源智慧灯杆的智能照明系统可通过以下多种方式实现节能： 智能调光控制光传感器技术：在灯杆上安装光传感器，实时监测周围环境的光照强度。当环境光线充足时，如白天或有其他强光源时，智能照明系统会自动降低路…...

编程日记 2026/2/15 1:02:25

Jenkins教程(自动化部署)

Jenkins教程(自动化部署) 1. Jenkins是什么？ Jenkins是一个开源的、提供友好操作界面的持续集成(CI)工具，广泛用于项目开发，具有自动化构建、测试和部署等功能。Jenkins用Java语言编写，可在Tomcat等流行的servlet容器中运行&…...

编程日记 2026/2/15 12:49:00

行业智能体大爆发，分布式智能云有解

Manus的一夜爆红，在全球范围内引爆关于AI智能体的讨论。与过去一般的AI助手不同，智能体（AI Agent）并非只是被动响应，而是主动感知、决策并执行的应用。Gartner预测，到2028年，15%的日常工作决策…...

编程日记 2026/2/16 3:13:48

日语Learn,英语再认识（5）

This is a dedicated function — it exists solely to solve this case. This is a dedicated function. It’s a dedicated method for solving this case. 其他备选词（但没dedicated精准）： special → 含糊，有时只是“特别”…...

编程日记 2026/2/13 13:44:16

【区块链安全 | 第十四篇】类型之值类型（一）

文章目录值类型布尔值整数运算符取模运算指数运算定点数地址（Address）类型转换地址的成员balance 和 transfersendcall，delegatecall 和 staticcallcode 和 codehash 合约类型（Contract Types）固定大小字节数组&…...

编程日记 2026/2/16 3:13:23

音视频入门基础：MPEG2-TS专题（25）——通过FFmpeg命令使用UDP发送TS流

一、通过FFmpeg命令使用UDP发送TS流通过以下FFmpeg命令可以将一个mp4文件转换为ts封装，并基于UDP发送（推流）： ffmpeg.exe -re -i input.mp4 -vcodec copy -acodec copy -f mpegts udp://127.0.0.1:1234 其中： “in…...

编程日记 2026/2/15 21:22:32

Error in torch with streamlit

报错信息： This is the error which is a conflict between torch and streamlit: Examining the path of torch.classes raised: Tried to instantiate class path.path’, but it does not exist! Ensure that it is registered via torch::class Steps to reproduce: py…...

编程日记 2026/2/14 15:19:00

KMeans算法案例

KMeans算法案例

案例介绍

案例实现

相关文章：

KMeans算法案例

IDApro直接 debug STM32 MCU

六十天前端强化训练之第三十六天之E2E测试（Cypress）大师级完整指南

创建和管理Pod

20250330-傅里叶级数专题之离散傅里叶变换(5/6)

Android设计模式之代理模式

《非暴力沟通》第十二章 “重获生活的热情” 总结

3.29:数据结构-绪论线性表-上

Java项目如何打jar包？

【奶茶经济学的符号暴力本质】

Python PDF解析利器：pdfplumber | AI应用开发

大模型架构记录13【hr agent】

conda 清除 tarballs 减少磁盘占用、 conda rename 重命名环境、conda create -n qwen --clone 当前环境

Java基础-24-继承-认识继承-权限修饰符-继承的特点

Bootstrap 表格：高效布局与动态交互的实践指南

pycharm相对路径引用方法

新能源智慧灯杆的智能照明系统如何实现节能？

Jenkins教程(自动化部署)

行业智能体大爆发，分布式智能云有解

日语Learn,英语再认识（5）

【区块链安全 | 第十四篇】类型之值类型（一）

音视频入门基础：MPEG2-TS专题（25）——通过FFmpeg命令使用UDP发送TS流

Error in torch with streamlit

网络基础知识介绍

MIPS-32架构(寄存器堆，指令系统，运算器)

zip和tar.gz

【什么是机器学习——多项式逼近】

C++中的搜索算法实现

（二十三）Dart 中的 Mixins 使用教程

《午夜地铁的幽灵AP》