当前位置：首页 > news >正文

机器学习实战(7)：聚类算法——发现数据中的隐藏模式

news 2026/2/10 17:49:30

第7集：聚类算法——发现数据中的隐藏模式

在机器学习中，聚类（Clustering） 是一种无监督学习方法，用于发现数据中的隐藏模式或分组。与分类任务不同，聚类不需要标签，而是根据数据的相似性将其划分为不同的簇。今天我们将深入探讨 K-Means 聚类 的原理，并通过实践部分使用 顾客消费行为数据 进行分组。

K-Means 聚类的原理

什么是 K-Means？

K-Means 是一种基于距离的聚类算法，其目标是将数据划分为 K 个簇，使得每个样本点与其所属簇的中心（质心）的距离最小化。算法步骤如下：

随机选择 K 个初始质心。
将每个样本分配到最近的质心所在的簇。
更新质心为当前簇内所有样本的均值。
重复步骤 2 和 3，直到质心不再变化或达到最大迭代次数。

图1：K-Means 聚类过程
（图片描述：二维平面上展示了 K-Means 算法的迭代过程，初始随机质心逐渐调整位置，最终收敛到稳定状态。）

如何选择最佳的 K 值（肘部法则）

选择合适的 K 值是 K-Means 聚类的关键问题之一。常用的 肘部法则（Elbow Method） 通过绘制簇内误差平方和（SSE, Sum of Squared Errors）随 K$ 值的变化曲线来确定最佳 K 值。当 SSE 下降速度明显减缓时，对应的 K 值即为最佳值。

公式如下：
$\text{SSE} = \sum_{i=1}^{K} \sum_{x \in C_i} ||x - \mu_i||^2$
其中：
$C_i 是第 i 个簇。$
$\mu_i 是第 i 个簇的质心。$

图2：肘部法则示意图
（图片描述：折线图展示了 SSE 随 K 值的变化，随着 K 增加，SSE 逐渐减小，但在某个 K 值后下降趋于平缓，形成“肘部”。图中 K = 3 时形成“肘部”。）

层次聚类与 DBSCAN 简介

1. 层次聚类

层次聚类是一种基于树形结构的聚类方法，分为两种类型：

凝聚式（Agglomerative）：从单个样本开始，逐步合并最相似的簇。
分裂式（Divisive）：从整个数据集开始，逐步分裂成更小的簇。

优点：无需指定 K 值；缺点：计算复杂度较高。

2. DBSCAN（Density-Based Spatial Clustering of Applications with Noise）

DBSCAN 是一种基于密度的聚类算法，能够发现任意形状的簇，并对噪声点具有鲁棒性。其核心思想是：

核心点：在某半径范围内有足够多的邻居点。
边界点：在核心点的邻域内，但自身不是核心点。
噪声点：既不是核心点也不是边界点。

优点：无需指定 K 值；缺点：对参数敏感。

聚类结果的可视化

聚类结果通常通过散点图进行可视化，不同簇用不同颜色表示。对于高维数据，可以使用降维技术（如 PCA 或 t-SNE）将其投影到二维或三维空间。

实践部分：使用 K-Means 对顾客消费行为数据进行分组

数据集简介

我们使用一个模拟的顾客消费行为数据集，包含以下特征：

Annual Income：年收入（单位：千美元）。
Spending Score：消费评分（范围 1-100，越高表示消费能力越强）。

目标是对顾客进行分组，以便制定个性化的营销策略。

完整代码

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler# 加载数据
url = "https://raw.githubusercontent.com/DennisKimt/datasets/main/Mall_Customers.csv"
data = pd.read_csv(url)# 提取特征
X = data[['Annual Income (k$)', 'Spending Score (1-100)']]# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 使用肘部法则选择最佳 K 值
sse = []
K_range = range(1, 11)
for k in K_range:kmeans = KMeans(n_clusters=k, random_state=42)kmeans.fit(X_scaled)sse.append(kmeans.inertia_)# 绘制肘部法则图
plt.figure(figsize=(8, 5))
plt.plot(K_range, sse, marker='o')
plt.title('Elbow Method for Optimal K', fontsize=16)
plt.xlabel('Number of Clusters (K)', fontsize=12)
plt.ylabel('Sum of Squared Errors (SSE)', fontsize=12)
plt.grid()
plt.show()# 选择 K=5 构建 K-Means 模型
kmeans = KMeans(n_clusters=5, random_state=42)
clusters = kmeans.fit_predict(X_scaled)# 可视化聚类结果
plt.figure(figsize=(10, 6))
plt.scatter(X.iloc[:, 0], X.iloc[:, 1], c=clusters, cmap='viridis', s=100, edgecolor='k')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='red', label='Centroids', marker='X')
plt.title('Customer Segmentation using K-Means', fontsize=16)
plt.xlabel('Annual Income (k$)', fontsize=12)
plt.ylabel('Spending Score (1-100)', fontsize=12)
plt.legend()
plt.show()

运行结果

肘部法则图

图3：肘部法则图
（图片描述：折线图展示了 SSE 随 $ K $ 值的变化，当 $ K=5 $ 时，曲线出现明显的“肘部”，表明这是最佳的簇数。）

聚类结果可视化

图4：K-Means 聚类结果
（图片描述：二维散点图展示了顾客的年收入与消费评分分布，不同簇用不同颜色表示，红色叉号标记了各簇的质心位置。）

总结

本文介绍了 K-Means 聚类的基本原理及其应用，并通过实践部分展示了如何使用 K-Means 对顾客消费行为数据进行分组。希望这篇文章能帮助你更好地理解聚类算法！

参考资料

Scikit-learn 文档: https://scikit-learn.org/stable/documentation.html
Mall Customers 数据集: https://github.com/stedy/Machine-Learning-with-R-datasets

机器学习实战(7)：聚类算法——发现数据中的隐藏模式

第7集：聚类算法——发现数据中的隐藏模式在机器学习中，聚类（Clustering） 是一种无监督学习方法，用于发现数据中的隐藏模式或分组。与分类任务不同，聚类不需要标签，而是根据数据的相似性将其划…...

编程日记 2025/2/24 7:17:44

【数据序列化协议】Protocol Buffers

一、为什么需要序列化？ 数据跨平台/语言交互： 不同编程语言（如 Java、Python、Go）的数据结构不兼容，序列化提供统一的数据表示。例如：Java 的 HashMap 和 Python 的 dict 需转换为通用格式（如 …...

编程日记 2025/2/24 7:16:37

基于 Python 的电影市场预测分析系统设计与实现（源码 + 文档）

大家好，今天要和大家聊的是一款基于 Python 的“电影市场预测分析”系统的设计与实现。项目源码以及部署相关事宜请联系我，文末附上联系方式。项目简介基于 Python 的“电影市场预测分析”系统主要面向以下用户角色：电影制片方、电影发行…...

编程日记 2025/2/24 7:15:34

计算机三级网络技术知识汇总【6】

第六章交换机及其配置 1. 交换机基础 1.1 基本概念局域网交换机是一种基于 MAC 地址识别，完成转发数据帧功能的一种网络连接设备。工作在数据链路层，根据进入端口数据帧中的 MAC 地址进行数据帧的过滤、转发（也是交换机的工作原理&…...

编程日记 2025/2/24 7:14:32

2025教育与科研领域实战全解析：DeepSeek赋能细分场景深度指南（附全流程案例与资源）

🚀 2025教育与科研领域实战全解析：DeepSeek赋能细分场景深度指南（附全流程案例与资源）🚀 📚 目录 DeepSeek在教育与科研中的核心价值教学场景应用：从备课到课堂管理的全流程革新科研场景应用：从数据分析到论文写作的智能跃迁师生协同创新：AI赋能的个性化学习与科研…...

编程日记 2025/2/24 7:11:25

Linux 命令大全完整版（10）

4. 压缩与解压缩命令 gzip(gnu zip) 功能说明：压缩文件。语　　法：gzip [-acdfhlLnNqrtvV][-S <压缩字尾字符串>][-<压缩效率>][–best/fast][文件…] 或 gzip [-acdfhlLnNqrtvV][-S <压缩字尾字符串>][-<压缩效率>][–best/f…...

编程日记 2025/2/24 7:10:23

彻底卸载kubeadm安装的k8s集群

目录一、删除资源二、停止k8s服务三、重置集群四、卸载k8s安装包五、清理残留文件和目录六、删除k8s相关镜像七、重启服务器一、删除资源 # 删除集群中的所有资源，包括 Pod、Deployment、Service，任意节点执行 kubectl delete --all pod…...

编程日记 2025/2/24 7:02:13

vue+element-plus简洁完美实现淘宝网站模板

目录一、项目介绍二、项目截图 1.项目结构图 2.首页 3.详情 4.购物车 5.登陆页三、源码实现 1.路由配置 2.依赖包四、总结一、项目介绍项目在线预览：点击访问本项目为vue项目，参考淘宝官方样式为主题来设计元素，简洁美观&…...

编程日记 2025/2/24 6:50:56

DALLE2 论文 Hierarchical Text-Conditional Image Generation with CLIP Latents [2204.06125] Hierarchical Text-Conditional Image Generation with CLIP LatentsAbstract page for arXiv paper 2204.06125: Hierarchical Text-Conditional Image Generation with CLIP L…...

编程日记 2025/2/24 6:48:46

深度学习-127-LangGraph之基础知识(四)自定义状态添加额外字段的聊天机器人

文章目录 1 自定义状态2 自定义工具2.1 完善工具human_assistance2.2 浏览器工具baidu_search3 聊天机器人3.1 绑定工具的聊天模型3.2 聊天机器人(带记忆)4 调用图4.1 调用工具时中断4.2 人工提供信息恢复4.3 查询存储的状态4.4 手动更新状态5 参考附录使用LangGraph，在状态中…...

编程日记 2025/2/24 6:43:36

广东英语十二种应用文模版范文

1. 邀请信（Invitation Letter） 模版 Dear [Recipients Name],I hope this letter finds you well. I am writing to invite you to [Event Name] which will be held on [Date] at [Location]. The event will start at [Time] and we would be deligh…...

编程日记 2025/2/24 6:39:22

python使用httpx_sse调用sse流式接口对响应格式为application/json的错误信息的处理

目录问题描述方案问题描述调用sse流式接口使用httpx_sse的方式 import httpxfrom httpx_sse import connect_sse# 省略无关代码try:with httpx.Client() as client:with connect_sse(client, "GET", url, paramsparam) as event_source:clear_textbox(response_t…...

编程日记 2025/2/24 6:36:15

Leetcode-407. Trapping Rain Water II [C++][Java]

目录一、题目描述二、解题思路【C】【Java】 Leetcode-407. Trapping Rain Water IIhttps://leetcode.com/problems/trapping-rain-water-ii/description/ 一、题目描述 Given an m x n integer matrix heightMap representing the height of each unit cell in a 2D…...

编程日记 2025/2/24 6:31:05

详解 torch.triu：上三角矩阵的高效构造（中英双语）

详解 torch.triu：上三角矩阵的高效构造在深度学习和矩阵运算中，我们经常需要构造上三角矩阵（Upper Triangular Matrix），其中主对角线以下的元素全部设为 0。PyTorch 提供了一个高效的函数 torch.triu()，用…...

编程日记 2025/2/24 6:30:01

[ TypeScript ] “undefined extends xxx“ 总是为 true 的 bug

版本号 "typescript": "^5.7.3", "unplugin": "^2.2.0",说明在使用 unplugin 时 , 我定义插件的参数是必填的, 使用时却是一个可空参数, 不传参也不会报错, (options?: UserOptions) > Return 😲😲&…...

编程日记 2025/2/24 6:27:50

高清下载油管视频到本地

下载工具并安装: yt-dlp官网地址： GitHub - yt-dlp/yt-dlp: A feature-rich command-line audio/video downloader ffmpeg官网地址： Download FFmpeg 注：记住为其添加环境变量操作命令： 该指令表示以720p码率下载VIDEO_UR…...

编程日记 2025/2/24 6:25:42

Hadoop常用操作命令

在NameNode节点格式化集群初始化集群 hdfs namenode -format启动HDFS sbin/start-dfs.sh启动yarn sbin/start-yarn.sh启动NodeManager yarn-daemon.sh start nodemanager启动DataNode hadoop-daemon.sh start datanode启动SecondaryNameNode hadoop-daemon.sh start se…...

编程日记 2025/2/24 6:24:35

[HOT 100] 2439. 最小化数组中的最大值

文章目录 1. 题目链接2. 题目描述3. 题目示例4. 解题思路5. 题解代码6. 复杂度分析 1. 题目链接 2439. 最小化数组中的最大值 - 力扣（LeetCode） 2. 题目描述给你一个下标从 0 开始的数组 nums ，它含有 n 个非负整数。每一步操作中&#…...

编程日记 2025/2/24 6:23:29

【JavaEE进阶】图书管理系统 - 贰

目录 🌲前言 🎄设计数据库 🍃引⼊MyBatis和MySQL驱动依赖 🌳Model创建 🎍约定前后端交互接口 🍀服务器代码 🚩控制层 🚩业务层 🚩数据层 🌴前端代码…...

编程日记 2025/2/24 6:19:22

Vue学习教程-14内置指令

文章目录前言一、v-text指令二、v-html指令三、v-cloak指令四、v-once指令五、v-pre指令六、其他指令前言 Vue.js 提供了许多内置指令（Directives），这些指令用于在模板中添加特殊功能。内置指令以 v- 前缀开始。 v-text : 更新元素的 tex…...

编程日记 2025/2/24 6:18:17

业务系统对接大模型的基础方案：架构设计与关键步骤

业务系统对接大模型：架构设计与关键步骤在当今数字化转型的浪潮中，大语言模型（LLM）已成为企业提升业务效率和创新能力的关键技术之一。将大模型集成到业务系统中，不仅可以优化用户体验，还能为业务决策提供…...

编程新知 2026/2/8 4:53:03

云原生核心技术 (7/12): K8s 核心概念白话解读(上)：Pod 和 Deployment 究竟是什么？

大家好，欢迎来到《云原生核心技术》系列的第七篇！ 在上一篇，我们成功地使用 Minikube 或 kind 在自己的电脑上搭建起了一个迷你但功能完备的 Kubernetes 集群。现在，我们就像一个拥有了一块崭新数字土地的农场主，是时…...

编程新知 2025/12/14 22:32:59

什么是库存周转？如何用进销存系统提高库存周转率？

你可能听说过这样一句话： “利润不是赚出来的，是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业，很多企业看着销售不错，账上却没钱、利润也不见了，一翻库存才发现： 一堆卖不动的旧货…...

编程新知 2026/1/26 13:21:10

苍穹外卖--缓存菜品

1.问题说明用户端小程序展示的菜品数据都是通过查询数据库获得，如果用户端访问量比较大，数据库访问压力随之增大 2.实现思路通过Redis来缓存菜品数据，减少数据库查询操作。缓存逻辑分析： ①每个分类下的菜品保持一份缓存数据…...

编程新知 2026/2/7 15:39:49

鱼香ros docker配置镜像报错：https://registry-1.docker.io/v2/

使用鱼香ros一件安装docker时的https://registry-1.docker.io/v2/问题一键安装指令 wget http://fishros.com/install -O fishros && . fishros出现问题：docker pull 失败网络不同，需要使用镜像源按照如下步骤操作 sudo vi /etc/docker/dae…...

编程新知 2025/12/31 6:28:08

【论文阅读28】-CNN-BiLSTM-Attention-（2024）

本文把滑坡位移序列拆开、筛优质因子，再用 CNN-BiLSTM-Attention 来动态预测每个子序列，最后重构出总位移，预测效果超越传统模型。文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵（S…...

编程新知 2026/2/2 3:06:53

安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”（装配）

船舶制造装配管理现状：装配工作依赖人工经验，装配工人凭借长期实践积累的操作技巧完成零部件组装。企业通常制定了装配作业指导书，但在实际执行中，工人对指导书的理解和遵循程度参差不齐。船舶装配过程中的挑战与需求挑战 (1…...

编程新知 2026/2/6 2:16:18

安宝特案例丨Vuzix AR智能眼镜集成专业软件，助力卢森堡医院药房转型，赢得辉瑞创新奖

在Vuzix M400 AR智能眼镜的助力下，卢森堡罗伯特舒曼医院（the Robert Schuman Hospitals, HRS）凭借在无菌制剂生产流程中引入增强现实技术（AR）创新项目，荣获了2024年6月7日由卢森堡医院药剂师协会&#xff0…...

编程新知 2026/2/9 2:41:28

SQL慢可能是触发了ring buffer

简介最近在进行 postgresql 性能排查的时候，发现 PG 在某一个时间并行执行的 SQL 变得特别慢。最后通过监控监观察到并行发起得时间 buffers_alloc 就急速上升，且低水位伴随在整个慢 SQL，一直是 buferIO 的等待事件，此时也没有其他会话的争抢。SQL 虽然不是高效 SQL ，但…...

编程新知 2025/10/2 9:17:52

jmeter聚合报告中参数详解

sample、average、min、max、90%line、95%line,99%line、Error错误率、吞吐量Thoughput、KB/sec每秒传输的数据量 sample（样本数） 表示测试中发送的请求数量，即测试执行了多少次请求。单位，以个或者次数表示。示例：…...

编程新知 2025/12/18 6:00:45