当前位置：首页 > news >正文

机器学习：混合高斯聚类GMM（求聚类标签）+PCA降维（3维降2维）习题

news 2026/5/24 6:52:40

使用混合高斯模型 GMM，计算如下数据点的聚类过程：
Data=np.array([1,2,6,7])
均值初值为:
μ1,μ2=1,5
权重初值为:
w1,w2=0.5,0.5
方差:
std1,std2=1,1
K=2
10 次迭代后数据的聚类标签是多少？

采用python代码实现：

from scipy import stats
import numpy as np#初始化数据
Data = np.array([1,2,6,7])
w1 , w2 = 0.5, 0.5
mu1 , mu2 = 1, 5
std1 , std2 = 1, 1n = len(Data) # 样本长度
zij=np.zeros([n,2])
for t in range(10):# E-step 依据当前参数，计算每个数据点属于每个子分布的概率z1_up = w1 * stats.norm(mu1 ,std1).pdf(Data)z2_up = w2*stats.norm(mu2 , std2).pdf(Data)z_all = (w1*stats.norm(mu1 ,std1).pdf(Data)+w2*stats.norm(mu2 ,std2).pdf(Data))+0.001rz1 = z1_up/z_all # 为甲分布的概率rz2 = z2_up/z_all # 为乙分布的概率# M-step 依据 E-step 的结果，更新每个子分布的参数。mu1 = np.sum(rz1*Data)/np.sum(rz1)mu2 = np.sum(rz2*Data)/np.sum(rz2)std1 = np.sum(rz1*np.square(Data-mu1))/np.sum(rz1)std2 = np.sum(rz2*np.square(Data-mu2))/np.sum(rz2)w1 = np.sum(rz1)/nw2 = np.sum(rz2)/n
for i in range(n):zij[i][0] = rz1[i]/(rz1[i]+rz2[i])zij[i][1] = rz2[i]/(rz1[i]+rz2[i])labels = np.argmax(zij, axis=1)#输出每一行的最大值，0或1  axis表示返回每一行中最大值所在列的索引
print(labels)

聚类标签输出结果：[0 0 1 1]

也就是说，10 次迭代后数据的聚类标签是1,2归为0类6,7归为1类

附注：

如果 axis 为 None，那么 np.argmax 会将数组展平为一维，然后返回最大值的索引。例如：
>>> a = np.array([[1, 2], [3, 4]])
>>> np.argmax(a)
3
如果 axis 为 0，那么 np.argmax 会沿着第一个维度（行）进行最大值的查找，返回每一列中最大值所在的行索引。例如：
>>> a = np.array([[1, 2], [3, 4]])
>>> np.argmax(a, axis=0)
array([1, 1])
如果 axis 为 1，那么 np.argmax 会沿着第二个维度（列）进行最大值的查找，返回每一行中最大值所在的列索引。例如：
>>> a = np.array([[1, 2], [3, 4]])
>>> np.argmax(a, axis=1)
array([1, 1])
在之前问题中，np.argmax([gamma1, gamma2], axis=0) 的意思是沿着第一个维度（gamma1 和 gamma2）进行最大值的查找，返回每个数据点属于哪个子分布的概率更大。

假设我们的数据集有 10 个 3 维数据, 需要用 PCA 降到 2 维特征。

array([[ 3.25, 1.85, -1.29],[ 3.06, 1.25, -0.18],[ 3.46, 2.68, 0.64],[ 0.3 , -0.1 , -0.79],[ 0.83, -0.21, -0.88],[ 1.82, 0.99, 0.16],[ 2.78, 1.75, 0.51],[ 2.08, 1.5 , -1.06],[ 2.62, 1.23, 0.04],[ 0.83, -0.69, -0.61]])

给出求解过程

解：

对所有的样本进行中心化:

x(i)=x(i)−1m∑j=1mx(j)

得到：

X=np.array([[ 1.147  0.825 -0.944][ 0.957  0.225  0.166][ 1.357  1.655  0.986][-1.803 -1.125 -0.444][-1.273 -1.235 -0.534][-0.283 -0.035  0.506][ 0.677  0.725  0.856][-0.023  0.475 -0.714][ 0.517  0.205  0.386][-1.273 -1.715 -0.264]])

计算样本的协方差矩阵 XXT

covM2=np.array([[1.26344556 1.08743889 0.32030889], 
[1.08743889 1.11076111 0.31611111],
[0.32030889 0.31611111 0.45449333]])

对矩阵 XXT 进行特征值分解

取出最大的 n′ 个特征值对应的特征向量 (w1,…,wn′), 将所有的特征向量标准化后，组成特征向量矩阵 W。

3.1求出特征值：

eigval=np.array([2.38219729 0.09637041 0.35013229])

3.2特征向量标准化：

eigvec=np.array([
[ 0.71144     0.67380165 -0.19961077],
[ 0.66498574 -0.73733944 -0.11884665],
[ 0.22725997  0.04818606  0.97264126]])

3.3取出特征值最大的2个特征值索引，也就是[2.38,0.35]对应的第1列和第3列：

indexes=[2 0]

3.4特征向量矩阵W：(对eigvec取了第3列和第1列)

W=np.array([
[-0.19961077  0.71144   ], 
[-0.11884665   0.66498574], 
[ 0.97264126   0.22725997]])

对样本集中的每一个样本 x(i) , 转化为新的样本 z(i)=WTx(i) ,得到输出样本集 D=(z(1),…z(m))

X：3×10 W：3×2 x⋅W=10×33×2 因为输入行列转置，结果是一致的

D=np.array([[-1.24517539  1.15010151][-0.05630956  0.86819503][ 0.49146125  2.29005381][ 0.06174799 -2.1317387 ][-0.1185103  -1.84827733][ 0.55280596 -0.10961848][ 0.6112806   1.15829407][-0.74632697  0.13724149][ 0.24787719  0.5918589 ][ 0.20114923 -2.10611029]])

代码：

import numpy as npX=np.array([[ 3.25, 1.85, -1.29],[ 3.06, 1.25, -0.18],[ 3.46, 2.68, 0.64],[ 0.3 , -0.1 , -0.79],[ 0.83, -0.21, -0.88],[ 1.82, 0.99, 0.16],[ 2.78, 1.75, 0.51],[ 2.08, 1.5 , -1.06],[ 2.62, 1.23, 0.04],[ 0.83, -0.69, -0.61]])def pca(X, d):# Centralization中心化means = np.mean(X, 0)X = X - meansprint(X)# Covariance Matrix 计算样本协方差矩阵M=len(X)X=np.mat(X)    covM2=np.cov(X.T)# 求出特征值，特征值分解eigval , eigvec = np.linalg.eig(covM2)indexes = np.argsort(eigval)[-d:]W = eigvec[:, indexes]return X*W
print(pca(X, 2))

附注：

np.cov()是一个用于计算协方差矩阵的函数，它可以接受一个或两个数组作为参数，返回一个二维数组，表示协方差矩阵。

协方差矩阵是一个对称矩阵，它的对角线元素表示各个变量的方差，非对角线元素表示两个变量之间的协方差。协方差反映了两个变量的线性相关程度，如果协方差为正，说明两个变量正相关；如果协方差为负，说明两个变量负相关；如果协方差为零，说明两个变量无相关性。

np.cov()的用法如下：

np.cov(m, y=None, rowvar=True, bias=False, ddof=None, fweights=None, aweights=None)

参数说明：

m: 一个一维或二维的数组，表示多个变量和观测值。如果是一维数组，表示一个变量的观测值；如果是二维数组，每一行表示一个变量，每一列表示一个观测值。
y: 可选参数，另一个一维或二维的数组，表示另一组变量和观测值，必须和m具有相同的形状。
rowvar: 可选参数，布尔值，默认为True。如果为True，表示每一行代表一个变量；如果为False，表示每一列代表一个变量。
bias: 可选参数，布尔值，默认为False。如果为False，表示计算无偏协方差（除以n-1）；如果为True，表示计算有偏协方差（除以n）。
ddof: 可选参数，整数，默认为None。如果不为None，则覆盖由bias隐含的默认值。ddof=0表示计算有偏协方差；ddof=1表示计算无偏协方差。
fweights: 可选参数，一维数组或整数，默认为None。表示每次观测的频率权重。
aweights: 可选参数，一维数组，默认为None。表示每个变量的可靠性权重。

返回值：

一个二维数组，表示协方差矩阵。

举例说明：
import numpy as np# 生成两组随机数据
x = np.random.randn(10)
y = np.random.randn(10)# 计算x和y的协方差矩阵
cov_xy = np.cov(x,y)
print(cov_xy)
# 输出：
[[ 0.8136679  -0.01594772][-0.01594772  0.84955963]]# 计算x和y的相关系数矩阵
corr_xy = np.corrcoef(x,y)
print(corr_xy)
# 输出：
[[ 1.         -0.01904402][-0.01904402  1.        ]]

机器学习：混合高斯聚类GMM（求聚类标签）+PCA降维（3维降2维）习题

使用混合高斯模型 GMM，计算如下数据点的聚类过程： Datanp.array([1,2,6,7]) 均值初值为: μ1,μ21,5 权重初值为: w1,w20.5,0.5 方差: std1,std21,1 K2 10 次迭代后数据的聚类标签是多少？ 采用python代码实现： from scipy import…...

编程日记 2023/7/30 17:47:08

libuv库学习笔记-processes

Processes libuv提供了相当多的子进程管理函数，并且是跨平台的，还允许使用stream，或者说pipe完成进程间通信。在UNIX中有一个共识，就是进程只做一件事，并把它做好。因此，进程通常通过创建子进程来完成不…...

编程日记 2023/7/30 17:46:05

c++ 给无名形参提供默认值

如上图，若函数的形参不在函数体里使用，可以不提供形参名，而且可以给此形参提供默认值。也能编译通过。在看vs2019上的源码时，也出现了这种写法。应用SFINAE（substitute false is not an error）原则&#x…...

编程日记 2023/7/30 17:45:04

NO1.使用命令行创建Maven工程

①在工作空间目录下打开命令窗口 ②使用命令行生成Maven工程 mvn archetype:generate 运行 MVN 原型：生成命令,下面根据提示操作选择一个数字或应用过滤器（格式：[groupId：]artifactId，区分大小写包含）&a…...

编程日记 2023/7/30 17:44:03

深度学习入门（一）：神经网络基础

一、深度学习概念 1、定义通过训练多层网络结构对位置数据进行分类或回归，深度学习解决特征工程问题。 2、深度学习应用图像处理语言识别自然语言处理在移动端不太好，计算量太大了，速度可能会慢 eg.医学应用、自动上色 3、例子使用…...

编程日记 2023/7/30 17:43:01

网络知识整理

网络知识整理网络拓扑网关默认网关数据传输拓扑结构层面协议层面网络拓扑网关连接两个不同的网络的设备都可以叫网关设备，网关的作用就是实现两个网络之间进行通讯与控制。网关设备可以是交换机(三层及以上才能跨网络) 、路由器、启用了路由协议的服务器、代…...

编程日记 2023/7/30 17:42:00

如何有效地使用ChatGPT写小说讲故事？

构思故事情节，虽有趣但耗时，容易陷入写作瓶颈。ChatGPT可提供灵感，帮你解决写作难题。要写出引人入胜的故事，关键在于抓住八个要素——主题、人物、视角、背景、情节、语气、冲突和解决办法。直接给出故事模板，你可…...

编程日记 2023/7/30 17:40:58

原生求生记：揭秘UniApp的原生能力限制

文章目录 1. 样式适配问题2. 性能问题3. 原生能力限制4. 插件兼容性问题5. 第三方组件库兼容性问题6. 全局变量污染7. 调试和定位问题8. 版本兼容性问题9. 前端生态限制10. 文档和支持附录：「简历必备」前后端实战项目（推荐：⭐️⭐️⭐️⭐️…...

编程日记 2023/7/30 17:39:58

网络编程 IO多路复用 [epoll版] (TCP网络聊天室)

//head.h 头文件 //TcpGrpSer.c 服务器端 //TcpGrpUsr.c 客户端通过IO多路复用实现服务器在单进程单线程下可以与多个客户端交互 API epoll函数 #include<sys/epoll.h> int epoll_create(int size); 功能：创建一个epoll句柄//创建红黑树根…...

编程日记 2023/7/30 17:38:56

“github.com/google/uuid” uuid.New().String() go-zero 文档 https://www.w3cschool.cn/gozero/ go-zero 官网 https://go-zero.dev/ 快速开始： $ mkdir go-zero-demo $ cd go-zero-demo $ go mod init go-zero-demo $ goctl api new greet $ go mod tidy Done…...

编程日记 2023/7/30 17:37:55

音视频——视频流H264编码格式

1 H264介绍我们了解了什么是宏快，宏快作为压缩视频的最小的一部分，需要被组织，然后在网络之间做相互传输。 H264更深层次 —》宏块太浅了如果单纯的用宏快来发送数据是杂乱无章的，就好像在没有集装箱出现之前，…...

编程日记 2023/7/30 17:36:53

【使用深度学习的城市声音分类】使用从提取音频特征（频谱图）中提取的深度学习进行声音分类研究（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…...

编程日记 2023/7/30 17:35:50

机器学习完整路径

一个机器学习项目从开始到结束大致分为 5 步，分别是定义问题、收集数据和预处理、选择算法和确定模型、训练拟合模型、评估并优化模型性能。是一个循环迭代的过程，优秀的模型都是一次次迭代的产物。定义问题要剖析业务场景，设定清晰的目标…...

编程日记 2023/7/30 17:34:49

CK-00靶机详解

CK-00靶机详解靶场下载地址：https://download.vulnhub.com/ck/CK-00.zip 这个靶场扫描到ip打开后发现主页面css是有问题的，一般这种情况就是没有配置域名解析。我们网站主页右击查看源代码，发现一个域名。把域名添加到我们hosts文件中。…...

编程日记 2023/7/30 17:33:48

17-C++ 数据结构 - 栈

📖 1.1 什么是栈栈是一种线性数据结构，具有后进先出（Last-In-First-Out，LIFO）的特点。可以类比为装满盘子的餐桌，每次放盘子都放在最上面，取盘子时也从最上面取，因此最后放进去的盘…...

编程日记 2023/7/30 17:32:47

Redis如何实现排行榜？

今天给大家简单聊聊 Redis Sorted Set 数据类型底层的实现原理和游戏排行榜实战。特别简单，一点也不深入，也就 7 张图，粉丝可放心食用，哈哈哈哈哈~~~~。 1. 是什么 Sorted Sets 与 Sets 类似，是一种集合类型&#xff…...

编程日记 2023/7/30 17:31:46

Pycharm debug程序，跳转至指定循环条件/循环次数

在断点出右键，然后设置条件示例 for i in range(1,100):a i 1b i 2print(a, b, i) 注意： 1、你应该debug断点在循环后的位置而不是循环上的位置，然后你就可以设置你的条件进入到指定的循环上了 2、设置条件，要使用等于符号…...

编程日记 2023/7/30 17:30:43

react实现markdown

参考：https://blog.csdn.net/Jack_lzx/article/details/118495763 参考：https://blog.csdn.net/m0_48474585/article/details/119742984 0. 示例用react实现markdown编辑器 1.基本布局及样式 <><div classNametf_editor_header>头部&…...

编程日记 2023/7/30 17:29:42

HTTP请求走私漏洞简单分析

文章目录 HTTP请求走私漏洞的产生HTTP请求走私漏洞的分类HTTP请求走私攻击的危害确认HTTP请求走私漏洞通过时间延迟技术确认CL漏洞通过时间延迟技术寻找TE.CL漏洞使用差异响应内容确认漏洞通过差异响应确认CL.TE漏洞通过差异响应确认TE.CL漏洞请求走私漏洞的利用通过请求漏洞…...

编程日记 2023/7/30 17:28:41

BI-SQL丨两表差异比较

BOSS：哎，白茶，我们最近新上了一个系统，后续有一些数据要进行源切换，这个能整么？ 白茶：没问题，可以整！ BOSS：哦，对了，差点忘记告诉你了…...

编程日记 2023/7/30 17:27:40

[智能体-30]：curl、requests、Ollama、Ollama API、OpenAI API各种的作用和他们之间的关系

五者作用层级关系极简梳理一、各自定义与作用curl 命令行 HTTP 请求工具，终端发请求、调试接口、测试连通性。requests Python 代码 HTTP 请求库，代码层面收发网络数据。OpenAI API云端官方大模型接口标准，规定请求格式、字段、交互协议。O…...

编程新知 2026/5/24 6:06:18

【AI Agent游戏行业应用实战指南】：20年资深架构师亲授7大落地场景与避坑清单

更多请点击： https://intelliparadigm.com 第一章：AI Agent游戏行业应用全景图谱 AI Agent 正在重塑游戏开发、运营与玩家体验的全生命周期。从智能NPC的行为建模，到自动化测试与关卡生成，再到实时个性化内容推荐与跨平台玩家陪伴…...

编程新知 2026/5/24 4:48:42

SuperCam：从源头减量的超像素传感器，重塑边缘视觉感知范式

1. 项目概述：为什么我们需要一种直接输出超像素的传感器？在计算机视觉领域，我们早已习惯了与像素打交道。无论是手机拍照、视频监控，还是自动驾驶的感知模块，其底层数据都源于一个由数百万乃至上亿个正方形像素点构成的…...

编程新知 2026/5/24 4:46:41

遥感因果分析：多尺度表征拼接技术解析与工程实践

1. 项目概述：从“看”到“理解”的遥感因果分析新思路在遥感图像分析领域，我们早已不满足于仅仅“看到”地物。从土地利用分类到灾害评估，核心目标正从“是什么”转向“为什么”和“会怎样”。比如，我们不仅想知道某片区域是农田&…...

编程新知 2026/5/24 2:37:10

Rust内存管理模式：从所有权到智能指针的完整指南

引言作为一名从Python转向Rust的后端开发者，我深刻体会到Rust内存管理的革命性设计。与Python的自动垃圾回收不同，Rust通过所有权系统在编译时保证内存安全，无需运行时开销。本文将深入探讨Rust的内存管理模式，从所有权规则到智…...

编程新知 2026/5/24 2:32:34

大数据+大模型=乘法效应？6个场景告诉你，大模型如何让你的数据平台“活”起来！

本文探讨了大数据与大模型的关系，提出大模型是大数据平台的“发动机”。文章重点介绍了六个必须使用大模型才能解放双手的场景，包括数据血缘解析、Text2SQL、数据质量智能巡检、调度任务智能运维、元数据管理和报告自动生成。这些场景展示了大模型如何通…...

编程新知 2026/5/23 23:59:39

Unity C#方法设计实战：从参数传递到跨脚本调用

1. 这不是语法课，是写代码时每天要面对的“沟通现场”刚带完一批Unity新手做小项目，有个现象特别明显：很多人能背出“方法就是函数”“参数分值传递和引用传递”，但一到实际写代码就卡壳——比如想让角色跳跃时播放音效&#xff0…...

编程新知 2026/5/23 22:51:52

《设计数据密集型应用》(DDIA, 2nd ed.) 心智模型导览——《Designing Data-Intensive Applications》书介绍导航

《设计数据密集型应用》(DDIA, 2nd ed.) 心智模型导览——《Designing Data-Intensive Applications》书介绍导航写给：还没读过这本书、想先在脑子里有张地图的读者目的：装上 6 个内容枢纽——不只是抽象概念，每个枢纽下面挂着这本书真正讲的…...

编程新知 2026/5/23 22:19:51

05-系统技术架构师必备——软件工程方法与UML建模体系

关键词：UML建模、Scrum、敏捷开发、软件测试、白盒测试、McCabe复杂度、瀑布模型、RUPUML 软件工程敏捷开发软件测试 Scrum RUP 系统架构建模系统技术架构师必备——软件工程方法与UML建模体系摘要 UML建模和软件工程方法是系统技术架构师与开发团队沟通的"…...

编程新知 2026/5/23 22:10:26

Topit：macOS窗口置顶的终极方案，提升多任务效率300%的必备工具

Topit：macOS窗口置顶的终极方案，提升多任务效率300%的必备工具【免费下载链接】Topit Pin any window to the top of your screen / 在Mac上将你的任何窗口强制置顶项目地址: https://gitcode.com/gh_mirrors/to/Topit 在macOS上工作时&#xf…...

编程新知 2026/5/23 22:08:24

机器学习：混合高斯聚类GMM（求聚类标签）+PCA降维（3维降2维）习题

相关文章：

机器学习：混合高斯聚类GMM（求聚类标签）+PCA降维（3维降2维）习题

libuv库学习笔记-processes

c++ 给无名形参提供默认值

NO1.使用命令行创建Maven工程

深度学习入门（一）：神经网络基础

网络知识整理

如何有效地使用ChatGPT写小说讲故事？

原生求生记：揭秘UniApp的原生能力限制

网络编程 IO多路复用 [epoll版] (TCP网络聊天室)

【go-zero】浅析 01

音视频——视频流H264编码格式

【使用深度学习的城市声音分类】使用从提取音频特征（频谱图）中提取的深度学习进行声音分类研究（Matlab代码实现）

机器学习完整路径

CK-00靶机详解

17-C++ 数据结构 - 栈

Redis如何实现排行榜？

Pycharm debug程序，跳转至指定循环条件/循环次数

react实现markdown

HTTP请求走私漏洞简单分析

BI-SQL丨两表差异比较

[智能体-30]：curl、requests、Ollama、Ollama API、OpenAI API各种的作用和他们之间的关系

【AI Agent游戏行业应用实战指南】：20年资深架构师亲授7大落地场景与避坑清单

SuperCam：从源头减量的超像素传感器，重塑边缘视觉感知范式

遥感因果分析：多尺度表征拼接技术解析与工程实践

Rust内存管理模式：从所有权到智能指针的完整指南

大数据+大模型=乘法效应？6个场景告诉你，大模型如何让你的数据平台“活”起来！

Unity C#方法设计实战：从参数传递到跨脚本调用

《设计数据密集型应用》(DDIA, 2nd ed.) 心智模型导览——《Designing Data-Intensive Applications》书介绍导航

05-系统技术架构师必备——软件工程方法与UML建模体系

Topit：macOS窗口置顶的终极方案，提升多任务效率300%的必备工具