当前位置：首页 > news >正文

第16章主成分分析：四个案例及课后习题

news 2026/2/8 21:08:49

1.假设 $x$ 为 $m$ 维随机变量，其均值为 $\mu$ ，协方差矩阵为 $\Sigma$ 。

考虑由 $m$ 维随机变量 $x$ 到 $m$ 维随机变量 $y$ 的线性变换
$\alpha _ { i } ^ { T } x = \sum _ { k = 1 } ^ { m } \alpha _ { k i } x _ { k } , \quad i = 1,2 , \cdots , m$

其中 $\alpha _ { i } ^ { T } = ( \alpha _ { 1 i } , \alpha _ { 2 i } , \cdots , \alpha _ { m i } )$ 。

如果该线性变换满足以下条件，则称之为总体主成分：

（1） $\alpha _ { i } ^ { T } \alpha _ { i } = 1 , i = 1,2 , \cdots , m$ ；

（2） $\operatorname { cov } ( y _ { i } , y _ { j } ) = 0 ( i \neq j )$ ;

（3）变量 $y_1$ 是 $x$ 的所有线性变换中方差最大的； $y_2$ 是与 $y_1$ 不相关的 $x$ 的所有线性变换中方差最大的；一般地， $y_i$ 是与 $\cdots , y _ { i - 1 } , ( i = 1,2 , \cdots , m )$ 都不相关的 $x$ 的所有线性变换中方差最大的；这时分别称 $\cdots , y _ { m }$ 为 $x$ 的第一主成分、第二主成分、…、第 $m$ 主成分。

2.假设 $x$ 是 $m$ 维随机变量，其协方差矩阵是 $\Sigma$ ， $\Sigma$ 的特征值分别是 $\lambda _ { 1 } \geq\lambda _ { 2 } \geq \cdots \geq \lambda _ { m } \geq 0$ ，特征值对应的单位特征向量分别是 $\alpha _ { 1 } , \alpha _ { 2 } , \cdots , \alpha _ { m }$ ，则 $x$ 的第2主成分可以写作

$\alpha _ { i } ^ { T } x = \sum _ { k = 1 } ^ { m } \alpha _ { k i } x _ { k } , \quad i = 1,2 , \cdots , m$
并且， $x$ 的第 $i$ 主成分的方差是协方差矩阵 $\Sigma$ 的第 $i$ 个特征值，即 $\operatorname { var } ( y _ { i } ) = \alpha _ { i } ^ { T } \Sigma \alpha _ { i } = \lambda _ { i }$

3.主成分有以下性质：

主成分 $y$ 的协方差矩阵是对角矩阵 $\operatorname { cov } ( y ) = \Lambda = \operatorname { diag } ( \lambda _ { 1 } , \lambda _ { 2 } , \cdots , \lambda _ { m } )$

主成分 $y$ 的方差之和等于随机变量 $x$ 的方差之和
$\sum _ { i = 1 } ^ { m } \lambda _ { i } = \sum _ { i = 1 } ^ { m } \sigma _ { i i }$
其中 $\sigma _ { i i }$ 是 $x_2$ 的方差，即协方差矩阵 $\Sigma$ 的对角线元素。

主成分 $y_k$ 与变量 $x_2$ 的相关系数 $\rho ( y _ { k } , x _ { i } )$ 称为因子负荷量（factor loading），它表示第 $k$ 个主成分 $y_k$ 与变量 $x$ 的相关关系，即 $y_k$ 对 $x$ 的贡献程度。
$\rho ( y _ { k } , x _ { i } ) = \frac { \sqrt { \lambda _ { k } } \alpha _ { i k } } { \sqrt { \sigma _ { i i } } } , \quad k , i = 1,2 , \cdots , m$

4.样本主成分分析就是基于样本协方差矩阵的主成分分析。

给定样本矩阵
$\left[ \begin{array} { l l l l } { x _ { 1 } } & { x _ { 2 } } & { \cdots } & { x _ { n } } \end{array} \right] = \left[ \begin{array} { c c c c } { x _ { 11 } } & { x _ { 12 } } & { \cdots } & { x _ { 1 n } } \\ { x _ { 21 } } & { x _ { 22 } } & { \cdots } & { x _ { 2 n } } \\ { \vdots } & { \vdots } & { } & { \vdots } \\ { x _ { m 1 } } & { x _ { m 2 } } & { \cdots } & { x _ { m n } } \end{array} \right]$

其中 $\cdots , x _ { m j } ) ^ { T }$ 是 $x$ 的第 $j$ 个独立观测样本， $j = 1, 2 ， \dots, n$ 。

$X$ 的样本协方差矩阵
$\left. \begin{array} { c } { S = [ s _ { i j } ] _ { m \times m } , \quad s _ { i j } = \frac { 1 } { n - 1 } \sum _ { k = 1 } ^ { n } ( x _ { i k } - \overline { x } _ { i } ) ( x _ { j k } - \overline { x } _ { j } ) } \\ { i = 1,2 , \cdots , m , \quad j = 1,2 , \cdots , m } \end{array} \right.$

给定样本数据矩阵 $X$ ，考虑向量 $x$ 到 $y$ 的线性变换 $y = A ^ { T } x$
这里
$\left[ \begin{array} { l l l l } { a _ { 1 } } & { a _ { 2 } } & { \cdots } & { a _ { m } } \end{array} \right] = \left[ \begin{array} { c c c c } { a _ { 11 } } & { a _ { 12 } } & { \cdots } & { a _ { 1 m } } \\ { a _ { 21 } } & { a _ { 22 } } & { \cdots } & { a _ { 2 m } } \\ { \vdots } & { \vdots } & { } & { \vdots } \\ { a _ { m 1 } } & { a _ { m 2 } } & { \cdots } & { a _ { m m } } \end{array} \right]$

如果该线性变换满足以下条件，则称之为样本主成分。样本第一主成分 $y _ { 1 } = a _ { 1 } ^ { T } x$ 是在 $a _ { 1 } ^ { T } a _ { 1 } = 1$ 条件下，使得 $\cdots , n )$ 的样本方差 $a _ { 1 } ^ { T } S a _ { 1 }$ 最大的 $x$ 的线性变换；

样本第二主成分 $y _ { 2 } = a _ { 2 } ^ { T } x$ 是在 $a _ { 2 } ^ { T } a _ { 2 } = 1$ 和 $a _ { 2 } ^ { T } x _ { j }$ 与 $\cdots , n )$ 的样本协方差 $a _ { 1 } ^ { T } S a _ { 2 } = 0$ 条件下，使得 $\cdots , n )$ 的样本方差 $a _ { 2 } ^ { T } S a _ { 2 }$ 最大的 $x$ 的线性变换；

一般地，样本第 $i$ 主成分 $y _ { i } = a _ { i } ^ { T } x$ 是在 $a _ { i } ^ { T } a _ { i } = 1$ 和 $a _ { i } ^ { T } x _ { j }$ 与 $\cdots , n )$ 的样本协方差 $a _ { k } ^ { T } S a _ { i } = 0$ 条件下，使得 $\cdots , n )$ 的样本方差 $a _ { k } ^ { T } S a _ { i }$ 最大的 $x$ 的线性变换。

5.主成分分析方法主要有两种，可以通过相关矩阵的特征值分解或样本矩阵的奇异值分解进行。

（1）相关矩阵的特征值分解算法。针对 $\times n$ 样本矩阵 $X$ ，求样本相关矩阵
$\frac { 1 } { n - 1 } X X ^ { T }$
再求样本相关矩阵的 $k$ 个特征值和对应的单位特征向量，构造正交矩阵
$\cdots , v _ { k } )$

$V$ 的每一列对应一个主成分，得到 $\times n$ 样本主成分矩阵
$Y = V ^ { T } X$

（2）矩阵 $X$ 的奇异值分解算法。针对 $\times n$ 样本矩阵 $X$
$\prime } = \frac { 1 } { \sqrt { n - 1 } } X ^ { T }$
对矩阵 $\prime }$ 进行截断奇异值分解，保留 $k$ 个奇异值、奇异向量，得到
$\prime } = U S V ^ { T }$
$V$ 的每一列对应一个主成分，得到 $\times n$ 样本主成分矩阵 $Y$
$Y = V ^ { T } X$

案例1：高维数据的可视化

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
from matplotlib_inline import backend_inlinebackend_inline.set_matplotlib_formats('svg')iris = load_iris()
X = iris.data  # 形状(150,4)
y = iris.targetpca = PCA(n_components=2)
X_dr = pca.fit_transform(X)
# print(X_dr) # 形状(150,2)colors = ['red', 'black', 'orange']
plt.figure()
for i in range(3):plt.scatter(X_dr[y == i, 0],X_dr[y == i, 1],c=colors[i],alpha=0.7,label=iris.target_names[i])
plt.legend()
plt.title('PCA of IRIS dataset')
plt.show()# 一些关键信息
print('各主成分的方差（即协方差矩阵的特征值）：', pca.explained_variance_, '\n特征向量:',pca.components_, '\n可解释性方差贡献率：', pca.explained_variance_ratio_,'\n保留了原数据多少信息（累计方差贡献率）：', pca.explained_variance_ratio_.sum())

在这里插入图片描述

各主成分的方差（即协方差矩阵的特征值）： [4.22824171 0.24267075] 
特征向量: [[ 0.36138659 -0.08452251  0.85667061  0.3582892 ][ 0.65658877  0.73016143 -0.17337266 -0.07548102]] 
可解释性方差贡献率： [0.92461872 0.05306648] 
保留了原数据多少信息（累计方差贡献率）： 0.977685206318795

接下来说明选择主成分个数（n_components）的一些方法

# 法一：选择累计方差贡献率曲线的突然变平坦的点对应的主成分个数
pca_ = PCA(n_components=4).fit(X)
plt.plot(range(1, 5), np.cumsum(pca_.explained_variance_ratio_))
plt.xticks([1, 2, 3, 4])
plt.show()  # 故选择主成分个数为2较合适

在这里插入图片描述

# 法二：令n_components='mle'使用极大似然估计 自动选择主成分个数
pca_mle = PCA(n_components='mle').fit(X)
X_mle = pca_mle.fit_transform(X)
print(X_mle.shape, pca_mle.explained_variance_ratio_.sum())
# 可以看出这种方法选择主成分的个数为3

(150, 3) 0.9947878161267247

# 法三：输出浮点数n_components=0.9按信息量占比选择主成分个数
# 确保选择的主成分能够解释至少 97% 的数据方差，并使用 完全SVD方法 进行计算
pca_3 = PCA(n_components=0.97, svd_solver="full").fit(X)
X_3 = pca_3.fit_transform(X)
print(X_3.shape, pca_3.explained_variance_ratio_.sum()) # 选择两个主成分个数就能包含原数据信息97%以上了

(150, 2) 0.977685206318795

svd_solver 参数决定了计算主成分的奇异值分解 (SVD) 方法。以下是 svd_solver 参数的可选值及其含义：

auto：默认值。根据输入数据的大小和所需的主成分数量，自动选择合适的 SVD 方法。
full：使用标准的完全 SVD 方法。这种方法比较慢，但适用于所有情况，特别是当数据矩阵的形状为 n_samples > n_features 或 n_features > n_samples 时。
arpack：使用 scipy.sparse.linalg.svds 实现的截断 SVD。这种方法适合计算少数几个主成分的情况，特别是当所需的主成分数远小于数据矩阵的形状时。
randomized：使用随机 SVD 方法，适用于大数据集，且需要计算的主成分数不多的情况。这种方法通常比完全 SVD 方法快很多。

案例2：人脸识别

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import fetch_lfw_people
from matplotlib_inline import backend_inline# 设置 matplotlib 的显示格式为 SVG 矢量图
backend_inline.set_matplotlib_formats('svg')# 获取 LFW (Labeled Faces in the Wild) 数据集
faces = fetch_lfw_people(min_faces_per_person=60)
# 数据集包含每个人至少 60 张脸部图像# 查看数据集的形状
# print(faces.images.shape) # (1348, 62, 47)
# 62 是每个图像的行数，47 是每个图像的列数，因此每个图像有 62*47 = 2914 个像素
# 数据集中共有 1348 张图像# print(faces.data.shape) # (1348, 2914)
# 数据集的形状为 (1348, 2914)，表示有 1348 个样本，每个样本有 2914 个特征（像素值）# 创建图像网格，显示前 24 张图像，每个子图不显示坐标轴刻度
fig, axes = plt.subplots(3, 8, figsize=(8, 4), subplot_kw={"xticks": [], "yticks": []})
for i, ax in enumerate(axes.flat): # axes 是一个 3x8 的数组，包含了 24 个 AxesSubplot 对象。axes.flat 将其展开为一个一维数组ax.imshow(faces.images[i, :, :], cmap='gray') # 获取第 i 张图像，这是一张 2D 数组（灰度图像）plt.show()

在这里插入图片描述

# 原本有2914维，现在试着降到200维# 将数据矩阵 X 定义为 faces 数据集的 data 属性
X = faces.data # # (1348, 2914)
pca_face = PCA(n_components=200).fit(X)
X_face=pca_face.fit_transform(X) # (1384,200)
V = pca_face.components_
print('奇异值分解中的V的形状（即特征矩阵）:', V.shape, '\n200个主成分保留了原数据多少信息（累计方差贡献率）：',pca_face.explained_variance_ratio_.sum())fig, axes = plt.subplots(3, 8, figsize=(8, 4), subplot_kw={"xticks": [], "yticks": []})
for i, ax in enumerate(axes.flat): ax.imshow(V[i, :].reshape(62,47), cmap='gray') # 可见第一主成分（第一张图）获取的是人的轮廓信息，其他主成分不好解释……# 使用inverse_transform可以逆转回去（但这种逆转不是完全可逆的，毕竟降维时只使用了200个主成分）
X_inv=pca_face.inverse_transform(X_face)# 可视化逆转回的数据
fig, ax = plt.subplots(2, 8, figsize=(8, 2.5), subplot_kw={"xticks": [], "yticks": []})
# 现在的ax中是2行8列，作为对比：第一行是原数据，第二行是inverse_transform后返回的数据
# 一次循环画同一列上的两张图，而不是把ax拉平
for i in range(8):ax[0, i].imshow(faces.images[i, :, :], cmap="binary_r")ax[1, i].imshow(X_inv[i].reshape(62, 47), cmap="binary_r")
plt.show()

奇异值分解中的V的形状（即特征矩阵）: (200, 2914) 
200个主成分保留了原数据多少信息（累计方差贡献率）： 0.9420423

在这里插入图片描述

案例3：用PCA做噪音过滤（手写数字识别）

from sklearn.datasets import load_digits
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import numpy as npdigits = load_digits()
# digits.data.shape  # (1797,64)# 定义一个画图的函数
def plot_digits(data):fig, axes = plt.subplots(4, 10, figsize=(10, 4), subplot_kw={"xticks": [], "yticks": []})for i, ax in enumerate(axes.flat):ax.imshow(data[i].reshape(8, 8), cmap="binary")plt.show()plot_digits(digits.data)

在这里插入图片描述

# 将均值为0、标准差为2的正态分布随机数添加到 digits.data 中，从而人为创建一个带有噪声的新数据集 noisy
np.random.RandomState(42)
noisy = np.random.normal(digits.data, 2)
plot_digits(noisy)

在这里插入图片描述

# 利用PCA的inverse_transform函数去噪
pca_digits = PCA(n_components=0.7, svd_solver="full").fit(noisy)
noisy_ = pca_digits.fit_transform(noisy)
no_noisy_data = pca_digits.inverse_transform(noisy_)
plot_digits(no_noisy_data)

在这里插入图片描述

案例4：手写数字识别

对于某些算法，如果数据维度过大那么运行时间将会非常久，例如KNN。故利用PCA把原数据进行降维后再运用其他算法进行后续工作是常见的做法。本处案例进行手写数字识别。

from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.neighbors import KNeighborsClassifier as KNN
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as npplt.rcParams["font.sans-serif"]=["SimHei"] #设置字体
plt.rcParams["axes.unicode_minus"]=False #该语句解决图像中的负号的乱码问题data = pd.read_csv("D:/PycharmProjects/ML20230605/机器学习/3、数据预处理与特征工程/digit recognizor.csv")
X = data.iloc[:, 1:] # (42000,784)
y = data.iloc[:, 0]# 选择主成分个数，先设置200观察一下图像
pca_line = PCA(n_components=200).fit(X)
plt.figure(figsize=[20, 5])
plt.plot(np.cumsum(pca_line.explained_variance_ratio_))
plt.xlabel("主成分个数")
plt.ylabel("累计方差贡献率")
plt.show()

在这里插入图片描述

# 看图，缩小主成分范围。使用随机森林和KNN建模
# score_r = []
score_knn = []
for i in range(25, 30):X_dr = PCA(n_components = i).fit_transform(X)
#     once_r = cross_val_score(RFC(n_estimators=10, random_state=0), X_dr, y, cv=5).mean()once_knn = cross_val_score(KNN(), X_dr, y, cv=5).mean() 
#     score_r.append(once_r)score_knn.append(once_knn)
plt.figure(figsize=[20, 5])
# plt.plot(range(25, 30), score_r)
plt.plot(range(25, 30), score_knn)
plt.show() # 于是选择29作为主成分个数

在这里插入图片描述

X_dr=PCA(n_components=29).fit_transform(X)
print(cross_val_score(KNN(), X_dr, y, cv=5).mean()) # KNN未进行任何调参时# 对KNN模型进行调参
score = []
for i in range(3,10):once = cross_val_score(KNN(i), X_dr, y, cv=5).mean()score.append(once)
plt.figure(figsize=[20, 5])
plt.plot(range(3,10), score)
plt.show() # 发现K=5时准确率最高，其实这就是KNN的默认参数

0.9720952380952381

在这里插入图片描述

习题

在这里插入图片描述

16.1

import numpy as np
from sklearn.decomposition import PCA# 定义数据矩阵
X = np.array([[2, 3, 3, 4, 5, 7], [2, 4, 5, 5, 6, 8]])
X = X.astype("float64")# 规范化变量
avg = np.average(X, axis=1)
var = np.var(X, axis=1)
for i in range(X.shape[0]):X[i] = (X[i, :] - avg[i]) / np.sqrt(var[i])# 使用PCA类
pca = PCA(n_components=2)# 拟合数据并转换
X_pca = pca.fit_transform(X.T)# 打印结果
print("特征向量 V：\n", pca.components_.T) # pca.components_ 属性返回的是形状为 (n_components, n_features) 的矩阵
print("样本主成分矩阵 Y：\n", X_pca.T)# 使用自定义的pca_svd函数
def pca_svd(X, k):"""样本矩阵的奇异值分解的主成分分析算法:param X: 样本矩阵X:param k: 主成分个数k:return: 特征向量V，样本主成分矩阵Y"""n_samples = X.shape[1]  # 这里的X矩阵的一列表示一个观测# 构造新的n×m矩阵T = X.T / np.sqrt(n_samples - 1)# 对矩阵T进行截断奇异值分解U, S, Vt = np.linalg.svd(T)V = Vt.T[:, :k]# 求k×n的样本主成分矩阵return V, np.dot(V.T, X)# 设置精度为3
np.set_printoptions(precision=3, suppress=True)
V, vnk = pca_svd(X, 2)print("正交矩阵V：")
print(V)
print("样本主成分矩阵Y：")
print(vnk)

特征向量 V：[[ 0.707 -0.707][ 0.707  0.707]]
样本主成分矩阵 Y：[[-2.028 -0.82  -0.433 -0.     0.82   2.461][-0.296  0.046  0.433  0.    -0.046 -0.137]]
正交矩阵V：
[[ 0.707  0.707][ 0.707 -0.707]]
样本主成分矩阵Y：
[[-2.028 -0.82  -0.433  0.     0.82   2.461][ 0.296 -0.046 -0.433  0.     0.046  0.137]]

16.2、16.3

见该链接

使用书籍：李航《机器学习方法》
习题解答：https://datawhalechina.github.io/statistical-learning-method-solutions-manual/#/

第16章主成分分析：四个案例及课后习题

案例1：高维数据的可视化

案例2：人脸识别

案例3：用PCA做噪音过滤（手写数字识别）

案例4：手写数字识别

习题

16.1

16.2、16.3

相关文章：

第16章主成分分析：四个案例及课后习题

股票分析系统设计方案大纲与细节

.gitmodules文件

STM32 SPI世界：W25Q64 Flash存储器的硬件与软件集成策略

【计算机网络仿真】b站湖科大教书匠思科Packet Tracer——实验17 开放最短路径优先OSPF

ChatGPT对话：python程序模拟操作网页弹出对话框

利用亚马逊云科技云原生Serverless代码托管服务开发OpenAI ChatGPT-4o应用

Selenium 切换 frame/iframe

VOI（Virtual Operating System Infrastructure，虚拟操作系统基础架构）

迭代器模式(大话设计模式)C/C++版本

vue学习day04-计算属性、computed计算属性与methods方法、计算属性完整写法

关于力扣150题目——逆波兰表达式求值Java实现的三种解法

FTP与TFTP

【Linux】System V信号量详解以及semget()、semctl()和semop()函数讲解

JAVA预编译简单理解

nvm 管理多版本 node

C++中的多重继承和虚继承：横向继承、纵向继承和联合继承；虚继承

利用node连接mongodb实现一个小型后端服务系统demo

大数据面试题之数据库(3)

升级之道：精通Conda的自我升级艺术

Android Wi-Fi 连接失败日志分析

C++_核心编程_多态案例二-制作饮品

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

Linux链表操作全解析

五年级数学知识边界总结思考-下册

前端开发面试题总结-JavaScript篇(一)

关键领域软件测试的突围之路：如何破解安全与效率的平衡难题

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理）

C#中的CLR属性、依赖属性与附加属性

数据库——redis