主成分分析(PCA)
1 主成分分析简介
主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。主成分分析是由卡尔·皮尔逊(Karl Pearson)于1901年发明的。通过维度约减的方式将高维度空间的数据映射到低维度空间的数据。
2 主成分分析基本原理
2.1 线性变换
主成分分析的核心思想是通过将原数据的维度进行线性变换得到一组新的数据维度(主成分)。这组新的数据维度称为主成分。主成分之间线性无关,主成分实际构建了数据新的特征维度,在该特征维度下,数据的维度可能进行了压降,数据的运算会变得更加容易。
有n个p维的样本,构成样本矩阵
假设有一组向量(数据)可以通过线性表达
当选择合适的系数,会构建满足条件的新的特征维度,记
。
记上述变换为,
其中。
在构建主成分时,要求之间线性无关,且在
时,
在主成分
上投影的方差大于在主成分
上的投影的方差。如此,数据
在主成分上进行了“分解”,且依据数据信息量的程度将主成分进行了区分和排序。当
时,实现了对数据的降维操作。
这里的变换矩阵即为所求的变换矩阵。
2.2 协方差与相关系数
假设样本,
则样本的均值为
,方差为
样本的协方差为
样本的相关系数为
若将样本标准化,即
,为便于表达再将其分别记为
。
则标准化后的的均值为0,方差为1,则其协方差矩阵与相关系数均为
。
在主成分中,由于线性无关,故
的协方差和相关系数均为0。
2.3 特征值与特征向量
现在假设的分量
均已按前述操作进行了标准化,则
的协方差矩阵
,为
的实对称阵。
存在主成分分析对应的矩阵,使得
。则
的协方差矩阵
由于线性无关,
的协方差为0,上述矩阵
为对角阵。
如此,可以看出主成分分析的问题转化之一的要求是寻找一矩阵,使得将实对称阵
转化为对角阵
。
根据实对称阵的相关代数知识,实对称阵一定存在一组非负特征值
和特征向量(单位正交向量)
,使得
,其中
为
维向量。
记,则
。
由于为正交矩阵,
,从而将上式左边同时乘以
得到
。
令,即可找出矩阵
。
其对上述特征值,若将其按从大到小排列,即,则对应的矩阵
为主成分分析所求的线性变换矩阵。
如此,问题得解。
当存在特征值为0时,则,起到降维的效果。
2.4 主成分的贡献
主成分的贡献率衡量的是主成分的影响。
主成分的贡献率为
。
主成分的累计贡献率为。
3 主成分分析算法步骤
3.1 数据标准化
将样本的每一个数据按照以下方式进行标准化:
,其中
的定义见前文。不妨将标准化后的数据仍记为
。
3.2 计算协方差矩阵
3.3 求解特征值和特征向量
记特征值为,特征向量为
,有
,得到方程
...... (1)式。
该方程有非零解的充要条件为行列式。这是一个关于
的齐次线性方程组,求解该方程组,得到
,并将其按从大到小排序。再将
代入(1)式,可求解出特征向量
,并将特征向量单位化。
3.4 构造主成分
若对主成分的累计贡献率有要求,如选择累计贡献率95%的特征值,记为
,对应的单位特征向量为
。
记,令
,利用线性变换
,得到主成分
。
4 主成分分析实例
这里用sklearn中自带的PCA模型及数据进行演示。
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
X = np.array([[-1, -2], [-2, -1], [-3, -2], [2, 1], [2, 1], [3, 2]])
X_std = StandardScaler().fit_transform(X) #数据标准化
pca = PCA(n_components=2)
pca.fit(X_std)
#查看特征值
print(pca.singular_values_)
[3.41436763 0.58488774]
#查看特征向量
print(pca.components_)
[[ 0.70710678 0.70710678][ 0.70710678 -0.70710678]]
5 主成分分析总结
(1)主成分分析的计算步骤简单,主要是求解特征值和特征向量;
(2)主成分分析的各主成分之间正交,数据运算会变得容易;
(3)当主成分的维度小于原数据维度时,可以起到降维的作用;
(4)主成分维度可能不如原数据维度直观,解释性较差;
(5)主成分分析有一些演变的方法,如核主成分分析,解决非线性问题的主成分分析问题。
相关文章:
主成分分析(PCA)
1 主成分分析简介 主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。主成分分析是由卡尔皮尔逊(Karl Pearson)于1901年发明的。通过维度约减的方式将高维度…...
python实现生命游戏
“生命游戏”(Conway’s Game of Life)是由数学家约翰康威提出的一种零玩家游戏。它是一个细胞自动机,由一组简单的规则决定每个细胞的状态。以下是用Python实现“生命游戏”的代码示例: Python代码实现 import numpy as np imp…...
基于vue框架的CIA报价平台的设计与实现1xv02(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。
系统程序文件列表 项目功能:用户,供应商,产品分类,产品信息,在线咨询,资质申请 开题报告内容 基于Vue框架的CIA报价平台的设计与实现 开题报告 一、选题背景 随着市场竞争的日益激烈,企业对于成本控制与效率提升的需求愈发迫切。在采购与供应链管理…...
【Kubernetes】k8s集群Pod控制器
目录 一.Pod控制器作用 二.Pod控制器类型 1.Deployment(简称deploy) ReplicaSet(简称rs) 2.StatefulSet(简称sts) 创建SatefulSet控制器 3.DaemonSet(简称ds) 4.Job 5.Cron…...
什么是NLP实体识别?
目录 1. 实体识别的基本概念 1.1 什么是实体识别? 1.2 实体识别的应用场景 2. 实体识别的常用方法 2.1 基于规则的方法 2.1.1 规则定义与模式匹配 2.2 基于机器学习的方法 2.2.1 特征工程与传统机器学习模型 2.3 基于深度学习的方法 2.3.1 神经网络模型 …...
掌握Jenkins自动化部署:从代码提交到自动上线的全流程揭秘
Jenkins自动化部署是现代软件开发中不可或缺的一部分,它不仅简化了代码的发布过程,还为整个团队带来了无与伦比的效率和协作力。想象一下,开发者们可以专注于编写高质量的代码,而不是为繁琐的手动部署所烦恼;测试人员能…...
糟糕界面集锦-控件篇09
目前我们还无法确定该把这个问题划到哪个类别中,但是如图所示,在一个列表框中只显示3 个项目无疑是愚蠢的。 这是微软的文件管理器提供的文件关联界面,用户需要把某一个特定类型的文件与一个应用程序关联时会弹出该对话框。如示例:…...
喵喵蓝牙热敏打印机(下)
目录 前言一、电量、温度、缺纸检测1.电量检测2.针头温度检测3.缺纸检测 二、蓝牙APP通信打印1.蓝牙初始化2.APP通信打印 三、FreeRTOS任务整合 前言 喵喵蓝牙热敏打印机(上) 内容有点多,就分为了上下两篇。 一、电量、温度、缺纸检测 先启…...
软件测试第1章 软件测试是什么
目录 内容说明 一、软件测试与质量概览需要熟悉什么 二、如何理解质量保证 三、软件测试的误区-程序员和测试的关系 四、软件测试是什么? 五、软件测试的目的 六、软件测试与软件质量保证 七、软件测试的必要性 八、软件测试的基本概念分析 …...
【技术分享】 hysteria2从服务端到客户端部署教程
hysteria2从服务端到客户端部署教程 前言 在如今的网络环境中,尤其是涉及跨国访问的场景中,hysteria2作为一个新兴的传输协议工具,凭借其高效的传输能力和灵活的配置方式,受到了越来越多用户的青睐。本教程将带您一步步完成hyst…...
C++入门基础知识16
C 的关键字(接上一篇博文!!!) 54. typeid 指出指针或引用指向的对象的实际派生类型。 55. typename typename(类型名字)关键字告诉编译器把一个特殊的名字解释成一个类型。在下列情况下必须对一…...
浏览器调试工具-Chrome Dev Tools
浏览器调试模式下的各个调试工具是常用的工具集,能够帮助开发者理解、调试和优化网页。 1.打开方式 直接在浏览器中按下F12键右键点击页面上的任一元素,选择“检查”(Inspect)在浏览器右上角点击菜单按钮,选择“更多…...
基于车联网大数据平台的用户驾驶习惯行为画像分析
近年来,新能源汽车行业的迅速发展推动了汽车智能化的趋势。新能源汽车上配备了成千上万的传感器,这些传感器采集了大量的行车数据被用于车辆运行状况的监控与分析。另一方面,采集到的大量行车数据,也能很好地体现用户的驾驶习惯。…...
Ubuntu24.04搭建maxkb开发环境
接上文:windows10搭建maxkb开发环境(劝退指南) 上文在windows10环境搭建maxkb开发环境遇到各种坑,后面就转战ubuntu平台,果然比较顺利的完成开发环境搭建。当然遇到相关的问题还是可以参考上文《windows10搭建maxkb开发…...
C++ 指针和引用的区别
1.引用在定义时必须初始化,而指针没有要求 2.引用一旦引用了一个实体就不能在引用其它实体,指针可以在任何时候指向同一类型的指针 3.没有空引用,但是有空指针 4.在sizeof中含义不同:引用结果为引用类型的大小,但指…...
python绘制蕨菜叶分形
一花一叶一世界,一草一木一浮生. 使用了四个不同的线性变换,根据概率选择其中一个变换并更新 x 和 y 坐标。然后将生成的绿色点绘制出来,形成一片蕨菜叶。 import numpy as np import matplotlib.pyplot as pltdef fern_fractal(num_points):# 初始化坐…...
1分钟了解pandas
Pandas 是一个强大的 Python 库,用于数据分析和数据处理。它为 Python 提供了高效的数据结构和数据分析工具,使得数据操作变得简单而直观。Pandas 由 Wes McKinney 在 2008 年创建,并迅速成为数据科学领域中最受欢迎的库之一。 安装 Pandas …...
django-celery应用-定时执行测试cases
1、celery周期性任务 简介-----celery beat 是一个调度程序,它定期启动任务,然后由集群中的可用工作节点执行这些任务。 django-celery-beat celery默认的调度程序是 celery.beat.PersistentScheduler ,它简单地跟踪本地 shelve 数据库文件中…...
【C++深度探索】unordered_set、unordered_map封装
🔥 个人主页:大耳朵土土垚 🔥 所属专栏:C从入门至进阶 这里将会不定期更新有关C/C的内容,欢迎大家点赞,收藏,评论🥳🥳🎉🎉🎉 文章目录…...
CSS——字体背景(Font Background)
一、字体族 1、字体的相关样式: ① color 用来设置字体颜色(前景颜色) ② font-size 字体的大小 和font-size相关的单位: em 相对于当前元素的一个font-size rem 相对于根元素的一个font-size ③ font-family 字体族&#x…...
基于MATLAB的隔离型DC DC变换器系统设计:技术指标明确、包含设计报告与仿真程序的全过程解析
基于MATLAB的单端反激——隔离型DC/DC变换器系统设计 本设计包括设计报告,仿真程序。技术指标 输入电压、输出电压、输出功率、纹波系数、开关频率见下图凌晨三点盯着示波器的我,突然被显示器上的锯齿状波形逗笑了——这哪儿是DC/DC变换器啊,…...
Nano语法高亮配置最佳实践:基于nanorc项目的经验分享
Nano语法高亮配置最佳实践:基于nanorc项目的经验分享 【免费下载链接】nanorc Improved Nano Syntax Highlighting Files 项目地址: https://gitcode.com/gh_mirrors/na/nanorc Nano语法高亮配置是提升命令行文本编辑体验的关键技巧。如果你经常使用Nano编辑…...
Agent入门指南:从概念到实战,小白也能掌握AI新范式!
本文深入浅出地介绍了AI Agent的概念、原理和应用,帮助读者理解Agent并非简单的LLM调用,而是一种系统设计范式。文章详细阐述了Agent的核心要素,包括目标、决策、工具、反馈和停止条件,并探讨了Agent与传统自动化、RPA和聊天机器人…...
统计学顶刊投稿攻略:从JASA到Biometrika的写作风格差异详解
统计学顶刊投稿攻略:从JASA到Biometrika的写作风格差异详解 在统计学研究的星辰大海中,四大顶级期刊犹如指引方向的灯塔。JASA、JRSSB、Annals of Statistics和Biometrika各自拥有独特的学术气质和审稿偏好,理解这些差异往往决定着投稿的成败…...
Python金融数据工程:构建高可靠股票数据管道的3种架构方案
Python金融数据工程:构建高可靠股票数据管道的3种架构方案 【免费下载链接】mootdx 通达信数据读取的一个简便使用封装 项目地址: https://gitcode.com/GitHub_Trending/mo/mootdx 在量化投资和金融数据分析领域,获取稳定、实时的股票数据是每个技…...
为什么事故复盘总是写到很晚?
这两天和几个做运维/后端的朋友聊了下事故复盘,发现一个很真实的情况: 👉 大家都知道复盘很重要 👉 但几乎没人愿意写 我问了一个问题: “为什么一份复盘总是要写那么久?” 总结下来基本都是这几个原因&…...
Audacity:开源音频编辑与录制的终极完整指南
Audacity:开源音频编辑与录制的终极完整指南 【免费下载链接】audacity Audio Editor 项目地址: https://gitcode.com/GitHub_Trending/au/audacity Audacity是一款功能强大的开源音频编辑软件,为用户提供专业级的音频录制、编辑和处理能力。无论…...
QGIS插件开发实战:手把手教你用Python调用高德地图API做路径规划(附坐标转换避坑指南)
QGIS插件开发实战:Python集成高德地图API的路径规划全流程解析 当我们需要在QGIS中实现路径规划功能时,高德地图API提供了丰富的服务接口。本文将带你从零开始,开发一个能够调用高德地图API进行路径规划的QGIS插件,并重点解决开发…...
【PAT甲级真题】- Shopping in Mars (25)
题目来源 Shopping in Mars (25) 题目描述点击链接自行查看 注意点: 输出时按照区间左端点从小到大输出 思路简介 简单的滑动窗口 我做了一个小处理 因为题目实际上要求找的是大于等于目标值的区间 所以移动左指针的条件写成 l>r&&sum>m 这样我认…...
3个关键步骤让老款Mac重获新生:OpenCore Legacy Patcher终极指南
3个关键步骤让老款Mac重获新生:OpenCore Legacy Patcher终极指南 【免费下载链接】OpenCore-Legacy-Patcher 体验与之前一样的macOS 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 当苹果宣布你的Mac不再支持最新的macOS系统时…...
