数据挖掘之PCA-主成分分析
PCA的用处:找出反应数据中最大变差的投影(就是拉的最开)。
在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的

但是什么时候信息保留的最多呢?具体一点?


首先:去中心化(把坐标原点放到数据中心,如上图所示)
然后,找坐标系(找到方差最大的方向)
问题是:怎么找到方差最大的方向呢????????
一.引子
1.使用矩阵可以进行数据的线性变换(数据的拉伸)

2.使用矩阵可以进行数据的线性变换(数据的旋转)

3.结合起来两种操作
拉伸决定了方差最大的方向是横或者纵
旋转决定了方差最大的方向的角度

怎么求R?
协方差矩阵的特征向量就是R

二.数学原理:



三.PCA流程图:

PCA与SVD的联系:

四.例子:




五.代码:
# -*- coding: utf-8 -*-
"""
Created on Tue Oct 13 11:12:24 2020@author: pc① 对原数据集零均值化。代码是:meanRemoved = dataMat - mean(dataMat,axis=0)② 求出均值化X的协方差矩阵:公式是:Cov(X)=\frac{1}{m-1}X^{T}X,代码是:covMat = cov(meanRemoved,rowvar=0)③ 求这个协方差矩阵的特征值,特征向量,代码是:eigVals, eigVects = linalg.eig(mat(covMat))④ 把这些特征值按从大到小排列,返回特征值的下标,代码是:eigValInd = argsort(-eigVals)⑤ 选出前topNfeat个特征值,返回这些选中的特征值的下标,并根据下标从特征向量矩阵eigVects中取出这些选中的特征向量组成矩阵P,这就是我们要找的变换矩阵P,代码是:redEigVects = eigVects[:,eigValInd[:topNfeat] ]⑥ 返回降维后的数据,公式是:Y=X•P,代码是:lowDDataMat = meanRemoved * redEigVects⑦ 原数据映射到新的空间中。公式是:X^{'}=Y\cdot P^{T}+mean,代码是:reconMat = (lowDDataMat * redEigVects.T) + meanValues
"""import numpy as np
import matplotlib.pyplot as pltdef pca(dataMat, topNfeat = 999999):meanValues = np.mean(dataMat,axis=0) # 竖着求平均值,数据格式是m×nmeanRemoved = dataMat - meanValues # 0均值化 m×n维covMat = np.cov(meanRemoved,rowvar=0) # 每一列作为一个独立变量求协方差 n×n维eigVals, eigVects = np.linalg.eig(np.mat(covMat)) # 求特征值和特征向量 eigVects是n×n维eigValInd = np.argsort(-eigVals) # 特征值由大到小排序,eigValInd十个arrary数组 1×n维eigValInd = eigValInd[:topNfeat] # 选取前topNfeat个特征值的序号 1×r维print(eigValInd)redEigVects = eigVects[:,eigValInd] # 把符合条件的几列特征筛选出来组成P n×r维lowDDataMat = meanRemoved * redEigVects # 矩阵点乘筛选的特征向量矩阵 m×r维 公式Y=X*PreconMat = (lowDDataMat * redEigVects.T) + meanValues # 转换新空间的数据 m×n维return lowDDataMat, reconMatdef drawPoints(dataset1,dataset2): # 画图,dataset1是没降维的数据,dataset2是数据映射到新空间的数据fig = plt.figure()ax1 = fig.add_subplot(211)ax2 = fig.add_subplot(212)ax1.scatter(dataset1[:,0],dataset1[:,1],marker='s',s=5,color='red')dataset2 = np.array(dataset2)ax2.scatter(dataset2[:,0],dataset2[:,1],s=5,color='blue')plt.show()if __name__ == '__main__':dataSetList = []fr = open('pca_data_set1.txt')for row in fr.readlines():cur_line = row.strip().split('\t')proce_line = list(map(float,cur_line))dataSetList.append(proce_line)dataSetList = np.array(dataSetList)data = dataSetListproccess_data, reconMat = pca(data,topNfeat = 1)drawPoints(data,reconMat)
相关文章:
数据挖掘之PCA-主成分分析
PCA的用处:找出反应数据中最大变差的投影(就是拉的最开)。 在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的 但是什么时候信息保留的最多呢?具体一点&#…...
人工智能-注意力机制之注意力汇聚:Nadaraya-Watson 核回归
查询(自主提示)和键(非自主提示)之间的交互形成了注意力汇聚; 注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出。 本节将介绍注意力汇聚的更多细节, 以便从宏观上了解注意力机…...
<HarmonyOS第一课>1·运行Hello World【课后考核】
【习题】运行Hello World工程 判断题 1.DevEco Studio是开发HarmonyOS应用的一站式集成开发环境。 正确(True) 2.main_pages.json存放页面page路径配置信息。 正确(True) 单选题 1.在stage模型中,下列配置文件属于AppScope文件夹的是?(…...
Ubuntu18.04安装A-Loam保姆级教程
系统环境:Ubuntu18.04.6 LTS 1.A-Loam的安装前要求: 1.1 ROS安装:参考我的另一篇博客 Ubuntu18.04安装ROS-melodic保姆级教程_灬杨三岁灬的博客-CSDN博客还是那句话,有时候加了这行也不好使,我是疯狂试了20次&#…...
重生之我是一名程序员 40 ——字符串函数(1)
哈喽啊大家晚上好!今天呢给大家带来点新的东西——字符串函数strcpy。 首先,让我来给大家介绍一下它。strcpy函数是C语言中的一个字符串函数,用于将一个字符串复制到另一个字符串中。其函数原型为: char* strcpy(char* dest, co…...
Navicat 技术指引 | 连接 GaussDB 主备版
Navicat Premium(16.2.8 Windows版或以上) 已支持对GaussDB 主备版的管理和开发功能。它不仅具备轻松、便捷的可视化数据查看和编辑功能,还提供强大的高阶功能(如模型、结构同步、协同合作、数据迁移等),这…...
【git】pip install git+https://github.com/xxx/xxx替换成本地下载编译安装解决网络超时问题
目录 🌑🌑 背景 🌒 🌒作用 🌔🌔 问题 🌔🌔解决方案 🌙方法一 🌙方法二 🌝🌝我的解决方案 整理不易,欢迎一键三连…...
SQL Server对象类型(6)——4.6.存储过程和函数(Procedure和Function)
4.6. 存储过程和函数(Procedure和Function) 4.6.1. 过程和函数概念 与Oracle中类似,SQL Server中,存储过程和函数都是虚的、被定义的代码对象,它们都是由一组T-SQL或公共语言运行库(CLR)代码构成的程序,其本身并不存储数据,通过数据库或应用端调用等方式来运行,以满…...
spring @Async异步执行
在一些后台耗时的场景比如说生成统计报表,生成数据文件,执行批量任务时候,需要异步执行,先登记信息,然后异步执行批量同步返回给客户端。在spring中要想使用异步方法执行,必须使用EnableAsync注解开启async…...
#Js篇:单线程模式同步任务异步任务任务队列事件循环setTimeout() setInterval()
单线程模式 之所以采用单线程,而不是多线程,跟历史有关系。原因是不想让浏览器变得太复杂,因为多线程需要共享资源、且有可能修改彼此的运行结果,对于一种网页脚本语言来说,太复杂了。 好处 实现起来比较简单&#…...
html table样式的设计 表格边框修饰
<!DOCTYPE html> <html> <head> <meta http-equiv"Content-Type" content"text/html; charsetutf-8" /> <title>今日小说排行榜</title> <style> table {border-collapse: collapse;border: 4px double red; /*…...
2023年【危险化学品经营单位安全管理人员】考试内容及危险化学品经营单位安全管理人员最新解析
题库来源:安全生产模拟考试一点通公众号小程序 危险化学品经营单位安全管理人员考试内容是安全生产模拟考试一点通生成的,危险化学品经营单位安全管理人员证模拟考试题库是根据危险化学品经营单位安全管理人员最新版教材汇编出危险化学品经营单位安全管…...
腾讯云 小程序 SDK对象存储 COS使用记录,原生小程序写法。
最近做了一个项目,需求是上传文档,文档类型多种,图片,视频,文件,doc,xls,zip,txt 等等,而且文档类型可能是大文件,可能得上百兆,甚至超过1G。 腾讯云文档地址:https://c…...
【uniapp】本地资源图片无法通过 WXSS 获取,可以使用网络图片,或者 base64,或者使用image标签
uniapp开发 微信小程序 本地资源图片无法通过 WXSS 获取,可以使用网络图片,或者 base64,或者使用image标签。_uniapp 中的本地资源图片无法通过 wxss 获取,可以使用网络图片,或者 base64,或者_芒果大胖砸的博客-CSDN博客...
深入了解Spring Cloud中的分布式事务解决方案
引言 介绍分布式系统中事务管理的重要性,以及在云计算环境下分布式事务所面临的挑战。 传统事务和分布式事务 解释本地事务与分布式事务的区别,以及为什么在分布式环境中需要特殊的事务管理机制。 分布式事务的挑战 探讨在分布式系统中实现事务一致性所…...
安装compiler version 5
这个compiler version5 在我的资源里面可以免费下载; 另外这个东西还需要安装,安装教程在这里:Keil最新版保姆教程(解决缺少V5编译器问题) - 哔哩哔哩 (bilibili.com) 看吧安装好了year...
关闭vscode打开的本地服务器端口
vscode开了本地的一个端口“8443”当本地服务器端口,然后随手把VScode一关,后来继续做发现8443端口已经被占用了。 原来,即便关闭了编译器VScode,服务器依然是被node.exe运行着的。那这个端口怎么才能关掉呢? …...
VUE3+Springboot实现SM2完整步骤
一.VUE3代码实现 1.安装依赖 npm install --save sm-crypto 2.导入sm2 const sm2 require(sm-crypto).sm2 3.定义公钥私钥 var privateKey "私钥";//解密使用 var publicKey "公钥";//加密使用 4.设置加密模式 //cipherMode [加密模式 C1C3C2:1,…...
CSS-背景属性篇
属性名:background-color 功能:设置背景颜色 属性值:符合CSS中颜色规范的值 默认背景颜色是 transparent body{ background-color: blue; } 属性名:background-image 功能:设置背景图片 属性值:url(图片的…...
KyLin离线安装OceanBase
去OceanBase下载若干文件 1 首先安装ob-deploy-2.3.1-2.el7.x86_64.rpm rpm -ivh ob-deploy-2.3.1-2.el7.x86_64.rpm# 运行此命令的时候他会报错 RPM should not be used directly install RPM packages, use Alien instead! 这个需要用Alien去转换为deb的包,不…...
GAN七日实战:从原理到风格迁移的完整学习路径
1. 生成对抗网络入门指南:7天速成实战路线第一次接触GAN时,我被它生成的人脸照片震惊得说不出话——那些根本不存在的人像,连皮肤纹理和发丝反光都真实得可怕。作为计算机视觉领域的革命性技术,生成对抗网络正在重塑内容创作的边界…...
手把手教你用Silvaco Athena和Atlas搞定PNP/NPN BJT仿真:从网格划分到曲线分析全流程
Silvaco Athena与Atlas实战:从零构建BJT仿真模型的完整指南 在半导体设计与工艺开发领域,仿真工具已成为工程师不可或缺的助手。Silvaco TCAD套件中的Athena工艺模拟器和Atlas器件模拟器,能够精准预测半导体器件的电学特性。本文将聚焦双极结…...
Codeforces评分预测神器Carrot:从API崩溃到社区自救的技术传奇
Codeforces评分预测神器Carrot:从API崩溃到社区自救的技术传奇 【免费下载链接】carrot A browser extension for Codeforces rating prediction 项目地址: https://gitcode.com/gh_mirrors/carrot1/carrot 想象一下这样的场景:你正在参加一场激烈…...
考公机构深度测评:粉笔教育的“透明师资+AI科技”到底值不值?——普通考生选机构不踩坑指南
近年来,公务员考试培训市场持续升温,面对琳琅满目的机构选择,考生往往陷入“选大牌还是选特色”的纠结。本文从普通考生视角,结合2025年行业最新数据,聚焦粉笔教育的师资体系、课程设计、价格策略及适用人群࿰…...
nli-MiniLM2-L6-H768应用场景:智能合约条款与自然语言解释的矛盾性检测
nli-MiniLM2-L6-H768应用场景:智能合约条款与自然语言解释的矛盾性检测 1. 模型核心能力解析 nli-MiniLM2-L6-H768是一个专为文本关系判断设计的轻量级自然语言推理(NLI)模型。与生成式模型不同,它的核心价值在于精准判断两段文本之间的逻辑关系&#…...
AEUX:如何用跨平台设计转换引擎重构动效工作流?
AEUX:如何用跨平台设计转换引擎重构动效工作流? 【免费下载链接】AEUX Editable After Effects layers from Sketch artboards 项目地址: https://gitcode.com/gh_mirrors/ae/AEUX 在数字创意产业中,设计工具与动效制作之间的鸿沟长期…...
XGBoost实战:Python梯度提升框架入门与优化
1. XGBoost入门实战:从零开始掌握Python中的梯度提升框架如果你正在寻找一个能在机器学习竞赛中屡获佳绩的算法,XGBoost无疑是你的首选武器。作为一名长期使用Python进行机器学习开发的从业者,我见证了XGBoost从默默无闻到成为行业标准的过程…...
从应变电阻到精准读数:基于MicroPython的HX711传感器AIoT称重系统实践
1. 从金属变形到电信号:应变电阻的工作原理 当你用手指轻轻按压一块薄金属片时,能感觉到它微微弯曲的弹性。这种看似简单的物理现象,正是现代电子秤的核心技术基础。我去年为社区生鲜柜改造称重系统时,拆解过十几个不同品牌的传感…...
深度学习中的图像增强技术与TensorFlow实践
1. 图像增强在深度学习中的重要性在解决与图像相关的机器学习问题时,仅仅收集足够的训练图像是不够的。图像增强技术通过创建图像的多样化变体,能够显著提升模型的泛化能力。这对于复杂的物体识别问题尤为重要,因为真实世界中的图像会存在各种…...
PyTorch炼丹时遇到OMP报错?别慌,三步搞定libiomp5md.dll冲突(附环境变量与文件删除两种方案)
PyTorch炼丹时遇到OMP报错?三步根治libiomp5md.dll冲突问题 刚准备启动PyTorch训练脚本,突然弹出一行刺眼的红色报错:"OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized"。这个错误在W…...
