PCA和LDA数据降维计算(含数学例子推导过程)
PCA算法和LDA算法可以用于对数据进行降维,例如可以把一个2维的数据降低维度到一维,本文通过举例子来对PCA算法和LDA算法的计算过程进行教学展示。
PCA算法计算过程(文字版,想看具体计算下面有例子)
1.将原始数据排列成n行m列的矩阵,n为数据的维度,m为数据的个数,即将每个数据竖着展示每个维度的值,然后将他们合成一个矩阵x
2.将x的每一行进行零均值化处理,即每一行的数据全部加起来,然后除以m,然后得到一个常数a,将这一行的每个数据都进行-a处理,其余的每一行以此类推。
3.求出协方差矩阵,c = X X X X T X^\mathrm T XT / m ;其中x和xt已经是进行零均值化处理过后的举证了
4.求出c的特征值以及对应的特征值向量,同时对特征向量进行单位化处理(一定要做,切记不能忘了)
5.特征向量按照特征值的大小从上到下按行排列成举证,取前k行组成矩阵p(k表示我们需要降低到的维度,例如如果我们要把数据降低到1维,我们取第一行就可以了)
6.Y =px,Y即为我们所求的的矩阵
LDA算法计算过程(文字版,想看具体计算下面有例子)
1.计算类内散度矩阵Sw
Sw求法,首先按照类别分别进行计算u,即1类计算u1,2类计算u2
u的计算方法为每行为每一类别的总和除以数量(即同类别的每一行全部加起来,除以个数),
然后Sw = Σ u \Sigma_u Σu Σ \Sigma Σ = Σ x 0 \Sigma_{x_0} Σx0(x-u0)(x-u0)T+ Σ x 1 \Sigma_{x_1} Σx1(x-u1)(x-u1)T,其中前面的x为u0类别里面的数据,x1为u1类别里面的数据,即各自处理各自的数据
2.计算类间散度矩阵Sb
Sb=(u0-u1)(u0-u1)T
3.求c = Sw-1Sb
4.计算c的特征值和特征向量,按特征值的大小把特征向量从左到右按列进行排序,取前k列组成矩阵p
5.Y=PT*X,Y即为我们所求的矩阵
例子:
我们给予两个种类的二维数据(拿竖线进行划分,左边的种类为1类,右边的种类为2类),求PCA和LDA将其进行降一维后的结果,即降低为一维数据
[ − 1 − 1 0 2 0 − 2 0 0 1 1 ] (例子) \left[ \begin{array}{ccc|cc} -1 & -1 & 0 & 2 &0\\ -2 & 0 & 0 & 1 &1 \end{array} \right] \tag{例子} [−1−2−10002101](例子)
PCA:
我们可以看到数据为2维5项数据,求出他的均值u0
u0第一行为(-1-1+0+2+0)/5= 0;
u0第二行为(-2 + 0 +0 + 1 +1)/5 = 0;
所以 u 0 = [ 0 0 ] (1) u_0=\left [ \begin{array}{c} 0\\ 0 \end{array} \right] \tag{1} u0=[00](1)
将五个数据分别减去u得到了新的X,因为这题比较特殊,经过0均值化处理后数据没有改变,所以x还是原来的数值没有发生改变
c = [ − 1 − 1 0 2 0 − 2 0 0 1 1 ] ∗ [ − 1 − 2 − 1 0 0 0 2 1 0 1 ] / 5 = [ 6 / 5 4 / 5 4 / 5 6 / 5 ] c=\left [ \begin{array}{ccccc} -1 & -1 & 0 & 2 &0\\ -2 & 0 & 0 & 1 &1 \end{array} \right] * \left [ \begin{array}{cc} -1 & -2 \\ -1 & 0 \\ 0 & 0 \\ 2 & 1 \\ 0 & 1 \\ \end{array} \right] /5=\left [ \begin{array}{ccccc} 6/5 & 4/5 \\ 4/5 & 6/5 \\ \end{array} \right] c=[−1−2−10002101]∗ −1−1020−20011 /5=[6/54/54/56/5]
求出c的特征值和单位特征向量(这一步不会的可以移步考研数学李永乐,因为markdown写latex太难写了,题主就直接给出求得之后的答案了)
所求得的特征值为: λ 1 \lambda_1 λ1=2, λ 2 \lambda_2 λ2=2/5
然后我们求得对应的单位向量矩阵为(通过特征值的大小对特征向量进行按行排序)
p = 1 2 [ 1 1 − 1 1 ] p=\frac{1}{\sqrt[]{2}}\left [ \begin{array}{ccccc} 1 & 1 \\ -1 & 1 \end{array} \right] p=21[1−111]
因为我们要将数据从2维降低到1维,所以我们选择P的第一行数据进行降维度,p的第一行我们记作m,注意,此时的x为进行过0均值化后的数据
y = m ∗ x = 1 2 [ 1 1 ] ∗ [ − 1 − 1 0 2 0 − 2 0 0 1 1 ] = 1 2 [ − 3 − 1 0 3 1 ] y=m*x=\frac{1}{\sqrt[]{2}}\left [ \begin{array}{ccccc} 1 & 1 \\ \end{array} \right]* \left [ \begin{array}{ccccc} -1& -1 &0 &2 &0 \\ -2 & 0 & 0 & 1& 1 \end{array} \right]=\frac{1}{\sqrt[]{2}}\left [ \begin{array}{ccccc} -3& -1 &0 &3 &1 \\ \end{array} \right] y=m∗x=21[11]∗[−1−2−10002101]=21[−3−1031]
我们所得到的y即为我们所求的结果
LDA:
[ − 1 − 1 0 2 0 − 2 0 0 1 1 ] (例子) \left[ \begin{array}{ccc|cc} -1 & -1 & 0 & 2 &0\\ -2 & 0 & 0 & 1 &1 \end{array} \right] \tag{例子} [−1−2−10002101](例子)
本题已知前三个数据为一个种类,后两个数据为一个种类
所以u0第一行为(-1-1+0)/3 = -2/3
u0第二行为(-2+0+0)/3 = -2/3;
u1第一行为(2+0)/2=1
u1第二行为(1+1)/2=1
所求得的u0u1如下所示:
u 0 = [ − 2 3 − 2 3 ] u 1 = [ 1 1 ] u_0=\left [ \begin{array}{ccccc} -\frac{2}{3}\\ -\frac{2}{3} \end{array} \right] u_1=\left [ \begin{array}{ccccc} {1}\\ {1}\\ \end{array} \right] u0=[−32−32]u1=[11]
然后我们选择套公式进行Sw的计算,将前三个值带入到前面的x0中,后面的两个值带入到后面的x1中,求得的Sw。
Sw = Σ u \Sigma_u Σu Σ \Sigma Σ = Σ x 0 \Sigma_{x_0} Σx0(x-u0)(x-u0)T+ Σ x 1 \Sigma_{x_1} Σx1(x-u1)(x-u1)T
Sw的结果为:
S w = [ 2 3 2 3 2 3 8 3 ] + [ 2 0 0 0 ] = [ 8 3 2 3 2 3 8 3 ] S_w=\left [ \begin{array}{ccccc} \frac{2}{3} & \frac{2}{3}\\ \frac{2}{3} & \frac{8}{3} \\ \end{array} \right]+\left[ \begin{array}{ccccc} 2& 0\\ 0 & 0 \\ \end{array} \right] =\left[ \begin{array}{ccccc} \frac{8}{3} & \frac{2}{3}\\ \frac{2}{3} & \frac{8}{3} \\ \end{array} \right] Sw=[32323238]+[2000]=[38323238]
然后我们求出Sw-1,求逆矩阵的方法也可以参照考研数学,求出来之后的值为:
S w − 1 = [ 2 5 − 1 10 − 1 10 2 5 ] S_w^{-1}=\left [ \begin{array}{ccccc} \frac{2}{5} & -\frac{1}{10}\\ -\frac{1}{10} & \frac{2}{5} \\ \end{array} \right] Sw−1=[52−101−10152]
计算类间散度矩阵Sb
Sb=(u0-u1)(u0-u1)T
求出Sb的值为:
S b = [ 25 9 25 9 25 9 25 9 ] S_b=\left [ \begin{array}{ccccc} \frac{25}{9} & \frac{25}{9}\\ \frac{25}{9} & \frac{25}{9} \\ \end{array} \right] Sb=[925925925925]
然后我们计算c=Sw-1*Sb。
求得c为:
c = [ 6 5 6 5 6 5 6 5 ] c=\left [ \begin{array}{ccccc} \frac{6}{5} & \frac{6}{5}\\ \frac{6}{5} & \frac{6}{5} \\ \end{array} \right] c=[56565656]
求出c的特征值和单位特征向量,将单位特征向量按列排序(按照特征值大小进行排序),得到的单位特征向量为:
特征向量为 = 1 2 [ 1 − 1 1 − 1 ] 特征向量为=\frac{1}{\sqrt[]{2}}\left [ \begin{array}{ccccc} 1 & -1\\ 1 & -1 \\ \end{array} \right] 特征向量为=21[11−1−1]
取出第一列组成矩阵p,然后
y =pT*x,y即为我们所需要的降维之后的数据
y = 1 2 [ 1 1 ] ∗ [ − 1 − 1 0 2 0 − 2 0 0 1 1 ] = 1 2 [ − 3 − 1 0 3 1 ] y=\frac{1}{\sqrt[]{2}}\left [ \begin{array}{ccccc} 1 & 1\\ \end{array} \right] * \left[ \begin{array}{cccccccccccc} -1 & -1 & 0 & 2 &0\\ -2 & 0 & 0 & 1 &1 \end{array} \right] =\frac{1}{\sqrt[]{2}}\left[ \begin{array}{cccccccccccc} -3 & -1 & 0 & 3 & 1 \end{array} \right] y=21[11]∗[−1−2−10002101]=21[−3−1031]
可以看到 PCA与LDA降维所得到的答案是一样的,证明了我们计算的正确性
码字不易,主要是写latex的语法的矩阵实在是太复杂了,写的十分折磨,点个赞再走把!
相关文章:
PCA和LDA数据降维计算(含数学例子推导过程)
PCA算法和LDA算法可以用于对数据进行降维,例如可以把一个2维的数据降低维度到一维,本文通过举例子来对PCA算法和LDA算法的计算过程进行教学展示。 PCA算法计算过程(文字版,想看具体计算下面有例子) 1.将原始数据排列成n行m列的矩阵…...

题目 1053: 二级C语言-平均值计算(python详解)——练气三层初期
✨博主:命运之光 🦄专栏:算法修炼之练气篇(C\C版) 🍓专栏:算法修炼之筑基篇(C\C版) 🍒专栏:算法修炼之练气篇(Python版) ✨…...

Python —— UI自动化之Page Object模式
1、Page Object模式简介 1、二层模型 Page Object Model(页面对象模型), 或者也可称之为POM。在UI自动化测试广泛使用的一种分层设计 模式。核心是通过页面层封装所有的页面元素及操作,测试用例层通过调用页面层操作组装业务逻辑。 1、实战 …...

职能篇—自动驾驶产品经理
自动驾驶产品开发流程 在讲自动驾驶产品经理之前,先简单了解一下自动驾驶的开发体系。如上图所示,从产品需求开始,经由系统需求、系统架构、软件需求、软件架构,最终分解到软件代码实现模块,再经由MIL、SIL、HIL、VIL完…...

ubuntu安装golang
看版本:https://go.dev/dl/ 下载: wget https://go.dev/dl/go1.21.3.linux-amd64.tar.gz卸载已有的go,可以apt remove go,也可以which go之后删除那个go文件,然后: rm -rf /usr/local/go && tar…...
ES 8 新特性
1. async 和 await async 和 await 两种语法结合可以让异步代码像同步代码一样。(即:看起来是同步的,实质上是异步的。) 先从字面意思理解,async 意为异步,可以用于声明一个函数前,该函数是异步的。await 意为等待,即等待一个异步方法完成。 1.1 async async 声明(…...

linux-防火墙
目录 一、防火墙概念 1.软件防火墙 2.iptables默认规则 3.iptables的五链 4.iptables动作 5.四表五链 6.iptables实例 一、防火墙概念 linux下防火墙一般分为软件防火墙、硬件防火墙 硬件防火墙:在硬件的级别实现防火墙过滤功能,性能高…...

Pytorch--3.使用CNN和LSTM对数据进行预测
这个系列前面的文章我们学会了使用全连接层来做简单的回归任务,但是在现实情况里,我们不仅需要做回归,可能还需要做预测工作。同时,我们的数据可能在时空上有着联系,但是简单的全连接层并不能满足我们的需求࿰…...
爬虫进阶-反爬破解9(下游业务如何使用爬取到的数据+数据和文件的存储方式)
一、下游业务如何使用爬取到的数据 (一)常用数据存储方案 1.百万级别数据:单机数据库,搭建和使用方便快捷,成本低 2.千万级别数据:负载均衡的多台数据库,安全和稳定 3.海量数据:…...
Docker常用应用部署
Docker常用应用部署 一、Ubuntu系统Docker快速安装 Docker官网安装文档:https://docs.docker.com/engine/install/ubuntu/ # 文本处理的流编辑器 -i直接修改读取的文件内容,而不是输出到终端 # sed -i s/原字符串/新字符串/ /home/1.txt # 下面这个是修…...

【数据分享】2014-2022年我国淘宝村点位数据(Excel格式/Shp格式)
电子商务是过去一二十年我国发展最快的行业,其中又以淘宝为代表,淘宝的发展壮大带动了一大批服务淘宝电子商务的村庄,这些村庄被称为淘宝村! 截至到目前,阿里研究院梳理并公布了2014-2022年共9个年份的淘宝村名单&…...

Ubuntu 安装 docker-compose
在Ubuntu上安装Docker Compose,可以按照以下步骤进行操作: 下载 Docker Compose 二进制文件 sudo curl -L "https://github.com/docker/compose/releases/latest/download/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker…...
vue2、vue3中路由守卫变化
什么是路由守卫? 路由守卫就是路由跳转的一些验证,比如登录鉴权(没有登录不能进入个人中心页)等等等 路由守卫分为三大类: 全局守卫:前置守卫:beforeEach 后置钩子:afterEach 单个…...

Leetcode—547.省份数量【中等】
2023每日刷题(八) Leetcode—547.省份数量 实现代码 static int father[210] {0};int Find(int x) {if(x ! father[x]) {father[x] Find(father[x]);}return father[x]; }void Union(int x, int y) {int a Find(x);int b Find(y);if(a ! b) {fathe…...

Nginx 防盗链
nginx防盗链问题 盗链: 就是a网站有一张照片,b网站引用了a网站的照片 。 防盗链: a网站通过设置禁止b网站引用a网站的照片。 nginx防止网站资源被盗用模块 ngx_http_referer_module 如何区分哪些是不正常的用户? HTTP Referer…...

26. 通过 cilium pwru了解网络包的来龙去脉
pwru是一种基于eBPF的工具,可跟踪Linux内核中的网络数据包,并具有先进的过滤功能。它允许对内核状态进行细粒度检查,以便通过调试网络连接问题来解决传统工具(如iptables TRACE或tcpdump)难以解决甚至无法解决的问题。在本文中,我将介绍pwru如何在不必事先了解所有内容的…...
刷题笔记day01-数组
704 题 主要强调,左闭右闭的情况,就是每次查询都会和 [left, right] 进行比较。所以后面的都是mid-1,mid1 的情况。 package mainfunc search(nums []int, target int) int {// 二分查找方法// 每次查找都是左闭右闭的情况left : 0right : …...

C#调用C++ 的DLL传送和接收中文字符串
1 c#向c传送中文字符串 设置:将 字符集 改为 使用多字节字符集 cpp代码: extern "C"_declspec(dllexport) int input_chn_str(char in_str[]) {cout<<in_str<<endl;return 0; }c#代码: [DllImport("Demo.dll…...

【MySQL】数据库常见错误及解决
目录 2003错误:连接错误1251错误:身份验证错误1045错误:拒绝访问错误服务没有报告任何错误net start mysql 发生系统错误 5。 1064错误:语法错误1054错误:列名不存在1442错误:触发器中不能对本表增删改1303…...

spring常见问题汇总
1. 什么是spring? Spring是一个轻量级Java开发框架,最早有Rod Johnson创建,目的是为了解决企业级应用开发的业务 逻辑层和其他各层的耦合问题。它是一个分层的JavaSE/JavaEE full-stack(一站式)轻量级开源框架, 为开…...

Opencv实用操作5 图像腐蚀膨胀
相关函数 腐蚀函数 img1_erosion cv2.erode(img1,kernel,iterations1) (图片,卷积核,次数) 膨胀函数 img_dilate cv2.dilate(img2,kernel1,iterations1) (图片,卷积核,次数)…...
分布式爬虫架构设计
随着互联网数据的爆炸式增长,单机爬虫已经难以满足大规模数据采集的需求。分布式爬虫应运而生,它通过多节点协作,实现了数据采集的高效性和容错性。本文将深入探讨分布式爬虫的架构设计,包括常见的架构模式、关键技术组件、完整项…...
Java 中的 ThreadLocal 详解:从基础到源码
Java 中的 ThreadLocal 详解:从基础到源码 引言 在 Java 多线程编程中,ThreadLocal是一个经常被提及的概念。它提供了一种线程局部变量的机制,使得每个线程都可以独立地存储和访问自己的变量副本,而不会与其他线程产生冲突。本文…...
树莓派设置静态ip 永久有效 我的需要设置三个 一个摄像头的 两个设备的
通过 systemd-networkd 配置 此方法适用于较新的Raspberry Pi OS版本,支持同时绑定多个IP地址到同一网卡,且配置清晰稳定。 1.禁用DHCP客户端对eth0的管理:编辑/etc/dhcpcd.conf文件,添加以下内容以忽略eth0接口的自动分配 sudo nano /etc…...

哈工大计算机系统2024大作业——Hello的程序人生
计算机系统 大作业 题 目 程序人生-Hello’s P2P 专 业 人工智能 学 号 2022112040 班 级 2203601 学 生 郄东昕 指 导 教 师 吴锐 计算机科学与技术学院…...

day12 leetcode-hot100-19(矩阵2)
54. 螺旋矩阵 - 力扣(LeetCode) 1.模拟路径 思路:模拟旋转的路径 (1)设计上下左右方向控制器以及边界。比如zy1向右,zy-1向左;sx1向上,sx-1向下。上边界0,下边界hang-1&a…...
mysql:MVCC机制
MVCC机制 MVCC机制主要是mysql的多版本并发控制的一个机制,它主要是允许mysql去保存同一时间对同一份数据的不同历史版本的,从而避免读写之间的锁竞争,从而去提高并发的性能。 像传统的锁机制(读写互斥锁(Read-Write …...
【Vue Vapor Mode :技术突破与性能优化的可能性】
Vue Vapor Mode :技术突破与性能优化的可能性 前言 作为一名有着Vue 2经验和Vue 3经验的开发者,你一定深刻体会过Vue从Options API到Composition API的演进,也感受过Vue 3在性能上相比Vue 2的显著提升。现在,Vue团队正在开发一个…...

Dynamics 365 Business Central AI Sales Order Agent Copilot
#AI Copilot# #D365 BC 26 Wave# 最近很多客户都陆续升级到 Dynamics 365 Business Central 26 wave, Microsoft 提供一个基于Copilot 的Sales Order Agent,此文将此功能做个介绍. Explorer: 可以看到26版本上面增加了这样一个新图标。 Configuration: 配置过程…...
offset 家族和 client 家族
在前端开发中,offset 家族和 client 家族是用于获取元素尺寸和位置的重要属性集合。以下是对这两个家族相关知识点的系统总结: 一、offset 家族 核心属性 offsetWidth / offsetHeight 含义:元素的总尺寸,包含内容区、内边距、边…...