降维(Dimensionality Reduction)
一、动机一:数据压缩
这节我将开始谈论第二种类型的无监督学习问题,称为降维。有几个原因使我们可能想要做降维,其一是数据压缩,它不仅允许我们压缩数据使用较少的计算机内存或磁盘空间,而且它可以加快我们的学习算法。首先,让我们知道降维是什么:

假设我们有两个未知的特征::长度,用厘米表示;
:用英寸表示同一物体的长度,所以这明显是高度冗余,因而我们希望将这个二维的数据降至一维,如下图:

下面的这个例子中 我们要将一个三维的特征向量降至成一个二维的特征向量,过程与上面是类似的,我们将三维向量投射到一个二维的平面上
这样的处理过程可以被用于把任何维度的数据降到任何想要的维度,例如将1000维的特征降至100维
二、动机二:数据可视化
在许多机器学习问题中,如果我们能将数据可视化,我们便能寻找到一个更好的解决方案,降维可以帮助我们。
假使我们有许多不同国家的数据,每一个特征向量都有50个特征(如,GDP,人均GDP,平均寿命等)。如果要将这个50维的数据可视化是不可能的,使用降维的方法将其降至2维,我们便可以将其可视化了。

这样做的问题在于降维的算法只负责减少维数,新产生的特征的意义就必须由我们自己去定义了
三、 主成分分析问题
主成分分析(PCA)是最常见的降维算法,在PCA中我们要做的是找到一个方向向量(Vector direction),当我们把所有的数据都投射到该向量上时,我们希望投射误差尽可能地小。方向向量是一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度

主成分分析问题的描述:要将n维数据降至k维,目标是找到向量,使得总的投射误差最小
主成分分析与线性回归的比较:
①主成分分析最小化的是投射误差(Projected Error),而线性回归最小化的是预测误差
②线性回归的目的是预测结果,而主成分分析不作任何预测

左边的是线性回归的误差(垂直于横轴投影),右边是主成分分析的误差(垂直于红线投影)
PCA将n个特征降维到k个,可以用来进行数据压缩,如果100维的向量最后可以用10维来表示,那么压缩率为90%,但PCA 要保证降维,还要保证数据的特性损失最小
PCA技术的一大好处是对数据进行降维的处理,我们可以对新求出的主元向量的重要性进行排序,根据需要取前面最重要的部分,将后面的维数省去,可以达到降维从而简化模型或是对数据进行压缩的效果,同时最大程度的保持了原有数据的信息
PCA技术另一个很大的优点是它是完全无参数限制的,在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预,最后的结果只与数据相关,与用户是独立的。但是这一点同时也可以看作是缺点,如果用户对观测对象有一定的先验知识,掌握了数据的一些特征却无法通过参数化等方法对处理过程 进行干预,可能会得不到预期的效果,效率也不高。
四、主成分分析算法
数据预处理

PCA 从n维减少到k维:
第一步是均值归一化,如上图所示
第二步是计算协方差矩阵(covariance matrix)Σ:
第三步是计算协方差矩阵Σ的特征向量(eigenvectors):
在 Octave 里我们可以利用奇异值分解(singular value decomposition)来求解,
[U, S, V]= svd(sigma)


对于一个 n×n维度的矩阵,上式中的U是一个具有与数据之间最小投射误差的方向向量构成的矩阵。如果我们希望将数据从n维降至k维,我们只需要从U中选取前k个向量,获得一个n×k维度的矩阵,我们用表示,然后通过如下计算获得要求的新特征向量
其中x是n×1维的,因此结果为k×1维度
注:我们不对方差特征进行处理
五、选择主成分的数量
主要成分分析是减少投射的平均均方误差:
训练集的总方差为:
我们希望在平均均方误差与训练集总方差的比例尽可能小的情况下选择尽可能小的k值
如果我们希望这个比例小于1%,就意味着原本数据的偏差有99%都保留下来了,如果我们能够保留95%的偏差,便能非常显著地降低模型中特征的维度了
我们可以先令k=1,然后进行主要成分分析,获得和
,然后计算比例是否小于1%。如果不是的话再令k=2,依此类推,直到找到可以使得比例小于1%的最小k 值(原因是各个特征之间通常情况存在某种相关性)
还有一些更好的方式来选择k,当我们在Octave中调用svd函数的时候,我们可以获得三个参数:[U, S, V] = svd(sigma)

其中的S是一个n×n的矩阵,只有对角线上有值,而其它单元都是0,我们可以使用这个矩阵来计算平均均方误差与训练集总方差的比例:

也就是:
六、重建的压缩表示
在前面的内容中,我们讲到利用PCA算法可以把1000维的数据压缩100维特征,所以如果这是一个压缩算法,那么按理说应该可以回到原有的高维数据的一种近似,所以给定的是100维,怎么回到原来的1000维的
呢?

PCA算法做的事情:如图中样本,我们把这些样本投射到图中这个一维平面,那么给定一个点
,我们怎么能回去到这个原始的二维空间呢?x为2维,z为1维,
,相反的方程为:
。如图:

七、主成分分析法的应用建议
假使我们正在对一张100×100像素的图片进行某个计算机视觉的机器学习,即总共有10000 个特征
第一步:运用主成分分析将数据压缩至1000个特征
第二步:对训练集运行学习算法
第三步:在预测时采用之前学习而来的
将输入的特征x转换成特征 z,然后再预测
注:如果我们有交叉验证集和测试集,也采用对训练集学习而来的。
错误的主成分分析情况:
①将其用于减少过拟合(减少了特征的数量),这样做非常不好,不如尝试正则化处理。原因在于主要成分分析只是近似地丢弃掉一些特征,它并不考虑任何与结果变量有关的信息,因此可能会丢失非常重要的特征,然而当我们进行正则化处理时,会考虑到结果变量,不会丢掉重要的数据。
②默认地将主成分分析作为学习过程中的一部分,这虽然很多时候有效果,最好还是从所有原始特征开始,只在有必要的时候(算法运行太慢或者占用太多内存)才考虑采用主要成分分析。
相关文章:
降维(Dimensionality Reduction)
一、动机一:数据压缩 这节我将开始谈论第二种类型的无监督学习问题,称为降维。有几个原因使我们可能想要做降维,其一是数据压缩,它不仅允许我们压缩数据使用较少的计算机内存或磁盘空间,而且它可以加快我们的学习算法。…...
web应用(网页)怎样调用浏览器插件(如metamask小狐狸钱包)
下边是与gpt的对话,代码可以在浏览器控制台验证 一,在网页上点击一个连接按钮 然后小狐狸钱包就打开了,是怎么实现的呢 当你在网页上点击一个连接按钮,然后自动打开MetaMask(通常被称为“小狐狸钱包”,一种…...
2024美赛数学建模C题完整论文教学(含十几个处理后数据表格及python代码)
大家好呀,从发布赛题一直到现在,总算完成了数学建模美赛本次C题目Momentum in Tennis完整的成品论文。 本论文可以保证原创,保证高质量。绝不是随便引用一大堆模型和代码复制粘贴进来完全没有应用糊弄人的垃圾半成品论文。 C论文共49页&…...
Matplotlib绘制炫酷柱状图的艺术与技巧【第60篇—python:Matplotlib绘制柱状图】
文章目录 Matplotlib绘制炫酷柱状图的艺术与技巧1. 簇状柱状图2. 堆积柱状图3. 横向柱状图4. 百分比柱状图5. 3D柱状图6. 堆积横向柱状图7. 多系列百分比柱状图8. 3D堆积柱状图9. 带有误差线的柱状图10. 分组百分比柱状图11. 水平堆积柱状图12. 多面板柱状图13. 自定义颜色和样…...
window 挂载linux 网盘
背景:因为很多情况下,作为开发人员,我们都希望用Linux的编译环境,但是可以用windows下各种IDE来写code; linux 服务器安装NFS服务 说明:NFS 服务就是让不同的计算机可以在不同的操作系统之间共享文件,采用的就是服务端/客户端的架构,在NFS服务器上将目录设置为输出目录(…...
windows10忘记密码的解决方案
大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…...
进程和线程的区别详解
🎥 个人主页:Dikz12📕格言:那些在暗处执拗生长的花,终有一日会馥郁传香欢迎大家👍点赞✍评论⭐收藏 目录 进程 进程在系统中是如何管理的 进一步认识PCB 线程 能否一直增加线程数目来提高效率 进程和线程…...
(基于xml配置Aop)学习Spring的第十五天
一 . Spring Aop编程简介 再详细点 , 如下 二 . 基于xml配置Aop 解决proxy相关问题 解决问题开始用xml配置AOP 导入pom坐标 <dependency><groupId>org.aspectj</groupId><artifactId>aspectjweaver</artifactId><version>1.9.6</vers…...
Centos7环境安装PHP8
一、安装必要的模块 yum install -y bzip2-devel libcurl-devel libxml2-devel sqlite-devel oniguruma oniguruma-devel libxml2 libxml2-devel bzip2 bzip2-devel libcurl libcurl-devel libjpeg libjpeg-devel zstd libzstd-devel curl libcurl-devel libpng libpng-devel …...
No matching client found for package name ‘com.unity3d.player‘
2024年2月5日更新 必须使用Unity方式接入Unity项目!一句话解决所有问题。(真的别玩Android方式) 大致这问题出现原因是我在Unity采用了Android方式接入Firebase,而Android接入实际上和Unity接入方式有配置上的不一样,我…...
JavaWeb之HTML-CSS --黑马笔记
什么是HTML ? 标记语言:由标签构成的语言。 注意:HTML标签都是预定义好的,HTML代码直接在浏览器中运行,HTML标签由浏览器解析。 什么是CSS ? 开发工具 VS Code --安装文档和安装包都在网盘中 链接:https://p…...
logback日志配置
springboot默认使用logback 无需额外添加pom依赖 1.指定日志文件路径 当前项目路径 testlog文件夹下 linux会在项目jar包同级目录 <property name"log.path" value"./testlog" /> 如果是下面这样配置的话 window会保存在当前项目所在盘的home文件夹…...
SpringBoot集成Flowable工作流
文章目录 一、了解Flowable1. 什么是Flowable2. Flowable基本流程3. Flowable主要几张表介绍 二、SpringBoot集成Flowable1. 在idea中安装Flowable插件2. SpringBoot集成Flowable3. SpringBoot集成Flowable前端页面 三、创建流程模版(以请假为例) 提示:以下是本篇文…...
try-with-resources 语法详解
目录 一、介绍 二、用法对比 三、优势 四、原理分析 一、介绍 在Java 7中,引入了一项重要的语法糖——try-with-resources,这项特性的目的是为了更有效地处理资源的管理。资源指的是需要在代码执行完毕后手动关闭的对象,比如文件流、网络…...
【Java程序设计】【C00207】基于(JavaWeb+SSM)的宠物领养管理系统(论文+PPT)
基于(JavaWebSSM)的宠物领养管理系统(论文PPT) 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于ssm的宠物领养系统 本系统分为前台系统、管理员、收养者和寄养者4个功能模块。 前台系统:游客打开系统…...
2024-2-4-复习作业
源代码: #include <stdio.h> #include <stdlib.h> typedef int datatype; typedef struct Node {datatype data;struct Node *next;struct Node *prev; }*DoubleLinkList;DoubleLinkList create() {DoubleLinkList s(DoubleLinkList)malloc(sizeof(st…...
【Linux】解决:为什么重复创建同一个【进程pid会变化,而ppid父进程id不变?】
前言 大家好吖,欢迎来到 YY 滴Linux 系列 ,热烈欢迎! 本章主要内容面向接触过Linux的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! YY的《C》专栏YY的《C11》专栏YY的…...
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的API网关设计实现
盘点本年度探索对外服务的百万请求量的API网关设计实现 背景介绍高性能API网关API网关架构优化多级缓存架构设计多级缓存富客户端漏斗模型数据读取架构 异步刷新过期缓存网关异步化调用模型高性能批量API调用(减少对于网关的交互和通信)并行调用和请求合…...
Python算法题集_环形链表
Python算法题集_环形链表 题234:环形链表1. 示例说明2. 题目解析- 题意分解- 优化思路- 测量工具 3. 代码展开1) 标准求解【集合检索】2) 改进版一【字典检测】3) 改进版二【双指针】 4. 最优算法 本文为Python算法题集之一的代码示例 题234:环形链表 …...
【51单片机】开发板&开发软件(Keil5&STC-ISP)简介&下载安装破译传送门(1)
前言 大家好吖,欢迎来到 YY 滴单片机系列 ,热烈欢迎! 本章主要内容面向接触过单片机的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! YY的《C》专栏YY的《C11》专栏YY的…...
Phi-4-mini-reasoning部署案例:科研团队构建内部逻辑验证辅助工具链
Phi-4-mini-reasoning部署案例:科研团队构建内部逻辑验证辅助工具链 1. 项目背景与模型介绍 Phi-4-mini-reasoning 是一款专注于推理任务的文本生成模型,特别适合处理数学题、逻辑题、多步分析和简洁结论输出等场景。与通用聊天模型不同,它…...
Ostrakon-VL C++高性能集成:工业级视觉系统的核心引擎
Ostrakon-VL C高性能集成:工业级视觉系统的核心引擎 1. 工业视觉的极致性能挑战 在高速运转的汽车零部件生产线上,每分钟需要完成200次精密零件的外观检测。传统视觉方案常面临两个致命问题:要么漏检率超标导致质量风险,要么检测…...
IndexTTS2 V23应用案例:打造智能客服语音,让机器说话更有人情味
IndexTTS2 V23应用案例:打造智能客服语音,让机器说话更有人情味 1. 为什么智能客服需要情感语音? 在当今的客户服务场景中,冰冷的机械语音正在被市场淘汰。研究表明,带有适当情感的语音交互能显著提升用户体验&#…...
《镜像视界|低空空间智能白皮书》——融合 Pixel2Geo™ 像素空间反演 × MatrixFusion™ 矩阵视频融合 × NeuroRebuild™ 动态三维重构 × 跨镜连续追踪 ×
——融合 Pixel2Geo™ 像素空间反演 MatrixFusion™ 矩阵视频融合 NeuroRebuild™ 动态三维重构 跨镜连续追踪 轨迹张量建模 Cognize-Agent 空间智能系统的空地一体感知与目标连续管控体系摘要低空经济与立体城市快速发展,催生了对“空地一体、连续感知、实时决…...
开源大模型效果展示:Pixel Language Portal对emoji+文字混合输入的语义解析
开源大模型效果展示:Pixel Language Portal对emoji文字混合输入的语义解析 1. 项目概览 Pixel Language Portal(像素语言跨维传送门)是一款基于Tencent Hunyuan-MT-7B大模型构建的创新翻译工具。与传统翻译软件不同,它将语言转换…...
面试官最爱问的哈希表实战:用C++手撕‘存在重复元素II’(附滑动窗口优化思路)
哈希表实战:从暴力解法到最优解法的完整思维路径 在技术面试中,哈希表相关题目几乎是必考内容,而"存在重复元素II"这类问题更是高频出现。这道看似简单的题目背后,隐藏着对候选人算法思维、编码能力和沟通表达的全面考察…...
Intv_AI_MK11 服务端错误处理:全面应对 403 Forbidden 等常见 HTTP 状态码
Intv_AI_MK11 服务端错误处理:全面应对 403 Forbidden 等常见 HTTP 状态码 1. 为什么需要关注API错误处理 在调用Intv_AI_MK11这类AI服务API时,开发者经常会遇到各种HTTP状态码返回。这些状态码就像是服务端给你的"小纸条",告诉你…...
AudioSeal环境部署:Ubuntu+CUDA 12.x+PyTorch 2.3适配性配置指南
AudioSeal环境部署:UbuntuCUDA 12.xPyTorch 2.3适配性配置指南 1. 引言 如果你正在寻找一种可靠的方法来为AI生成的音频打上“数字指纹”,以便后续进行检测和溯源,那么Meta开源的AudioSeal项目绝对值得你花时间研究。简单来说,A…...
StructBERT语义分析工具实测:一键判断句子相似度,支持GPU加速
StructBERT语义分析工具实测:一键判断句子相似度,支持GPU加速 1. 工具核心价值 StructBERT语义分析工具是一款专为中文文本设计的本地化语义相似度计算解决方案。不同于传统的关键词匹配方法,该工具基于阿里巴巴开源的StructBERT-Large模型…...
OpenClaw多模态实践:Qwen3.5-9B-VL图文报告自动生成
OpenClaw多模态实践:Qwen3.5-9B-VL图文报告自动生成 1. 为什么需要多模态自动化 去年整理学术文献时,我每天要手动截取论文图表、复制关键数据、整理成Markdown笔记。这个过程不仅耗时,还经常漏掉重要细节。直到发现OpenClaw可以对接Qwen3.…...
