当前位置: 首页 > news >正文

机器学习第十三课--主成分分析PCA

一.高维数据

除了图片、文本数据,我们在实际工作中也会面临更多高维的数据。比如在评分卡模型构建过程中,我们通常会试着衍生出很多的特征,最后就得到上千维、甚至上完维特征;在广告点击率预测应用中,拥有几个亿特征也是常见的事情;在脑科学或者基因研究中,特征数甚至可能更多;所以,如何更有效地处理这些高维的特征就变成了一个非常重要的问题。

二.数据降维

除了有效利用高维的数据之外,我们也可以思考一个问题:“高维数据,那么多特征真的都有用吗?” 这就类似于一个人的社交质量并不取决于有多少朋友,而在于朋友质量,在建模过程中也适用这个道理。特征越多并不代表学出来的模型越好,我们更需要关注特征对预测任务的相关性或者价值,有些特征甚至可能成为噪声,反而影响模型的效果。

2.1如何降维

 2.1.1数据的降维   通过函数的映射关系

 2.1.2特征选择

选择子集

三.PCA

PCA(Principal Component Analysis)作为一种重要的降维算法有着非常广泛的应用。PCA经常用来做数据的可视化、或者用来提高预测模型的效果。 对于PCA降维算法来讲,有几个核心问题需要弄清楚:

1。 PCA降维的核心思想是什么? 它是依赖于什么条件做降维?

2。 什么叫主成分(principal component)?

从图中可以看出,沿着C的方向,数据是越分散的,也就说明在这个方向上我们可以看出数据之间的更多差异!相反,沿着直线A的方向,我们可以看到很多数据的差异并不明显,区分度很低。所以,总体来讲,当我们选择C为新的坐标轴时,所有点在这个坐标轴上的值的差异是最大的,也就是最大程度的保留了数据之间的特点(差异性),这就是PCA的核心思想。 

找到第一个主成分,第二个主成分和第一个主成分垂直

四.PCA的缺点

1.只能针对线性

2.必须做归一化

3.部分信息会丢失(降维)

4.可解释性比较弱

五.其他的降维方法

 

相关文章:

机器学习第十三课--主成分分析PCA

一.高维数据 除了图片、文本数据,我们在实际工作中也会面临更多高维的数据。比如在评分卡模型构建过程中,我们通常会试着衍生出很多的特征,最后就得到上千维、甚至上完维特征;在广告点击率预测应用中,拥有几个亿特征也是常见的事…...

钉钉stream机器人-实操详细教程

支持事件订阅、机器人收消息、卡片回调等功能 优点: 配置简单,不依赖也不需要暴露公网IP,无需向公网开放端口 github官方链接:GitHub - open-dingtalk/dingtalk-stream-sdk-python: Python SDK for DingTalk Stream Mode API, Co…...

设计模式:访问者模式(C++实现)

访问者模式通过将对元素的操作与元素本身分离&#xff0c;使得可以在不修改元素类的情况下定义新的操作。 #include <iostream> #include <vector> #include <algorithm>// 前向声明 class ConcreteElementA; class ConcreteElementB;// 访问者接口 class V…...

Pygame中Sprite的使用方法6-6

4 重新绘制界面 每次碰撞发生后&#xff0c;程序界面需要重新绘制&#xff0c;代码如下所示。 screen.fill(WHITE) all_sprites_list.draw(screen) pygame.display.flip() 其中&#xff0c;screen表示程序的整个界面&#xff0c;将其绘制为白色背景&#xff1b;之后通过all_…...

react多条件查询

1、声明一个filter常量 2.filter接受&#xff08;condition,data&#xff09;两个参数 3、调用data里面的filter进行筛选 4、任意一个item当筛选条件 5、使用object.key获取对象所有key 6、对每个key使用Array.prototype.every&#xff08;&#xff09;方法判断是否满足条…...

2023/09/17

文章目录 1. vscode展开所有代码快捷键ctrl k j2. git删除所有stash或指定stash git stash drop [可选stash名]3. vue在函数默认参数后增加新参数4. git push 添加“-u”参数5. vscode快捷输入符号$的使用6. WebGL之什么是GLB&GLTF文件&#xff1f;7. WebGL之什么是HDR&a…...

Linux centos7压缩包安装mysql-8.0.34 并设置开机自启

下载安装解包 并解压 wget https://dev.mysql.com/get/Downloads/MySQL-8.0/mysql-8.0.34-linux-glibc2.12-x86_64.tar.xztar -xf mysql-8.0.34-linux-glibc2.12-x86_64.tar.xzmv mysql-8.0.34-linux-glibc2.12-x86_64 /usr/local/mysql初始化数据及安装操作 配置mysql配置文…...

iOS——present相关属性以及dismiss多级的方法

push和present 两者的区别 push: push由视图栈控制&#xff0c;每一个视图都入栈&#xff0c;调用之前的视图则需要出栈&#xff0c;可返回任意一层&#xff0c;一般用于同一业务不同界面之间的切换。 push是由UINavigationController管理的视图控制器堆栈&#xff0c;在wind…...

MinDoc v0.4:轻量级文档在线管理系统

导读SmartWiki 是基于 PHP 框架 laravel 开发的一款文档管理系统。因 PHP 的部署对普通用户来说太复杂&#xff0c;所以改用 Golang 开发。可以方便用户部署和实用。 MinDoc 是一款针对IT团队开发的简单好用的文档管理系统。MinDoc 的前身是 SmartWiki 文档系统。开发缘起是公…...

Appium 全新 2.0 全新跨平台生态,版本特性抢鲜体验!

关于Appium V2 Appium V2 beta版本在2021年发布&#xff0c;从2022年1月1号开始&#xff0c;Appium核心团队不会再维护Appium 1.x版本了&#xff0c;所有近期官方发布的平台驱动&#xff08;如Android平台的UIAutomator&#xff0c;IOS平台的XCUITest&#xff09;不再兼容Appi…...

Opencv 4.5.5 linux contrib编译

https://github.com/opencv/opencv/releases https://github.com/opencv/opencv_contrib/releases/tag/4.7.0 版本要一模一样 下载4.5.5的源码 # 0. 将contrib文件夹移动到opencv文件夹中去 mkdir build cd build# 1. cmake生成配置文件&#xff0c;其中OPENCV_EXTRA_MODUL…...

Windows 11 家庭中文版添加本地安全策略

一、报错 Windows11中打开本地组策略编辑器(cmd中输入gpedit.msc)&#xff0c;报错&#xff1a; 二、解决 1、新建txt文件&#xff0c;文件名任意&#xff0c;将下面的内容复制粘贴进去。2、将文件后缀名由txt改为cmd。3、以管理员身份执行该cmd文件&#xff0c;安装本地安全…...

TCP三次握手四次挥手

一、三次握手 1.概念&#xff1a; 三次握手是指在建立一个TCP连接时&#xff0c;客户端和服务端一共会发送三个报文段。 Seq 序列号 保障传输过程可靠。 ACK &#xff08;确认消息&#xff09; SYN &#xff08;在建立TCP连接的时候使用&#xff09; FIN &#xf…...

C语言基础-结构体

结构体类型的声明 结构是一些值的集合&#xff0c;这些值称为成员变量&#xff0c;结构的每个成员可以是不同类型的变量 数组&#xff1a;一组相同类型元素的集合 结构体&#xff1a;其实是一组不一定相同类型元素的集合 //结构声明 // struct tag //tag根据实际情况给名字…...

Codeforces Round 848 (Div. 2)C

B. The Forbidden Permutation 一定要注意题目中说的是对于all i满足才算不好的&#xff0c;我们做的时候只要破坏一个i这个a就不算好的了,被这一点坑了&#xff0c;没注意到all。 #include <bits/stdc.h>using namespace std; typedef long long LL; const int N 2e5 …...

数据分发服务DDS

文章目录 DDS技术的特点和优势DDS数据分发服务在车载控制器上的应用 DDS技术的特点和优势 DDS&#xff08;Data Distribution Service&#xff09;技术是一种实时数据分发服务&#xff0c;它是一种基于发布/订阅模式的中间件&#xff0c;用于在分布式系统中实现高性能、可扩展…...

Linux 文件 目录管理 链接

Linux 文件 基本属性 Linux 系统是一种典型的多用户系统&#xff0c;为了保护系统的安全性&#xff0c;不同的用户拥有不同的地位和权限。Linux 系统对不同的用户访问同一文件&#xff08;包括目录文件&#xff09;的权限做了不同的规定。 可以使用命令&#xff1a;ll 或 ls –…...

R统计绘图-线性混合效应模型详解(理论、模型构建、检验、选择、方差分解及结果可视化)

目录 一、 基础理论 二、数据准备 三、构建线性混合效应模型(LMMs) 3.1 lme4线性混合效应模型formula 3.2 随机截距模型构建及检验 3.3 随机截距模型分析结果解释及可视化 3.4 随机斜率模型构建、检验及可视化 四、线性混合效应模型选择 4.1 多模型比较 4.2 模型最优子…...

钾和钠含量

声明 本文是学习GB-T 397-2022 商品煤质量 炼焦用煤. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围 本文件规定了炼焦用商品煤产品质量等级和技术要求、试验方法、检验规则、标识、运输及贮存。 本文件适用于生产、加工、储运、销售、使用…...

Linux离线安装elasticsearch|header|kibna插件最详细

1.准备软件安装包 [hadoophost152 elasticsearch]$ ll -rw-r--r--. 1 hadoop hadoop 515807354 9月 23 23:40 elasticsearch-8.1.1-linux-x86_64.tar.gz -rw-r--r--. 1 hadoop hadoop 1295593 9月 23 23:48 elasticsearch-head-master.tar.gz -rw-r--r--. 1 hadoop hadoop…...

AGI 主要技术路径及核心技术:归一融合及未来之路6

七、其他新兴路径&#xff08;一&#xff09;因果表示学习核心理念&#xff1a;智能的核心是理解世界的因果机制&#xff0c;而非仅仅识别统计关联。该路径旨在让AI模型学会像人类一样&#xff0c;构建因果关系图&#xff0c;进行反事实推理&#xff08;思考“如果当时…会怎样…...

分切机程序开发:上下收放卷张力控制实现

分切机程序 &#xff0c;上下收放卷张力控制&#xff0c;无电子凸轮功能。 触摸屏威纶通&#xff0c;PLC是三菱FX3U系列 在自动化生产领域&#xff0c;分切机的稳定运行至关重要&#xff0c;尤其是上下收放卷张力的精准控制。本文将探讨基于威纶通触摸屏和三菱FX3U系列PLC&…...

零基础入门ai开发:在快马平台用openclaw tavily打造你的第一个智能搜索应用

作为一个刚接触AI开发的新手&#xff0c;最近我在InsCode(快马)平台上尝试用OpenClaw Tavily API做了一个智能搜索小工具&#xff0c;整个过程比想象中简单很多。今天就把这个入门经验分享给大家&#xff0c;希望能帮助同样想尝试AI应用开发的朋友少走弯路。 为什么选择Tavily …...

NCMDump:突破网易云音乐格式限制的开源解密工具

NCMDump&#xff1a;突破网易云音乐格式限制的开源解密工具 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 当你下载了喜爱的音乐却发现文件格式被加密&#xff0c;无法在其他设备播放时&#xff1b;当你想备份音乐收藏却受限于专有…...

微信聊天记录终极保存方案:5步轻松实现永久备份与智能分析

微信聊天记录终极保存方案&#xff1a;5步轻松实现永久备份与智能分析 【免费下载链接】WeChatMsg 提取微信聊天记录&#xff0c;将其导出成HTML、Word、CSV文档永久保存&#xff0c;对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/W…...

柔性制造企业数字化工厂系统建设方案:制造业数字化全景图、打造5大引擎内核构建工业数字化底座、数据中台与数据治理、典型应用场景示例

本方案针对制造企业信息化痛点&#xff0c;提出基于无代码开发与组装式应用的数字化工厂建设思路&#xff0c;通过数据中台整合多源数据&#xff0c;结合MES、APS、WMS、数字孪生等系统&#xff0c;实现柔性生产、规范化管理与效率提升&#xff0c;助力企业低成本、高柔性、可持…...

2026年4月OpenClaw怎么部署?腾讯云零门槛流程:含安装及大模型API、Skill配置

2026年4月OpenClaw怎么部署&#xff1f;腾讯云零门槛流程&#xff1a;含安装及大模型API、Skill配置。OpenClaw&#xff08;原Clawdbot&#xff09;作为2026年主流的AI自动化助理平台&#xff0c;可通过阿里云轻量服务器实现724小时稳定运行&#xff0c;并快速接入钉钉&#xf…...

告别手算!用Matlab快速搞定高斯光束的ABCD矩阵(附常用光学系统代码)

用Matlab高效构建光学系统&#xff1a;高斯光束ABCD矩阵实战指南 光学仿真工程师们常常面临一个困境&#xff1a;理论推导严谨但繁琐&#xff0c;手动计算容易出错且效率低下。特别是在处理复杂光学系统时&#xff0c;反复验证ABCD矩阵的正确性会消耗大量时间。本文将分享一套经…...

godot自身节点能拖进脚本 其他场景中的节点得实例化才能拖

自身节点能拖进自己脚本 但是其他场景的节点得实例化那个场景才能拖 不然是$....

别再死记硬背公式了!用Python+NumPy手把手推导并可视化ULA/UPA阵列导向矢量

用PythonNumPy从零构建天线阵列导向矢量&#xff1a;可视化相位差与波束成形 天线阵列技术是现代无线通信系统的核心&#xff0c;但许多初学者往往陷入公式记忆的困境。本文将带你用Python和NumPy从物理直觉出发&#xff0c;亲手实现均匀线阵(ULA)和均匀面阵(UPA)的导向矢量计算…...