机器学习第11天:降维
文章目录
机器学习专栏
主要思想
主流方法
投影
二维投射到一维
三维投射到二维
流形学习
PCA主成分分析
介绍
代码
内核PCA
具体代码
LLE
结语
机器学习专栏
机器学习_Nowl的博客-CSDN博客
主要思想
介绍:当一个任务有很多特征时,我们找到最主要的,剔除不重要的
主流方法
1.投影
投影是指找到一个比当前维度低的维度面(或线),这个维度面或线离当前所有点的距离最小,然后将当前维度投射到小维度上
二维投射到一维

三维投射到二维

2.流形学习
当然,当数据集投影后在低纬度上有重叠的时候,我们应该考虑别的方法
我们来看看被称为瑞士卷数据集的三维图

经过两种降维数据的处理,我们得到下面两幅二维数据可视化图

我们可以看到,左边的数据 有很多重合的点,它使用的是投影技术,而右图就像将数据集一层层展开一样,这就是流形学习
我们接下来介绍三种常见的具体实现这些的降维方法
一、PCA主成分分析
介绍
pca主成分分析是一种投影降维方法
PCA主成分分析的思想就是:识别最靠近数据的超平面,然后将数据投影到上面
代码
这是一个最简单的示例,有一个两行三列的特征表x,我们将它降维到2个特征(n_components参数决定维度)
from sklearn.decomposition import PCAx = [[1, 2, 3], [3, 4, 5]]pca = PCA(n_components=2)
x2d = pca.fit_transform(x)print(x)
print(x2d)
运行结果

二、三内核PCA
内核可以将实例隐式地映射到高维空间,这有利于模型寻找到数据的特征(维度过低往往可能欠拟合),其他的思想与PCA相同
具体代码
1.线性内核
特点: 线性核对原始特征空间进行线性映射,相当于没有映射,直接在原始空间上进行PCA。适用于数据在原始空间中是线性可分的情况。
import matplotlib.pyplot as plt
from sklearn.datasets import make_swiss_roll
from sklearn.decomposition import KernelPCA# 生成瑞士卷数据集
X, color = make_swiss_roll(n_samples=1000, noise=0.2, random_state=42)# 使用内核PCA将数据降为二维
kpca = KernelPCA(n_components=2, kernel='linear', gamma=0.1)
X_kpca = kpca.fit_transform(X)# 可视化降维后的数据
plt.scatter(X_kpca[:, 0], X_kpca[:, 1], c=color, cmap='viridis', edgecolor='k')
plt.title('Kernel PCA of Swiss Roll Dataset')
plt.show()

2.rbf内核
特点: RBF核是一种常用的非线性核函数,它对数据进行非线性映射,将数据映射到高维空间,使得在高维空间中更容易分离。gamma参数控制了映射的“尺度”或“平滑度”,较小的gamma值导致较远的点对结果有较大的贡献,产生更平滑的映射,而较大的gamma值使得映射更加局部化。
import matplotlib.pyplot as plt
from sklearn.datasets import make_swiss_roll
from sklearn.decomposition import KernelPCA# 生成瑞士卷数据集
X, color = make_swiss_roll(n_samples=1000, noise=0.2, random_state=42)# 使用内核PCA将数据降为二维
kpca = KernelPCA(n_components=2, kernel='rbf', gamma=0.04)
X_kpca = kpca.fit_transform(X)# 可视化降维后的数据
plt.scatter(X_kpca[:, 0], X_kpca[:, 1], c=color, cmap='viridis', edgecolor='k')
plt.title('Kernel PCA of Swiss Roll Dataset')
plt.show()

3.sigmoid内核
特点: Sigmoid核也是一种非线性核函数,它在数据上执行类似于双曲正切(tanh)的非线性映射。它对数据进行映射,使其更容易在高维空间中分离。gamma参数和coef0参数分别控制了核函数的尺度和偏置。
import matplotlib.pyplot as plt
from sklearn.datasets import make_swiss_roll
from sklearn.decomposition import KernelPCA# 生成瑞士卷数据集
X, color = make_swiss_roll(n_samples=1000, noise=0.2, random_state=42)# 使用内核PCA将数据降为二维
kpca = KernelPCA(n_components=2, kernel='sigmoid', gamma=0.04)
X_kpca = kpca.fit_transform(X)# 可视化降维后的数据
plt.scatter(X_kpca[:, 0], X_kpca[:, 1], c=color, cmap='viridis', edgecolor='k')
plt.title('Kernel PCA of Swiss Roll Dataset')
plt.show()

三、LLE
局部线性嵌入(Locally Linear Embedding,LLE)是一种非线性降维算法,用于保留数据流形结构。
以下是使用LLE展开瑞士卷数据集的代码
import matplotlib.pyplot as plt
from sklearn.datasets import make_swiss_roll
from sklearn.manifold import LocallyLinearEmbedding# 生成瑞士卷数据集
X, color = make_swiss_roll(n_samples=1000, noise=0.2, random_state=42)# 使用LLE将数据降为二维
lle = LocallyLinearEmbedding(n_neighbors=12, n_components=2, random_state=42)
X_lle = lle.fit_transform(X)# 可视化降维后的数据
plt.scatter(X_lle[:, 0], X_lle[:, 1], c=color, cmap='viridis', edgecolor='k')
plt.title('LLE of Swiss Roll Dataset')
plt.show()

结语
降维的方法不止这几种,重要的是我们要理解为什么要降维——减少不重要的特征,同时也能加快模型的训练速度
相关文章:
机器学习第11天:降维
文章目录 机器学习专栏 主要思想 主流方法 投影 二维投射到一维 三维投射到二维 流形学习 PCA主成分分析 介绍 代码 内核PCA 具体代码 LLE 结语 机器学习专栏 机器学习_Nowl的博客-CSDN博客 主要思想 介绍:当一个任务有很多特征时,我们…...
异步爬取+多线程+redis构建一个运转丝滑且免费http-ip代理池 (三)
内容提要: 如果说,爬取网页数据的时候,我们使用了异步,那么将数据放入redis里面,其实也需要进行异步;当然,如果使用多线程或者redis线程池技术也是可以的,但那会造成冗余; 因此,在测试完多线程redis搭配异步爬虫的时候,我发现效率直接在redis这里被无限拉低下来! 因此: 最终的r…...
VSCode新建Vue项目
前言 Vue.js 是一款流行的 JavaScript 前端框架,它可以帮助开发者轻松构建高性能、可扩展的 Web 应用程序。而 VSCode 则是一款功能强大的开源代码编辑器,它提供了许多有用的工具和插件,可以大幅提高开发效率。 在本文中,我们将…...
前端学习--React(1)
一、React简介 React由Meta公司研发,是一个用于 构建Web和原生交互界面的库 优势:组件化开发、不错的性能、丰富生态(所有框架中最好)、跨平台(web、ios、安卓) 开发环境搭建 打开相应文件夹 新建终端并…...
HarmonyOS从基础到实战-高性能华为在线答题元服务
最近看到美团、新浪、去哪儿多家互联网企业启动鸿蒙原生应用开发,这个HarmonyOS NEXT越来越引人关注。奈何当前不面向个人开发者开放,但是我们可以尝试下鸿蒙新的应用形态——元服务的开发。 元服务是基于HarmonyOS提供的一种面向未来的服务提供方式&…...
OpenCV快速入门:窗口交互
文章目录 前言一、鼠标操作1.1 鼠标操作简介1.2 鼠标事件类型(event类型)1.3 鼠标事件标志(flags)1.4 代码示例1.4.1 获取鼠标坐标位置1.4.2 监听鼠标滚轮事件1.4.3 在图像中显示鼠标坐标 二、键盘操作2.1 代码示例2.2 waitKey的等…...
数据智能引擎:企业模糊搜索API精准获取企业列表信息
引言 随着信息时代的迅速发展,数据变得愈加庞大和复杂。在这个大数据的时代,企业面临着海量信息的管理和利用挑战。为了更有效地获取并利用数据,企业信息模糊搜索API成为了企业数据智能引擎的一部分,为企业提供了精准的企业列表检…...
汇编-间接寻址(处理数组)
直接寻址很少用于数组处理,因为用常数偏移量来寻址多个数组元素时,直接寻址并不实用。取而代之的是使用寄存器作为指针(称为间接寻址(indirect addressing) ) 并控制该寄存器的值。如果一个操作数使用的是间接寻址, 就称之为间接操作数(indie…...
lombok 的使用讲解
目录 前言1. 基本知识2. 代码应用 前言 在项目中经常会看到lombok的应用,此文作为科普帖,详细介绍lombok 1. 基本知识 简介: Project Lombok是一款用于Java开发的工具,旨在通过自动生成样板代码来简化Java代码的编写。 它通过注…...
echarts的使用
1. 普通版 其实主要就是option1,option1就是画的图 echats不能响应刷新,要想实时刷新监听刷新的值重新调用一下方法即可 html <div class"echart" style"width: 100%;height: calc(100% - 130px)" ref"main1">&l…...
js进阶笔记之构造函数
目录 一、构造函数 1、 创建对象 2、new执行过程 3、带参数构造函数 4、实例成员与静态成员 二、内置构造函数 1、Object静态方法 2、包装类型 3、Array 1、map方法 2、find方法 3、findIndex( ) 4、some与every 5、reverse() 6、reduce方法 7、forEach() …...
Codesys数据类型(2.7):扩展数据类型之 别名 详解
Codesys代码代写,程序开发,软件定制,bug修改,问题咨询: T宝搜索店铺【林磊教育】 定义及声明 别名的目的是声明出 基本数据类型,结构体,枚举、共用体(UNION)、功能块、指针备用名字,…...
白盒子测试总结
白盒子测试,也称为结构测试、透明盒测试、逻辑驱动测试或基于代码的测试,是一种测试用例的设计方法。白盒测试需要全面了解被测试程序的内部逻辑结构,并对所有逻辑路径进行测试。其基本方法包括: 语句覆盖:设计若干个…...
字符数组基础知识
字符数组是存放字符数据的数组,其中每一个元素存放的值都是单个字符。 字符数组:由字符类型的元素组成,其定义与初始化方式,以及对数组元素的引用都与整数数组类似,代码示例 char c[5]{h,e,l,l,,o}; 注意࿱…...
Oracle EBS 重新打开库存会期间
由库存某些账务用户操作错误,如:汇率错误、单位转换错误、BOM单据用量错误,需要反向操作纠正少量而有影响成本比较大的数据。但是,库存会计期已经关闭,需要重新打开库存会计期。根据官方文整理一份重新打开库存期间的脚本: 测试Oracle EBS版本: RDBMS : 12.1.0.2.0 Orac…...
java项目之社区互助平台(ssm+vue)
项目简介 社区互助平台实现了以下功能: 1、一般用户的功能及权限 所谓一般用户就是指还没有注册的过客,他们可以浏览主页面上的信息。但如果有中意的社区互助信息时,要登录注册,只有注册成功才有的权限。2、管理员的功能及权限 用户信息的添…...
unity C#设置文件为不可见
unity C#设置文件为不可见 /// ///设置文件为隐藏// /// using UnityEngine; using System.IO;public class SetFolderInvisible : MonoBehaviour {private void Start(){string folderPath "Qi/Video";// 将文件夹属性设置为隐藏和系统SetFolderAttributes(folder…...
DITTEL控制器维修SENSITRON6-2AE
DITTEL工控产品维修包括:德国DITTEL平衡测试仪维修,DITTEL模块,过程监控模块,DITTEL控制器,平衡头,机电平衡头,显示器,平衡系统等产品。 DITTEL过程控制模块维修 DM6000是一个过程控制模块&…...
django restful framework序列化与反序列化
在前后端分离开发中,对于RESTfulAPI设置,一般需要将查询/更新数据以JSON方式进行返回。 序列化 Model.py from django.db import models class User(models.Model):username models.CharField(verbose_name用户名,max_length10)age models.IntegerF…...
Flutter:多线程Isolate的简单使用
在flutter中如果要使用线程,需要借助Isolate来实现。 简介 在Flutter中,Isolate是一种轻量级的线程解决方案,用于在应用程序中执行并发任务。Isolate可以被认为是独立于主线程的工作单元,它们可以在后台执行任务而不会阻塞应用程…...
ChatGPT-RetrievalQA数据集解析:用合成数据训练检索模型的实践指南
1. 项目概述与核心问题最近在信息检索和自然语言处理社区里,一个话题讨论得挺热:既然像ChatGPT这样的大语言模型已经能生成相当不错的答案,我们为什么还需要传统的检索模型?更进一步,ChatGPT生成的这些答案,…...
从零搭建轻量级夜间构建系统:基于Docker与Cron的自动化实践
1. 项目概述与核心价值最近在折腾一个挺有意思的东西,我把它叫做“夜间构建流水线”。这个项目的核心,简单来说,就是搭建一套自动化系统,让它能在夜深人静、服务器负载最低的时候,自动拉取最新的代码,完成编…...
在Taotoken控制台中清晰追踪项目成本与各模型消耗明细
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在Taotoken控制台中清晰追踪项目成本与各模型消耗明细 对于使用大模型API进行开发的团队或个人而言,成本控制与费用透明…...
Crux终端模拟器:现代开发者工作流的GPU加速与原生集成实践
1. 项目概述:一个面向开发者的现代终端体验如果你和我一样,每天有超过一半的工作时间是在终端里度过的,那么你肯定对终端工具有着近乎苛刻的要求。它必须快、必须稳、必须能让你在键盘上“指哪打哪”,而不是在鼠标和键盘之间来回切…...
ARM汇编器FPU配置与性能优化指南
1. ARM汇编器与FPU架构深度解析在嵌入式系统开发领域,ARM汇编器(armasm)作为连接高级语言与底层硬件的桥梁,其命令行参数的精确配置直接影响最终生成的机器码质量和性能表现。其中,--fpu选项作为控制浮点运算单元&…...
如何用scrapy-pinduoduo构建电商数据智能分析管道
如何用scrapy-pinduoduo构建电商数据智能分析管道 【免费下载链接】scrapy-pinduoduo 拼多多爬虫,抓取拼多多热销商品信息和评论 项目地址: https://gitcode.com/gh_mirrors/sc/scrapy-pinduoduo 在电商竞争日益激烈的今天,数据驱动的决策变得至关…...
终极指南:如何在Windows上使用com0com虚拟串口驱动实现零成本串口通信
终极指南:如何在Windows上使用com0com虚拟串口驱动实现零成本串口通信 【免费下载链接】com0com Null-modem emulator - The virtual serial port driver for Windows. Brought to you by: vfrolov [Vyacheslav Frolov](http://sourceforge.net/u/vfrolov/profile/)…...
使用不同模型相同提示词写一段systemverilog代码,deepseek太让人惊喜!
熟悉systemverilog的朋友应该都知道fork join_any disable有一个小陷阱,就是可能会误kill其他进程,所以需要一个guard fork。突然奇想,看看哪个大模型可以不经过提醒(这个很重要,因为我们大概率不会把这个加入到提示词!…...
FastDeploy全场景AI推理部署:从模型转换到多硬件平台实战
1. 项目概述:从“能用”到“好用”的AI部署桥梁 如果你在AI工程化的路上摸爬滚打过一阵子,大概率会和我有同样的感受:把一个在实验室里跑得飞快的模型,真正搬到生产环境里稳定、高效地跑起来,这中间的鸿沟,…...
CANN/catlass EVG 快速上手
EVG 快速上手 【免费下载链接】catlass 本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。 项目地址: https://gitcode.com/cann/catlass 如果只是想先把第一个 EVG 样例跑起来,再理解它是怎么组装出来的,…...
