Scikit-learn 学习思维导图
Scikit-learn 学习思维导图
说明
-
数据预处理:包括数据缩放、缺失值处理和类别编码等。
-
模型选择:通过交叉验证、网格搜索和随机搜索选择最佳模型。
-
监督学习:涵盖线性模型、决策树、支持向量机和集成方法。
-
无监督学习:包括聚类、降维和密度估计。
-
模型评估:使用准确率、混淆矩阵和ROC曲线评估模型性能。
-
特征工程:涉及特征选择、特征提取和特征构造。
-
数据预处理:
- 数据缩放
- StandardScaler: 标准化(z-score标准化),将特征转换为均值为0,方差为1的分布
- 适用场景:特征分布不同量级,对异常值敏感
- 优点:保持异常值的影响,可用于有监督学习
- 缺点:受异常值影响较大
from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_scaled = scaler.fit_transform(X) - MinMaxScaler: 归一化,将特征缩放到[0,1]区间
- 适用场景:特征分布相对集中,对异常值不敏感
- 优点:保持零值,压缩所有特征到相同尺度
- 缺点:不能处理新数据中超出范围的值
from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() X_scaled = scaler.fit_transform(X)
- StandardScaler: 标准化(z-score标准化),将特征转换为均值为0,方差为1的分布
- 缺失值处理
- SimpleImputer: 使用均值、中位数或常数填充缺失值
- 适用场景:数据缺失随机,比例不高
- 优点:实现简单,计算快速
- 缺点:可能引入偏差
from sklearn.impute import SimpleImputer imputer = SimpleImputer(strategy='mean') X_imputed = imputer.fit_transform(X) - IterativeImputer: 使用其他特征预测缺失值
- 适用场景:特征间存在相关性
- 优点:考虑特征关系,填充更准确
- 缺点:计算复杂,耗时较长
- SimpleImputer: 使用均值、中位数或常数填充缺失值
- 类别编码
- LabelEncoder: 将类别转换为整数编码
- 适用场景:标签编码
- 优点:简单直观
- 缺点:产生序数关系
- OneHotEncoder: 独热编码
- 适用场景:类别特征,无序性
- 优点:不引入序数关系
- 缺点:产生稀疏矩阵,维度灾难
- LabelEncoder: 将类别转换为整数编码
- 数据缩放
完整示例:
-
模型选择:
- 交叉验证 (cross_val_score)
- 适用场景:评估模型泛化性能
- 优点:减少过拟合风险,结果更可靠
- 缺点:计算开销大
from sklearn.model_selection import cross_val_score scores = cross_val_score(model, X, y, cv=5) print(f"交叉验证分数: {scores.mean():.3f} (+/- {scores.std() * 2:.3f})") - 网格搜索 (GridSearchCV)
- 适用场景:穷举超参数组合
- 优点:可找到最优参数组合
- 缺点:计算量大,耗时长
from sklearn.model_selection import GridSearchCV param_grid = {'max_depth': [3,5,7], 'min_samples_split': [2,3,4]} grid_search = GridSearchCV(model, param_grid, cv=5) grid_search.fit(X, y) print(f"最佳参数: {grid_search.best_params_}")
- 交叉验证 (cross_val_score)
-
监督学习:
- 线性回归 (LinearRegression)
- 适用场景:特征与目标呈线性关系
- 优点:模型简单,可解释性强
- 缺点:无法处理非线性关系
from sklearn.linear_model import LinearRegression model = LinearRegression() model.fit(X, y) y_pred = model.predict(X_test) - 决策树 (DecisionTreeClassifier)
- 适用场景:分类问题,特征重要性分析
- 优点:易于理解,可处理非线性关系
- 缺点:容易过拟合
from sklearn.tree import DecisionTreeClassifier model = DecisionTreeClassifier(max_depth=3) model.fit(X, y)
- 线性回归 (LinearRegression)
-
无监督学习:
- K均值聚类 (KMeans)
- 适用场景:数据分组,客户细分
- 优点:简单高效
- 缺点:需预先指定簇数
from sklearn.cluster import KMeans kmeans = KMeans(n_clusters=3) clusters = kmeans.fit_predict(X) - 主成分分析 (PCA)
- 适用场景:降维,特征提取
- 优点:可降低维度,保留主要信息
- 缺点:特征不易解释
from sklearn.decomposition import PCA pca = PCA(n_components=2) X_reduced = pca.fit_transform(X)
- K均值聚类 (KMeans)
-
模型评估:
- 分类报告 (classification_report)
- 适用场景:分类模型评估
- 优点:全面的评估指标
- 缺点:需要真实标签
from sklearn.metrics import classification_report print(classification_report(y_true, y_pred)) - ROC曲线 (roc_curve)
- 适用场景:二分类模型评估
- 优点:可视化模型性能
- 缺点:仅适用于二分类
from sklearn.metrics import roc_curve, auc fpr, tpr, _ = roc_curve(y_true, y_pred_proba) roc_auc = auc(fpr, tpr)
- 分类报告 (classification_report)
-
特征工程:
- 特征选择 (SelectKBest)
- 适用场景:降维,去除无关特征
- 优点:减少过拟合,提高效率
- 缺点:可能丢失有用信息
from sklearn.feature_selection import SelectKBest, f_classif selector = SelectKBest(f_classif, k=5) X_selected = selector.fit_transform(X, y) - 多项式特征 (PolynomialFeatures)
- 适用场景:非线性特征构造
- 优点:捕捉非线性关系
- 缺点:特征数量增长快
from sklearn.preprocessing import PolynomialFeatures poly = PolynomialFeatures(degree=2) X_poly = poly.fit_transform(X)
- 特征选择 (SelectKBest)
相关文章:
Scikit-learn 学习思维导图
Scikit-learn 学习思维导图 #mermaid-svg-LoibxEyLRA2fItOn {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-LoibxEyLRA2fItOn .error-icon{fill:#552222;}#mermaid-svg-LoibxEyLRA2fItOn .error-text{fill:#552222;…...
【MySQL数据库】存储过程与自定义函数(含: SQL变量、分支语句、循环语句 和 游标、异常处理 等内容)
存储过程:一组预编译的SQL语句和流程控制语句,被命名并存储在数据库中。存储过程可以用来封装复杂的数据库操作逻辑,并在需要时进行调用。 类似的操作还有:自定义函数、.sql文件导入。 我们先从熟悉的函数开始说起: …...
WEB攻防-PHP反序列化-字符串逃逸
目录 前置知识 字符串逃逸-减少 字符串逃逸-增多 前置知识 1.PHP 在反序列化时,语法是以 ; 作为字段的分隔,以 } 作为结尾,在结束符}之后的任何内容不会影响反序列化的后的结果 class people{ public $namelili; public $age20; } var_du…...
英伟达GTC 2025大会产品全景剖析与未来路线深度洞察分析
【完整版】3月19日,黄仁勋Nvidia GTC 2025 主题演讲|英伟达 英伟达GTC 2025大会产品全景剖析与未来路线深度洞察分析 一、引言 1.1 分析内容 本研究主要采用了文献研究法、数据分析以及专家观点引用相结合的方法。在文献研究方面,广泛收集了…...
基于java的ssm+JSP+MYSQL的九宫格日志网站(含LW+PPT+源码+系统演示视频+安装说明)
系统功能 管理员功能模块: 个人中心 用户管理 日记信息管理 美食信息管理 景点信息管理 新闻推荐管理 日志展示管理 论坛管理 我的收藏管理 管理员管理 留言板管理 系统管理 用户功能模块: 个人中心 日记信息管理 美食信息管理 景点信息…...
【Java】Mybatis学习笔记
目录 一.搭建Mybatis 二.Mybatis核心配置文件解析 1.environment标签 2.typeAliases 3.mappers 三.Mybatis获取参数值 四.Mybatis查询功能 五.特殊的SQL执行 1.模糊查询 2.批量删除 3.动态设置表名 4.添加功能获取自增的主键 六.自定义映射ResultMap 1.配置文件处…...
从DNA到AI:一部35亿年的智能进化史诗
从DNA到AI:一部35亿年的智能进化史诗 一、生命起源:宇宙熵增中的第一缕秩序之光 在35亿年前的地球原始海洋中,DNA的诞生标志着一场伟大的反叛:混沌汤中浮现出能自我复制的有序结构。这种由4种碱基组成的分子,用其双螺…...
遗传算法+四模型+双向网络!GA-CNN-BiLSTM-Attention系列四模型多变量时序预测
遗传算法四模型双向网络!GA-CNN-BiLSTM-Attention系列四模型多变量时序预测 目录 遗传算法四模型双向网络!GA-CNN-BiLSTM-Attention系列四模型多变量时序预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 基于GA-CNN-BiLSTM-Attention、CNN-BiL…...
中兴B860AV3.2-T/B860AV3.1-T2_S905L3-B_2+8G_安卓9.0_先线刷+后卡刷固件-完美修复反复重启瑕疵
中兴电信B860AV3.2-T/B860AV3.1-T2_晶晨S905L3-B芯片_28G_安卓9.0_先线刷后卡刷-刷机固件包,完美修复刷机后盒子反复重启的瑕疵。 这两款盒子是可以通刷的,最早这个固件之前论坛本人以及其他水友都有分享交流过不少的固件,大概都…...
Elasticsearch基础教程:从入门到上手
🎯 一、Elasticsearch简介 Elasticsearch(简称ES)是一个分布式、RESTful风格的搜索引擎,支持全文检索、结构化查询、分析和近实时搜索。常用于日志分析、商品搜索、数据分析等场景。 1. 什么是 Elasticsearch? Elas…...
RxSwift 学习笔记第四篇之RxSwift在项目中的简单应用
目录 前言 一、RxCocoa在项目中的用法 1.Target Action 2.代理 3.闭包回调 4.通知 二、一个计时器的例子 前言 在上面的两篇文章中,我们了解到了RxSwift中的Observable和Observer,本篇文章我们主要介绍下RxSwift项目中的使用。 一、RxCocoa在项目中的用法 RxCocoa 给 …...
《Python实战进阶》No27: 日志管理:Logging 模块的最佳实践(下)
No27: 日志管理:Logging 模块的最佳实践(下) 实战案例 :复杂场景下的 Logging 配置与使用 本实战案例在 Python 3.11.5环境下运行通过 在本案例中,我们将通过一个复杂的日志配置示例,全面展示 logging 模…...
Web 小项目: 网页版图书管理系统
目录 最终效果展示 代码 Gitee 地址 1. 引言 2. 留言板 [热身小练习] 2.1 准备工作 - 配置相关 2.2 创建留言表 2.3 创建 Java 类 2.4 定义 Mapper 接口 2.5 controller 2.6 service 3. 图书管理系统 3.1 准备工作 - 配置相关 3.2 创建数据库表 3.2.1 创建用户表…...
【Dive Into Stable Diffusion v3.5】1:开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练
目录 1 引言2 项目简介3 快速上手3.1 下载代码3.2 环境配置3.3 项目结构3.4 下载模型与数据集3.5 运行指令3.6 核心参数说明3.6.1 通用参数3.6.2 优化器/学习率3.6.3 数据相关 4 结语 1 引言 在人工智能和机器学习领域,生成模型的应用越来越广泛。Stable Diffusion…...
《Waf 火绒终端防护绕过实战:系统程序副本+Certutil木马下载技术详解》
目录 绕过火绒终端安全软件的详细方法 方法一:利用系统程序副本绕过命令监控 方法二:结合certutil.exe副本下载并执行上线木马 注意事项 总结 实际案例解决方案 前提条件 详细操作步骤 1. 攻击主机(VPS)上的准备工作 2.…...
上海高考解析几何
解析几何的核心思想。 1. 核心分析方法: 自由度引入 方程组中, n n n 个未知数需要 n n n 个等式来解出具体的值。 自由度 性质 一个未知数带来一个自由度,一个等式条件减少一个自由度(减少自由度的方式为消元)。…...
android MutableLiveData setValue 响应速速 postValue 快
MutableLiveData 是 LiveData 的一个可变版本,常用于在ViewModel中保存和管理UI相关的数据。MutableLiveData 提供了两种主要的方法来更新其值:setValue 和 postValue。关于这两者的响应速度,通常认为 setValue 比 postValue 更快。下面详细解释这两者的区别以及影响响应速度…...
【AVRCP】服务发现互操作性:CT 与 TG 的 SDP 协议契约解析
目录 一、服务发现的核心目标:能力画像对齐 二、控制器(CT)服务记录:控制能力的声明 2.1 必选字段:角色与协议的刚性契约 2.1.1 服务类标识(Service Class ID List) 2.1.2 协议描述列表&am…...
MySQL:数据库基础
数据库基础 1.什么是数据库?2.为什么要学习数据库?3.主流的数据库(了解)4.服务器,数据库,表之间的关系5.数据的逻辑存储6.MYSQL架构7.存储引擎 1.什么是数据库? 数据库(Database,简称DB)&#x…...
市场热点复盘20240319
以下是对当前市场热点板块的分析总结,按逻辑分类如下: 一、机器人产业链核心标的 1. 减速器与核心部件 襄阳轴承:直接受益人形机器人减速器轴承需求,技术国内领先。金帝股份:聚焦机器人手指关节谐波减速机保持架&am…...
深入 Linux 声卡驱动开发:核心问题与实战解析
1. 字符设备驱动如何为声卡提供操作接口? 问题背景 在 Linux 系统中,声卡被抽象为字符设备。如何通过代码让应用程序能够访问声卡的录音和播放功能? 核心答案 1.1 字符设备驱动的核心结构 Linux 字符设备驱动通过 file_operations 结构体定…...
鸿蒙下载文件保存到手机本地公共文件夹下、将本地的沙箱目录文件,保存到公共目录,鸿蒙picker save保存文件为空(0字节)的问题
1、首先将下载好的文件,保存到本地目录,这个目录是用户看不到的; 2、然后通过picker的save保存文件,这个picker,它只是获取公共目录uri用的 3、当picker有回调时,将公共目录的uri获取之后,把下…...
OpenNJet动态API设置accessLog开关,颠覆传统运维工作模式
OpenNJet OpenNJet 应用引擎是高性能、轻量级的WEB应用与代理软件。作为云原生服务网格的数据平面,NJet具备动态配置加载、主动式健康检测、集群高可用、声明式API等多种强大功能。通过CoPliot副驾驶服务框架,在隔离控制面和数据面的情况下实现了高可扩…...
案例5_4: 6位数码管轮播0-9【静态显示】
文章目录 文章介绍效果图提示代码(不完整) 文章介绍 5.1.2 数码管静态显示应用举例 要求: 1、仿真图同案例5_3 2、代码参考案例5_3和案例5_2 效果图 提示代码(不完整) #include<reg52.h> // 头文件#define uch…...
navicat忘记已经连接过的数据库密码的操作步骤
第一步: 点击文件-》导出连接 第二步:选中具体的数据库,且勾选左下角的记住密码 第三步:打开刚刚导出的文件,找到对应加密后的密码 第四步:复制密码到工具点击查看密码 注:参考文章链接附…...
Qt窗口坐标体系
坐标系:以左上角为原点(0,0),X向右增加,Y向下增加 对于嵌套窗口,其坐标是相对于父窗口来说的 例如: 通过move方法实现...
DeepSeek写打台球手机小游戏
DeepSeek写打台球手机小游戏 提问 根据提的要求,让DeepSeek整理的需求,进行提问,内容如下: 请生成一个包含以下功能的可运行移动端打台球小游戏H5文件: 要求 可以重新开始游戏 可以暂停游戏 有白球和其他颜色的球&am…...
VR大空间多人互动方案,VR大空间融合AI行为预测的动捕技术
在数字科技迅猛发展的今天,VR大空间技术正逐步成为各行业探索沉浸式体验的重要方向。从企业培训、线上展览到社交元宇宙,VR大空间的应用范围不断拓展。而在这个过程中,多人实时交互成为核心需求,它不仅关乎沉浸感的提升࿰…...
十四、OSG学习笔记-事件响应
上一章节 十三、OSG学习笔记-osgDB文件读写-CSDN博客https://blog.csdn.net/weixin_36323170/article/details/146165712 本章节代码: OsgStudy/EventHandle CuiQingCheng/OsgStudy - 码云 - 开源中国https://gitee.com/cuiqingcheng/osg-study/tree/master/Osg…...
JS逆向_腾讯点选_VMP补环境
1.接口分析 1.cap_union_prehandle 说明:图片、jsvmp GET QueryString:{aid: xxxxxx //网站在腾讯登记的idprotocol: httpsaccver: 1showtype: popupua: //ua atob后的结果noheader: 1fb: 1aged: 0enableAged: 0enableDarkMode: 0grayscale: 1clientype: 2cap_cd: uid: lang:…...
