当前位置：首页 > news >正文

【python】sklearn基础教程及示例

news 2026/3/31 0:26:14

【python】sklearn基础教程及示例

Scikit-learn（简称sklearn）是一个非常流行的Python机器学习库，提供了许多常用的机器学习算法和工具。以下是一个基础教程的概述：

1. 安装scikit-learn

首先，确保你已经安装了Python和pip，然后使用以下命令安装scikit-learn：

pip install -U scikit-learn

2. 导入库

在你的Python脚本或Jupyter Notebook中，首先导入scikit-learn库：

import sklearn

3. 加载数据

你可以加载各种数据集，包括样本数据集和真实世界数据集。例如，加载经典的鸢尾花数据集：

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data  # 特征矩阵
y = iris.target  # 目标向量

4. 数据预处理

在应用机器学习算法之前，通常需要进行一些数据预处理，例如特征缩放、特征选择、数据清洗等。以下是一些常用的数据预处理方法：

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

5. 数据拆分

将数据集拆分为训练集和测试集：

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

6. 建立模型

使用各种机器学习算法来建立模型，例如逻辑回归：

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)

7. 模型评估

在训练模型之后，评估模型的性能，例如使用准确度评估：

from sklearn.metrics import accuracy_score
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

8. 交叉验证

使用交叉验证来评估模型的稳定性和泛化能力：

from sklearn.model_selection import cross_validate
result = cross_validate(model, X, y, cv=5)
print(result['test_score'])

sklearn示例

1.简单例子：鸢尾花分类

这是一个经典的机器学习任务，用于分类鸢尾花的种类。

load_iris 是一个经典的机器学习数据集，通常用于分类和聚类任务。这个数据集包含了三种不同种类的鸢尾花（Iris Setosa、Iris Versicolour 和 Iris Virginica）的信息，每种鸢尾花有四个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。

具体来说，load_iris 数据集包含以下内容：

150个样本：每种鸢尾花各50个样本。
4个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。
目标标签：每个样本的目标类别标签，分别为0（Setosa）、1（Versicolour）和2（Virginica）。
StandardScaler 是 scikit-learn 库中的一个类，用于对数据进行标准化处理。标准化的目的是将数据的特征缩放到相同的尺度，通常是均值为0，标准差为1。这对于许多机器学习算法来说是非常重要的，特别是那些基于距离的算法（如K-近邻、支持向量机等）和需要计算协方差矩阵的算法（如PCA、线性回归等）。

# 导入必要的库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target# 数据预处理
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)# 建立和训练模型
model = LogisticRegression()
model.fit(X_train, y_train)# 预测和评估
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

2.复杂例子：手写数字识别

这个例子使用手写数字数据集，并应用支持向量机（SVM）进行分类。

load_digits 是 scikit-learn 提供的一个经典数据集，用于手写数字识别任务。这个数据集包含了 0 到 9 共 10 个数字的手写图像，每个图像是一个 8x8 的灰度图像。

数据集内容样本数量：1797 个手写数字图像。
特征维度：每个图像有 64 个特征（8x8 像素）。
特征值：每个特征值是一个整数，范围从 0 到 16，表示像素的灰度值。
目标标签：每个样本对应一个目标标签，表示数字 0 到 9。

# 导入必要的库
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report# 加载数据集
digits = load_digits()
X = digits.data
y = digits.target# 数据预处理
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)# 使用网格搜索进行超参数调优
param_grid = {'C': [0.1, 1, 10, 100], 'gamma': [1, 0.1, 0.01, 0.001]}
grid = GridSearchCV(SVC(), param_grid, refit=True, verbose=2)
grid.fit(X_train, y_train)# 最佳参数和模型评估
print(f"Best Parameters: {grid.best_params_}")
y_pred = grid.predict(X_test)
print(classification_report(y_test, y_pred))

在这个复杂的例子中，我们使用了网格搜索（GridSearchCV）来找到支持向量机（SVM）的最佳超参数，并使用分类报告（classification_report）来评估模型的性能。

param_grid：这是一个字典，定义了要搜索的参数范围。在这个例子中，我们要调整两个参数：
- C：正则化参数，控制模型的复杂度。较小的 C 值会使模型更简单，但可能欠拟合；较大的 C 值会使模型更复杂，但可能过拟合。
- gamma：核函数系数，控制单个训练样本的影响范围。较大的 gamma 值会使模型更复杂，但可能过拟合；较小的 gamma 值会使模型更简单，但可能欠拟合。

GridSearchCV：这是 scikit-learn 提供的一个工具，用于通过交叉验证来搜索最佳参数组合。
- SVC()：支持向量机分类器。
- param_grid：要搜索的参数网格。
- refit=True：在找到最佳参数组合后，使用整个训练集重新训练模型。
- verbose=2：设置详细程度，输出更多的搜索过程信息。

【python】sklearn基础教程及示例

【python】sklearn基础教程及示例 Scikit-learn（简称sklearn）是一个非常流行的Python机器学习库，提供了许多常用的机器学习算法和工具。以下是一个基础教程的概述： 1. 安装scikit-learn 首先，确保你已经安装了Python和…...

编程日记 2024/7/28 19:11:10

Linux：传输层(2) -- TCP协议(2)

目录 1. 流量控制 2. 滑动窗口 3. 拥塞控制 4. 延迟应答 5. 捎带应答 6. 面向字节流 7. 粘包问题 8. TCP异常情况 1. 流量控制接收端处理数据的速度是有限的. 如果发送端发的太快 , 导致接收端的缓冲区被打满 , 这个时候如果发送端继续发送 , 就会造成丢包, 继而引…...

编程日记 2024/7/28 19:10:09

AcWing 802. 区间和

var说明add存储了插入操作，在指定 x x x下标所在位置 a [ x ] c a[x]c a[x]cquery是求 [ L , R ] [L,R] [L,R]区间和用到的数组,最后才用到alls 是存储离散化之后的值 , 对于会访问到的每个下标，统统丢到 a l l s 里面 ，会把 x 和 [ L , R …...

编程日记 2024/7/28 19:09:07

实验2-2-1 温度转换

#include<stdio.h> #include <math.h> int main(){int c,f150;c5*(f-32)/9;printf("fahr 150, celsius %d",c); }...

编程日记 2024/7/28 19:07:05

Spark实时（六）：Output Sinks案例演示

文章目录 Output Sinks案例演示一、File sink 二、Memory Sink 三、Foreach Sink 1、foreachBatch 2、foreach Output Sinks案例演示当我们对流式…...

编程日记 2024/7/28 19:06:04

在SQL编程中DROP、DELETE和TRUNCATE的区别

在SQL编程中，DROP、DELETE和TRUNCATE都是用于删除数据的命令，但它们之间有着显著的区别，主要体现在它们删除数据的范围、操作的不可逆性、对表结构的影响、性能以及事务日志的影响上。 DROP: 作用：DROP命令用于删除整个表及其所有…...

编程日记 2024/7/28 19:04:02

【AI大模型】Prompt 提示词工程使用详解

目录一、前言二、Prompt 提示词工程介绍 2.1 Prompt提示词工程是什么 2.1.1 Prompt 构成要素 2.2 Prompt 提示词工程有什么作用 2.2.1 Prompt 提示词工程使用场景 2.3 为什么要学习Prompt 提示词工程三、Prompt 提示词工程元素构成与操作实践 3.1 前置准备 3.2 Pro…...

编程日记 2024/7/28 19:03:01

学习记录day18——数据结构算法

算法的相关概念程序数据结构算法算法是程序设计的灵魂，结构式程序设计的肉体算法：计算机解决问题的方法护额步骤算法的特性 1、确定性：算法中每一条语句都有确定的含义，不能模棱两可 2、有穷性：程序执行一…...

编程日记 2024/7/28 19:00:59

一篇文章带你学完Java所有的时间与日期类

目录一、传统时间与日期类 1.Date类构造方法获取日期和时间信息的方法设置日期和时间信息的方法 2.Calendar类主要特点和功能常用方法 1. 获取当前日历对象 2. 获取日历中的某个信息 3. 获取日期对象 4. 获取时间毫秒值 5. 修改日历的某个信息 6. 为某个信息增…...

编程日记 2024/7/28 18:56:56

利用GPT4o Captcha工具和AI技术全面识别验证码

利用GPT4o Captcha工具和AI技术全面识别验证码 🧠🚀 摘要 GPT4o Captcha工具是一款命令行工具，通过Python和Selenium测试各种类型的验证码，包括拼图、文本、复杂文本和reCAPTCHA，并使用OpenAI GPT-4帮助解决验证码问…...

编程日记 2024/7/28 18:55:54

大学生算法高等数学学习平台设计方案 (第一版)

目录目标用户群体的精准定位初阶探索者进阶学习者资深研究者功能需求的深度拓展个性化学习路径定制概念图谱构建公式推导展示交互式问题解决系统新功能和创新点的引入虚拟教室环境数学建模工具集成算法可视化平台学术论文资源库技术实现的前瞻性…...

编程日记 2024/7/28 18:53:52

机器学习算法与Python实战 | 两行代码即可应用 40 个机器学习模型--lazypredict 库！

本文来源公众号“机器学习算法与Python实战”，仅用于学术分享，侵权删，干货满满。原文链接：两行代码即可应用 40 个机器学习模型今天和大家一起学习使用 lazypredict 库，我们可以用一行代码在我们的数据集上实现许多…...

编程日记 2024/7/28 18:50:49

使用WebSocket协议调用群发方法将消息返回客户端页面

目录一.C/S架构： 二.Http协议与WebSocket协议的区别： 1.Http协议与WebSocket协议的区别： 2.WebSocket协议的使用场景： 三.项目实际操作： 1.导入依赖： 2.通过WebSocket实现页面与服务端保持长连接&a…...

编程日记 2024/7/28 18:48:48

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第三篇嵌入式Linux驱动开发篇-第五十七章 Linux中断实验

i.MX8MM处理器采用了先进的14LPCFinFET工艺，提供更快的速度和更高的电源效率;四核Cortex-A53，单核Cortex-M4，多达五个内核 ，主频高达1.8GHz，2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…...

编程日记 2024/7/28 18:47:47

每日一题~961div2A+B+C(阅读题，思维，数学log)

A 题意：给你 n*n 的表格和k 个筹码。每个格子上至多放一个问至少占据多少对角线。显然，要先格数的多的格子去放。 n n-1 n-2 …1 只有n 的是一个（主对角线），其他的是两个。 #include <bits/stdc.h> using na…...

编程日记 2024/7/28 18:45:45

Fireflyrk3288 ubuntu18.04添加Qt开发环境、安装mysql-server

1、创建一台同版本的ubuntu18.04的虚拟机 2、下载rk3288_ubuntu_18.04_armhf_ext4_v2.04_20201125-1538_DESKTOP.img 3、创建空img镜像容器 dd if/dev/zero ofubuntu_rootfs.img bs1M count102404、将该容器格式化成ext4文件系统 mkfs.ext4 ubuntu_rootfs.img5、将该镜像文件…...

编程日记 2024/7/28 18:43:43

简化mybatis @Select IN条件的编写

最近从JPA切换到Mybatis，使用无XML配置，Select注解直接写到interface上，发现IN条件的编写相当麻烦。一般得写成这样： Select({"<script>","SELECT *", "FROM blog","WHERE id IN&quo…...

编程日记 2024/7/28 18:41:41

Windows图形界面(GUI)-MFC-C/C++ - Control

公开视频 -> 链接点击跳转公开课程博客首页 -> 链接点击跳转博客主页目录 Control 资源编辑器添加控件设置控件属性添加控件变量添加消息处理处理控件事件控件焦点顺序 Control 资源编辑器资源编辑器：用于可视化地编辑对话框和控件。…...

编程日记 2024/7/28 18:40:40

SQL Server数据库安全：策略制定与实践指南

SQL Server数据库安全：策略制定与实践指南在当今数字化时代，数据安全是每个组织的核心关注点。SQL Server作为广泛使用的关系型数据库管理系统，提供了一套强大的安全特性来保护存储的数据。制定有效的数据库安全策略是确保数据完整性、可用…...

编程日记 2024/7/28 18:37:36

Spring Boot入门指南：留言板

一.留言板 1.输⼊留⾔信息,点击提交.后端把数据存储起来. 2.⻚⾯展⽰输⼊的表⽩墙的信息规范： 1.写一个类MessageInfo对象，添加构造方法虽然有快捷键，但是还是不够偷懒项目添加Lombok。 Lombok是⼀个Java⼯具库，通过添加注…...

编程日记 2024/7/28 18:35:35

5个环保主题HTML网页设计实战：从零到一构建绿色网站

1. 环保主题网页设计入门指南第一次接触环保主题网页设计时，我盯着空白的编辑器整整半小时不知从何下手。直到看到某公益组织的网站，才发现原来绿叶图标和自然色系能瞬间传递环保理念。对于前端新手来说，这类主题最大的优势在于视觉元素明确…...

编程新知 2026/3/31 0:18:40

DiffBIR实战：用Stable Diffusion 2.1修复模糊老照片（附完整配置流程）

DiffBIR实战：用Stable Diffusion 2.1修复模糊老照片（附完整配置流程） 翻开泛黄的相册，那些承载着珍贵记忆的老照片往往因年代久远而变得模糊、褪色甚至破损。传统修复方法需要专业设计师耗费数小时手动修复，而如今&…...

编程新知 2026/3/30 23:39:07

群晖ARPL界面IP显示正常但Synology Assistant搜不到？试试这5个排查步骤

群晖ARPL界面IP显示正常但Synology Assistant搜不到的深度排查指南当你兴奋地完成黑群晖的ARPL引导安装，在启动界面看到系统已经成功获取IP地址，却突然发现Synology Assistant工具死活搜不到这个IP时，那种从云端跌入谷底的感觉我太熟悉了。这…...

编程新知 2026/3/30 23:08:17

测试报告编写核心技巧：让结果一目了然的专业模板指南

测试报告的价值重构在软件质量保障体系中，测试报告不仅是项目交付的最终凭证，更是驱动质量改进的战略工具。优秀的测试报告需实现三重价值：决策支持：为上线评审提供数据化依据问题追踪：形成缺陷治理的闭环链路效能度量…...

编程新知 2026/3/30 21:12:57

交叉调整率差的5大根源—变压器、绕组、反馈、拓扑、元件

Q1：导致交叉调整率差的第一大根源是什么？变压器漏感与绕组耦合不良。漏感使能量不能完全传递到辅路，各绕组漏感不一致，负载变化时电压漂移更明显。耦合系数越接近 1，交叉调整率越好。Q2：绕组绕制方式对交叉…...

编程新知 2026/3/30 19:41:48

保姆级教程：用迪文屏官方工具生成30x30点阵汉字库，搞定界面文本显示

嵌入式UI开发实战：迪文屏3030点阵汉字库生成全流程指南在嵌入式设备的人机交互界面开发中，文本显示是最基础却最容易出问题的环节之一。许多开发者第一次使用迪文屏时，往往会被字库生成工具的参数设置难住——为什么明明生成了字库&#xf…...

编程新知 2026/3/30 19:31:31

OpCore Simplify：革新黑苹果配置流程——从繁琐到智能的EFI构建方案

OpCore Simplify：革新黑苹果配置流程——从繁琐到智能的EFI构建方案【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify OpCore Simplify是一款…...

编程新知 2026/3/30 19:03:02