当前位置: 首页 > news >正文

初见scikit-learn之基础教程

初见scikit-learn之基础教程

      • scikit-learn 基础教程
    • 1. scikit-learn 简介
      • 1.1 什么是 scikit-learn?
      • 1.2 scikit-learn 的主要功能
    • 2. 安装 scikit-learn
      • 2.1 安装方法
      • 2.2 验证安装
    • 3. scikit-learn 基本使用
      • 3.1 数据加载与预处理
        • 3.1.1 加载数据集
        • 3.1.2 数据拆分
        • 3.1.3 数据标准化
      • 3.2 分类模型
        • 3.2.1 逻辑回归
        • 3.2.2 决策树
      • 3.3 回归模型
        • 3.3.1 线性回归
      • 3.4 聚类模型
        • 3.4.1 K-Means 聚类
      • 3.5 降维
        • 3.5.1 主成分分析(PCA)
      • 3.6 模型选择与评估
        • 3.6.1 交叉验证
        • 3.6.2 网格搜索
    • 4. 实战案例
      • 4.1 房价预测
        • 4.1.1 数据准备
        • 4.1.2 数据预处理
        • 4.1.3 模型训练与评估
      • 4.2 客户细分
        • 4.2.1 数据准备
        • 4.2.2 K-Means 聚类
        • 4.2.3 可视化
    • 5. 总结

scikit-learn 基础教程

scikit-learn 是一个广泛使用的 Python 机器学习库,提供了简单而高效的工具来进行数据挖掘和数据分析。它涵盖了数据预处理、特征选择、模型训练和评估等多个方面。本文将详细介绍 scikit-learn 的基础知识,包括基本概念、常用模块和功能、以及实际应用示例。


1. scikit-learn 简介

1.1 什么是 scikit-learn?

scikit-learn 是一个开源的 Python 库,用于机器学习和数据挖掘。它提供了一系列简单而高效的工具来处理数据预处理、特征选择、模型训练和评估等任务。scikit-learn 构建于 NumPy、SciPy 和 matplotlib 之上,并且符合 SciPy 生态系统的设计原则。

1.2 scikit-learn 的主要功能

  • 分类:用于将数据分为不同的类别(例如,垃圾邮件分类)。
  • 回归:预测连续的数值(例如,房价预测)。
  • 聚类:将数据分组为不同的簇(例如,客户细分)。
  • 降维:减少数据的维度(例如,PCA)。
  • 模型选择:选择和评估模型(例如,交叉验证)。
  • 数据预处理:数据清理和特征工程(例如,标准化、归一化)。

2. 安装 scikit-learn

2.1 安装方法

可以使用 pip 来安装 scikit-learn:

pip install scikit-learn

或者,使用 conda 安装:

conda install scikit-learn

2.2 验证安装

安装完成后,可以通过以下代码验证 scikit-learn 是否安装成功:

import sklearn
print(sklearn.__version__)

3. scikit-learn 基本使用

3.1 数据加载与预处理

3.1.1 加载数据集

scikit-learn 提供了一些内置的数据集,例如鸢尾花数据集(Iris Dataset):

from sklearn.datasets import load_iris# 加载鸢尾花数据集
data = load_iris()
X = data.data
y = data.target
3.1.2 数据拆分

将数据集拆分为训练集和测试集:

from sklearn.model_selection import train_test_split# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
3.1.3 数据标准化

标准化数据,使其均值为 0,方差为 1:

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

3.2 分类模型

3.2.1 逻辑回归

逻辑回归是一种线性分类算法:

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score# 创建逻辑回归模型
model = LogisticRegression()
model.fit(X_train_scaled, y_train)# 预测
y_pred = model.predict(X_test_scaled)# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')
3.2.2 决策树

决策树是一种基于树结构的分类方法:

from sklearn.tree import DecisionTreeClassifier# 创建决策树模型
model = DecisionTreeClassifier()
model.fit(X_train, y_train)# 预测
y_pred = model.predict(X_test)# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

3.3 回归模型

3.3.1 线性回归

线性回归用于预测连续变量:

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error# 创建线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)# 预测
y_pred = model.predict(X_test)# 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse:.2f}')

3.4 聚类模型

3.4.1 K-Means 聚类

K-Means 是一种常用的聚类算法:

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt# 创建 K-Means 模型
model = KMeans(n_clusters=3, random_state=42)
model.fit(X)# 获取聚类结果
labels = model.predict(X)# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('K-Means Clustering')
plt.show()

3.5 降维

3.5.1 主成分分析(PCA)

PCA 用于减少数据维度:

from sklearn.decomposition import PCA# 创建 PCA 模型
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)# 可视化降维后的数据
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('PCA of Iris Dataset')
plt.show()

3.6 模型选择与评估

3.6.1 交叉验证

交叉验证用于评估模型的性能:

from sklearn.model_selection import cross_val_score# 创建模型
model = LogisticRegression()# 进行交叉验证
scores = cross_val_score(model, X, y, cv=5)print(f'Cross-Validation Scores: {scores}')
print(f'Mean Score: {scores.mean():.2f}')
3.6.2 网格搜索

网格搜索用于调整模型的超参数:

from sklearn.model_selection import GridSearchCV# 创建模型
model = LogisticRegression()# 定义参数范围
param_grid = {'C': [0.1, 1, 10],'penalty': ['l1', 'l2']
}# 创建网格搜索
grid_search = GridSearchCV(model, param_grid, cv=5)# 训练网格搜索
grid_search.fit(X_train_scaled, y_train)# 输出最佳参数
print(f'Best Parameters: {grid_search.best_params_}')
print(f'Best Score: {grid_search.best_score_:.2f}')

4. 实战案例

4.1 房价预测

4.1.1 数据准备

假设我们有一个房价数据集,包含房屋的各种特征和价格:

import pandas as pd# 读取数据集
data = pd.read_csv('house_prices.csv')# 特征选择和标签
X = data[['num_rooms', 'size', 'location']]
y = data['price']
4.1.2 数据预处理

对数据进行预处理和标准化:

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split# 数据拆分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 标准化数据
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
4.1.3 模型训练与评估

使用线性回归模型进行训练和评估:

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error# 创建模型
model = LinearRegression()
model.fit(X_train_scaled, y_train)# 预测
y_pred = model.predict(X_test_scaled)# 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse:.2f}')

4.2 客户细分

4.2.1 数据准备

假设我们有一个客户数据集,包含客户的特征信息:

# 读取数据集
data = pd.read_csv('customer_data.csv')# 特征选择
X = data[['age', 'income', 'spending_score']]
4.2.2 K-Means 聚类

使用 K-Means 聚类进行客户细分:

from sklearn.cluster import KMeans# 创建 K-Means 模型
model = KMeans(n_clusters=4, random_state=42)
model.fit(X)# 获取聚类结果
labels = model.predict(X)# 添加聚类标签到数据中
data['cluster'] = labels
4.2.3 可视化

可视化客户聚类结果:

import matplotlib.pyplot as plt# 可视化聚类结果
plt.scatter(data['age'], data['income'], c=labels, cmap='viridis')
plt.xlabel('Age')
plt.ylabel('Income')
plt.title('Customer Clustering')
plt.show()

5. 总结

scikit-learn 是一个功能强大的机器学习库,提供了丰富的工具和功能来处理各种数据分析任务。这里我嫩介绍了 scikit-learn 的基础知识,包括数据加载与预处理、分类与回归模型、聚类与降维技术、模型选择与评估等内容。scikit-learn 官方文档


相关文章:

初见scikit-learn之基础教程

初见scikit-learn之基础教程 scikit-learn 基础教程 1. scikit-learn 简介1.1 什么是 scikit-learn?1.2 scikit-learn 的主要功能 2. 安装 scikit-learn2.1 安装方法2.2 验证安装 3. scikit-learn 基本使用3.1 数据加载与预处理3.1.1 加载数据集3.1.2 数据拆分3.1.3…...

基于STM32的嵌入式深度学习系统教程

目录 引言环境准备嵌入式深度学习系统基础代码实现:实现嵌入式深度学习系统 数据采集与预处理深度学习模型训练与优化模型部署与推理实时数据处理与反馈应用场景:智能物联网设备常见问题与解决方案收尾与总结 引言 随着深度学习在各种应用中的广泛采用…...

hive udf去掉map中的一个或者多个key

实现一个hive udf,可以将Map中的某一个或者多个key去掉,这里要继承GenericUDF 这个抽象类,然后Override evaluate这个函数即可,可以把执行这个udf前初始化的一些内容放在initialize方法内,比如参数的判断,函数的返回值类型等等。 代码写好之后,可以用如下方法创建这个函…...

模型量化技术综述:揭示大型语言模型压缩的前沿技术

大型语言模型(LLMs)通常因为体积过大而无法在消费级硬件上运行。这些模型可能包含数十亿个参数,通常需要配备大量显存的GPU来加速推理过程。 因此越来越多的研究致力于通过改进训练、使用适配器等方法来缩小这些模型的体积。在这一领域中&am…...

一文掌握Prompt:万能框架+优化技巧+常用指标

👉目录 1 写在前面 2 Prompt 万能框架 3 框架的细化 4 在框架上增加更多信息(RAG) 5 让大模型更好的思考(CoT) 6 附加技巧 7 优化方式及常用指标 8 写在最后 随着大模型在2023年横空出世,“Prompt 工程” 应…...

Vue 常用组件间通信方式

Vue 常用组件间通信方式 1. 父子组件通信 1.1 Props 父组件通过 props 向子组件传递数据&#xff0c;子组件通过 props 接收数据。 <!-- ParentComponent.vue --> <template><ChildComponent :message"parentMessage"></ChildComponent>…...

NineData云原生智能数据管理平台新功能发布|2024年7月版

本月发布 12 项更新&#xff0c;其中性能优化 3 项、功能优化 8 项、安全性发布 1 项。 1. 性能优化 数据复制 - SQL Server 增量性能优化 调整读取和写入方式&#xff0c;让 SQL Server 增量复制的性能轻松达到 5000 RPS 以上。 数据复制 - Doris|SelectDB|StarRocks 性能优…...

验收测试:确保软件符合业务需求和合同要求

目录 前言1. 验收测试的概念1.1 用户验收测试&#xff08;UAT&#xff09;1.2 操作验收测试&#xff08;OAT&#xff09; 2. 验收测试的主要作用2.1 确认业务需求的满足2.2 验证合同要求的实现2.3 提升用户信心 3. 验收测试在整个测试中的地位3.1 测试的最后一道关卡3.2 用户与…...

Qt | QChartView+QDateTimeAxis(日期和时间数据图表)+QPieSeries(饼图)

点击上方"蓝字"关注我们 01、QDateTimeAxis QDateTimeAxis 是 Qt 中用于图表的轴类,它专门用于处理日期和时间数据。这个类允许你在图表上显示和解释与日期和时间相关的数据点。例如,在 Qt 的图表库中,你可以使用 QDateTimeAxis 来创建一个时间序列图表,展示股票…...

用闲置的阿里云服务器使用 NPS 实现内网穿透

最近有个项目需要给外地的同事预览一下&#xff0c;但是公司没有可以公网访问的测试服务器&#xff0c;所以想到用内网穿透的方式让外地同事可以访问到我的本机。刚好我有一台阿里云的服务器&#xff0c;双十一打折买了3年&#xff0c;1000左右&#xff0c;2核8G&#xff0c;买…...

一款免费开源绿色免安装的透明锁屏工具

一款免费开源绿色免安装的透明锁屏工具 这个工具的特点就是电脑锁屏的时候&#xff0c;仍然显示原桌面&#xff0c;但是无法操作&#xff0c;需要输入密码才可以解锁。输入密码界面也是隐藏的需要按键才能显示输入密码框。 电脑★★★★★透明锁屏工具&#xff1a;https://pa…...

程序员保持健康的 10 个技巧

长时间坐在电脑前&#xff0c;整天甚至通宵编程、处理 bug 和面对 dealine 的压力。作为一名软件工程师绝对不是一个非常健康的职业。 我经常去欧洲和美国会见许多开发人员。我经常注意到的是&#xff1a;许多开发人员把自己当成机器。他们已经完全放弃了感受身体的感觉&#…...

Java并发迷宫:同步的魔法与死锁的诅咒

在Java编程的宇宙中&#xff0c;有一个充满神秘与挑战的维度——并发编程。它如同一座错综复杂的迷宫&#xff0c;每个角落都潜藏着惊喜与陷阱。在这篇博客里&#xff0c;我们将一起探索这座迷宫的深处&#xff0c;揭开同步的魔法与死锁的诅咒。 第一章&#xff1a;同步魔法的…...

CoderGuide

CoderGuide是一个针对同学们前后端求职面试的开源项目&#xff0c;作为一名互联网/IT从业人员&#xff0c;经常需要搜索一些书籍、面试题等资源&#xff0c;在这个过程中踩过很多坑、浪费过很多时间。欢迎大家 Watch、Star&#xff0c;供各位同学免费使用&#xff0c;永不收费&…...

链式二叉树

链式二叉树&#xff0c;也称为二叉链表&#xff0c;是数据结构中一种非常重要的树形结构表示方法。在链式二叉树中&#xff0c;每个节点不仅包含数据域&#xff0c;还包含两个指针域&#xff0c;分别指向其左子节点和右子节点。这种结构允许二叉树动态地增长和缩减&#xff0c;…...

PHP高校迎新系统-计算机毕业设计源码08468

摘要 随着高校规模的不断扩大和新生人数的增加&#xff0c;传统的手工登记和管理方式已经无法满足高效、准确的需求。为了提升大学新生入学迎新工作的效率和质量&#xff0c;本研究设计开发了一套高校迎新系统。系统通过信息技术的应用&#xff0c;集成了首页、交流论坛、通知公…...

泛微开发修炼之旅--41Ecology基于触发器实现增量数据同步(人员、部门、岗位、人员关系表、人岗关系表)

一、需求背景 我们在项目上遇到一个需求&#xff0c;需要将组织机构数据&#xff08;包含人员信息、部门信息、分部信息、人岗关系&#xff09;生成的增量数据&#xff0c;实时同步到三方的系统中&#xff0c;三方要求&#xff0c;只需要增量数据即可。 那么基于ecology系统&a…...

FVM安装及配置

一、下载fvm 包 git&#xff1a;Release fvm 3.1.7 leoafarias/fvm GitHub 解压到本地文件夹&#xff0c;然后添加环境变量 管理员模式打开cmd&#xff0c;查看是否成功 fvm --version 二、安装Dart SDK 下载Dart SDK&#xff1a;Dart for Windows 三、安装GIT 四、指定…...

[Git][认识Git]详细讲解

目录 1.什么是仓库&#xff1f;2.认识工作区、暂存区、版本库3.认识 .git1.index2.HEAD && master3.objects4.总结 1.什么是仓库&#xff1f; 仓库&#xff1a;进⾏版本控制的⼀个⽂件⽬录 2.认识工作区、暂存区、版本库 工作区&#xff1a;在电脑上写代码或⽂件的⽬录…...

Win11系统Docker部署Blazor程序

1. 开发环境 Windows 11 家庭版&#xff0c;默认支持WSL2 2. Docker安装 安装Docker Desktop需要启用Win11的Linux子系统和虚拟机。以管理员身份运行命令行程序&#xff0c;执行如下命令&#xff1a; 启用适用于 Linux 的 Windows 子系统 dism.exe /online /enable-featur…...

装饰模式(Decorator Pattern)重构java邮件发奖系统实战

前言 现在我们有个如下的需求&#xff0c;设计一个邮件发奖的小系统&#xff0c; 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件 装饰器模式&#xff08;Decorator Pattern&#xff09;允许向一个现有的对象添加新的功能&#xff0c;同时又不改变其…...

逻辑回归:给不确定性划界的分类大师

想象你是一名医生。面对患者的检查报告&#xff08;肿瘤大小、血液指标&#xff09;&#xff0c;你需要做出一个**决定性判断**&#xff1a;恶性还是良性&#xff1f;这种“非黑即白”的抉择&#xff0c;正是**逻辑回归&#xff08;Logistic Regression&#xff09;** 的战场&a…...

智能在线客服平台:数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展&#xff0c;消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁&#xff0c;不仅优化了客户体验&#xff0c;还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用&#xff0c;并…...

【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表

1、行为树节点分类 在 Nav2(Navigation2)的行为树框架中,行为树节点插件按照功能分为 Action(动作节点)、Condition(条件节点)、Control(控制节点) 和 Decorator(装饰节点) 四类。 1.1 动作节点 Action 执行具体的机器人操作或任务,直接与硬件、传感器或外部系统…...

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...

JVM虚拟机:内存结构、垃圾回收、性能优化

1、JVM虚拟机的简介 Java 虚拟机(Java Virtual Machine 简称:JVM)是运行所有 Java 程序的抽象计算机,是 Java 语言的运行环境,实现了 Java 程序的跨平台特性。JVM 屏蔽了与具体操作系统平台相关的信息,使得 Java 程序只需生成在 JVM 上运行的目标代码(字节码),就可以…...

人机融合智能 | “人智交互”跨学科新领域

本文系统地提出基于“以人为中心AI(HCAI)”理念的人-人工智能交互(人智交互)这一跨学科新领域及框架,定义人智交互领域的理念、基本理论和关键问题、方法、开发流程和参与团队等,阐述提出人智交互新领域的意义。然后,提出人智交互研究的三种新范式取向以及它们的意义。最后,总结…...

MacOS下Homebrew国内镜像加速指南(2025最新国内镜像加速)

macos brew国内镜像加速方法 brew install 加速formula.jws.json下载慢加速 &#x1f37a; 最新版brew安装慢到怀疑人生&#xff1f;别怕&#xff0c;教你轻松起飞&#xff01; 最近Homebrew更新至最新版&#xff0c;每次执行 brew 命令时都会自动从官方地址 https://formulae.…...

【无标题】湖北理元理律师事务所:债务优化中的生活保障与法律平衡之道

文/法律实务观察组 在债务重组领域&#xff0c;专业机构的核心价值不仅在于减轻债务数字&#xff0c;更在于帮助债务人在履行义务的同时维持基本生活尊严。湖北理元理律师事务所的服务实践表明&#xff0c;合法债务优化需同步实现三重平衡&#xff1a; 法律刚性&#xff08;债…...

rknn toolkit2搭建和推理

安装Miniconda Miniconda - Anaconda Miniconda 选择一个 新的 版本 &#xff0c;不用和RKNN的python版本保持一致 使用 ./xxx.sh进行安装 下面配置一下载源 # 清华大学源&#xff08;最常用&#xff09; conda config --add channels https://mirrors.tuna.tsinghua.edu.cn…...