一个简单的机器学习实战例程,使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集(Iris Dataset)**的分类
机器学习实战通常是将理论与实践结合,通过实际的项目或案例,帮助你理解并应用各种机器学习算法。下面是一个简单的机器学习实战例程,使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集(Iris Dataset)**的分类。我们将通过该数据集来演示数据预处理、模型训练、评估和预测的全过程。

访问更多内容来源 https://ai.tmqcjr.com
1. 安装所需库
首先,确保你已安装了scikit-learn和matplotlib等库,如果没有,请通过以下命令安装:
bash
复制代码
pip install scikit-learn matplotlib
2. 机器学习实战例程
导入必要的库
python
复制代码
import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.neighbors import KNeighborsClassifier from sklearn.svm import SVC from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
加载数据集
我们使用Scikit-Learn自带的鸢尾花数据集,这是一个经典的机器学习数据集。
python
复制代码
# 加载鸢尾花数据集 iris = load_iris() X = iris.data # 特征数据(花瓣和萼片的长度和宽度) y = iris.target # 标签数据(花的种类)
数据探索
在开始训练模型之前,我们可以对数据进行简单的探索,比如查看数据的维度和前几行。
python
复制代码
# 查看数据集的结构 print(f"数据集的特征名称: {iris.feature_names}") print(f"数据集的标签名称: {iris.target_names}") print(f"数据集的特征形状: {X.shape}") print(f"数据集的标签形状: {y.shape}") # 查看前5行数据 print(f"特征数据:\n{X[:5]}") print(f"标签数据:\n{y[:5]}")
数据划分
我们将数据集划分为训练集和测试集,通常使用70%训练,30%测试的比例。
python
复制代码
# 划分数据集为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) print(f"训练集的样本数量: {X_train.shape[0]}") print(f"测试集的样本数量: {X_test.shape[0]}")
数据预处理
在使用机器学习模型之前,通常需要对数据进行标准化处理,以便提高模型的性能。
python
复制代码
# 数据标准化:将特征缩放至均值为0,方差为1的标准正态分布 scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test)
训练模型
我们将训练多个机器学习模型进行比较。这里使用常见的几种分类模型:K近邻(KNN)、支持向量机(SVM)、决策树和随机森林。
1. K近邻(KNN)
python
复制代码
# 初始化KNN模型并训练 knn = KNeighborsClassifier(n_neighbors=3) knn.fit(X_train, y_train) # 在测试集上评估模型 y_pred_knn = knn.predict(X_test) print("KNN分类报告:") print(classification_report(y_test, y_pred_knn)) print(f"KNN的准确率: {accuracy_score(y_test, y_pred_knn)}")
2. 支持向量机(SVM)
python
复制代码
# 初始化SVM模型并训练 svm = SVC(kernel='linear') svm.fit(X_train, y_train) # 在测试集上评估模型 y_pred_svm = svm.predict(X_test) print("SVM分类报告:") print(classification_report(y_test, y_pred_svm)) print(f"SVM的准确率: {accuracy_score(y_test, y_pred_svm)}")
3. 决策树(Decision Tree)
python
复制代码
# 初始化决策树模型并训练 dt = DecisionTreeClassifier(random_state=42) dt.fit(X_train, y_train) # 在测试集上评估模型 y_pred_dt = dt.predict(X_test) print("决策树分类报告:") print(classification_report(y_test, y_pred_dt)) print(f"决策树的准确率: {accuracy_score(y_test, y_pred_dt)}")
4. 随机森林(Random Forest)
python
复制代码
# 初始化随机森林模型并训练 rf = RandomForestClassifier(n_estimators=100, random_state=42) rf.fit(X_train, y_train) # 在测试集上评估模型 y_pred_rf = rf.predict(X_test) print("随机森林分类报告:") print(classification_report(y_test, y_pred_rf)) print(f"随机森林的准确率: {accuracy_score(y_test, y_pred_rf)}")
评估模型
使用classification_report来评估模型的性能,显示精确度(Precision)、召回率(Recall)和F1-score。accuracy_score则显示整体的分类准确率。
python
复制代码
# 显示每个模型的准确率 models = ['KNN', 'SVM', '决策树', '随机森林'] accuracies = [ accuracy_score(y_test, y_pred_knn), accuracy_score(y_test, y_pred_svm), accuracy_score(y_test, y_pred_dt), accuracy_score(y_test, y_pred_rf) ] for model, accuracy in zip(models, accuracies): print(f"{model}的准确率: {accuracy}")
混淆矩阵
为了进一步分析模型的分类效果,可以绘制混淆矩阵。
python
复制代码
# 绘制混淆矩阵 def plot_confusion_matrix(cm, classes): plt.figure(figsize=(6, 6)) plt.imshow(cm, interpolation='nearest', cmap=plt.cm.Blues) plt.title('Confusion Matrix') plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) plt.xlabel('Predicted label') plt.ylabel('True label') plt.tight_layout() # KNN模型的混淆矩阵 cm_knn = confusion_matrix(y_test, y_pred_knn) plot_confusion_matrix(cm_knn, iris.target_names) # 显示图形 plt.show()
预测新数据
最后,我们可以使用训练好的模型对新的数据进行预测。
python
复制代码
# 使用KNN模型对新样本进行预测 new_data = np.array([[5.1, 3.5, 1.4, 0.2]]) # 一个新的样本(鸢尾花特征) new_data = scaler.transform(new_data) # 标准化 prediction = knn.predict(new_data) print(f"预测的花种类: {iris.target_names[prediction]}")
3. 模型总结
通过上述步骤,我们完成了以下内容:
- 数据加载与预处理:加载鸢尾花数据集并进行标准化处理。
- 模型训练与评估:训练了4个常见的机器学习模型(KNN、SVM、决策树和随机森林),并通过
classification_report和accuracy_score评估了各个模型的性能。 - 模型预测:使用训练好的模型对新数据进行了预测。
4. 总结
- KNN:适合用于小型数据集,计算复杂度较高。
- SVM:对于中小型数据集效果不错,但训练时间较长。
- 决策树:易于理解和解释,但容易过拟合。
- 随机森林:通过集成多棵决策树,通常表现良好,减少了过拟合的风险。
在实际的机器学习项目中,你可以根据任务的特点选择合适的模型,并不断调整参数以优化模型的表现。
相关文章:
一个简单的机器学习实战例程,使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集(Iris Dataset)**的分类
机器学习实战通常是将理论与实践结合,通过实际的项目或案例,帮助你理解并应用各种机器学习算法。下面是一个简单的机器学习实战例程,使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集(Iris Dataset)**的…...
攻防世界web第二题unseping
这是题目 <?php highlight_file(__FILE__);class ease{private $method;private $args;function __construct($method, $args) {$this->method $method;$this->args $args;}function __destruct(){if (in_array($this->method, array("ping"))) {cal…...
动手学深度学习-深度学习计算-3延后初始化
目录 实例化网络 小结 到目前为止,我们忽略了建立网络时需要做的以下这些事情: 我们定义了网络架构,但没有指定输入维度。 我们添加层时没有指定前一层的输出维度。 我们在初始化参数时,甚至没有足够的信息来确定模型应该包含…...
Linux | 零基础Ubuntu搭建JDK
目录 软件简介 在线文档 压缩包安装 下载地址 补:传输软件 传输等待 目录结构 解压安装 配置环境 更新环境 测试JDK结果 APT安装 软件简介 Java Development Kit (JDK) 是 Sun 公司(已被 Oracle 收购)针对 Java 开发员的软件开发工具包。自…...
Android `android.graphics` 包深度解析:架构与设计模式
Android android.graphics 包深度解析:架构与设计模式 目录 引言android.graphics 包概述核心类与架构 CanvasPaintBitmapColorPathShaderMatrix设计模式在 android.graphics 中的应用 工厂模式装饰者模式策略模式享元模式高级图形处理技术 硬件加速离屏渲染自定义 View 中的…...
WPF使用OpenCvSharp4
WPF使用OpenCvSharp4 创建项目安装OpenCvSharp4 创建项目 安装OpenCvSharp4 在解决方案资源管理器中,右键单击项目名称,选择“管理 NuGet 包”。搜索并安装以下包: OpenCvSharp4OpenCvSharp4.ExtensionsOpenCvSharp4.runtime.winSystem.Man…...
你不需要对其他成年人的情绪负责
在这个纷繁复杂的世界里,每个人都是独一无二的个体,背负着各自的故事、梦想与烦恼。在人际交往的广阔舞台上,我们时常会遇到这样的情境:朋友、同事、家人,甚至是陌生人,他们的情绪似乎总能不经意间影响到我…...
25秋招面试总结
秋招从八月底开始,陆陆续续面试了不少,现在也是已经尘埃落定,在这里做一些总结一些我个人的面试经历 腾讯 腾讯是我最早面试的一家,一开始捞我面试的是数字人民币,安全方向的岗位,属于腾讯金融科技这块。…...
高斯核函数(深入浅出)
目录 定义及数学形式主要特点应用示例小结 高斯核函数(Gaussian Kernel),又称径向基核(Radial Basis Function Kernel,RBF Kernel),是机器学习与模式识别中最常用的核函数之一。它通过在高维空间…...
支付宝百宝箱 工具,快速上手制作一个agent
作品:历史上的今天-作文素材积累 Datawhale 动手学AI Agent 关键词:AI助手开发、LangGPT框架 链接:百宝箱百宝箱平台是一款可以提供一站式 AI 原生应用的开发平台,您无需具有任何代码基础,只需通过自然语言即可三步完…...
六十:HTTP/2与gRPC框架
随着互联网技术的发展,应用程序之间的通信需求日益复杂和多样化。传统的HTTP/1.x协议虽然广泛应用,但在性能和功能方面已经难以满足现代应用的需求。为了解决这些问题,HTTP/2协议和基于其之上的gRPC框架应运而生。本文将介绍HTTP/2协议的特点…...
1.RPC基本原理
文章目录 RPC1.定义2.概念3.优缺点4.RPC结构5.RPC消息协议5.1 消息边界5.2 内容5.3 压缩 6.RPC的实现6.1 divide_protocol.py6.2 server.py6.3 client.py RPC 1.定义 远程过程调用(remote procedure call) 2.概念 广义:所有通过网络进行通讯,的调用统称为RPC调用 狭义:不采…...
vue2/3,Spring Boot以及生产环境跨域解决方案
vue2和vue3跨域解决方案 Vue 2 (基于 Webpack) 的跨域解决方案 1. 创建或编辑 vue.config.js 文件 Vue CLI为Webpack项目提供了简单的代理配置方式。你可以通过创建或编辑项目的根目录下的 vue.config.js 文件来设置开发服务器的代理规则: // vue.config.js mod…...
【centos8 镜像修改】centos8 镜像修改阿里云
要将 CentOS 8 的镜像源修改为阿里云镜像,你需要编辑 /etc/yum.repos.d/ 目录下的 .repo 文件。以下是具体的步骤: 备份原始的 .repo 文件: 在编辑之前,建议备份原始的 .repo 文件,以便在出现问题时可以恢复。 sudo cp…...
多线程编程初探:掌握基本概念与核心原理
目录 1 初识线程 1.1 线程的由来 1.2 线程的产生 1.3 进程 VS 线程 1.4 关于系统内部关于线程和进程的资源调度问题 2 页表、虚拟地址和物理地址 2.1 对物理地址的描述 2.2 对于页表设计的解析 3 线程的控制 3.1 进程创建 3.1.1 pthread_create 3.2 线程退出 3.2.1 主…...
【信息系统项目管理师】第13章:项目资源管理过程详解
更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 一、规划资源管理1、输入2、工具与技术3、输出二、估算活动资源1、输入2、工具与技术3、输出三、获取资源1、输入2、工具与技术3、输出四、建设团队1、输入2、工具与技术3、输出五、管理团队1、输入2、工具与技…...
vue3封装而成的APP ,在版本更新后,页面显示空白
一、问题展示 更新之后页面空白,打不开 ,主要是由于缓存造成的 二、解决办法 1、随机数代码实现 使用随机数来动态的生成静态资源目录名可以避免浏览器缓存,但同时每次也会导致浏览器每次都下载最新的资源。如果静态资源过大,可…...
GEE云计算、多源遥感、高光谱遥感技术蓝碳储量估算;红树林植被指数计算及提取
大气温室气体浓度不断增加,导致气候变暖加剧,随之会引发一系列气象、生态和环境灾害。如何降低温室气体浓度和应对气候变化已成为全球关注的焦点。海洋是地球上最大的“碳库”,“蓝碳”即海洋活动以及海洋生物(特别是红树林、盐沼和海草&…...
【知识】cuda检测GPU是否支持P2P通信及一些注意事项
转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 代码流程 先检查所有GPU之间是否支持P2P通信;然后尝试启用GPU之间的P2P通信;再次检查所有GPU之间是否支持P2P通信。 test.cu&…...
用 Python 生成功能强大的二维码工具(支持自定义颜色与 Logo)
在很多项目中,二维码作为一种便捷的方式传递信息越来越常见。今天,我们将介绍如何用 Python 编写一个功能更全的二维码生成工具,它不仅支持自定义二维码的颜色,还能在二维码中间添加 logo。 1. 环境准备 首先,我们需…...
React 第五十五节 Router 中 useAsyncError的使用详解
前言 useAsyncError 是 React Router v6.4 引入的一个钩子,用于处理异步操作(如数据加载)中的错误。下面我将详细解释其用途并提供代码示例。 一、useAsyncError 用途 处理异步错误:捕获在 loader 或 action 中发生的异步错误替…...
智慧医疗能源事业线深度画像分析(上)
引言 医疗行业作为现代社会的关键基础设施,其能源消耗与环境影响正日益受到关注。随着全球"双碳"目标的推进和可持续发展理念的深入,智慧医疗能源事业线应运而生,致力于通过创新技术与管理方案,重构医疗领域的能源使用模式。这一事业线融合了能源管理、可持续发…...
黑马Mybatis
Mybatis 表现层:页面展示 业务层:逻辑处理 持久层:持久数据化保存 在这里插入图片描述 Mybatis快速入门 2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言 前几天听说公司某个项…...
django filter 统计数量 按属性去重
在Django中,如果你想要根据某个属性对查询集进行去重并统计数量,你可以使用values()方法配合annotate()方法来实现。这里有两种常见的方法来完成这个需求: 方法1:使用annotate()和Count 假设你有一个模型Item,并且你想…...
Robots.txt 文件
什么是robots.txt? robots.txt 是一个位于网站根目录下的文本文件(如:https://example.com/robots.txt),它用于指导网络爬虫(如搜索引擎的蜘蛛程序)如何抓取该网站的内容。这个文件遵循 Robots…...
Redis数据倾斜问题解决
Redis 数据倾斜问题解析与解决方案 什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中,部分节点存储的数据量或访问量远高于其他节点,导致这些节点负载过高,影响整体性能。 数据倾斜的主要表现 部分节点内存使用率远高于其他节…...
Maven 概述、安装、配置、仓库、私服详解
目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...
Mobile ALOHA全身模仿学习
一、题目 Mobile ALOHA:通过低成本全身远程操作学习双手移动操作 传统模仿学习(Imitation Learning)缺点:聚焦与桌面操作,缺乏通用任务所需的移动性和灵活性 本论文优点:(1)在ALOHA…...
蓝桥杯 冶炼金属
原题目链接 🔧 冶炼金属转换率推测题解 📜 原题描述 小蓝有一个神奇的炉子用于将普通金属 O O O 冶炼成为一种特殊金属 X X X。这个炉子有一个属性叫转换率 V V V,是一个正整数,表示每 V V V 个普通金属 O O O 可以冶炼出 …...
