零基础学习机器学习分类模型
下面将带你通过一个简单的机器学习项目,使用Python实现一个常见的分类问题。我们将使用著名的Iris数据集,来构建一个机器学习模型,进行花卉品种的分类。整个过程会包含:
- 原理介绍:机器学习的基本概念。
- 数据加载和预处理:如何加载数据并进行必要的处理。
- 模型训练和评估:使用经典的分类算法——逻辑回归。
- 代码解释:逐步分析代码实现。
- 拓展内容:如何优化和扩展该项目。
1. 原理介绍
1.1 机器学习基本概念
机器学习(Machine Learning)是人工智能的一个重要领域,其核心目标是让计算机通过数据的学习来自动化任务,从而不需要显式地编写规则来执行某些任务。机器学习的基本思想是从数据中学习模式,然后使用这些模式来进行预测、分类或其他任务。
机器学习方法可以分为三大类:
-
监督学习(Supervised Learning): 在监督学习中,数据集包含输入和对应的输出。模型通过训练学习输入与输出之间的映射关系,以便能够对新数据进行预测。监督学习的例子包括分类(如:垃圾邮件检测)和回归(如:房价预测)任务。我们本案例使用的是分类任务,预测鸢尾花的种类。
-
无监督学习(Unsupervised Learning): 无监督学习不依赖标签数据。模型的目标是从无标签的数据中提取隐藏的结构或模式。常见的无监督学习方法有聚类(如:客户分群)和降维(如:PCA)等。
-
强化学习(Reinforcement Learning): 强化学习是一种智能体学习的方法,通过与环境的互动、接收奖励或惩罚信号,不断调整行为策略,从而实现最优决策。这种方法常用于机器人控制、游戏策略和自动驾驶等领域。
1.2 Iris数据集
Iris数据集是一个经典的机器学习数据集,常用于入门级机器学习项目。它包含了鸢尾花(Iris)三种品种的不同样本,每个样本有四个特征:
- 萼片长度(sepal length)
- 萼片宽度(sepal width)
- 花瓣长度(petal length)
- 花瓣宽度(petal width)
这些特征用于帮助我们预测每个花样本所属的品种。数据集中的花的品种有三个类别:
- Setosa
- Versicolor
- Virginica
每个类别包含50个样本,因此总共有150个数据点。
2. 数据加载与预处理
代码解释:
在机器学习中,数据预处理是非常重要的一步,因为不同的数据特征可能具有不同的尺度和范围,这会影响到模型的性能。为了保证每个特征对模型的贡献均等,我们通常需要对数据进行标准化。
步骤一:加载数据
from sklearn.datasets import load_iris
data = load_iris()
X = data.data # 特征(花瓣和萼片的长度与宽度)
y = data.target # 标签(花的种类)
load_iris()函数会加载包含鸢尾花数据的字典。这个字典的内容包括特征(data)、标签(target)等。data包含4个特征,target包含每个样本的类别标签。
步骤二:划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
train_test_split()用于将数据集分为训练集和测试集。我们使用30%的数据作为测试集,剩余的70%作为训练集。设置random_state=42确保结果的可重复性。
步骤三:标准化数据
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
标准化是机器学习中常见的预处理步骤。不同特征的数值范围可能不同,这会影响模型训练的效果。通过标准化,我们将每个特征的均值调整为0,标准差调整为1,使得每个特征在相同的尺度上。
3. 模型训练与评估
代码解释:
我们使用的是逻辑回归模型,逻辑回归是一种非常基础的分类算法,适用于线性可分的情况。尽管名称中有“回归”一词,但逻辑回归实际上是用于分类任务的。它通过学习特征与类别之间的线性关系来预测类别标签。
步骤一:初始化逻辑回归模型
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(max_iter=200)
LogisticRegression()是sklearn库提供的逻辑回归模型。我们将max_iter=200设置为200次迭代,以确保模型收敛。
步骤二:训练模型
model.fit(X_train, y_train)
fit()方法用于训练模型,它接受训练数据X_train和训练标签y_train,通过优化算法计算出最优的模型参数。
步骤三:在测试集上预测
y_pred = model.predict(X_test)
predict()方法使用训练好的模型对测试集数据进行预测,输出每个样本的预测标签。
步骤四:评估模型
from sklearn.metrics import accuracy_score, classification_report
print("模型准确率:", accuracy_score(y_test, y_pred))
print("\n分类报告:\n", classification_report(y_test, y_pred))
accuracy_score()计算模型的准确率,即预测正确的样本占总样本的比例。classification_report()提供更详细的评估,包括精准率、召回率和F1分数。精准率表示预测为正类的样本中有多少是真正的正类,召回率表示所有正类样本中有多少被正确预测为正类,F1分数是精准率和召回率的调和平均。
4. 代码解释
我们逐步实现了机器学习的典型流程:
-
数据加载与分割:
通过load_iris()加载数据集,使用train_test_split()将数据集划分为训练集和测试集。
-
数据标准化:
使用StandardScaler()对数据进行标准化处理,确保所有特征在同一尺度下,以提高模型的稳定性和性能。
-
模型训练与评估:
使用LogisticRegression()训练一个逻辑回归模型,然后在测试集上进行预测,最后通过accuracy_score()和classification_report()对模型的表现进行评估。
通过这个流程,我们可以很清晰地看到模型在不同特征空间下的表现,帮助我们进一步做出模型改进的决策。
5. 拓展内容
5.1 使用其他模型进行对比
除了逻辑回归,还有很多其他的模型可以用于分类任务。比如,支持向量机(SVM)是一种非常强大的分类模型,尤其在高维空间中表现优秀。我们可以使用SVM来对比其与逻辑回归的表现。
from sklearn.svm import SVC # 使用支持向量机模型
svm_model = SVC(kernel='linear')
svm_model.fit(X_train, y_train) # 预测并评估
y_pred_svm = svm_model.predict(X_test)
print("SVM模型准确率:", accuracy_score(y_test, y_pred_svm))
我们可以通过比较不同模型的准确率和其他评估指标,选择最合适的模型。
5.2 模型优化
机器学习模型通常需要调参(调整超参数)才能达到最佳效果。例如,在逻辑回归中,C参数控制正则化强度,较小的C值表示强正则化,较大的C值表示弱正则化。我们可以使用GridSearchCV进行自动化超参数搜索:
from sklearn.model_selection import GridSearchCV # 设置要搜索的超参数范围
param_grid = {'C': [0.1, 1, 10, 100]} # 创建GridSearchCV对象
grid_search = GridSearchCV(LogisticRegression(), param_grid, cv=5) # 在训练集上进行超参数搜索 grid_search.fit(X_train, y_train) # 输出最佳超参数和模型
print("最佳超参数:", grid_search.best_params_)
best_model = grid_search.best_estimator_
5.3 可视化
可视化是理解机器学习结果的重要工具。我们可以通过绘制数据点、决策边界等方式来更好地理解模型的行为。
例如,绘制散点图显示不同花种的分布:
import matplotlib.pyplot as plt # 绘制花瓣长度与花瓣宽度的散点图
plt.scatter(X[:, 2], X[:, 3], c=y, cmap='viridis')
plt.xlabel('花瓣长度')
plt.ylabel('花瓣宽度')
plt.title('鸢尾花的不同品种分布')
plt.color
本教程实现了一个简单的机器学习项目,使用Python对Iris数据集进行分类任务。我们使用了逻辑回归模型,并通过标准化和数据拆分等方法,进行了模型训练和评估。最后,介绍了如何通过其他模型进行对比、调参优化以及可视化结果。
相关文章:
零基础学习机器学习分类模型
下面将带你通过一个简单的机器学习项目,使用Python实现一个常见的分类问题。我们将使用著名的Iris数据集,来构建一个机器学习模型,进行花卉品种的分类。整个过程会包含: 原理介绍:机器学习的基本概念。数据加载和预处…...
Spring 源码硬核解析系列专题(十):Spring Data JPA 的 ORM 源码解析
在前几期中,我们从 Spring 核心到 Spring Boot、Spring Cloud、Spring Security 和 Spring Batch,逐步揭示了 Spring 生态的多样性。在企业级开发中,数据访问是不可或缺的部分,而 Spring Data JPA 通过简化 JPA(Java Persistence API)操作,成为主流的 ORM 框架。本篇将深…...
视频推拉流EasyDSS点播平台云端录像播放异常问题的排查与解决
EasyDSS视频直播点播平台是一个功能全面的系统,提供视频转码、点播、直播、视频推拉流以及H.265视频播放等一站式服务。该平台与RTMP高清摄像头配合使用,能够接收无人机设备的实时视频流,实现无人机视频推流直播和巡检等多种应用。 最近&…...
Oracle23版本 创建用户 报 00959和65096错误解决办法
00959错误解决办法,用户名必须已 c##或者C##开头 65096错误解决办法,创建用户名时去掉DEFAULT TABLESPACE smallrainTablespace这个属性 附上oracle 23版本创建表空间和用户语句; sqlplus sys as sysdba CREATE TABLESPACE smallrainOrac…...
Vue3 中 defineOptions 学习指南
在 Vue 3.3 及之后的版本中,defineOptions 是一个重要的宏(macro),主要用于在 <script setup> 语法糖中声明组件的选项(Options),解决了传统 <script setup> 无法直接定义组件选项的…...
简单说一下什么是RPC
部分内容来源:JavaGuide RPC是什么 RPC是远程调用 RPC的原理 RPC的五个部分 为了能够帮助小伙伴们理解 RPC 原理,我们可以将整个 RPC 的核心功能看作是下面 5 个部分实现的: 客户端(服务消费端):调用…...
Pany-v2:LFI漏洞探测与敏感文件(私钥窃取/其他)自动探测工具
地址:https://github.com/MartinxMax/pany 关于Pany-v2 Pany-v2 是一款 LFI(本地文件包含)漏洞探测工具,具备自动识别敏感文件的能力。它能够利用 LFI 漏洞检测并提取 id_rsa 私钥、系统密码文件以及其他可能导致安全风险的敏感信息。该工具…...
北京大学DeepSeek与AIGC应用(PDF无套路下载)
近年来,人工智能技术飞速发展,尤其是大模型和生成式AI(AIGC)的突破,正在重塑各行各业的生产方式与创新路径。 北京大学联合DeepSeek团队推出的内部研讨教程《DeepSeek与AIGC应用》,以通俗易懂的方式系统解…...
AWS SDK for Java 1.x 403问题解决方法和原因
问题表现 使用AWS SDK for Java 1.x访问S3,已经确认文件存在,且具有权限,仍然出现403 Forbidden应答。 解决方法 升级到AWS SDK for Java 2.x。 问题原因 AWS签名机制严格依赖请求的精确路径格式,任何URI的差异(如…...
Vue进阶之Vue2源码解析
Vue2源码解析 源码解析目录解析package.json入口查找入口文件确定vue入口this.\_init_ 方法$mount 挂载方法Vue.prototype._renderVue.prototype._updateVue.prototype._patch vue2 vue3 源码解析 目录解析 vue2.6之后的版本都做的是兼容Vue3的内容,2.6版本前的内…...
unity lua属性绑定刷新
我们现在有一个 角色属性类叫heroModel,内容如下,当heroModel中的等级发生变化的时候,我们需要刷新界面显示等级信息,通常我们是在收到等级升级成功的协议的时候,发送一个事件,UI界面接受到这个事件的时候,刷新一下等级…...
Ubuntu 下 nginx-1.24.0 源码分析 - ngx_conf_t
ngx_conf_t 定义在src/core/ngx_core.h typedef struct ngx_conf_s ngx_conf_t;ngx_conf_s 定义在 src/core/ngx_conf_file.h struct ngx_conf_s {char *name;ngx_array_t *args;ngx_cycle_t *cycle;ngx_pool_t *po…...
gtest 和 gmock讲解
Google Test(gtest)和 Google Mock(gmock)是 Google 开发的用于 C 的测试框架和模拟框架,以下是对它们的详细讲解: Google Test(gtest) 简介 Google Test 是一个用于 C 的单元测试框…...
Ubuntu20.04安装Redis
目录 切换到root用户 使用 apt install redis 安装redis 修改配置文件 编辑 重新启动服务器 使用Redis客户端连接服务器 切换到root用户 如果没有切换到root用户的,切换到root用户。 使用 apt install redis 安装redis 遇到y/n直接y即可。 redis安装好之…...
利用 DeepSeek 总结运维知识库的总结报告
一、背景 在运维工作中,知识库是重要的知识沉淀与共享工具。随着公司业务的发展,运维涉及的系统、设备和技术日益复杂,原有的运维知识库内容繁杂、缺乏条理,难以高效检索和利用。为了提升知识库的可用性,我尝试借助 D…...
Go基于协程池的延迟任务调度器
原理 通过用一个goroutine以及堆来存储要待调度的延迟任务,当达到调度时间后,将其添加到协程池中去执行。 主要是使用了chan、Mutex、atomic及ants协程池来实现。 用途 主要是用于高并发及大量定时任务要处理的情况,如果使用Go协程来实现每…...
一个原教旨的多路径 TCP
前面提到过 ECMP 和 TCP 之间的互不友好,pacing 收益和中断开销的互斥,在事实上阻碍了 packet-based LB 的部署,也限制了交换机,服务器的并发性能,同时潜在增加了 bufferbloat 的概率,而适用 packet-based …...
OSPF BIT 类型说明
注:本文为 “OSPF BIT 类型 | LSA 类型 ” 相关文章合辑。 机翻,未校。 15 OSPF BIT Types Explained 15 种 OSPF BIT 类型说明 Rashmi Bhardwaj Distribution of routing information within a single autonomous system in larger networks is per…...
如何获取mac os 安装盘
发现虚拟机VirtualBox支持Mac虚拟,就想尝试一下。但是发现Mac的安装盘特别难拿到,因此留档。 第一种方法 在mac环境下,使用softwareupdate命令来获取mac安装,能获得当前设备支持的系统。 使用这个命令:/usr/sbin/soft…...
【深度学习】强化学习(RL)-A3C(Asynchronous Advantage Actor-Critic)
A3C(Asynchronous Advantage Actor-Critic)详解 A3C(Asynchronous Advantage Actor-Critic) 是 深度强化学习(Deep Reinforcement Learning, DRL) 领域的重要算法,由 DeepMind 在 2016 年提出。…...
vue的双向绑定是怎么实现的
Vue.js 的双向绑定是通过 数据劫持(Data Observation) 和 发布-订阅模式(Publish-Subscribe Pattern) 实现的。具体来说,Vue 使用了以下核心技术: 数据劫持:通过 Object.defineProperty 或 Prox…...
在 Mac mini M2 上本地部署 DeepSeek-R1:14B:使用 Ollama 和 Chatbox 的完整指南
随着人工智能技术的飞速发展,本地部署大型语言模型(LLM)已成为许多技术爱好者的热门选择。本地部署不仅能够保护隐私,还能提供更灵活的使用体验。本文将详细介绍如何在 Mac mini M2(24GB 内存)上部署 DeepS…...
docker-compose部署onlyoffice8.3.0并支持ssl,且支持通过nginx代理,关闭JWT配置
编写docker-compose文件 mkdir -p /data/onlyoffice && echo "version: 3services:onlyoffice:container_name: OnlyOfficeimage: onlyoffice/documentserver:8.3.0restart: alwaysports:- 8088:80- 64431:443environment:TZ: Asia/ShanghaiJWT_ENABLED: falsevol…...
如何配置虚拟机的IP上网
要配置虚拟机的IP地址以便上网,你可以按照以下步骤操作: 打开虚拟机软件,确保虚拟机的网络设置为“桥接模式”或“NAT模式”,这样虚拟机可以与物理网络连接。 在虚拟机操作系统中,打开网络设置界面,一般在…...
【tplink】校园网接路由器如何单独登录自己的账号,wan-lan和lan-lan区别
老式路由器TPLINK,接入校园网后一人登录,所有人都能通过连接此路由器上网,无法解决遂上网搜索,无果,幸而偶然看到一个帖子说要把信号源网线接入路由器lan口,开启新世界。 一、wan-lan,lan-lan区…...
Python--内置模块和开发规范(下)
2. 开发规范 2.1 单文件应用 文件结构示例 # 文件注释 import os import jsonDB_PATH "data.json" # 常量放顶部def load_data():"""函数注释:加载数据"""if os.path.exists(DB_PATH):with open(DB_PATH, "r"…...
DeepSeek开源周Day5压轴登场:3FS与Smallpond,能否终结AI数据瓶颈之争?
2025年2月28日,DeepSeek开源周迎来了第五天,也是本次活动的收官之日。自2月24日启动以来,DeepSeek团队以每天一个开源项目的节奏,陆续向全球开发者展示了他们在人工智能基础设施领域的最新成果。今天,他们发布了Fire-F…...
[密码学实战]Java实现SM2数字信封(结合SM4对称加密)生成与解析
一、代码运行结果 二、什么是数字信封 2.1 基本概念 数字信封(Digital Envelope) 是一种结合对称加密与非对称加密的混合加密技术,通过以下步骤实现高效安全的数据传输: 对称加密:使用SM4算法加密原始数据,处理速度快,适合大数据量。非对称加密:使用SM2公钥加密SM4密…...
redis序列化设置
redis序列化设置 redis序列化设置序列化对象里有org.joda.time.DateTime1)、报错内容如下2)、解决方案:分别自定义时间的序列化和反序列化,以对象形式关联到redisTemplate redis序列化设置 redis序列化设置,通过自定义…...
Sqlserver安全篇之_TLS的证书概念
证书的理解 参考Sqlserver的官方文档https://learn.microsoft.com/zh-cn/sql/database-engine/configure-windows/certificate-overview?viewsql-server-ver16 TLS(Transport Layer Security)传输层安全和SSL(Secure Sockets Layer)安全套接字层协议位于应用程序协议层和TCP/…...
