当前位置: 首页 > news >正文

机器学习 低代码 ML:PyCaret 的使用

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。
🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


本文目录

    • PyCaret 简介
    • PyCaret 实践
      • 安装 PyCaret
      • 使用 PyCaret 进行分类任务
      • 使用 PyCaret 进行回归任务


PyCaret 简介

PyCaret 是一个开源的低代码 Python 库,专注于简化机器学习(ML)工作流程并加速实验过程。它特别适用于数据科学家、分析师和开发人员,通过减少实现 ML 解决方案所需的繁琐编码工作来提高工作效率。PyCaret 可以在一个统一且用户友好的接口下提供多种机器学习任务的支持,包括但不限于分类、回归、聚类、异常检测、关联规则挖掘等。

PyCaret

以下是一些关于 PyCaret 的关键特点和功能:

  1. 低代码自动化

    • PyCaret 允许用户通过简洁的 API 调用快速执行数据预处理、特征工程、模型训练、模型评估和模型选择等步骤。
    • 用户无需编写大量的底层代码即可完成复杂的机器学习任务,仅需少量命令就能在几秒钟内搭建和比较多个模型。
  2. 集成多种库

    • 库内部封装了诸如 scikit-learn、XGBoost、LightGBM、CatBoost 等流行机器学习框架,并提供了对这些库中模型的便捷访问和管理。
    • 同时也集成了其他辅助工具,如用于文本处理的 spaCy,以及用于超参数优化的 Optuna、Hyperopt 等。
  3. 模块化设计

    • PyCaret 按照不同机器学习任务划分为不同的模块,例如classificationregressionclusteringanomaly_detection等,每个模块都包含了对应任务特定的方法和函数。
  4. 端到端解决方案

    • 提供从数据加载到模型部署的完整生命周期管理,支持项目保存和加载,便于复现实验结果和迁移学习。
    • 包括可视化工具,可以方便地生成各种性能指标图表,帮助用户直观理解模型表现和数据分布。
  5. 资源效率

    • 由于其自动化特性,PyCaret 能够在较小的计算资源消耗下进行大量实验,从而节省时间和计算成本。
  6. 易用性

    • 对于新手友好,使得没有丰富编程经验的数据科学爱好者也能快速入门并开始探索机器学习领域。

使用 PyCaret 进行机器学习实验时,用户通常首先初始化一个环境,设置数据分割策略、目标变量以及其他实验参数,然后就可以直接运行对比试验、调整模型配置、进行特征重要性分析等操作。这一系列过程极大提升了数据分析和建模的工作效率。

PyCaret 实践

安装 PyCaret

pip install pycaret

使用 PyCaret 进行分类任务

以 PyCaret 官方提供的 diabetes 数据集为例。

# 加载数据集
from pycaret.datasets import get_data
diabetes = get_data("diabetes")

diabetes 数据集

# 初始化分类实验
from pycaret.classification import *
s = setup(data, target="Class variable", session_id=123)

分类实验概况

# 比较多个模型
best = compare_models()

分类模型比较结果

# 打印最佳模型
print(best)

最佳分类模型

# 评估模型
evaluate_model(best)

分类模型评估结果

# 绘制 AUC 曲线
plot_model(best, plot="auc")

AUC 曲线

# 绘制混淆矩阵
plot_model(best, plot="confusion_matrix")

混淆矩阵

# 使用最优模型进行预测
predictions = predict_model(best, data=data)
predictions.head()

分类预测结果

# 输出概率分数
predictions = predict_model(best, data=data, raw_score=True)
predictions.head()

分类概率分数

# 保存模型
save_model(best, "my_best_pipeline")

保存模型

# 加载模型
loaded_model = load_model("my_best_pipeline")
print(loaded_model)

加载模型

使用 PyCaret 进行回归任务

以 PyCaret 官方提供的 insurance 数据集为例。

# 加载数据集
from pycaret.datasets import get_data
insurance = get_data("insurance")

insurance 数据集

# 初始化回归实验
from pycaret.regression import *
s = setup(data, target="charges", session_id=123)

回归实验概况

# 比较多个模型
best = compare_models()

回归模型比较结果

# 打印最佳模型
print(best)

最佳回归模型

# 评估模型
evaluate_model(best)

回归模型评估结果

# 绘制残差分布图
plot_model(best, plot="residuals")

残差分布图

# 绘制特征重要性图
plot_model(best, plot="feature")

特征重要性图

# 使用最优模型进行预测
predictions = predict_model(best, data=data)
predictions.head()

回归预测结果

相关文章:

机器学习 低代码 ML:PyCaret 的使用

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。 🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心&…...

前端入门第二天

目录 一、列表、表格、表单 二、列表(布局内容排列整齐的区域) 1.无序列表(不规定顺序) 2.有序列表(规定顺序) 3.定义列表(一个标题多个分类) 三、表格 1.表格结构标签 2.合并…...

Django实现富文本编辑器Ckeditor5图片上传功能

上一章我们已经为我们的博客继承了富文本编辑器Ckeditor5,虽然已经可以对文字进行排版处理,虽然已经可以通过插入图片的url地址来插入图片,但还无法通过本地上传图片,那么我们这个富文本编辑器就是不完整的,这一章我们将实现上传图片功能! ​ Ckeditor5图片上传采用的是…...

【C语言】epoll_wait / select

一、epoll_wait和select对比 1. 阻塞和非阻塞 在Linux C语言中进行socket编程时,epoll_wait 和 select 都是用于多路I/O复用的系统调用,但是它们的行为可以设置为阻塞和非阻塞模式,这取决于调用它们时所使用的参数。 让我们分别看看 epoll…...

Java 数据抓取

大家好我是苏麟 , 今天聊聊数据抓取 . 大家合理使用 注意,爬虫技术不能滥用,干万不要给别人的系统造成压力、不要侵犯他人权益! 数据抓取 实质上就是java程序模拟浏览器进行目标网站的访问,无论是请求目标服务器的接口还是请求目标网页内容…...

深度学习之处理多维特征的输入

我们首先来看一个糖尿病的数据集: 在数据集中,我们称每一行叫做sample,表示一个样本,称每一列是feature,也就是特征在数据库里面这就是一个关系表,每一行叫做记录,每一列叫做字段。 每一个样本都…...

西瓜书读书笔记整理(十二) —— 第十二章 计算学习理论(下)

第十二章 计算学习理论(下) 12.4 VC 维(Vapnik-Chervonenkis dimension)12.4.1 什么是 VC 维12.4.2 增长函数(growth function)、对分(dichotomy)和打散(shattering&…...

初探分布式链路追踪

本篇文章,主要介绍应用如何正确使用日志系统,帮助用户从依赖、输出、清理、问题排查、报警等各方面全面掌握。 可观测性 可观察性不单是一套理论框架,而且并不强制具体的技术规格。其核心在于鼓励团队内化可观察性的理念,并确保由…...

闭包的理解?闭包使用场景

说说你对闭包的理解?闭包使用场景 #一、是什么 一个函数和对其周围状态(lexical environment,词法环境)的引用捆绑在一起(或者说函数被引用包围),这样的组合就是闭包(closure&#…...

openssl3.2 - 帮助文档的整理

文章目录 openssl3.2 - 帮助文档的整理概述笔记整理后, 非空的文件夹如下整理后, 留下的有点用的文件列表如下备注END openssl3.2 - 帮助文档的整理 概述 openssl3.2源码工程编译安装完, 对于库的使用者, 有用的文档, 远不止安装的那些html. 用everything查找, 配合手工删除,…...

中移(苏州)软件技术有限公司面试问题与解答(5)—— Linux进程调度参数调优是如何通过代码实际完成的1

接前一篇文章:中移(苏州)软件技术有限公司面试问题与解答(0)—— 面试感悟与问题记录 本文对于中移(苏州)软件技术有限公司面试问题中的“(11)Linux进程调度参数调优是如…...

初识C语言·文件操作

目录 1 关于文件 i)文件的基本知识 ii)数据文件的分类 2 文件打开和关闭 i)流和标准流 ii)文件指针 iii)文件打开和关闭 3 文件的顺序读写 i) fgetc fputc ii) fgets fputs iii) fscanf fprintf iv) fwrite fread 4 对比一组函数 scanf/fscanf/sscanf/printf/fpri…...

跨境卖家:如何利用自养号测评抢占市场先机?

在当今的跨境电商领域,产品的销量和评价是影响产品在市场上的表现的关键因素。对于卖家而言,自行养号进行产品测评不仅有助于提升销量,更成为了他们在这个竞争激烈的市场中保持竞争力的必备策略。 相较于一些卖家仍然依赖于服务商进行测评&a…...

开发手札:Github Timeout 22

今天(2024.01.26日),提交github又出现了ssh connect timeout errorcode 22,不论是创建新的sshkey还是配置.ssh/config都没用。 偶然在知乎上看到了解决方案,只需要在host中添加: 140.82.113.4 githu…...

学习鸿蒙基础(3)

1.组件重用样式 如果每个组件的样式都需要单独设置,在开发过程中会出现大量代码在进行重复样式设置,虽然可以复制粘贴,但为了代码简洁性和后续方便维护,可以采用公共样式进行复用的装饰器Styles。 Styles装饰器可以将多条样式设置…...

2024/1/27 备战蓝桥杯 1-2

目录 金币 0金币 - 蓝桥云课 (lanqiao.cn) 天干地支 0天干地支 - 蓝桥云课 (lanqiao.cn) 明明的随机数 0明明的随机数 - 蓝桥云课 (lanqiao.cn) 浇灌 0灌溉 - 蓝桥云课 (lanqiao.cn) 金币 0金币 - 蓝桥云课 (lanqiao.cn) 思路:放两种情况(k:代…...

【PyQt】02-基本UI

文章目录 前言一、首先了解什么是GUI?二、初学程序1.界面展示代码运行结果 2.控件2.1按钮展示代码运行结果 2.2 纯文本和输入框代码运行结果 3、重新设置大小 -resize4、移动窗口-move()5、设置界面在电脑中央5.1 代码运行结果 6、设置窗口图标代码运行结果 7、布局…...

无需 Root 卸载手机预装软件,精简过的老年机又行了

基础准备 准备目标手机、USB 数据线、以及一台电脑。手机 USB 连接电脑,开发者选项中打开 USB 调试。(开发者选项默认隐藏,需要在关于手机中多次点击版本号才能调出)。 安装手机驱动,下载安装 ADB 工具包。 开始操作…...

【Spring连载】使用Spring Data访问Redis(一)----快速指南

【Spring连载】使用Spring Data访问Redis&#xff08;一&#xff09;----快速指南 一、导入依赖二、Hello World程序 一、导入依赖 在pom.xml文件加入如下依赖就可以下载到spring data redis的jar包了&#xff1a; <dependency><groupId>org.springframework.boot…...

Redis 学习笔记 2:Java 客户端

Redis 学习笔记 2&#xff1a;Java 客户端 常见的 Redis Java 客户端有三种&#xff1a; Jedis&#xff0c;优点是API 风格与 Redis 命令命名保持一致&#xff0c;容易上手&#xff0c;缺点是连接实例是线程不安全的&#xff0c;多线程场景需要用线程池来管理连接。Redisson&…...

渐变风格出图率暴跌47%?紧急修复方案:3个被忽略的种子值+--no参数协同干预策略

更多请点击&#xff1a; https://kaifayun.com 第一章&#xff1a;渐变风格出图率暴跌47%的现象溯源与归因分析 近期多个主流AIGC平台监测数据显示&#xff0c;采用CSS渐变&#xff08;linear-gradient、radial-gradient等&#xff09;作为核心视觉特征的生成式设计稿&#x…...

别再乱改注册表了!Windows系统文件夹移动后还原的完整避坑指南

Windows系统文件夹移动后还原的完整避坑指南1. 为什么你的文件夹移动操作会出问题&#xff1f;许多用户为了释放C盘空间&#xff0c;会选择将桌面、文档等系统文件夹移动到其他分区。这个看似简单的操作背后却隐藏着不少陷阱。最常见的错误是直接在目标盘符下选择移动&#xff…...

储能 PACK 与 BMS:怎么识别有真实出货的系统集成厂,避开组装贴牌

储能赛道的门槛看起来不高&#xff1a;买一批电芯&#xff0c;叫几家代工厂组装成 PACK&#xff0c;挂上自己的品牌&#xff0c;就能对外声称是"储能系统集成商"。这条路在 2021 年到 2024 年的行业高速期被走通过无数次。于是&#xff0c;有真实产线、真实并网项目、…...

Kubernetes StatefulSet深度解析:管理有状态应用的最佳实践

Kubernetes StatefulSet深度解析&#xff1a;管理有状态应用的最佳实践 一、StatefulSet概述 StatefulSet 是Kubernetes中用于管理有状态应用的控制器。它为Pod提供稳定的网络标识和持久化存储&#xff0c;确保Pod的有序部署、扩展和更新。 1.1 StatefulSet vs Deployment …...

Claude Mythos:AI驱动的自动化漏洞挖掘与攻防范式跃迁

1. 项目概述&#xff1a;一场静默却震耳欲聋的AI能力跃迁这周&#xff0c;整个AI安全圈没有爆炸性新闻稿&#xff0c;没有铺天盖地的发布会直播&#xff0c;只有一份措辞克制、数据密集的系统卡片&#xff08;System Card&#xff09;和一份由英国AI安全研究所&#xff08;AISI…...

vue3 大屏列表轮播,使用transition-group

一、transition-group介绍transition-group 是 Vue 框架中专门用来给列表添加动画效果的内置组件‌&#xff0c;它能让你在做添加、删除或排序列表项时&#xff0c;看到平滑的过渡动画 。‌‌‌对应的css&#xff1a;例如&#xff1a;transition-group的类名为 list动画类名就为…...

2026最新大模型入门电子书学习推荐,必读9本大模型书籍

大模型入门必读的9本书籍汇总NO.1&#xff1a; 《基于GPT-3&#xff0c;ChatGPT&#xff0c;GPT-4等Transformer架构的自然语言处理》主要内容: 了解用于解决复杂语言问题的新技术。将GPT-3与T5、GPT-2和基于BERT的Transformer的结果进行对比。使用TensorFlow、PyTorch和GPT-3执…...

【云计算学习之路】学习Centos7系统:服务搭建(VSFTP)

FTP简介及快速构建VSFTP服务器FTP简介及快速构建VSFTP服务器一、前言二、FTP服务核心简介2.1 FTP基本概念2.2 FTP两种工作模式1. 主动模式&#xff08;Active Mode&#xff09;2. 被动模式&#xff08;Passive Mode&#xff09;2.3 VSFTP服务核心优势三、实验环境预处理3.1 网络…...

在线语音工具大比拼:顶伯胜在哪?

&#x1f3af; 在线语音工具大比拼&#xff1a;顶伯、剪映、配音阁、讯飞&#xff0c;微软 TTS 版胜在哪&#xff1f;在内容创作日益多元的今天&#xff0c;语音合成工具已成为视频博主、教育从业者、有声书制作者不可或缺的伙伴。市面常见的选项包括剪映内置配音、配音阁、讯飞…...

AI大模型学习顺序_七步掌握大模型精髓:从入门到精通的进阶秘籍!

本文以“七层关系”为框架&#xff0c;系统地阐述了学习大模型的最佳路径。从基础概念入手&#xff0c;逐步深入到模型架构、训练技巧、应用场景等核心内容&#xff0c;旨在帮助读者构建完整的知识体系&#xff0c;最终实现从入门到精通的全面提升。按“七层关系”学大模型&…...