当前位置：首页 > news >正文

盘点机器学习实战中最频繁使用的AutoML工具库

news 2026/2/10 13:38:59

在日常的Kaggle比赛和工作中，经常会遇到AutoML工具。本文总结了常见的AutoML库，可供大家选择。

LightAutoML

项目链接：https://github.com/sberbank-ai-lab/LightAutoML

推荐指数：⭐⭐⭐

LightAutoML是基于Python环境下的结构化自动机器学习库，现在支持的任务有：

二分类
多分类
回归任务

LightAutoML现在只支持单表单记录的形式，即每一行由样本的特征和标签组成。

import pandas as pd  
from sklearn.metrics import f1_score  from lightautoml.automl.presets.tabular_presets import TabularAutoML  
from lightautoml.tasks import Task  df_train = pd.read_csv('../input/titanic/train.csv')  
df_test = pd.read_csv('../input/titanic/test.csv')  automl = TabularAutoML(  task = Task(  name = 'binary',  metric = lambda y_true, y_pred: f1_score(y_true, (y_pred > 0.5)*1))  
)  
oof_pred = automl.fit_predict(  df_train,  roles = {'target': 'Survived', 'drop': ['PassengerId']}  
)  
test_pred = automl.predict(df_test)  pd.DataFrame({  'PassengerId':df_test.PassengerId,  'Survived': (test_pred.data[:, 0] > 0.5)*1  
}).to_csv('submit.csv', index = False)

技术交流

技术要学会分享、交流，不建议闭门造车。一个人走的很快、一堆人可以走的更远。

本文来自技术群粉丝分享整理，资料资料、数据、技术交流，均可加交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

方式①、添加微信号：pythoner666，备注：来自CSDN +备注来意
方式②、微信搜索公众号：Python学习与数据挖掘，后台回复：加群

H2O AutoML

项目链接：https://docs.h2o.ai/h2o/latest-stable/h2o-docs/automl.html

推荐指数：⭐⭐⭐⭐

H2O AutoML是基于Python环境和R环境下的结构化自动机器学习库，支持分布式部署，对模型调参、模型选择和特征筛选支持比较完备，但使用起来比较复杂。

import h2o  
from h2o.automl import H2OAutoML  h2o.init()  
train_hf = h2o.H2OFrame(train_df.copy())  
test_hf = h2o.H2OFrame(test_df.copy())  train_hf[target_column] = train_hf[target_column].asfactor()  aml = H2OAutoML(  seed=2021,   max_runtime_secs=100,  nfolds = 3,  exclude_algos = ["DeepLearning"]  
)  aml.train(  x=list(feature_columns),   y=target_column,   training_frame=train_hf  
)  preds = aml.predict(h2o.H2OFrame(test_df[feature_columns].copy()))  
preds_df = h2o.as_list(preds)  
preds_df  submission[['Class_1', 'Class_2', 'Class_3', 'Class_4']] = preds_df[['Class_1', 'Class_2', 'Class_3', 'Class_4']]  
submission.to_csv('h2o_automl_300s.csv', index=False)  
submission.head()

MLJAR AutoML

项目链接：https://github.com/mljar/mljar-supervised

推荐指数：⭐⭐⭐⭐

MLJAR AutoML是基于Python环境下的结构化自动机器学习库，所支持的机器学习模型非常多，且对模型可视化支持的非常好。

from supervised.automl import AutoML # mljar-supervised  
automl = AutoML(  mode="Compete",   eval_metric="f1",  total_time_limit=300,  features_selection=False # switch off feature selection  
)  
automl.fit(  train[feature_cols],   train[target_column]  
)  preds = automl.predict(test[feature_cols])  submission['Survived'] = preds  
submission.to_csv('mljar_automl_300s_f1_metric.csv', index=False)  
submission.head()

PyCaret

项目链接：https://pycaret.org/

推荐指数：⭐⭐⭐⭐⭐

PyCaret是基于Python环境下的结构化自动机器学习库，支持的任务包括：

分类
回归
聚类
异常检测
NLP
关联规则

PyCaret支持的模型比较多，项目也比较活跃，但对模型的可视化做的不够。

from pycaret.classification import *  
from category_encoders.cat_boost import CatBoostEncoder  cat_train_df = train_df.copy()  
cat_test_df = test_df.copy()  ce = CatBoostEncoder()  cols_to_encode = ['name', 'sex', 'ticket', 'cabin', 'embarked']  
cat_train_df[pure_cat_cols] = ce.fit_transform(cat_train_df[pure_cat_cols], cat_train_df[target_column])  
cat_test_df[pure_cat_cols] = ce.transform(cat_test_df[pure_cat_cols])  setup(  data = cat_train_df[feature_cols.to_list() + [target_column]],   target = target_column,  fold = 3,  silent = True,  
)  best_models = compare_models(  sort='F1',   n_select=3,   budget_time=300,  
) # we will use it later  best = automl(optimize = 'F1')

EvalML: AutoML

项目链接：https://evalml.alteryx.com/en/latest/

推荐指数：⭐⭐⭐

EvalML是一款比较模块比较完备的自动机器学习框架，支持分类、回归和时间序列任务。但提出的时间稍晚，所以使用的人很少。

from evalml.automl import AutoMLSearch  
X = train_df.drop(columns=[target_column, 'passengerid'])  
y = train_df[target_column]  X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.2)  
automl = AutoMLSearch(  X_train=X_train,   y_train=y_train,   problem_type='binary',  random_seed=2021,  max_time=300,  
)  automl.search()  
pipeline = automl.best_pipeline  
pipeline.fit(X, y)

TPOT: Genetic Approach

项目链接：http://epistasislab.github.io/tpot/

推荐指数：⭐⭐⭐

TPOT是一款非常轻量级的自动机器学习框架，利用遗传算法可以快读完成特征的构造。但TPOT所支持的功能较少，所以场景有限。

from tpot import TPOTClassifier  
from sklearn.model_selection import train_test_split  tpot = TPOTClassifier(generations=5, population_size=50, verbosity=2, random_state=42)  
tpot.fit(X_train, y_train)  
print(tpot.score(X_test, y_test))  
tpot.export('tpot_digits_pipeline.py')

FLAML

项目链接：https://github.com/microsoft/FLAML

推荐指数：⭐⭐⭐⭐

FLAML是由微软提出的自动机器学习库，支持分类和回归任务。FLAML对特征的构造和搜索支持的比较好，非常轻量。

from flaml import AutoML  
from sklearn.datasets import load_boston  automl = AutoML()  # Specify automl goal and constraint  
automl_settings = {  "time_budget": 300,  # in seconds  "metric": 'accuracy',  "task": 'classification',  
}  
automl.fit(  X_train=train_df[feature_cols],   y_train=train_df[target_column],  **automl_settings  
)  print(automl.predict_proba(train_df[feature_cols]))

盘点机器学习实战中最频繁使用的AutoML工具库

在日常的Kaggle比赛和工作中，经常会遇到AutoML工具。本文总结了常见的AutoML库，可供大家选择。 LightAutoML 项目链接：https://github.com/sberbank-ai-lab/LightAutoML 推荐指数：⭐⭐⭐ LightAutoML是基于Python环境下的结构…...

编程日记 2023/2/24 3:20:30

50-Jenkins-Lockable Resources插件实现资源锁定

Lockable Resources插件实现资源锁定前言安装插件使用插件资源配置Pipeline中使用前言用来阻止多个构建在同一时间试图使用同一个资源。这里的资源可能是一个节点、一个代理节点、一组节点或代理节点的集合，或者仅仅是一个用于上锁的名字。如果指定的资源没有在全…...

编程日记 2023/2/24 3:19:25

测试员，如果未来5年你不想失业……你得学会自动化测试

工作中总会遇到各种各样的无常，这边测试工具的工作你刚刚接手，那边又临时紧急插播一个接口测试任务，这对于测试老鸟来说已然是常态，但对新手来说却是个挑战。不得不承认，工作就是在无限的变化和挑战中不断的磨炼我们…...

编程日记 2023/2/24 3:18:17

腾讯开源的 hel 提供了加载远程模块的能力，谈谈它的实现原理

腾讯开源的 hel，提供了一种运行时引入远程模块的能力，模块部署在 CDN，远程模块发布后，不需要重新构建发布，就能生效。个人觉得它的实现原理非常的不错，因此分享给大家。远程模块可以作为微模块&#xf…...

编程日记 2023/2/24 3:17:09

【运动控制】CNC三轴小线段路径规划

CNC三轴小线段路径规划文章目录CNC三轴小线段路径规划一、项目说明二、具体实现1、速度规划2、小线段插补3、运动学逆解刀轴插补点4、差分处理得到实际的速度和加速度5、加速度滑动平均6、实现的效果如图所示三、Reference写在前面，本文是作为一个练手小项目的总结…...

编程日记 2023/2/24 3:16:03

渗透测试之DNS域名信息探测实验

渗透测试之DNS域名信息探测实验实验目的一、实验原理1.1 域名1.2 .域名的构成1.3 域名的基本类型1.4 域名级别二、实验环境2.1 操作机器三、实验步骤1. 使用sp查询域名信息2. 进行探测实验实验目的掌握使用nslookup进行DNS域名信息探测的原理和方式了解子域名查询网站一、实…...

编程日记 2023/2/24 3:14:57

ASE140N04-ASEMI低压MOS管ASE140N04

编辑-Z ASE140N04在TO-220F封装里的静态漏极源导通电阻（RDS(ON)）为4mΩ，是一款N沟道低压MOS管。ASE140N04的最大脉冲正向电流ISM为400A，零栅极电压漏极电流(IDSS)为1uA，其工作时耐温度范围为-55~175摄氏度。ASE140N04…...

编程日记 2023/2/24 3:13:52

Qt——QLineEdit

QLineEdit是一个单行文本编辑控件。使用者可以通过很多函数，输入和编辑单行文本，比如撤销、恢复、剪切、粘贴以及拖放等。通过改变QLineEdit的 echoMode() ，可以设置其属性，比如以密码的形式输入。文本的长度可以由 maxLength(…...

编程日记 2023/2/24 3:12:45

前端-HTML-zxst

HTML HTML是超文本标记语言（HyperText Mark-up Language） CSS是层叠样式表（Cascading Style Sheets） JS，即JavaScript是一种具有函数优先的轻量级，解释型或即时编译型的编程语言 <!--doctype标签声明…...

编程日记 2023/2/24 3:11:38

终极方案，清理 docker 占用磁盘过大问题，亲测有效！

背景在笔者的工作测试环境中，使用过程中突然出现根磁盘快吃满了（docker也是使用的根池盘的/var/lib/docker）， wtf ？ 服务用不了？ 当然网上找到了一些常规的清楚docker 日志文件但是通过df -hT 查看到over…...

编程日记 2023/2/24 3:10:33

puzzle（1321）时间旅人

时间旅人最强大脑同款项目。每个指针会带动周围2圈指针一起带动，内圈8个旋转180度，外圈16个旋转90度，全部调整为朝上则胜利。问题本质： 很明显，问题本质就是求每个格子的点击次数，最少为…...

编程日记 2023/2/24 3:09:22

活动预告 | 2023 Meet TVM 开年首聚，上海我们来啦！

内容一览：从去年 12 月延期至今的 TVM 线下聚会终于来了！首站地点我们选在了上海，并邀请到了 4 位讲师结合自己的工作实践，分享 TVM 相关的开发经验，期待与大家线下相聚~ 关键词：2023 Meet TVM 线下活动自…...

编程日记 2023/2/24 3:08:16

CoreIDRAW 软件的强大功能及适用性

1.1 绘图功能CoreIDRAW 软件是一种特殊的设计软件和图形绘制软件，使用方便、功能强大，在网页效果、商业插画设计、海报广告设计、平面设计等各类行业中都得到广泛的应用，在服装设计行业中，也逐渐地投入使用。由于纺织服装行业在设…...

编程日记 2023/2/24 3:07:11

JavaScript Window History

在 Web 开发中，JavaScript Window History（浏览器窗口历史记录）是一个非常有用的对象，它提供了一个接口来与浏览器历史记录进行交互。JavaScript Window History 对象允许您访问当前会话的历史记录，以及在会话历史记录…...

编程日记 2023/2/24 3:06:04

2023年人力资源管理师报名和培训费用是多少

2023年考人力资源管理师各个地区的收费标准不同，报名费用在几百元左右，培训费上千，具体看各地区人力资源管理师考试报名要求。 12023人力资源管理师考试费用人力资源管理师考试分为四个等级，各级别费用是不同的，一般来…...

编程日记 2023/2/24 3:04:59

2023-2-23 刷题情况

灌溉花园的最少水龙头数目题目描述在 x 轴上有一个一维的花园。花园长度为 n，从点 0 开始，到点 n 结束。花园里总共有 n 1 个水龙头，分别位于 [0, 1, …, n] 。给你一个整数 n 和一个长度为 n 1 的整数数组 ranges ，其中…...

编程日记 2023/2/24 3:03:52

数据归档，存储的完美储备军

数据爆炸性增长的同时，存储成为了大家首要担心的问题大家都希望自家数据保存20年、50年后仍完好无损但是，N年后的数据量已达到一个无法预测的峰值如此大量的数据在保存时极可能存在丢失、损坏等问题这时需要提前对数据进行“备份”、“归档”备份是对数据…...

编程日记 2023/2/24 3:02:46

ES6-11、基本全部语法

一,变量声明：let声明变量：1.变量不可重复声明，let star 罗志祥 let star 小猪结果报错2.块级作用域，{ let girl 周扬青 }在大括号内的都属于作用域内3.不存在变量提升4.不影响作用域链const声明常量：const SCHOOL …...

编程日记 2023/2/24 3:01:40

Spring Boot整合Thymeleaf和FreeMarker模板

虽然目前市场上多数的开发模式采用前后端分离的技术，视图层的技术在小一些的项目中还是非常有用的，所以一直也占有一席之地，如spring官方的spring.io等网站就是使用视图层技术实现的。目前Spring Boot支持的较好的两个视图层模板引擎是Thyme…...

编程日记 2023/2/24 3:00:32

SQL的四种连接-左外连接、右外连接、内连接、全连接内连接inner join…on… / join…on… 展现出来的是共同的数据 select m.Province,S.Name from member m inner join ShippingArea s on m.Provinces.ShippingAreaID; 相当于：select m.Province,S.Name from m…...

编程日记 2023/2/24 2:59:26

网络编程（Modbus进阶）

思维导图 Modbus RTU（先学一点理论） 概念 Modbus RTU 是工业自动化领域最广泛应用的串行通信协议，由 Modicon 公司（现施耐德电气）于 1979 年推出。它以高效率、强健性、易实现的特点成为工业控制系统的通信标准。包…...

编程新知 2026/2/9 2:42:51

应用升级/灾备测试时使用guarantee 闪回点迅速回退

1.场景应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。相对于RMAN恢复需要很长时间， 数据库闪回只需要几分钟。 2.技术实现数据库设置 2个db_recovery参数创建guarantee闪回点，不需要开启数据库闪回。…...

编程新知 2026/1/14 22:12:47

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

使用rpicam-app通过网络流式传输视频使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素文章来源： http://raspberry.dns8844.cn/documentation 原文网址使用 rpicam-app 通过网络流式传输视频本节介绍来自 rpica…...

编程新知 2025/11/5 13:03:58

【Java学习笔记】Arrays类

Arrays 类 1. 导入包：import java.util.Arrays 2. 常用方法一览表方法描述Arrays.toString()返回数组的字符串形式Arrays.sort()排序（自然排序和定制排序）Arrays.binarySearch()通过二分搜索法进行查找（前提：数组是…...

编程新知 2025/12/3 9:38:15

django filter 统计数量按属性去重

在Django中，如果你想要根据某个属性对查询集进行去重并统计数量，你可以使用values()方法配合annotate()方法来实现。这里有两种常见的方法来完成这个需求： 方法1：使用annotate()和Count 假设你有一个模型Item，并且你想…...

编程新知 2026/1/11 2:37:51

dedecms 织梦自定义表单留言增加ajax验证码功能

增加ajax功能模块，用户不点击提交按钮，只要输入框失去焦点，就会提前提示验证码是否正确。一，模板上增加验证码 <input name"vdcode"id"vdcode" placeholder"请输入验证码" type"text&quo…...

编程新知 2026/2/5 17:51:52

基于当前项目通过npm包形式暴露公共组件

1.package.sjon文件配置其中xh-flowable就是暴露出去的npm包名 2.创建tpyes文件夹，并新增内容 3.创建package文件夹...

编程新知 2026/2/1 21:58:45

MVC 数据库

MVC 数据库引言在软件开发领域，Model-View-Controller（MVC）是一种流行的软件架构模式，它将应用程序分为三个核心组件：模型（Model）、视图（View）和控制器（Controller）。这种模式有助于提高代码的可维护性和可扩展性。本文将深入探讨MVC架构与数据库之间的关系，以…...

编程新知 2025/10/30 4:58:11