当前位置: 首页 > news >正文

自动机器学习是什么?概念及应用

自动机器学习 (Auto Machine Learning) 的应用和方法

随着众多企业在大量场景中开始采用机器学习,前后期处理和优化的数据量及规模指数级增长。企业很难雇用充足的人手来完成与高级机器学习模型相关的所有工作,因此机器学习自动化工具是未来人工智能 (AI) 的关键组成部分,自动机器学习 (Automated Machine Learning,AutoML) 应运而生。AutoML 是AIOps多层技术平台中一款快速增长的工具。 自动机器学习是一种将人工智能 (Artificial Intelligence) 应用于问题的端到端周期自动化方法。一般情况下,数据科学家会负责构建机器学习 (ML) 模型,以及随后的数据预处理、特征工程、模型选择、超参数优化和模型后处理等复杂任务。AutoML 框架可以自动完成这些任务(或至少部分任务),让不具备数据科学专业知识的人也可以成功构建 ML 模型。 对那些因资源有限而无法全面投入使用 AI 的公司来说,自动化 ML 流程带来了机会。尽管实现机器学习流程全自动化依然任重而道远,但很多企业都开始在构建着眼于未来的工具,以进一步推动自动机器学习的发展。  

为什么要使用自动机器学习工具?

研究当前的机器学习模型构建过程,我们发现,模型构建的代价高昂,不仅需要高水平的技术专家,还需要投入大量的时间、资金,反复地进行研发工作。以下为推动自动机器学习发展的四个因素:

缩小技能差距

由于企业很难招募到兼具领域知识和技能的人才来构建模型,导致缺乏开发 AI 和 ML 相关的专业技术,阻碍了机器学习的进一步发展。借助自动机器学习,非专业人才也可以参与构建AI。企业不仅无需招聘大量高专业化人才,还能提高创新速度,最终实现人工智能的规模化应用。

缩短面市时间

在一些快速发展的领域,缩短上市时间就能取得巨大的竞争优势。而机器学习流程自动化恰好能够减少构建模型所需的时间。对于从未部署过 AI 的公司来说,自动机器学习不仅能够降低其进入该领域的门槛,还可以提供成功的解决方案。

降低成本

从零开始构建机器学习模型,需要耗费大量的时和资金。数据科学家及其他机器学习领域的专家,他们的薪资相对较高。从零开始构建模型,费时又费力,相比之下,自动机器学习工具则具有较高的性价比。

构建更佳模型

自动机器学习在模型和超参数方面的迭代速度比手工操作更快。在规定时间段内,迭代越多,所构建的模型性能就越高。自动机器学习既提高了决策效率,又加快了模型研究的速度。 此外,数据科学家也在努力探索适用于深度神经网络的高性能架构。自动机器学习可以自动搜索和评估架构(即神经架构搜索),从而加速开发人工智能模型解决方案。  

自动机器学习的方法

对于机器学习的自动化,有不同的定义。如今,流传比较广泛的是一个对自动机器学习进行分级的体系(类似于自动驾驶汽车的分级):

  • 初级:无自动化,数据科学家从零开始编写算法。
  • 级:使用一些高级API。
  • 级:自动调整超参数和选择模型。
  • 级:自动特征工程、特征选择和数据增强。
  • 级:自动领域和特定问题的特征工程、数据扩充和数据整合。
  • 级:完全自动化,无需输入或指导来解决机器学习问题。

虽然目前市场上有很多不错的 3 级自动机器学习解决方案,但不同公司在实际实施中又降为了 1 级或 2 级。在这些不同等级的自动化过程中,有几个自动机器学习方法值得讨论:

模型选择和集成

自动机器学习可以通过输入相同数据来训练不同算法,从而实现迭代,选择性能最佳的模型。自动机器学习还可以借助混合和叠加等技术来与多个模型集成,以获取更好的结果。

超参数优化 (HPO)

所有机器学习算法都有参数,或者模型中每个变量或特征的权重。参数来自于训练过程,而超参数则是一个用于控制学习过程的可调值。超参数优化 (HPO) 是指通过调整超参数来提高模型性能。自动机器学习工具可以自动评估各种超参数,以确定可以产生最高性能的模型集合。

特征工程

在自动机器学习中,特征工程不如模型选择和 HPO 那么常见,但由于其能够提高模型的预测性,因此越来越受重视。特征工程是指从现有输入中构建新的输入特征(或解释变量)。特征工程强调了模型预测时需要了解的相关元素,因而会影响模型性能。所以,数据科学家必须一次次地手动添加特征,但有了自动机器学习工具,这项工作可以自动完成。这些工具从给定的输入中提取相关和有意义的特征,并测试不同的特征组合,以生成性能最高的模型。  

自动机器学习的前景

在达到 5 级,即完全自动化的解决方案之前,自动机器学习行业仍有漫长的道路。尽管如此,很多企业还是投资了较低级别的自动机器学习。一般来说,这些企业将精力主要放在了模型选择和 HPO上。特征工程的进一步发展或将推动自动机器学习领域在新创新阶段取得突破。 随着自动化需求增长和工具改进,构建机器学习的难度和资源密集度将会降低,机器学习的应用范围也将更加广泛。  

澳鹏数据科学家 Shambhavi Srivastava 对自动机器学习的看法

在澳鹏,我们团队致力于构建机器学习模型。我与数据科学家、机器学习工程师以及 DevOps 的同事协作,致力于建立、整合最先进的 (SOTA) 模型。 构建机器学习模型均包括以下多个步骤:

  1. 从业务角度理解问题
  2. 数据准备(收集、清理、分析)
  3. 构建模型
  4. 评估性能
  5. 将模型容器化并部署到生产中
  6. 观察模型在客户端数据生成上的性能。

上述每个步骤对于项目的成功都至关重要。数据科学家可以通过 自动机器学习来提高成功率。通过自动化工作流程和大幅提升各种整体假设和单个模型属性的测试速度,自动机器学习提高了数据科学家的工作质量。 数据科学家的日常工作是,决定并实施对给定业务用例最有效的机器学习算法。然而,这项任务很繁琐,而且容易出现人为错误和偏见。自动机器学习可以自动化和简化这一过程,使团队能够通过持续评估性能来运行各种机器学习模型,直到满足最佳参数为止。这些自动机器学习功能可以加速机器学习模型的生产,并通过推出准确度更高的模型来提高项目的投资回报率 (ROI)。 模型选择中最具挑战性的环节就是探寻未知。这是科学家将自动机器学习视为头号难题的原因所在。自动机器学习通过减少代码和自动调整超参数,来降低 ML 任务的难度。自动机器学习的核心创新是超参数搜索和寻找最佳匹配。  

相关文章:

自动机器学习是什么?概念及应用

自动机器学习 (Auto Machine Learning) 的应用和方法 随着众多企业在大量场景中开始采用机器学习,前后期处理和优化的数据量及规模指数级增长。企业很难雇用充足的人手来完成与高级机器学习模型相关的所有工作,因此机器学习自动化工具是未来人工智能 (A…...

el-date-picker限制选择7天内禁止内框选择

需求&#xff1a;elementPlus时间段选择框需要满足&#xff1a;①最多选7天时间。②不能手动输入。 <el-date-picker v-model"timeArrange" focus"timeEditable" :editable"false" type"datetimerange" range-separator"至&qu…...

Navicat 技术指引 | 适用于 GaussDB 分布式的调试器

Navicat Premium&#xff08;16.3.3 Windows 版或以上&#xff09;正式支持 GaussDB 分布式数据库。GaussDB 分布式模式更适合对系统可用性和数据处理能力要求较高的场景。Navicat 工具不仅提供可视化数据查看和编辑功能&#xff0c;还提供强大的高阶功能&#xff08;如模型、结…...

人工智能导论习题集(3)

第五章&#xff1a;不确定性推理 题1题2题3题4题5题6题7题8 题1 题2 题3 题4 题5 题6 题7 题8...

2023一起益企广东省中小企业数字化赋能活动(深圳站)成功举办

12月12日&#xff0c;由广东工业和信息化厅指导&#xff0c;广东省中小企业服务中心、深圳市中小企业服务局主办&#xff0c;深圳联通承办的2023年“一起益企”广东省中小企业数字化赋能专项对接志愿服务活动&#xff08;深圳站&#xff09;在深圳成功举办。 本次活动涵盖中小企…...

MySQL之创建表

创建emp表 #创建表的练习 -- 字段 属性 -- Id 整形 -- name 字符型 -- sex 字符型 -- birthday 日期型 -- entry_date 日期型 -- job 字符型 -- Salary 小数型 -- resume 文本型 CREATE TABLE emp(id INT,name VARCHAR(32),sex CHAR(1),birthday DATE,entry_date DAT…...

选择大于努力-鸿蒙开发应用不适合当前企业的现状态(头部应用除外)推荐一套款平台框架可以写安卓iOS 鸿蒙为企业开源节流

1。从目前各种app平台以及个人原生安卓开发走来的经验看来&#xff0c;原生app开发存在一下问题也是国内现状的情况 1.开发成本高比如原生安卓你需要掌握一种语言Java或者kotlin ios开发需要oc 或者swift 2.app开发出来推广成本&#xff0c;一般企业吃不消 3.开发维护成本好…...

2023.12.12 关于 Java 反射详解

目录 基本概念 定义 用途 反射相关的类 反射基本原理 Class 类中的相关方法 常用获得类相关的方法 常用获得类中属性相关的方法 常用获得类中构造器相关的方法 常用获得类中方法相关的方法 实例理解 反射优缺点 基本概念 定义 Java 的反射&#xff08;reflection&a…...

【Qt QML入门】Image

Image类型显示一个图像。 使用source属性将图像的源指定为URL。图像可以以Qt支持的任何标准图像格式提供&#xff0c;包括位图格式&#xff0c;如PNG和JPEG&#xff0c;以及矢量图形格式&#xff0c;如SVG。 如果没有指定宽度和高度属性&#xff0c;图像将自动使用加载图像的大…...

Spark编程入门

1.8 Spark编程入门 1.8.1 通过IDEA创建Spark工程 ps:工程创建之前步骤省略,在scala中已经讲解,直接默认是创建好工程的 导入Pom文件依赖 <!-- 声明公有的属性 --><properties><maven.compiler.source>1.8</maven.compiler.source><maven.compiler…...

JVM 内存分析工具 Memory Analyzer Tool(MAT)的深度讲解

目录 一. 前言 二. MAT 使用场景及主要解决问题 三. MAT 基础概念 3.1. Heap Dump 3.2. Shallow Heap 3.3. Retained Set 3.4. Retained Heap 3.5. Dominator Tree 3.6. OQL 3.7. references 四. MAT 功能概述 4.1. 内存分布 4.2. 对象间依赖 4.3. 对象状态 4.4…...

浅谈 USB Bulk 深入浅出 (3) - USB Bulk 装置传输的注意事项

来源&#xff1a;大大通 作者&#xff1a;冷氣團 1 USB Bulk 是什么 USB 是即插即用使用差动信号的装置界面&#xff0c;是以 端点 ( Endpoint )&#xff0c;做为传输装置的输出入端&#xff0c;透过不同的端点 ( Endpoint ) 和模式&#xff0c;来进行与装置的沟通&#xff…...

c语言结构体调用格式与对齐

1.声明形式&#xff1a; struct 结构体名字 { 结构体成员 }结构体变量名&#xff1b; 2.赋值方法 3.结构体对齐&#xff1a; 1.起始偏移量&#xff1a;默认结构体第一个元素对齐0起始偏移量&#xff0c;第一个元素占一个字节&#xff0c;此时偏移量为1. 2.标准数&#xff…...

服务器常用命令介绍和负载监控的工具插件推荐

先赞后看&#xff0c;养成习惯&#xff01;&#xff01;&#xff01;❤️ ❤️ ❤️ 码字不易&#xff0c;如果喜欢可以关注我哦&#xff01; 如果本篇文章对你有所启发&#xff0c;欢迎访问我的个人博客 命令 服务器相关 5个常用命令 top Top命令不仅显示了当前内核服务的…...

linux 防火墙systemctl (个人笔记)

查看 systemctl status firewalld 开启 systemctl start firewalld 关闭 systemctl stop firewalld.service 查看所有 firewall-cmd --zonepublic --list-ports 开放端口&#xff1a;// --permanent 永久生效,没有此参数重启后失效 firewall-cmd --zonepublic --add-port9527/…...

处理器中store指令的处理

对于向存储器中保存数据的store指令来说,它在顺利离开流水线之前是不允许改变处理器状态的&#xff0c;只有等到它退休(retire)的时候&#xff0c;才允许将它携带的数据写到D-Cache中在此之前&#xff0c;store指令即使计算完毕&#xff0c;也会将结果暂存在一个缓存中&#xf…...

杨辉三角形-第11届蓝桥杯选拔赛Python真题精选

[导读]&#xff1a;超平老师的Scratch蓝桥杯真题解读系列在推出之后&#xff0c;受到了广大老师和家长的好评&#xff0c;非常感谢各位的认可和厚爱。作为回馈&#xff0c;超平老师计划推出《Python蓝桥杯真题解析100讲》&#xff0c;这是解读系列的第17讲。 杨辉三角形&#…...

我们一起做过的SPA——Nuxt.js介绍

Nuxt.js 1 我们一起做过的SPA SPA&#xff08;single page web application&#xff09;单页 Web 应用&#xff0c;Web 不再是一张张页面&#xff0c;而是一个整体的应用&#xff0c;一个由路由系统、数据系统、页面&#xff08;组件&#xff09;系统等等&#xff0c;组成的应…...

java导出word使用模版与自定义联合出击解决复杂表格!

1. 看一下需要导出什么样子的表格 如图所示&#xff0c;这里的所有数据行都是动态的&#xff0c;需要根据查询出来的数据循环展示。 如果只是这样的话&#xff0c;使用freemarker应该都可以搞定&#xff0c;但是他一列中内容相同的单元格&#xff0c;需要合并。 这对于表格样式…...

GO设计模式——9、过滤器模式(结构型)

目录 过滤器模式&#xff08;Filter/Criteria Pattern&#xff09; 代码实现 过滤器模式&#xff08;Filter/Criteria Pattern&#xff09; 过滤器模式&#xff08;Filter Pattern&#xff09;或标准模式&#xff08;Criteria Pattern&#xff09;是一种设计模式&#xff0c;…...

MPNet:旋转机械轻量化故障诊断模型详解python代码复现

目录 一、问题背景与挑战 二、MPNet核心架构 2.1 多分支特征融合模块(MBFM) 2.2 残差注意力金字塔模块(RAPM) 2.2.1 空间金字塔注意力(SPA) 2.2.2 金字塔残差块(PRBlock) 2.3 分类器设计 三、关键技术突破 3.1 多尺度特征融合 3.2 轻量化设计策略 3.3 抗噪声…...

【解密LSTM、GRU如何解决传统RNN梯度消失问题】

解密LSTM与GRU&#xff1a;如何让RNN变得更聪明&#xff1f; 在深度学习的世界里&#xff0c;循环神经网络&#xff08;RNN&#xff09;以其卓越的序列数据处理能力广泛应用于自然语言处理、时间序列预测等领域。然而&#xff0c;传统RNN存在的一个严重问题——梯度消失&#…...

跨链模式:多链互操作架构与性能扩展方案

跨链模式&#xff1a;多链互操作架构与性能扩展方案 ——构建下一代区块链互联网的技术基石 一、跨链架构的核心范式演进 1. 分层协议栈&#xff1a;模块化解耦设计 现代跨链系统采用分层协议栈实现灵活扩展&#xff08;H2Cross架构&#xff09;&#xff1a; 适配层&#xf…...

Spring Boot+Neo4j知识图谱实战:3步搭建智能关系网络!

一、引言 在数据驱动的背景下&#xff0c;知识图谱凭借其高效的信息组织能力&#xff0c;正逐步成为各行业应用的关键技术。本文聚焦 Spring Boot与Neo4j图数据库的技术结合&#xff0c;探讨知识图谱开发的实现细节&#xff0c;帮助读者掌握该技术栈在实际项目中的落地方法。 …...

Device Mapper 机制

Device Mapper 机制详解 Device Mapper&#xff08;简称 DM&#xff09;是 Linux 内核中的一套通用块设备映射框架&#xff0c;为 LVM、加密磁盘、RAID 等提供底层支持。本文将详细介绍 Device Mapper 的原理、实现、内核配置、常用工具、操作测试流程&#xff0c;并配以详细的…...

iOS性能调优实战:借助克魔(KeyMob)与常用工具深度洞察App瓶颈

在日常iOS开发过程中&#xff0c;性能问题往往是最令人头疼的一类Bug。尤其是在App上线前的压测阶段或是处理用户反馈的高发期&#xff0c;开发者往往需要面对卡顿、崩溃、能耗异常、日志混乱等一系列问题。这些问题表面上看似偶发&#xff0c;但背后往往隐藏着系统资源调度不当…...

Sklearn 机器学习 缺失值处理 获取填充失值的统计值

💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖 本博客的精华专栏: 【自动化测试】 【测试经验】 【人工智能】 【Python】 使用 Scikit-learn 处理缺失值并提取填充统计信息的完整指南 在机器学习项目中,数据清…...

【深度学习新浪潮】什么是credit assignment problem?

Credit Assignment Problem(信用分配问题) 是机器学习,尤其是强化学习(RL)中的核心挑战之一,指的是如何将最终的奖励或惩罚准确地分配给导致该结果的各个中间动作或决策。在序列决策任务中,智能体执行一系列动作后获得一个最终奖励,但每个动作对最终结果的贡献程度往往…...

Python学习(8) ----- Python的类与对象

Python 中的类&#xff08;Class&#xff09;与对象&#xff08;Object&#xff09;是面向对象编程&#xff08;OOP&#xff09;的核心。我们可以通过“类是模板&#xff0c;对象是实例”来理解它们的关系。 &#x1f9f1; 一句话理解&#xff1a; 类就像“图纸”&#xff0c;对…...

ArcPy扩展模块的使用(3)

管理工程项目 arcpy.mp模块允许用户管理布局、地图、报表、文件夹连接、视图等工程项目。例如&#xff0c;可以更新、修复或替换图层数据源&#xff0c;修改图层的符号系统&#xff0c;甚至自动在线执行共享要托管在组织中的工程项。 以下代码展示了如何更新图层的数据源&…...