当前位置：首页 > news >正文

机器学习没那么难，Azure AutoML帮你简单3步实现自动化模型训练

news 2026/5/20 20:22:16

在Machine Learning 这个领域，通常训练一个业务模型的难点并不在于算法的选择，而在于前期的数据清理和特征工程这些纷繁复杂的工作，训练过程中的问题在于参数的反复迭代优化。

AutoML 是 Azure Databricks 的一项功能，它自动的对数据进行清理和特征工程并使用数据尝试多种算法和参数来训练最佳机器学习模型。使用这种自动化模型训练可以满足以下业务问题的模型训练：

1、分类问题：

AutoML可以用于解决二分类或多分类问题，如客户流失预测、邮件是否为垃圾邮件的判断等。

2、回归问题：

在涉及连续数值预测的场景中，如销售额预测、房价预测等，AutoML能够提供有效的解决方案。

3、时间序列预测：

对于时间相关的数据，如股票价格预测、需求预测等，AutoML可以通过时间序列分析提供预测。

下面来演示如何使用：

本教程需要Azure Data Bricks工作区，启动工作区方法，请参照下面链接：

想学习云计算么？教你如何免费白嫖微软和AWS的云资源一年-CSDN博客

利用 Azure Data Bricks的免费资源学习云上大数据-CSDN博客

一、启动Data Bricks SQL仓库

在工作区的 Azure Databricks 门户中，在边栏的“SQL”下，选择“SQL 仓库”。

请注意，工作区已包含一个名为 Starter Warehouse 的 SQL 仓库。

在 SQL 仓库的“操作”菜单中，选择“编辑”。然后，将“群集大小”属性设置为“2X-Small”并保存更改。

使用“启动”按钮启动 SQL 仓库（这可能需要一两分钟）

二、上传训练数据

1、将penguins.csv上传到平台中，如下图：

2、上传之后如下图：选择“创建表格”按钮

三、创建机器学习计算节点

创建机器学习计算节点，注意：需要选择单一用户，单节点，Runtime选择ML 14.2ML Scala.2.12,spark3.5.0 ,不要选带GPU的。如下图：

创建成功之后的Cluster配置如下：注意要去掉使用photon加速这个复选项，然后选择“创建计算”

四、创建 AutoML试验

如下图：在DataBricks工作区中，选择新建－－》AutoＭＬ试验

1、选择上一步创建好的机器学习类型的集群：

2、ML问题类型：选择“分类” 如下图

3、选择训练用的数据如下图：

4、其它参数配置如下图：

5、选择最下边的 “启动 AutoML”按钮开始试验

训练结束之后，如下图：

6、在“Species_penguins”页中，选择“查看笔记本的最佳模型”

下面就是打开的笔记的最佳模型的全部训练脚本，可以基于这个最佳模型进行修改优化，或者重新训练。

关闭包含笔记本的浏览器选项卡以返回到实验页面，在运行列表中，选择第一个运行的名称（生成最佳模型）以将其打开

五、在系统中注册模型

选中训练的最佳模型之后，在右上角，选择“注册模型”按钮，出现下面的界面：

在 Model Name 输入库，输入模型名称，然后选择"注册"

注册成功之后，则在左侧菜单栏的“模型” 选项中可以看到已经注册的模型

选择 test-penguins 模型之后，显示该模型的相关信息

在“test-penguins”页面上，使用“使用模型进行推理”按钮，使用以下设置创建新的实时终端节点：
1. 型号： Penguin-Classifier
2. 型号版本：1
3. 端点：classify-penguin
4. 计算大小：小

创建终结点后，使用右上角的“查询终结点”按钮打开一个界面，您可以从中测试终结点。然后，在测试界面的“浏览器”选项卡上，输入以下 JSON 请求，并使用“发送请求”按钮调用终结点并生成预测。

{ "dataframe_records": [ { "Island": "Biscoe", "CulmenLength": 48.7, "CulmenDepth": 14.1, "FlipperLength": 210, "BodyMass": 4450 } ] }

自此，一个完整的AutoML的流程就跑完了，自动化机器学习可以帮助大家快速建立AI模型，其实门槛也没那么高。

机器学习没那么难，Azure AutoML帮你简单3步实现自动化模型训练

在Machine Learning 这个领域，通常训练一个业务模型的难点并不在于算法的选择，而在于前期的数据清理和特征工程这些纷繁复杂的工作，训练过程中的问题在于参数的反复迭代优化。 AutoML 是 Azure Databricks 的一项功能，它自动的对…...

编程日记 2024/1/21 21:21:08

数学建模实战Matlab绘图

二维曲线、散点图绘图命令：plot(x,y,’line specifiers’,’PropertyName’,PropertyValue) 例子：绘图表示年收入与年份的关系 ‘--r*’:--设置线型；r:设置颜色为红色；*节点型号 ‘linewidth’：设置线宽&#xff1…...

编程日记 2024/1/21 21:18:05

TypeError the JSON object must be str, bytes or bytearray, not ‘list‘

在使用python的jason库时，偶然碰到以下问题 TypeError: the JSON object must be str, bytes or bytearray, not ‘list’ 通过如下代码可复现问题 >>> a [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] >>> import json >>> ra json.loads(a) Trac…...

编程日记 2024/1/21 21:14:02

数字IC后端设计实现 | PR工具中到底应该如何控制density和congestion?(ICC2Innovus)

吾爱IC社区星友提问：请教星主和各位大佬，对于一个模块如果不加干预工具会让inst挤成一团，后面eco修时序就没有空间了。如果全都加instPadding会导致面积不够overlap，大家一般怎么处理这种问题？ 在数字IC后端设计实现中…...

编程日记 2024/1/21 21:09:58

产品经理与产品运营的区别和联系

一、两者的职责区别产品经理的目的：是创造有价值的产品产品运营的目的：是让产品能有效的发挥出它应有的价值二、两者的工作内容区别产品经理的工作内容产品的经理的目的是创造有价值的产品，因此产品经理的所有工作都是围绕着&#xf…...

编程日记 2024/1/21 21:03:52

CMU15-445-Spring-2023-分布式DBMS初探（lec21-24）

Lecture #21_ Introduction to Distributed Databases Distributed DBMSs 分布式 DBMS 将单个逻辑数据库划分为多个物理资源。应用程序（通常）并不知道数据被分割在不同的硬件上。系统依靠单节点 DBMS 的技术和算法来支持分布式环境中的事务处理和查询执…...

编程日记 2024/1/21 21:02:52

Arch linux 安装

Arch linux 安装介绍下载制作iSO启动盘安装arch linux设置字体连接互联网安装过程磁盘分区设置设置镜像源设置引导文件挂载点安装base等基础软件生成fatab文件更改时区更改编码、语言更改编码更改语言用户管理设置root密码新建普通用户安装grub启动网络服务/GDM查看系统网络…...

编程日记 2024/1/21 21:00:50

【leetcode】移除元素

大家好，我是苏貝，本篇博客带大家刷题，如果你觉得我写的还不错的话，可以给我一个赞👍吗，感谢❤️ 目录一.暴力求解法二.使用额外数组三.原地修改数组点击查看题目一.暴力求解法若我们不考虑时间复杂度…...

编程日记 2024/1/21 20:55:44

Spring Boot整合Redis的高效数据缓存实践

引言在现代Web应用开发中，数据缓存是提高系统性能和响应速度的关键。Redis作为一种高性能的缓存和数据存储解决方案，被广泛应用于各种场景。本文将研究如何使用Spring Boot整合Redis，通过这个强大的缓存工具提高应用的性能和可伸缩性。整合…...

编程日记 2024/1/21 20:52:41

FastApi-参数接收的正确使用(2)

前言本文是该专栏的第2篇，后面会持续分享FastApi以及项目实战的各种干货知识，值得关注。本文重点介绍，在使用FastApi使用“参数接收”时遇到的三种类型“路径参数”，“查询参数”，“请求体”的相关问题以及相应的解决方案。具体详细知识点，跟着笔者直接往下看正文。…...

编程日记 2024/1/21 20:51:40

三、需求规格说明书（软件工程示例）

1．引言 1.1编写目的 1.2项目背景 1.3定义 1.4参考资料 2．任务概述 2.1目标 2.2运行环境 2.3条件与限制 3．数据描述 3.1静态数据 3.2动态数据 3.3数据库介绍 3.4数据词典 3.5数据采集 4．功能需求 …...

编程日记 2024/1/21 20:49:38

目录 1. Match Query 2. Term Query 3. Terms Query 4. Range Query 5. Bool Query 6. Wildcard Query 7. Fuzzy Query 8. Prefix Query 9. Aggregation Query Elasticsearch 是一个基于 Lucene 的搜索引擎，提供了丰富的查询DSL（Domain Specifi…...

编程日记 2024/1/21 20:46:35

kafka简单介绍和代码示例

“这是一篇理论文章，给大家讲一讲kafka” 简介在大数据领域开发者常常会听到MQ这个术语，该术语便是消息队列的意思， Kafka是分布式的发布—订阅消息系统。它最初由LinkedIn(领英)公司发布，使用Scala语言编写，与2010年…...

编程日记 2024/1/21 20:43:32

一次解决ForkJoinPool日志追踪的辛酸经历

本文主要分享了一次解决ForkJoinPool日志追踪的辛酸经历。历时3个月终于找到通用的解决方案，以此文分享给有需要的你。一、需求背景 1.某日，某同事根据日志ID排查生产环境问题过程中，发现日志不全 2.经排查发现中间有很多线程为ForkJoinP…...

编程日记 2024/1/21 20:39:28

VM使用教程--SDK取图视频笔记

本笔记均由海康机器人官网的V学院视频中记录所得，属于省流大师了[doge] 图像采集图像采集包括1图像源，2多图采集，3输出图像，4缓存图像，5光源 1图像源图像源包括本地图像，相机采图，SDK 本…...

编程日记 2024/1/21 20:37:26

11.spring boot 启动源码(一)

目录概述SpringApplication静态方法构造方法run 实例方法配置文件Actuator 工作原理*EndpointAutoConfigurationBeansEndpointAutoConfigurationShutdownEndpointAutoConfiguration结束概述 spring boot 版本 2.6.13 spring boot 启动源码(一) 涉及 SpringApplication 中静态…...

编程日记 2024/1/21 20:35:23

【微服务】springcloud集成sleuth与zipkin实现链路追踪

目录一、前言二、分布式链路调用问题三、链路追踪中的几个概念 3.1 什么是链路追踪 3.2 常用的链路追踪技术 3.3 链路追踪的几个术语 3.3.1 span 编辑 3.3.2 trace 3.3.3 Annotation 四、sluth与zipkin概述 4.1 sluth介绍 4.1.1 sluth是什么 4.1.2 sluth核心…...

编程日记 2024/1/21 20:32:21

数学建模-预测人口数据

目录中国09~18年人口数据创建时间绘制时间序列图使用专家建模器得到结果预测结果残差的白噪声检验中国09~18年人口数据创建时间路径：数据-> 定义日期和时间绘制时间序列图使用专家建模器看看spss最终判断是那个模型最佳的契合得到结果预…...

编程日记 2024/1/21 20:31:20

SpringBoot 集成 Canal 基于 MySQL 做数据同步

一、canal 组件关系下载地址：https://github.com/alibaba/canal/releases/download/canal-1.1.7/ 这里面主要的有两个 canal.deployer-1.1.7.tar.gz 和 canal.adapter-1.1.7.tar.gz，canal.admin-1.1.7.tar.gz 是一个监控服务，可选&#xf…...

编程日记 2024/1/21 20:30:19

CodeGPT高级代理系统：10个实用工具助你高效编程的完整指南

CodeGPT高级代理系统：10个实用工具助你高效编程的完整指南【免费下载链接】CodeGPT The leading open-source AI copilot for JetBrains. Connect to any model in any environment, and customize your coding experience in any way you like. 项目地址: https…...

编程新知 2026/5/20 19:09:35

使用openclaw配置taotoken实现自动化agent工作流的实践指南

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度使用OpenClaw配置Taotoken实现自动化Agent工作流的实践指南 1. 概述：OpenClaw与Taotoken的集成价值 OpenClaw是一个用…...

编程新知 2026/5/20 18:45:55

Windows 和 Ubuntu 安装 OpenClaw 全攻略

文章目录【开场白】【先说结论：Windows 用户推荐走 WSL2】【Windows 安装：4 步搞定】第 1 步：装 WSL2第 2 步：更新系统第 3 步：一键装 OpenClaw第 4 步：初始化配置【WSL2 必做配置：让 OpenClaw …...

编程新知 2026/5/20 18:29:17

AntiDupl.NET终极指南：免费开源图片去重工具快速清理硬盘重复图片

AntiDupl.NET终极指南：免费开源图片去重工具快速清理硬盘重复图片【免费下载链接】AntiDupl A program to search similar and defect pictures on the disk 项目地址: https://gitcode.com/gh_mirrors/an/AntiDupl 你是否曾为电脑中堆积如山的重复图片而烦…...

编程新知 2026/5/20 18:14:38

通过curl命令快速测试Taotoken接口连通性与返回格式

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过curl命令快速测试Taotoken接口连通性与返回格式在集成大模型服务时，直接使用curl命令进行接口测试是一种高效、轻…...

编程新知 2026/5/20 17:33:57

okbiye 实测：本科生如何用 AI 搞定毕业论文全流程，从选题到格式一步到位

okbiye-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPT毕业论文 - Okbiye智能写作https://www.okbiye.com/ai/bylw 引言：当本科论文撞上 “时间焦虑”，你需要的不是 “文字裁缝” 凌晨三点的宿舍，电脑屏幕的蓝光映着你通…...

编程新知 2026/5/20 17:12:58

别再死记硬背公式了！用大白话和动图拆解Transformer的注意力机制

用生活场景拆解Transformer：注意力机制就像一场高效会议想象你正在主持一场跨国团队会议，成员们用不同语言讨论项目进展。作为主持人，你需要快速捕捉每个人的发言重点，判断谁的意见最关键，并协调不同观点之间的关系—…...

编程新知 2026/5/20 14:55:00

一机多版本Quartus共存？教你修复USB Blaster识别冲突（修改JTAG服务路径详解）

多版本Quartus共存时的USB Blaster识别冲突解决方案当我们需要在同一台电脑上安装多个版本的Quartus软件时（比如为了兼容不同时期的FPGA项目），经常会遇到一个棘手问题：USB Blaster无法被正确识别。这种情况通常发生在安装了新旧两…...

编程新知 2026/5/20 13:39:43

cann/hcomm：HcommWriteOnThread线程写入函数

HcommWriteOnThread 【免费下载链接】hcomm HCOMM（Huawei Communication）是HCCL的通信基础库，提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm 产品支持情况 Ascend 950PR/Ascend 950DT：支…...

编程新知 2026/5/20 12:57:45

如何打破课堂限制？JiYuTrainer让您的电脑重获自由

如何打破课堂限制？JiYuTrainer让您的电脑重获自由【免费下载链接】JiYuTrainer 极域电子教室防控制软件, StudenMain.exe 破解项目地址: https://gitcode.com/gh_mirrors/ji/JiYuTrainer 当您在计算机课堂上被极域电子教室完全控制时，是否感到学…...

编程新知 2026/5/20 12:57:20

机器学习没那么难，Azure AutoML帮你简单3步实现自动化模型训练

一、启动Data Bricks SQL仓库

二、上传训练数据

三、创建机器学习计算节点

四、创建 AutoML试验

五、在系统中注册模型

相关文章：

机器学习没那么难，Azure AutoML帮你简单3步实现自动化模型训练

数学建模实战Matlab绘图

TypeError the JSON object must be str, bytes or bytearray, not ‘list‘

数字IC后端设计实现 | PR工具中到底应该如何控制density和congestion?(ICC2Innovus)

产品经理与产品运营的区别和联系

CMU15-445-Spring-2023-分布式DBMS初探（lec21-24）

Arch linux 安装

最新ChatGPT/GPT4科研应用与AI绘图及论文高效写作

【leetcode】移除元素

Spring Boot整合Redis的高效数据缓存实践

FastApi-参数接收的正确使用(2)

三、需求规格说明书（软件工程示例）

Elasticsearch 查询语句概述

kafka简单介绍和代码示例

一次解决ForkJoinPool日志追踪的辛酸经历

VM使用教程--SDK取图视频笔记

11.spring boot 启动源码(一)

【微服务】springcloud集成sleuth与zipkin实现链路追踪

数学建模-预测人口数据

SpringBoot 集成 Canal 基于 MySQL 做数据同步

CodeGPT高级代理系统：10个实用工具助你高效编程的完整指南

使用openclaw配置taotoken实现自动化agent工作流的实践指南

Windows 和 Ubuntu 安装 OpenClaw 全攻略

AntiDupl.NET终极指南：免费开源图片去重工具快速清理硬盘重复图片

通过curl命令快速测试Taotoken接口连通性与返回格式

okbiye 实测：本科生如何用 AI 搞定毕业论文全流程，从选题到格式一步到位

别再死记硬背公式了！用大白话和动图拆解Transformer的注意力机制

一机多版本Quartus共存？教你修复USB Blaster识别冲突（修改JTAG服务路径详解）

cann/hcomm：HcommWriteOnThread线程写入函数

如何打破课堂限制？JiYuTrainer让您的电脑重获自由