【人工智能 AI】机器学习快速入门教程(Google)
目录
机器学习术语
标签
特性
示例
模型
回归与分类
深入了解机器学习:线性回归
深入了解机器学习:训练和损失
平方损失函数:一种常用的损失函数
机器学习术语
预计用时:8 分钟
什么是(监督式)机器学习?简而言之,如下所示:
- 机器学习系统学习如何组合输入以对从未见过的数据生成有用的预测。
我们来探索一下机器学习的基本术语。
标签
标签是指我们要预测的内容,即简单线性回归中的 y
变量。标签可以是小麦的未来价格、图片中显示的动物类型、音频剪辑的含义,也可以是其他任何信息。
特性
特征是输入变量,即简单线性回归中的 x
变量。一个简单的机器学习项目可能会使用单个功能,而更复杂的机器学习项目可以使用数百万个功能,如下所示:
在垃圾邮件检测器示例中,这些功能可能包括:
- 电子邮件文字中的字词
- 发件人的地址
- 发送电子邮件的时间
- 电子邮件中包含词组“一种奇怪的技巧”。
示例
样本是指数据的特定实例:x。(我们将 x 显示为粗体,表示它是一个矢量。)我们将示例分为两类:
- 有标签样本
- 无标签样本
有标签样本同时包含特征和标签。具体来说:
labeled examples: {features, label}: (x, y)
使用有标签样本来训练模型。在我们的垃圾邮件检测器示例中,有标签样本是指用户明确标记为“垃圾邮件”或“不是垃圾邮件”的个别电子邮件。
例如,下表显示了从包含加利福尼亚州房价信息的数据集中获取的 5 个有标签样本:
homeMedianAge (功能) | 会议室总数 (设施) | 卧室总数 (设施) | medianHouseValue (标签) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
无标签样本包含特征,但不包含标签。具体来说:
unlabeled examples: {features, ?}: (x, ?)
以下是来自同一住房数据集的 3 个无标签样本(不包括 medianHouseValue
):
homeMedianAge (功能) | 会议室总数 (设施) | 卧室总数 (设施) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
使用有标签样本训练模型后,我们便会使用该模型来预测无标签样本的标签。在垃圾邮件检测器中,无标签样本是用户尚未添加标签的新电子邮件。
模型
模型定义了特征和标签之间的关系。例如,垃圾内容检测模型可能会将某些功能与“垃圾内容”紧密关联。我们重点介绍模型生命周期的两个阶段:
-
训练是指创建或学习模型。也就是说,您向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。
-
推断表示将经过训练的模型应用于无标签样本。也就是说,使用经过训练的模型做出有用的预测 (
y'
)。例如,在推理期间,您可以针对新的无标签样本预测medianHouseValue
。
回归与分类
回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:
-
加利福尼亚州一栋房子的价值是多少?
-
用户点击此广告的可能性有多大?
分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:
-
指定的电子邮件是垃圾邮件还是非垃圾邮件?
-
这是狗、猫还是仓鼠的图片?
关键术语
|
|
|
|
|
|
|
|
深入了解机器学习:线性回归
预计用时:6 分钟
长久以来,人们都知道板球(昆虫物种)在天气炎热的日子里会比在更冷的日子里鸣叫。数十年来,专业和业余科学家一直在编制每分钟的鸣叫声和温度方面的数据。Ruth 大姨妈给您送上生日祝福,送上一份生日礼物,邀请您学习一个模型来预测这种关系。 您想利用这些数据来探索这种关系。
首先,通过绘制数据的方式检查数据:
图 1. 每分钟的鸣叫声与温度(以摄氏度为单位)。
如您所料,该图表显示了温度随着鸣叫声次数的增加而上升。 鸣叫声与温度之间的关系是线性关系吗?可以,您可以绘制一条直线来大致说明这种关系:
图 2. 一种线性关系。
关键术语
|
|
|
|
深入了解机器学习:训练和损失
预计用时:6 分钟
训练模型只需从有标签样本中学习(确定)所有权重和偏差的理想值。在监督式学习中,机器学习算法通过检查许多示例并尝试找到将损失降至最低的模型来构建模型;此过程称为经验风险最小化。
损失是错误预测的惩罚。也就是说,损失是一个表示模型在单个样本上的预测质量的数字。如果模型的预测完全准确,则损失为零,否则损失会更大。训练模型的目的是从所有样本中找到一组平均损失“较小”的权重和偏差。例如,图 3 左侧显示的是高损失模型,右侧显示的是低损失模型。对于该图,请注意以下几点:
- 箭头表示损失。
- 蓝线表示预测。
图 3. 左侧模型中的损失较高;右侧模型中的损失较低。
请注意,左侧曲线图中的箭头比右侧曲线图中的箭头长得多。显然,相较于左侧曲线图中的线条,右侧曲线图中的预测模型要好得多。
您可能想知道是否可以创建数学函数(损失函数),以有意义的方式汇总各个损失。
平方损失函数:一种常用的损失函数
我们在此探讨的线性回归模型使用一种称为平方损失函数(也称为 L2 损失)的损失函数。单个样本的平方损失如下:
= the square of the difference between the label and the prediction= (observation - prediction(x))2= (y - y')2
关键术语
|
|
|
|
|
https://developers.google.com/machine-learning/crash-course/ml-intro?hl=zh-cn
相关文章:

【人工智能 AI】机器学习快速入门教程(Google)
目录 机器学习术语 标签 特性 示例 模型 回归与分类 深入了解机器学习:线性回归 深入了解机器学习:训练和损失 平方损失函数:一种常用的损失函数 机器学习术语 预计用时:8 分钟 什么是(监督式ÿ…...

适配器模式
概览 适配器模式是一种结构型设计模式,用于将一个类的接口转换为客户端所期望的另一种接口。通常情况下,这种转换是由一个适配器类完成的,适配器类包装了原始类,并实现了客户端所期望的接口。这种模式非常适用于在不修改现有代码…...

00后跨专业学软件测试,斩获8.5K高薪逆袭职场
我想说的第一句:既然有梦想,就应该去拼搏还记得,我大学毕业前,就已经暗下决心到xxx培训机构接受培训。那个时候,没有任何海同公司的人主动找我或者联系过我,我是自己在网上发现了xxxx培训机构的!…...

数据结构和算法学习
文章目录精通一个领域切题四件套算法算法的五个条件流程图数据结构数据与信息数据信息数据结构和算法数据结构算法时间复杂度空间复杂度数组 Array优点缺点数组和链表的区别时间复杂度链表 Linked List优点缺点时间复杂度单向链表双向链表循环链表双向循环链表堆栈 Stack队列 Q…...
剑指 Offer II 012. 左右两边子数组的和相等
题目链接 剑指 Offer II 012. 左右两边子数组的和相等 easy 题目描述 给你一个整数数组 nums,请计算数组的 中心下标 。 数组 中心下标 是数组的一个下标,其左侧所有元素相加的和等于右侧所有元素相加的和。 如果中心下标位于数组最左端,那…...
Java货物摆放
题目描述 小蓝有一个超大的仓库,可以摆放很多货物。 现在,小蓝有 � n 箱货物要摆放在仓库,每箱货物都是规则的正方体。小蓝规定了长、宽、高三个互相垂直的方向,每箱货物的边都必须严格平行于长、宽、高。 小蓝希望所…...

计算机求解满足三角形各边数字之和相等的数字填充
圆圈处不重复的填入1至9,使得每条边的四个数字相加的总和相等。 求解思路: 数组中存放1到9的数字,每次随机交换两个数字,构建出新的数字组合,计算这个数字组合是否符合要求。 #include <stdio.h> #include <…...
python魔术方法
魔术方法 魔术方法就是一个类中的方法,和普通方法唯一的不同是普通方法需要调用,而魔术方法是在特定时刻自动触发。这些魔术方法的名字特定,不能更改,但是入口参数的名字可以自己命名。 基本魔术方法 new(cls[,…]) _new_ 是在…...

从0开始学python -48
Python CGI编程-3 CGI中使用Cookie 在 http 协议一个很大的缺点就是不对用户身份的进行判断,这样给编程人员带来很大的不便, 而 cookie 功能的出现弥补了这个不足。 cookie 就是在客户访问脚本的同时,通过客户的浏览器,在客户硬…...
当面试官问我前端可以做的性能优化有哪些
面试过程中面试官问到前端性能优化有哪些,当我咔咔一顿输出之后面试官追问:前端可以做的性能优化有哪些呢? 前端优化大概可以有以下几个方向: 网络优化页面渲染优化JS优化图片优化webpack打包优化React优化Vue优化 网络优化 D…...

一文读懂Java/O流的使用方法和技巧
1.前言 Java 中的 I/O 流是实现输入和输出的一种机制,可以用来读写文件、网络、内存等各种资源。Java 提供了各种类型的流,包括字节流和字符流,以及面向文本和二进制数据的流。在本文中,我们将深入探讨 Java I/O 流的各个方面&am…...

AI for Science系列(二):国内首个基于AI框架的CFD工具组件!赛桨v1.0 Beta API介绍以及典型案例分享!
AI for Science被广泛认为是下一代科研范式,可以有效处理多维度、多模态、多场景下的模拟和真实数据,解决复杂推演计算问题,加速新科学问题发现[1] 。百度飞桨科学计算工具组件赛桨PaddleScience是国内首个公开且可应用于CFD(Comp…...

SpringCloud简单介绍
文章目录1. 开源组件2. CAP原则1. 开源组件 功能springcloud netflixspringcloud alibabaspringcloud官方其他服务注册与发现eurekanacosconsulzookeeper负载均衡ribbondubbo服务调用openFeigndubbo服务容错hystrixsentinel服务网关zuulgateway服务配置的同一管理cofig-server…...

《uniapp基础知识》学习笔记Day38-(Period2)全局文件一些常用的配置
如果进行开发的话,首先要配置路由页面 page.json 页面路由 pages.json 文件用来对 uni-app 进行全局配置,决定页面文件的路径、窗口样式、原生的导航栏、底部的原生tabbar 等。 {"pages": [{"path": "pages/component/index…...
APICloud 弹动与滚轴冲突的解决模拟
当打开页面的bounces开关来实现下拉刷新和上翻加载是,如果页面中有scroll-view,那么手指上下滑动时弹动会触发,而滚轴无法正常实现,只有按住不动再拖动滚轴才会触发。开始想通过获取手指点击屏幕的坐标点设置触发条件来解决两者的…...

Spring Cloud(微服务)学习篇(四)
Spring Cloud(微服务)学习篇(四) 1.nacos实现服务之间传参数 1.1 在dto包(shop-sms-api项目)中创建SmsDTO类 package com.zlz.shop.sms.api.dto;import lombok.Data;Data public class SmsDTO {private String tel; }1.2 复制SmsDTO类到shop-sms-server项目的dto包下面 1.3 …...
【Java Pro】001-Java基础:面向对象
【Java Pro】001-Java基础:面向对象 文章目录【Java Pro】001-Java基础:面向对象一、面向对象1、什么是对象现实生活中的对象与程序中的对象2、什么是面向对象面向过程面向对象3、面向过程与面向对象的比较思想方面设计方式方面实现方式方面4、面向过程与…...

ElasticSearch从0到1——基础知识
1.ES是什么? 是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能&…...

【面试系列】equals和==的区别
问题:两个对象值相同(x.equals(y) true),但是可能存在hashCode不同吗? 的定义 比较的是两个对象的内存地址,相等则意味着内存地址一样。 对象的equals方法 Object#equals public boolean equals(Object obj) {return (this obj);}Stri…...
存在重复元素模块-三道题
文章目录存在重复元素217. 存在重复元素219. 存在重复元素 II220. 存在重复元素 III (SortedList二分)小结存在重复元素 217. 存在重复元素 题目链接:217. 存在重复元素 题目大意:给你一个整数数组 nums 。如果任一值在数组中出…...

Unity3D中Gfx.WaitForPresent优化方案
前言 在Unity中,Gfx.WaitForPresent占用CPU过高通常表示主线程在等待GPU完成渲染(即CPU被阻塞),这表明存在GPU瓶颈或垂直同步/帧率设置问题。以下是系统的优化方案: 对惹,这里有一个游戏开发交流小组&…...

Python:操作 Excel 折叠
💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖 本博客的精华专栏: 【自动化测试】 【测试经验】 【人工智能】 【Python】 Python 操作 Excel 系列 读取单元格数据按行写入设置行高和列宽自动调整行高和列宽水平…...
ssc377d修改flash分区大小
1、flash的分区默认分配16M、 / # df -h Filesystem Size Used Available Use% Mounted on /dev/root 1.9M 1.9M 0 100% / /dev/mtdblock4 3.0M...
深入浅出:JavaScript 中的 `window.crypto.getRandomValues()` 方法
深入浅出:JavaScript 中的 window.crypto.getRandomValues() 方法 在现代 Web 开发中,随机数的生成看似简单,却隐藏着许多玄机。无论是生成密码、加密密钥,还是创建安全令牌,随机数的质量直接关系到系统的安全性。Jav…...

UE5 学习系列(三)创建和移动物体
这篇博客是该系列的第三篇,是在之前两篇博客的基础上展开,主要介绍如何在操作界面中创建和拖动物体,这篇博客跟随的视频链接如下: B 站视频:s03-创建和移动物体 如果你不打算开之前的博客并且对UE5 比较熟的话按照以…...
Java 加密常用的各种算法及其选择
在数字化时代,数据安全至关重要,Java 作为广泛应用的编程语言,提供了丰富的加密算法来保障数据的保密性、完整性和真实性。了解这些常用加密算法及其适用场景,有助于开发者在不同的业务需求中做出正确的选择。 一、对称加密算法…...

Springcloud:Eureka 高可用集群搭建实战(服务注册与发现的底层原理与避坑指南)
引言:为什么 Eureka 依然是存量系统的核心? 尽管 Nacos 等新注册中心崛起,但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制,是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...
【AI学习】三、AI算法中的向量
在人工智能(AI)算法中,向量(Vector)是一种将现实世界中的数据(如图像、文本、音频等)转化为计算机可处理的数值型特征表示的工具。它是连接人类认知(如语义、视觉特征)与…...
今日科技热点速览
🔥 今日科技热点速览 🎮 任天堂Switch 2 正式发售 任天堂新一代游戏主机 Switch 2 今日正式上线发售,主打更强图形性能与沉浸式体验,支持多模态交互,受到全球玩家热捧 。 🤖 人工智能持续突破 DeepSeek-R1&…...
爬虫基础学习day2
# 爬虫设计领域 工商:企查查、天眼查短视频:抖音、快手、西瓜 ---> 飞瓜电商:京东、淘宝、聚美优品、亚马逊 ---> 分析店铺经营决策标题、排名航空:抓取所有航空公司价格 ---> 去哪儿自媒体:采集自媒体数据进…...