《图解机器学习》(杉山将著)第一部分绪论学习笔记
《图解机器学习》(杉山将著)第一部分绪论学习笔记
- 《图解机器学习》(杉山将著)第一部分绪论学习笔记
- 一、什么是机器学习
- 1.1 学习的种类
- 1.2 机器学习任务的例子
- 1.3 机器学习的方法
- 二、学习模型
- 2.1 线性模型
- 2.2 核模型
- 2.3 层级模型
《图解机器学习》(杉山将著)第一部分绪论学习笔记
在当今数字化浪潮席卷全球的时代,机器学习宛如一颗璀璨的明星,照亮了众多领域前进的道路,从智能安防领域的人脸识别精准鉴别人员身份,到电商平台基于用户行为数据的个性化推荐助力精准营销,其影响力无处不在。《图解机器学习》(杉山将著)犹如一把钥匙,为我们开启了机器学习这一神秘宝库的大门,而第一部分绪论更是如同基石,为后续深入探索奠定了坚实的基础。
一、什么是机器学习
1.1 学习的种类
机器学习中的“学习”方式丰富多样,主要涵盖监督学习、无监督学习以及半监督学习等关键类型。
监督学习恰似一位经验丰富的导师在旁悉心指导。以预测银行贷款用户是否会违约为例,我们拥有大量过往贷款用户的详细资料,包括年龄、收入、职业、信用记录等诸多特征信息,同时明确知晓这些用户最终是否违约的真实结果(即标签)。模型在学习过程中,仔细分析这些特征与违约标签之间的内在关联,从而构建起精准的预测模型。当面对新的贷款申请人时,模型便能依据其提供的特征数据,准确判断其违约的可能性,为银行的信贷决策提供有力支持。
无监督学习则像是一位充满好奇心的探险家独自在数据的海洋中摸索前行。比如在分析海量的基因序列数据时,模型会尝试依据基因序列的相似性,将众多基因划分为不同的类别或发现其中潜在的结构模式,而无需任何预先设定的类别标签。这有助于科研人员揭示基因之间的潜在关系,挖掘隐藏在数据深处的生物学奥秘,为基因疾病的研究提供全新的思路和方向。
半监督学习巧妙地融合了监督学习与无监督学习的优势,尤其适用于数据标注成本高昂的场景。例如在工业产品质量检测中,获取大量未标注的产品图像相对容易,但精确标注其中的缺陷类别却耗时费力。此时,我们可以利用少量已准确标注缺陷类型的图像(如划痕、裂纹、孔洞等)作为有监督信息,结合大量未标注图像进行半监督学习。模型能够借助未标注数据中的潜在信息,更好地学习产品图像的特征表示,从而更精准地识别新产品中的缺陷,有效提升工业生产中的质量控制效率,降低次品率,为企业节省大量成本。
1.2 机器学习任务的例子
书中列举的机器学习任务实例广泛且极具代表性,生动展现了其强大的应用潜力。
在医疗影像诊断领域,对于 X 光、CT、MRI 等影像数据,机器学习模型经过对海量标注影像(包含正常与各类疾病影像)的深度学习,能够敏锐捕捉到影像中的细微异常特征,准确判断疾病类型及严重程度。以肺部疾病诊断为例,模型可以精准区分肺部的正常组织、炎症、肿瘤以及不同阶段的病变,为医生提供可靠的诊断建议,极大地提高诊断效率,缩短诊断时间,为患者的及时治疗争取宝贵机会,有力推动精准医疗的发展进程。
在智能交通系统中,车辆自动驾驶技术是机器学习的璀璨成果。通过车载摄像头、雷达、传感器等设备收集的丰富数据,包括道路状况、交通标志、周围车辆和行人的位置与速度等信息,自动驾驶模型能够实时做出精准决策,如控制车速、转向、刹车等操作,确保车辆安全、高效地行驶在道路上。这不仅显著提升了交通安全性,减少了人为驾驶失误导致的交通事故,还优化了交通流量,缓解了城市交通拥堵状况,为人们的出行带来了前所未有的便利与舒适体验。
在金融市场预测方面,机器学习模型对历史股价走势、宏观经济数据、公司财务报表、行业动态等多源数据进行深入分析,预测股票价格的未来走势以及金融市场的波动趋势。例如,利用深度学习模型捕捉市场中的复杂模式和潜在规律,为投资者提供决策参考,帮助他们合理配置资产,降低投资风险,实现收益最大化,在风云变幻的金融市场中把握先机。
1.3 机器学习的方法
机器学习的方法丰富多元,各具特色,其中基于实例的学习和基于模型的学习是两种重要的方法。
基于实例的学习,就如同我们在生活中通过记忆具体的事例来应对新情况。在一个简单的植物病虫害识别场景中,假设我们建立了一个基于实例的学习系统。当遇到一片新的植物叶子出现病斑时,系统会将这片叶子的特征(如病斑形状、颜色、大小、分布等)与已存储的大量带有病虫害标注的植物叶子实例进行详细对比。如果新叶子的特征与某几个已知病虫害实例高度相似,那么系统就会参考这些相似实例的病虫害类别标注,来推断这片新叶子可能遭受的病虫害类型,从而为及时采取有效的防治措施提供依据。
基于模型的学习则是通过对数据的深入挖掘和抽象,构建出具有通用性的数学模型。以线性回归模型在能源消耗预测中的应用为例,我们收集了某工厂在不同生产条件下(如设备运行功率、生产时间、车间温度等)的能源消耗数据。通过运用线性回归算法,从这些数据中学习能源消耗与各个生产条件因素之间的线性关系,构建出一个形如“能源消耗 = w1设备运行功率 + w2生产时间 + w3*车间温度 +… + b”的数学模型。在确定模型的参数 w1、w2、w3 等和截距 b 后,当工厂的生产条件发生变化时,我们只需将新的生产条件数据代入该模型,就能快速、准确地预测出相应的能源消耗情况,为工厂的能源管理和成本控制提供有力支持,助力企业实现节能减排和可持续发展目标。
二、学习模型
2.1 线性模型
线性模型作为机器学习领域的基础支柱之一,以其简洁直观的形式假设数据之间存在线性关联。
在市场调研领域,企业常常需要根据产品的多个属性特征来预测消费者的购买意愿。例如,一款电子产品的价格、功能数量、品牌知名度等因素都会影响消费者的购买决策。假设我们收集了大量消费者对不同电子产品的购买行为数据,使用线性回归模型来分析这些数据,构建出“购买意愿 = w1价格 + w2功能数量 + w3*品牌知名度 + b”的模型。通过最小二乘法等优化算法,确定合适的权重 w1、w2、w3 和截距 b,使得模型预测的购买意愿值与实际消费者的购买行为尽可能匹配。这样,企业在推出新产品或调整产品策略时,就能利用该模型预测不同产品配置下消费者的购买倾向,从而优化产品设计、制定合理价格策略,提高市场竞争力,精准满足消费者需求,实现销售业绩的稳步增长。
然而,线性模型的局限性也较为明显。在现实世界中,许多数据关系并非简单的线性关系。例如,在生态系统中,物种数量与环境因素之间的关系往往呈现复杂的非线性特征。随着温度、湿度、栖息地面积等环境因素的变化,物种数量的增长或减少并非遵循简单的直线规律,而是可能存在阈值效应、饱和现象等复杂的非线性变化趋势。在这种情况下,线性模型难以准确捕捉到数据中的真实规律,导致预测结果出现较大偏差,无法为生态保护和资源管理提供可靠的决策支持。
2.2 核模型
当面对复杂的非线性数据分布时,核模型展现出强大的处理能力,为解决实际问题提供了有效的途径。
以语音识别任务为例,语音信号在时间和频率上具有复杂的非线性特征。原始的语音数据经过预处理后,在低维空间中难以直接进行有效的分类和识别。通过采用核函数(如常用的高斯核函数),将语音数据从低维的原始特征空间映射到高维的特征空间。在这个高维空间中,原本在低维空间中纠缠在一起的不同语音特征得以更好地分离,呈现出线性可分或更易于区分的特性。然后,在高维空间中运用线性分类器(如支持向量机)对语音数据进行分类识别,从而准确判断出语音的内容,实现高效的语音转文字功能,为智能语音助手、语音翻译软件等应用提供坚实的技术支撑,极大地提升了人机交互的便捷性和智能化水平。
尽管核模型在处理非线性问题上表现出色,但也面临着一些挑战。一方面,核函数的选择和参数调整需要丰富的经验和大量的实验。不同的核函数(如线性核、多项式核、高斯核等)适用于不同类型的数据分布,选择不合适的核函数可能导致模型性能不佳。另一方面,将数据映射到高维空间会显著增加计算复杂度和内存需求。在处理大规模数据集时,可能会出现计算资源瓶颈,导致训练和预测过程变得缓慢且效率低下,限制了核模型在某些对实时性要求较高的场景中的应用。
2.3 层级模型
层级模型,尤其是神经网络,以其模拟人类大脑神经元结构的独特优势,在处理复杂任务时展现出卓越的性能。
在图像生成领域,生成对抗网络(GANs)作为一种典型的层级模型架构,取得了令人瞩目的成果。以生成逼真的人脸图像为例,生成器网络通过多个隐藏层逐步学习人脸图像的特征表示,从低层次的像素特征到高层次的面部器官形状、纹理、表情等语义特征。它接收随机噪声向量作为输入,并通过一系列的神经元层进行特征变换和映射,逐渐生成越来越清晰、逼真的人脸图像。判别器网络则负责区分生成器生成的图像与真实的人脸图像,通过不断地与生成器进行对抗训练,两者相互博弈,使得生成器能够不断改进生成图像的质量,最终生成高度逼真、几乎无法与真实人脸图像区分的合成图像。这一技术在影视特效制作、虚拟角色创建、图像编辑等领域具有广泛的应用前景,为创意产业的发展注入了新的活力,推动了数字内容创作的革新。
然而,层级模型的复杂性也带来了一系列的问题。由于模型结构深度较大、参数众多,训练过程需要消耗大量的计算资源和时间成本。例如,训练一个用于自然语言处理的深度神经网络模型,可能需要使用大规模的计算集群进行数周甚至数月的训练,这对于研究机构和企业的硬件设施提出了极高的要求。此外,层级模型容易出现过拟合现象,即在训练数据上表现出极高的准确性,但在面对新的、未见过的数据时,泛化能力较差。为了克服这些问题,研究人员通常采用多种正则化技术,如 L1 和 L2 正则化约束模型参数的大小,防止参数过度拟合训练数据;Dropout 技术在训练过程中随机丢弃部分神经元,增强模型的鲁棒性和泛化能力;同时,还会采用大规模的数据集进行训练,并结合数据增强技术(如对图像进行旋转、缩放、裁剪等操作)来扩充数据量,提高模型的泛化性能,确保层级模型在实际应用中能够稳定、可靠地发挥作用。
版权声明:
原创博主:牛哄哄的柯南
博主原文链接:https://keafmd.blog.csdn.net/
个人博客链接:https://keafmd.top/
看完如果对你有帮助,感谢点击下面的点赞支持!
[哈哈][抱拳]
加油!
共同努力!
Keafmd
感谢支持牛哄哄的柯南,期待你的三连+关注~~
keep accumulate for my dream【共勉】
↓ ↓ ↓ 合作 交流 ↓ ↓ ↓
相关文章:

《图解机器学习》(杉山将著)第一部分绪论学习笔记
《图解机器学习》(杉山将著)第一部分绪论学习笔记 《图解机器学习》(杉山将著)第一部分绪论学习笔记一、什么是机器学习1.1 学习的种类1.2 机器学习任务的例子1.3 机器学习的方法 二、学习模型2.1 线性模型2.2 核模型2.3 层级模型…...

【WPF】RenderTargetBitmap的使用
在WPF(Windows Presentation Foundation)中,RenderTargetBitmap 是一个非常有用的类,它允许你将任何可视元素(如 UIElement 或 Visual 的实例)渲染到位图中。这在需要生成图像快照、导出可视化内容为图片文…...

编辑, 抽成组件
问题 错误思路: 1 dept不能修改, 用watch监听一下:赋值给新的变量进行修改, 问题: currentDept 发生改变, depth也发生了改变,因为是浅拷贝, 用了json.pase(json.stringify(value…...

使用C#绘制具有平滑阴影颜色的曼德布洛特集分形
示例使用复数类在 C# 中轻松绘制曼德布洛特集分形解释了如何通过迭代方程绘制曼德布洛特集:...

【批量生成WORD和PDF文件】根据表格内容和模板文件批量创建word文件,一次性生成多个word文档和批量创建PDF文件
如何按照Word模板和表格的数据快速制作5000个word文档 ? 在与客户的合作的中需要创建大量的合同,这些合同的模板大概都是一致的,是不是每次我们都需要填充不一样的数据来完成? 今天用表格数据完成合同模板的填充,批量…...

低延迟!实时处理!中软高科AI边缘服务器,解决边缘计算多样化需求!
根据相关统计,随着物联网的发展和5G技术的普及,到2025年,全球物联网设备连接数将达到1000亿,海量的计算数据使得传输到云端再处理的云计算方式显得更捉襟见肘。拥有低延迟、实时处理、可扩展性和更高安全性的边缘计算应运而生&…...

内旋风铣削知识再学习
最近被有不少小伙伴们问到蜗杆加工的一种方式——内旋风铣削加工。关于旋风铣之前出过一篇《什么是旋风铣?》,简要介绍了旋风铣(Whilring)的一些基本内容。本期再重新仔细聊一聊内旋风这种加工方式,可加工的零件种类&a…...

Redis 7.x如何安装与配置?保姆级教程
大家好,我是袁庭新。最新写了一套最新版的Redis 7.x企业级开发教程,今天先给大家介绍下Redis 7.x如何在Linux系统上安装和配置。 1 Redis下载与安装 使用非关系型数据库Redis必须先进行安装配置并开启Redis服务,然后使用对应客户端连接使用…...

SLAAC如何工作?
SLAAC如何工作? IPv6无状态地址自动配置(SLAAC)-常见问题 - 苍然满关中 - 博客园 https://support.huawei.com/enterprise/zh/doc/EDOC1100323788?sectionj00shttps://www.zhihu.com/question/6691553243/answer/57023796400 主机在启动或接口UP后,发…...

电脑丢失dll文件一键修复的多种方法分析,电脑故障修复攻略
电脑在使用过程中,有时会遇到DLL文件丢失的情况,这可能导致软件无法正常运行或系统出现故障。当面对这种状况时,不必过于慌张,因为有多种有效的修复方法可供选择。下面我们一起来看看电脑丢失dll文件的多种解决方法。 一.了解什么…...

Docker容器命令
docker 命令说明docker pull拉取镜像docker push推送镜像到DockerRegistrydocker images查看本地镜像docker rmi删除本地镜像docker run创建并运行容器(不能重复创建)docker stop停止指定容器docker start启动指定容器docker restart重新启动容器docker…...

【Leetcode 每日一题】3291. 形成目标字符串需要的最少字符串数 I
问题背景 给你一个字符串数组 w o r d s words words 和一个字符串 t a r g e t target target。 如果字符串 x x x 是 w o r d s words words 中 任意 字符串的 前缀(字符串的前缀是从字符串的开头开始并延伸到其中任意点的子串),则认为…...

Windows聚焦壁纸代理不更新——解除UWP应用回环限制
开代理后经常出现Microsoft store打不开,聚焦壁纸不更新的情况,因为UWP应用默认禁止回环地址,导致开了代理以后不仅用不了代理上网,还把自己的本来的通信堵死了 打开CMD输入 FOR /F "tokens11 delims\" %p IN (REG QUER…...

电脑开机提示error loading operating system怎么修复?
前一天电脑还能正常运行,但今天启动时却显示“Error loading operating system”(加载操作系统错误)。我已经仔细检查了硬盘、接线、内存、CPU和电源,确认这些硬件都没有问题。硬盘在其他电脑上可以正常使用,说明不是硬…...

javaFX.(蜜雪冰城点餐小程序)MySQL数据库
学习Java只有3个月,不喜勿喷 该小程序是用的MySQL数据库,编辑软件用的equals,为什么不用idea有提示因为主打一个纯手打 要源码私信 目录 javafx.小程序(蜜雪冰城点餐系统)简介 主体思路 思路讲解 用户登录 用户注册 忘记…...

Unity Apple Vision Pro 开发教程:物体识别跟踪
Spatial XR 开发者社区官网:SpatialXR 社区 开发流程与原理:Apple Vision Pro 物体识别跟踪原理与开发流程【Unity Apple Vision Pro 开发系列教程】 PolySpatial 物体跟踪官方样例讲解:Unity Apple Vision Pro 开发教程:物体识别…...

nano编辑器的使用
nano 是一个非常简单易用的命令行文本编辑器,它常用于在 Linux 或类 Unix 系统中快速编辑文件,特别适用于需要修改配置文件或快速编辑文本的场景。以下是一些常见的 nano 使用技巧和基本操作。 1. 打开文件 要使用 nano 编辑文件,打开终端并…...

框架问题学习
1、gin 1.1、gin框架路由是怎么处理的 在 Gin 中,路由是通过 gin.Default() 或 gin.New() 创建的 *gin.Engine 对象来管理的。gin.Default() 是 gin.New() 的一个封装,它在创建路由对象时会自动添加一个默认的中间件(如日志记录、恢复中间件…...

前端:纯前端快速实现html导出word和pdf
实现html导出word,需要使用两个库。 html-docx-js和file-saver 导出word的js方法 > npm install html-docx-js >npm install file-saver js引入 import FileSaver from “file-saver”; import htmlDocx from “html-docx-js/dist/html-docx”; /**导出…...

三相异步电动机如何调试?
在现代工业中,三相异步电动机因其结构简单、运行可靠和适应性强而被广泛应用。然而,正确的调试过程是确保电动机高效运行和延长其使用寿命的关键。 一、调试前的准备工作 在开始调试之前,必须进行充分的准备工作,以确保调试顺利…...

四川托普信息技术职业学院教案1
四川托普信息技术职业学院教案 【计科系】 周次 第 1周,第1次课 备 注 章节名称 第1章 XML语言简介 引言 1.1 HTML与标记语言 1.2 XML的来源 1.3 XML的制定目标 1.4 XML概述 1.5 有了HTML了,为什么还要发展XML 1.5.1 HTML的缺点 1.5.2 XML的特点 1.6 X…...

JS数组方法汇总
Array.from //将可迭代对象或字符串转换为数组 console.log(Array.from(1234)); //[ 1, 2, 3, 4 ]Array.isArray //判断是否是数组 Array.isArray([1])//trueArray.concat //用于合并两个或多个数组。此方法不会更改现有数组,而是返回一个新数组 let arr [1,2,3]…...

安装milvus以及向量库增删改操作
首先电脑已经安装了docker windows电脑可下载yml文件 https://github.com/milvus-io/milvus/releases/download/v2.4.6/milvus-standalone-docker-compose.yml 创建milvus文件夹,并在这个目录下创建五个文件夹:conf、db、logs、pic、volumes、wal 然后…...

基于Spring Boot的找律师系统
一、系统背景与意义 在现代社会,法律服务的需求日益增长,但传统寻找律师的方式往往存在信息不透明、选择困难等问题。基于Spring Boot的找律师系统旨在解决这些问题,通过线上平台,用户可以轻松搜索、比较和选择合适的律师&#x…...

Pytorch | 利用NI-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击
Pytorch | 利用NI-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击 CIFAR数据集NI-FGSM介绍背景算法原理 NI-FGSM代码实现NI-FGSM算法实现攻击效果 代码汇总nifgsm.pytrain.pyadvtest.py 之前已经针对CIFAR10训练了多种分类器: Pytorch | 从零构建AlexNet对CIFAR10进行…...

深度学习实战车辆目标跟踪【bytetrack/deepsort】
本文采用YOLOv8作为核心算法框架,结合PyQt5构建用户界面,使用Python3进行开发。YOLOv8以其高效的实时检测能力,在多个目标检测任务中展现出卓越性能。本研究针对车辆目标数据集进行训练和优化,该数据集包含丰富的车辆目标图像样本…...

【C复习】模拟题题库*3总结
1.c语言中要求对变量作强制定义的主要理由是便于确定类型和分配空间 2.结构化程序由三中基本结构组成,三中基本结构组成的算法可以完成任何复杂的任务 3.数组名是一个不可变的常量 4.下列选项中,合法的C语言关键字是()。 …...

【数据分析】层次贝叶斯
文章目录 一、 贝叶斯推理二、 层次贝叶斯模型三、 层次贝叶斯的特点四、 数学表述五、推断方法六、应用领域 层次贝叶斯(Hierarchical Bayesian)方法是一种基于贝叶斯推理的统计模型,用于处理具有多个层次结构的数据模型。 它允许我们在同一…...

Layui table不使用url属性结合laypage组件实现动态分页
从后台一次性获取所有数据赋值给 Layui table 组件的 data 属性,若数据量大时,很可能会超出浏览器字符串最大长度,导致渲染数据失败。Layui table 结合 laypage 组件实现动态分页可解决此问题。 HTML增加分页组件标签 在table后增加一个用于…...

【蓝桥杯】43688-《Excel地址问题》
Excel地址问题 题目描述 Excel 单元格的地址表示很有趣,它可以使用字母来表示列号。比如, A 表示第 1 列, B 表示第 2 列, … Z 表示第 26 列, AA 表示第 27 列, AB 表示第 28 列, … BA 表示…...