当前位置: 首页 > news >正文

【机器学习基础】机器学习概述

目录

前言

一、机器学习概念

二、机器学习分类

三、机器学习术语


🌈嗨!我是Filotimo__🌈。很高兴与大家相识,希望我的博客能对你有所帮助。

💡本文由Filotimo__✍️原创,首发于CSDN📚。

📣如需转载,请事先与我联系以获得授权⚠️。

🎁欢迎大家给我点赞👍、收藏⭐️,并在留言区📝与我互动,这些都是我前进的动力!

🌟我的格言:森林草木都有自己认为对的角度🌟。

前言

当今社会,机器学习已经成为一项引人注目且深具影响力的技术。随着大数据、云计算和强大的计算能力的快速发展,机器学习正在改变我们的生活方式、商业模式以及整个产业链。无论是在自动驾驶汽车、智能助理还是个性化推荐系统中,机器学习的应用正变得越来越广泛。

希望通过本博客的阅读,您能够对机器学习有一个最基本的了解。机器学习的发展潜力巨大,我们期待您与我们一同探索这个充满可能性和创新的领域。让我们一起踏上机器学习之旅吧!

这是本篇文章的脉络图:


一、机器学习概念

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

人工智能,机器学习,深度学习三者之间的关系:

人工智能(Artificial Intelligence,简称AI)是指使计算机能够展示出人类智能的一门学科。

机器学习(Machine Learning)是AI的一个分支,它利用数据和统计概念,使机器能够通过学习和改进经验,给出准确的预测和决策,而无需明确地进行编程。

深度学习(Deep Learning)是机器学习的一种特殊形式,它模仿人脑神经网络的结构和功能。深度学习使用人工神经网络来模拟和学习大规模数据,通过多层次的神经元堆叠,可以自动提取和学习数据的高级特征。

因此,三者之间为包含关系,即人工智能包含机器学习,而机器学习又包含深度学习。

常见的机器学习定义:

1. "机器学习是一种人工智能的分支,它使计算机能够从数据中学习并自动改进无需明确编程"。这个定义强调了机器学习的能力,即通过算法和模型从数据中学习,并自动提高性能。

2. "机器学习是一门研究如何使计算机从经验中自动改善性能的科学"。这个定义将机器学习看作是一门科学,关注的是如何利用数据和经验改进计算机系统的性能。

3. "机器学习是一种能够让计算机通过从数据中学习来推断规律,并应用这些规律进行预测和决策的技术"。这个定义强调了机器学习的应用性质,即通过学习数据中的规律来进行预测和决策。

4. "机器学习是一种通过建立数学模型和算法,使计算机能够识别和理解数据,并根据数据进行预测和决策的方法"。这个定义强调了机器学习的数学建模和算法设计的重要性,以及通过这些方法进行数据分析和应用的能力。

机器学习三要素:

机器学习方法=模型+策略+算法

1. 模型:模型是机器学习的核心组成部分,它用来表示输入数据和输出结果之间的关系。模型可以是线性模型、决策树、神经网络等,用来学习数据的特征和规律。

2. 策略:策略定义了机器学习算法的目标和学习的方法。比如,最小化预测误差或最大化预测准确率。策略可以使用各种不同的评估指标和优化方法。

3. 算法:算法是实现机器学习方法的具体步骤和计算过程。它包括数据预处理、特征选择、模型训练和模型评估等步骤。常见的机器学习算法包括线性回归、决策树、支持向量机、深度学习等。

二、机器学习分类

2.1 按任务类型分类

1.回归问题

回归问题的目标是根据输入数据的特征,预测一个连续的数值输出。回归算法通过建立输入特征与输出之间的关系模型来进行预测。例如,给定房屋的大小、位置、房间数量等特征,我们可以使用回归算法来预测房屋的价格。回归问题的评估通常使用均方误差、或平均绝对误差、等指标。

2.分类问题

分类问题的目标是将输入数据分为不同的类别或标签。分类算法通过学习不同类别之间的特征和决策边界来进行预测。例如,给定一组电子邮件,我们可以使用分类算法来判断它们是垃圾邮件还是正常邮件。分类问题的评估通常使用准确率、精确率和召回率等指标。

3.聚类问题

聚类问题的目标是将输入数据分为不同的群组,每个群组内部的样本相似度较高,而不同群组之间的相似度较低。聚类算法通过计算样本之间的相似性和距离来进行分组。例如,根据用户的购买历史和行为特征,我们可以使用聚类算法将用户分成不同的群组,以便个性化推荐。聚类问题的评估通常使用轮廓系数和Calinski-Harabasz指数等指标。

4.降维问题

降维问题的目标是将高维数据转化为低维数据,同时保留重要的特征信息。降维算法通常通过某种方式减少数据的维度,以便更好地进行可视化或更高效地进行后续处理。常见的降维方法包括主成分分析(PCA)和线性判别分析(LDA)。例如,通过应用PCA,我们可以从包含多个特征的数据中提取最重要的几个特征,从而减少数据的维度。降维问题的评估通常使用保留的方差比例或信息损失等指标。

2.2 按学习方式分类

1.有监督学习

有监督学习是指机器学习中的一类任务,其中算法从标记的训练数据中学习输入数据与输出标签之间的关系。在有监督学习中,训练数据包含输入特征和相应的标签或输出值,模型的目标是通过学习这些训练样本来对新的未标记数据进行预测。常见的有监督学习算法包括线性回归、决策树、支持向量机和神经网络。例如,给定一组带有房屋特征(如面积、位置、房间数量)和相应销售价格的数据,我们可以使用有监督学习算法来构建一个模型,该模型可以根据输入特征预测房屋的价格。

2.无监督学习

无监督学习是指机器学习中的一类任务,其中算法从无标签的训练数据中学习数据背后的隐含结构和模式。在无监督学习中,训练数据只包含输入特征,没有相应的标签或输出值。无监督学习的目标是发现数据中的聚类、关联或降维等模式,以获得对数据的更深入理解。常见的无监督学习算法包括聚类算法(如k均值聚类、层次聚类)、关联规则挖掘和主成分分析(PCA)。例如,通过对一组顾客购买历史的无标签数据进行聚类分析,我们可以发现不同的购买行为模式,从而更好地了解顾客的购买习惯。

3.半监督学习

半监督学习是介于有监督学习和无监督学习之间的一类学习方式。在半监督学习中,算法使用一小部分标记的训练数据和大量无标记的训练数据进行学习。有标签的训练数据用于指导模型的学习,无标签的数据用于发现数据的潜在结构和模式。半监督学习的目标是通过利用无标签数据的信息来提高模型的性能和泛化能力。常见的半监督学习算法包括标签传播算法、自训练和生成模型。例如,在图像分类任务中,我们可以使用带有标签的图像以及大量无标签的图像来训练模型,提高分类的准确度。

4.强化学习

强化学习是一种机器学习方式,其中算法通过与环境的交互来学习最佳的行动策略。在强化学习中,算法以代理的方式与环境进行交互,并根据执行的动作获得奖励或惩罚。通过通过试错过程,算法逐步学习选择最佳的行动以最大化累计奖励。强化学习常用于需要进行序列决策的任务,例如游戏策略、机器人控制和自动驾驶。强化学习算法包括Q-learning、深度强化学习和策略梯度等。例如,在训练自动驾驶汽车时,强化学习算法可以学习最佳的驾驶策略以确保行驶

三、机器学习术语

1. 属性或特征:在机器学习中,属性或特征是指用来描述样本的相关信息或特征,比如图像中的像素值、文本中的单词频率、声音中的频率等等。属性既可以是数值型的,也可以是类别型的,例如一个人的身高和性别就是数值型和类别型的属性。

2. 属性值:属性值是指某个样本在某个属性上的取值,例如一个人的身高属性可能取值为175 cm,性别属性可能取值为“男”。

3. 示例或样本:在机器学习中,示例或样本是指用来训练或测试模型的数据单位,通常由一组属性和对应的属性值构成。例如在手写数字识别任务中,一个示例可以是一张图片,图片中的像素值和标识出的数字就是该样本的属性和属性值。

4. 数据集:数据集是指存储和组织示例和属性的集合,它常用于机器学习算法的训练和测试。数据集包含多个示例或样本,每个示例有多个属性。

5. 样本空间或属性空间:样本空间或属性空间是指所有可能的示例组成的空间,它包含了数据集中所有示例和属性,但不包括标记或输出。

6. 空间特征向量:空间特征向量是指将样本在属性空间中的属性值按照一定顺序组成的向量,它是描述和表示样本的一种方式,通常用于机器学习算法的训练和测试。

7. 标记空间或输出空间:标记空间或输出空间是指所有可能标记或输出的集合,它包含了机器学习任务中需要预测的结果或输出。例如在手写数字识别任务中,标记空间可以是数字1~9和空白,即每个示例需要被预测为这些标记中的一个。


总结

从医疗领域的疾病诊断、药物研发到金融领域的风险评估、投资分析,机器学习正在为我们的生活带来巨大的改变。在电子商务中,个性化推荐系统已经成为了提升用户体验和销售额的重要工具。而在智能交通领域,自动驾驶技术正在推动着出行方式的革新。

然而,我们也意识到机器学习所面临的一些挑战和限制。其中之一是数据隐私和安全问题。由于机器学习算法需要大量的数据来进行训练,我们必须确保用户数据的安全,并遵守相关的法律法规。

尽管机器学习面临着一些挑战和限制,但我们相信,在社会各界的共同努力下,这些问题可以得到解决。机器学习将继续发展,为我们的生活带来更多的便利和创新。

相关文章:

【机器学习基础】机器学习概述

目录 前言 一、机器学习概念 二、机器学习分类 三、机器学习术语 🌈嗨!我是Filotimo__🌈。很高兴与大家相识,希望我的博客能对你有所帮助。 💡本文由Filotimo__✍️原创,首发于CSDN📚。 &#x…...

Python Selenium 执行 JavaScript

简介 Selenium是一个用于自动化浏览器操作的工具,可以模拟人工操作,执行各种浏览器操作,包括点击、输入文字、提交表单等。而JavaScript是一种常用的脚本语言,用于在网页上添加交互性和动态性。在Python中使用Selenium执行JavaSc…...

HTML的表单标签和无语义标签的讲解

HTML的表单标签 表单是让用户输入信息的重要途径, 分成两个部分: 表单域: 包含表单元素的区域. 重点是 form 标签. 表单控件: 输入框, 提交按钮等. 重点是 input 标签 form 标签 使用form进行前后端交互.把页面上,用户进行的操作/输入提交到服务器上 input 标签 有很多形态,能…...

8.spark自适应查询-AQE之自适应调整Shuffle分区数量

目录 概述主要功能自适应调整Shuffle分区数量原理默认环境配置修改配置 结束 概述 自适应查询执行(AQE)是 Spark SQL中的一种优化技术,它利用运行时统计信息来选择最高效的查询执行计划,自Apache Spark 3.2.0以来默认启用该计划。…...

【Java 进阶篇】Java Filter 快速入门

欢迎来到这篇有关 Java Filter 的快速入门指南!如果你是一名 Java 开发者或者正在学习 Java Web 开发,Filter 是一个强大的工具,可以帮助你管理和控制 Web 应用程序中的请求和响应。本文将向你解释 Filter 的基本概念,如何创建和配…...

Pytorch R-CNN目标检测-汽车car

概述 目标检测(Object Detection)就是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,通俗点说就是给定一张图片要精确的定位到物体所在位置,并完成对物体类别的识别。其准确性和实时性是整个系统的一项重要能力。 R-CNN的全称是Region-CNN(区域卷积神经…...

【PG】PostgreSQL13主从流复制部署(详细可用)

目录 版本 部署主从注意点 1 主库上创建复制用户 2 主库上修改pg_hba.conf文件 3 修改文件后重新加载配置使其生效 4 主库上修改配置文件 5 重启主库pg使参数生效 6 部署从库 7 备份主库数据至从库 停止从库 备份从库的数据库目录 新建数据库数据目录data 创建和…...

学习pytorch15 优化器

优化器 官网如何构造一个优化器优化器的step方法coderunning log出现下面问题如何做反向优化? 官网 https://pytorch.org/docs/stable/optim.html 提问:优化器是什么 要优化什么 优化能干什么 优化是为了解决什么问题 优化模型参数 如何构造一个优化器…...

[算法日志]图论刷题 沉岛思想的运用

[算法日志]图论刷题: 沉岛思想的运用 leetcode 695 岛屿最大面积 给你一个大小为 m x n 的二进制矩阵 grid . 岛屿 是由一些相邻的 1 (代表土地) 构成的组合, 这里的「相邻」要求两个 1 必须在 水平或者竖直的四个方向上 相邻. 你可以假设 grid 的四个边缘都被 0&#xff08…...

Web服务器的搭建

网站需求: 1.基于域名www.openlab.com可以访问网站内容为 welcome to openlab!!! 2.给该公司创建三个网站目录分别显示学生信息,教学资料和缴费网站,基于www.openlab.com/student 网站访问学生信息,www.openlab.com/data网站访问教…...

如何使用 GTX750 或 1050 显卡安装 CUDA11+

前言 由于兼容性问题,使得我们若想用较新版本的 PyTorch,通过 GPU 方式训练模型,也得更换较新版本得 CUDA 工具包。然而 CUDA 的版本又与电脑显卡的驱动程序版本关联,如果是低版本的显卡驱动程序安装 CUDA11 及以上肯定会失败。 比…...

跟着森老师学React Hooks(1)——使用Vite构建React项目

Vite是一款构建工具,对ts有很好的支持,最近也是在前端越来越流行。 以往的React项目的初始化方式大多是通过脚手架create-react-app(本质是webpack),其实比起Vite来构建,启动会慢一些。 所以这次跟着B站的一个教程,使用…...

强力解决使用node版本管理工具 NVM 出现的问题(找不到 node,或者找不到 npm)

强力解决使用node版本管理工具 NVM 出现的问题(找不到 node,或者找不到 npm) node与npm版本对应关系 nvm是好用的Nodejs版本管理工具, 通过它可以方便地在本地调换Node版本。 2020-05-28 Node当前长期稳定版12.17.0,…...

Docker指定容器使用内存

Docker指定容器使用内存 作者:铁乐与猫 如果是还没有生成的容器,你可以从指定镜像生成容器时特意加上 run -m 256m 或 --memory-swap512m来限制。 -m操作指定的是物理内存,还有虚拟交换分区默认也会生成同样的大小,而–memory-…...

做什么数据表格啊,要做就做数据可视化

是一堆数字更易懂,还是图表更易懂?很明显是图表,特别是数据可视化图表。数据可视化是一种将大量数据转化为视觉形式的过程,通过图形、图表、图像等方式呈现数据,以便更直观地理解和分析。 数据可视化更加生动、形象地…...

CSS特效003:太阳、地球、月球的旋转

GPT能够很好的应用到我们的代码开发中,能够提高开发速度。你可以利用其代码,做出一定的更改,然后实现效能。 css实战中,这种球体间的旋转,主要通过rotate()旋转函数来实现。实际上,蓝色的地球和黑色的月球…...

云计算的大模型之争,亚马逊云科技落后了?

文丨智能相对论 作者丨沈浪 “OpenAI使用了Azure的智能云服务”——在过去的半年,这几乎成为了微软智能云最好的广告词。 正所谓“水涨船高”,凭借OpenAI旗下的ChatGPT在全球范围内爆发,微软趁势拉了一波自家的云计算业务。2023年二季度&a…...

【form校验】3.0项目多层list嵌套

const { required, phoneOrMobile } CjmForm.rules; export default function detail() {const { query } getRouterInfo(location);const formRef useRef(null);const [crumbList, setCrumbList] useState([{url: "/wenling/Reviewer",name: "审核人员&quo…...

公共功能测试用例

1、UI测试 布局是否合理,输入框、按钮是否对齐 行列间距是否保持一致弹出窗口垂直居中对其界面的设计风格是否与UI的设计风格一致 系统是否使用统一风格的控件界面的文字是否简洁易懂,是否有错别字 兼容性测试:不同浏览器、版本、分辨率下&a…...

【电路笔记】-并联RLC电路分析

并联RLC电路分析 文章目录 并联RLC电路分析1、概述2、AC的行为3、替代配置3.1 带阻滤波器3.2 带通滤波器 4、总结 电子器件三个基本元件的串联行为已在我们之前的文章系列 RLC 电路分析中详细介绍。 在本文中,介绍了另一种称为并联 RLC 电路的关联。 在第一部分中&a…...

MFC内存泄露

1、泄露代码示例 void X::SetApplicationBtn() {CMFCRibbonApplicationButton* pBtn GetApplicationButton();// 获取 Ribbon Bar 指针// 创建自定义按钮CCustomRibbonAppButton* pCustomButton new CCustomRibbonAppButton();pCustomButton->SetImage(IDB_BITMAP_Jdp26)…...

Java如何权衡是使用无序的数组还是有序的数组

在 Java 中,选择有序数组还是无序数组取决于具体场景的性能需求与操作特点。以下是关键权衡因素及决策指南: ⚖️ 核心权衡维度 维度有序数组无序数组查询性能二分查找 O(log n) ✅线性扫描 O(n) ❌插入/删除需移位维护顺序 O(n) ❌直接操作尾部 O(1) ✅内存开销与无序数组相…...

如何在看板中有效管理突发紧急任务

在看板中有效管理突发紧急任务需要:设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP(Work-in-Progress)弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中,设立专门的紧急任务通道尤为重要,这能…...

MySQL 8.0 OCP 英文题库解析(十三)

Oracle 为庆祝 MySQL 30 周年,截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。 从今天开始,将英文题库免费公布出来,并进行解析,帮助大家在一个月之内轻松通过OCP认证。 本期公布试题111~120 试题1…...

Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战

说明:这是一个机器学习实战项目(附带数据代码文档),如需数据代码文档可以直接到文章最后关注获取。 1.项目背景 在金融市场日益复杂和波动加剧的背景下,风险管理成为金融机构和个人投资者关注的核心议题之一。VaR&…...

Java求职者面试指南:计算机基础与源码原理深度解析

Java求职者面试指南:计算机基础与源码原理深度解析 第一轮提问:基础概念问题 1. 请解释什么是进程和线程的区别? 面试官:进程是程序的一次执行过程,是系统进行资源分配和调度的基本单位;而线程是进程中的…...

mac 安装homebrew (nvm 及git)

mac 安装nvm 及git 万恶之源 mac 安装这些东西离不开Xcode。及homebrew 一、先说安装git步骤 通用: 方法一:使用 Homebrew 安装 Git(推荐) 步骤如下:打开终端(Terminal.app) 1.安装 Homebrew…...

【Android】Android 开发 ADB 常用指令

查看当前连接的设备 adb devices 连接设备 adb connect 设备IP 断开已连接的设备 adb disconnect 设备IP 安装应用 adb install 安装包的路径 卸载应用 adb uninstall 应用包名 查看已安装的应用包名 adb shell pm list packages 查看已安装的第三方应用包名 adb shell pm list…...

解决:Android studio 编译后报错\app\src\main\cpp\CMakeLists.txt‘ to exist

现象: android studio报错: [CXX1409] D:\GitLab\xxxxx\app.cxx\Debug\3f3w4y1i\arm64-v8a\android_gradle_build.json : expected buildFiles file ‘D:\GitLab\xxxxx\app\src\main\cpp\CMakeLists.txt’ to exist 解决: 不要动CMakeLists.…...

从零开始了解数据采集(二十八)——制造业数字孪生

近年来,我国的工业领域正经历一场前所未有的数字化变革,从“双碳目标”到工业互联网平台的推广,国家政策和市场需求共同推动了制造业的升级。在这场变革中,数字孪生技术成为备受关注的关键工具,它不仅让企业“看见”设…...