当前位置: 首页 > news >正文

机器学习(一) -- 概述

系列文章目录

机器学习(一) -- 概述

机器学习(二) -- 数据预处理

未完待续……


目录

系列文章目录

前言

一、机器学习定义(是什么)

二、机器学习的应用(能做什么)

三、***机器学习的流派

四、机器学习的系统定义与通俗理解

五、机器学习的基本术语

1、有了数据

2、通过学习算法

3、得到模型

4、进行预测

5、数据集构成简单理解

六、机器学习的分类

1、监督学习(Supervised Learning,有导师学习)

1.1、分类(classification) -- 离散

1.1.1、二分类(binary classification)

1.1.2、多分类(multi-class classification)

1.2、回归(regression) -- 连续

2、无监督学习(Unsupervised Learning,无导师学习)

2.1、聚类

2.2、降维

3、半监督学习(Semi-Supervised Learning)

4、强化学习(Reinforcement Learning)

七、机器学习的算法

八、机器学习的流程


前言

tips:这里只是总结,不是教程哈。

标题前面加“***”的可自行跳过。文章内容被“文章内容”删除线标记的,也可以自行跳过。


一、机器学习定义(是什么)

机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

它是人工智能核心,是使计算机具有智能的根本途径。

-- 百度百科

人工智能(AL)

机器学习(ML)机器学习是人工智能的一个子领域,是人工智能的核心。机器学习是从数据通往智能的技术途径,是现代人工智能的本质。

深度学习(DL)深度学习是机器学习的一个子领域,是目前最火的方向。

加入神经网络的关系表示:

二、机器学习的应用(能做什么)

模式识别(Pattern Recognition,PR)== 机器学习:计算机能够比人类更高效地读取大量的数据、学习数据的特征并从中找出数据的模式。这样的任务也被称为“机器学习”或者“模式识别”。统计学习是使用统计方法的一种机器学习。

计算机视觉(Computer Vision,CV):图像识别(人脸识别)、图像检索、物体识别等。

数据挖掘(Data Mining,DM):推荐系统等。

自然语言处理(Natural Language Processing, NLP):文本分类(Text Classification)、语言模型(Language Modeling)、机器翻译(Machine Translation)、问答系统(Question Answering)、语音识别(Speech Recognition)等。

统计学习(Statistical Learning,SL):支持向量机SVM、核方法等。

等……

三、***机器学习的流派

四、机器学习的系统定义与通俗理解

1、系统定义

假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习

-- 西瓜书

机器学习 = 任务 + 方法 + 经验 + 性能

任务-T:机器学习要解决的问题                    任务是机器学习的研究对象;

方法-A:   各种机器学习方法                           方法是机器学习的核心内容;

经验-E:训练模型的数据,实例                    经验是机器学习的动力源泉;

性能-P:方法针对任务的性能评估准则        性能是机器学习的检验指标。

2、通俗理解

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。(类比人类)

从数据中自动分析获得模型,并利用模型对未知数据进行预测。

流程:有了历史数据 --> 通过学习算法(训练) --> 得到模型 --> 用新数据进行预测

目的:机器学习=找一个函数(模型=函数)机器学习 = 任务 + 方法 + 经验 +

五、机器学习的基本术语

按照流程介绍不同术语。

-- 以下内容从【西瓜书】概括而得

1、有了数据

数据集(D,data set):100个西瓜构成一个数据集。

样本(sample,示例,instance):100个西瓜中的每一个西瓜,就是一个样本。

属性(attribute,特征,feature):西瓜的色泽,根蒂,敲声。

        属性值(attribute value):西瓜的色泽为青绿色,青绿即为属性值。

样本空间(sample space,属性空间,attribute space、输入空间)(X):属性张成的空间。“色泽”,“根蒂”,“敲声”作为三个坐标轴,则他们张成一个描述西瓜的三维空间

特征向量(feature vector):颜色、大小、敲起来的振幅。一个维度(dimensionality)

2、通过学习算法

2.1、学习(learning,训练,training)

训练数据(training data)

训练样本(training sample,训练示例,training instance、训练例)

训练集(training set)

假设(hypothesis):学得模型对应关于数据的某种潜在的规律(比如敲声清脆的可能是好瓜)。

真相(真实,ground-truth):潜在规律本身(比如敲声清脆的一定是好瓜)。

学习器(learner,模型,model):得到的模型。

2.2、样本结果信息

标记(label):((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜),“好瓜”称为“标记”。

样例(example):拥有标记信息的示例称为样例

用(xi,yi)表示第i个样例,其中yi属于Y,是示例xi的标记。
标记空间(label space、输出空间):Y是所有标记的集合。

3、得到模型

分类、回归、聚类等,具体后面【机器学习的分类】详讲。

4、进行预测

4.1、测试(testing):

测试样本(testing sample,测试示例,testing instance、测试例)

4.2、测试能力:

4.3、测试(testing):

泛化(generalization)能力:适应新样本(未见示例,unseen instance)的能力

--     独立同分布:假设样本空间中全体样本服从一个未知“分布”(distribution)D,我们获得的每一个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed,简称,i.i.d.)

5、数据集构成简单理解

结构:特征值(房子面积,房子位置、房子楼层)+目标值(这里是价格)

对于每一行数据我们可以称为样本

有些数据集可以没有目标值,如下

六、机器学习的分类

1、监督学习(Supervised Learning,有导师学习)

从有标记数据中学习模型

1.1、分类(classification) -- 离散

1.1.1、二分类(binary classification)

正类(positive class)、反类(negative class,负类)
Y={-1,+1}/{0,1}        (Y被分成-1,1,或者0,1)

eg:识别猫和狗。

1.1.2、多分类(multi-class classification)

|Y|>2

eg:数字识别

1.2、回归(regression) -- 连续

预测的是连续值,

Y=R(实数集)

eg:房屋价格预测:

2、无监督学习(Unsupervised Learning,无导师学习)

从无标记数据中学习模型

2.1、聚类

分为若干组,每个组称为一个“簇”(cluster)

eg

2.2、降维

        在原始的高维空间中,包含冗余信息和噪声信息,会在实际应用中引入误差,影响准确率;而降维可以提取数据内部的本质结构,减少冗余信息和噪声信息造成的误差,提高应用中的精度

        还有异常检测等……

3、半监督学习(Semi-Supervised Learning)

        半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习正越来越受到人们的重视。

--  百度百科

4、强化学习(Reinforcement Learning)

        实质是自主决策问题,即自动进行决策,并且可以做连续决策。

        以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。

七、机器学习的算法

        有的人总想先知道机器学习的算法有哪些(比如我QwQ)

1、监督学习

1.1、线性回归(Linear Regression)

1.2、逻辑回归(Logistic Regression)

1.3、决策树(Decision Trees)

1.3.1、随机森林(Random Forests)

1.4、深度学习(Deep Learning)算法,如神经网络(Neural Networks)

        卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)

1.5、支持向量机(Support Vector Machines)

1.6、朴素贝叶斯(Naive Bayes)

1.7、K近邻算法(K-Nearest Neighbors)

2、无监督学习

2.1、聚类算法

        将数据样本划分为不同的组或簇,使得同一组内的样本相似度高,不同组之间的相似度较低。

2.1.1、K均值聚类(K-Means Clustering)
2.1.2、层次聚类(Hierarchical Clustering)
2.1.3、DBSCAN

2.2、降维算法

        将高维数据映射到低维空间,保留数据的主要信息,同时减少数据的维度。

2.2.1、主成分分析(Principal Component Analysis,PCA)
2.2.2、线性判别分析(LDA)
2.2.3、t-SNE

2.3、关联规则挖掘,关联规则学习(Association Rule Learning)

        从数据集中发现频繁出现的项集或关联规则,用于发现数据项之间的关联性。

2.3.1、Apriori
2.3.2、FP-growth

2.4、异常检测

        检测数据中的异常或离群点,这些数据与正常数据的行为模式不符。

2.4.1、基于统计的方法
2.4.2、基于聚类的方法
2.4.3、基于密度的方法

2.5、高斯混合模型(Gaussian Mixture Models)

        暂时先放这吧!

3、半监督学习

        标签传播算法、半监督支持向量机和深度置信网络等

4、强化学习

        Q-learning、SARSA、策略梯度和深度强化学习

5、集成学习(多学习器组合)

5.1、随机森林(Random Forests)

5.2、梯度提升树

5.1、AdaBoost

八、机器学习的流程

机器学习的数据集划分一般分为两个部分:

训练数据:用于训练,构建模型。一般占70%-80%(数据量越大,取得比例最好越大)

测试数据:用于模型评估,检验模型是否有效。一般占20%-30%

相关文章:

机器学习(一) -- 概述

系列文章目录 机器学习(一) -- 概述 机器学习(二) -- 数据预处理 未完待续…… 目录 系列文章目录 前言 一、机器学习定义(是什么) 二、机器学习的应用(能做什么) 三、***机器…...

SpringBoot定时监听RocketMQ的NameServer

问题分析 自己在测试环境部署了RocketMQ,发现namesrv很容易挂掉,于是就想着监控,挂了就发邮件通知。查看了rocketmq-dashboard项目,发现只能监控Broker,遂放弃这一路径。于是就从报错的日志入手,发现最终可…...

电子招标采购系统源码之从供应商管理到采购招投标、采购合同、采购执行的全过程数字化管理

在数字化时代,采购管理也正经历着前所未有的变革。全过程数字化采购管理成为了企业追求高效、透明和规范的关键。该系统通过Spring Cloud、Spring Boot2、Mybatis等先进技术,打造了从供应商管理到采购招投标、采购合同、采购执行的全过程数字化管理。通过…...

各部门请注意,VELO维乐潮流骑士尼莫出街啦,快来加入吧!

VELO潮流骑士丨车界“小学生”尼莫,下面是来自她的自诉:      大家好!我是尼莫,一枚骑车届的“小学生”,我爱上骑车已经有一年的时间啦!在这一年的时间里,骑车改变了我很多:爱上…...

Flutter配置Android和IOS允许http访问

默认情况下,Android和IOS只支持对https的访问,如果需要访问不安全的连接,也就是http,需要做以下配置。 Android 在res目录下的xml目录中(如果不存在,先创建xml目录),创建一个xml文件network_security_con…...

[设计模式 Go实现] 创建型~抽象工厂模式

抽象工厂模式用于生成产品族的工厂,所生成的对象是有关联的。 如果抽象工厂退化成生成的对象无关联则成为工厂函数模式。 比如本例子中使用RDB和XML存储订单信息,抽象工厂分别能生成相关的主订单信息和订单详情信息。 如果业务逻辑中需要替换使用的时候…...

移动端开发框架mui代码在安卓模拟器上运行(HbuilderX连接到模拟器)

开发工具 HBuilder X 3.8.12.20230817 注意:开发工具尽量用最新的或较新的。太旧的版本在开发调试过程中可能会出现莫名其妙的问题。 1、电脑下载安装安卓模拟器 我这里使用的是 夜神模拟器 ,也可以选择其他安卓模拟器 夜神模拟器官网:夜神安…...

upload-labs Pass-03(黑名单验证,特殊后缀)问题纠正

php任何后缀名解析 背景:为了验证php解析不依靠后缀名,可以是任何后缀名,纠正upload-labs Pass-03(黑名单验证,特殊后缀)里所说的几个固定的后缀名理论是错误的。1 部署1.1 环境准备1.1.1 系统、内核&#…...

微信小程序-父子页面传值

父子页面传值 父页面向子页面传值 方法一&#xff1a; 父页面&#xff1a; 1. /page/xxx/xxx?id1子页面&#xff1a; onLoad:function(option){ }方法二 <bindtap“func” data-xxx””> 子页面向父页面传值 定义父子页面 父页面&#xff1a;hotspot 子页面&a…...

【JavaScript】浮点数精度问题

✨ 专栏介绍 在现代Web开发中&#xff0c;JavaScript已经成为了不可或缺的一部分。它不仅可以为网页增加交互性和动态性&#xff0c;还可以在后端开发中使用Node.js构建高效的服务器端应用程序。作为一种灵活且易学的脚本语言&#xff0c;JavaScript具有广泛的应用场景&#x…...

使用axios发送get和post请求

使用axios发送get和post请求的方法如下&#xff1a; 1.发送GET请求&#xff1a; axios.get(url).then(response > {// 请求成功的处理逻辑console.log(response.data);}).catch(error > {// 请求失败的处理逻辑console.error(error);});2.发送POST请求&#xff1a; ax…...

【基于VirtualBox及openEuler20.03 TLS SP1编译openGauss2.1.0源码】

【openEuler 20.03 TLS编译openGauss2.1.0源码】 一、安装环境二、安装步骤 一、安装环境 项目Value虚拟机virtualbox操作系统openEuler 20.03 TLSopenGauss2.1.0openGauss-third_party2.1.0 二、安装步骤 以下操作需要在root用户下执行 编辑/etc/selinux/config vim /etc/s…...

hibernate 使用注解+拦截器实现自动开启、关闭session,提交、回滚事务

hibernate 使用注解+注解拦截器实现自动开启、关闭session,开启、提交、回滚事务 项目为springboot项目 ,springboot版本为:2.5.11, hiernate-core5.4.3 版本。spring-xxx 等为5.3.17版本 注意:在spring-xxx4.x版本+ hiernate-core5.x.x版本中,hibernate的配置 true是有效的…...

Solidworks学习笔记

本内容为solidworks的学习笔记&#xff0c;根据自己的理解进行记录&#xff0c;部分可能不正确&#xff0c;请自行判断。 学习视频参考&#xff1a;【SolidWorks2018视频教程 SW2018中文版软件基础教学知识 SolidWorks自学教程软件操作教程 sw视频教程 零基础教程 视频教程】 h…...

Redis经典五大类型源码及底层实现(一)

&#x1f44f;作者简介&#xff1a;大家好&#xff0c;我是爱吃芝士的土豆倪&#xff0c;24届校招生Java选手&#xff0c;很高兴认识大家&#x1f4d5;系列专栏&#xff1a;Spring源码、JUC源码、Kafka原理、分布式技术原理、数据库技术&#x1f525;如果感觉博主的文章还不错的…...

数据库闭包求法 附相关习题及解析

闭包就是由一个属性直接或间接推导出的所有属性的集合 以下是写的比较科学规范的闭包求解方法&#xff0c;设X和Y均为关系R的属性集的子集&#xff0c;F是R上的函数依赖集&#xff0c;若对R的任一属性集B&#xff0c;一旦X→B&#xff0c;必有B⊆Y&#xff0c;且对R的任一满足…...

idea利用JRebel插件,无需重启,实现Spring Boot项目热重载,节省开发时间和精力!

插件介绍 官方介绍 翻译过来的意思是&#xff1a; JRebel 是一款提高开发效率的工具&#xff0c;允许开发者立即重新加载代码更改。它跳过了在Java开发中常见的重新构建、重启和重新部署循环。JRebel 能够让开发者在相同的时间内完成更多工作&#xff0c;并且在编码时能够保持…...

学习体系结构 - AArch64内存管理

学习体系结构 - AArch64内存管理 Learn the architecture - AArch64 memory management Version 1.2 个人的英语很一般&#xff0c;对拿不准的翻译校准在后面添加了英文原文。 1、 概述 本指南介绍了AArch64中的内存转换&#xff0c;这是内存管理的关键。它解释了如何将虚拟地…...

Vue3 精通指南:如何在 setup 函数中巧妙利用 Vuex

在 Vue 3 中&#xff0c;如果你使用了组合式 API&#xff08;Composition API&#xff09;&#xff0c;你可以通过 setup 函数来设置组件的响应式状态和逻辑。要在 setup 函数中访问 Vuex 的 $store&#xff0c;你可以使用 useStore 钩子&#xff0c;它是 Vuex 4 为 Vue 3 提供…...

Linux 服务器安全策略技巧:启用账户锁定策略

Linux 服务器安全策略技巧:启用账户锁定策略 在Linux服务器上,启用账户锁定策略是一种重要的安全措施。通过锁定账户,可以防止未经授权的访问和恶意活动。本文将介绍如何在Linux服务器上启用账户锁定策略。 什么是账户锁定策略? 账户锁定策略是一种安全措施,用于限制对…...

智慧医疗能源事业线深度画像分析(上)

引言 医疗行业作为现代社会的关键基础设施,其能源消耗与环境影响正日益受到关注。随着全球"双碳"目标的推进和可持续发展理念的深入,智慧医疗能源事业线应运而生,致力于通过创新技术与管理方案,重构医疗领域的能源使用模式。这一事业线融合了能源管理、可持续发…...

label-studio的使用教程(导入本地路径)

文章目录 1. 准备环境2. 脚本启动2.1 Windows2.2 Linux 3. 安装label-studio机器学习后端3.1 pip安装(推荐)3.2 GitHub仓库安装 4. 后端配置4.1 yolo环境4.2 引入后端模型4.3 修改脚本4.4 启动后端 5. 标注工程5.1 创建工程5.2 配置图片路径5.3 配置工程类型标签5.4 配置模型5.…...

《Qt C++ 与 OpenCV:解锁视频播放程序设计的奥秘》

引言:探索视频播放程序设计之旅 在当今数字化时代,多媒体应用已渗透到我们生活的方方面面,从日常的视频娱乐到专业的视频监控、视频会议系统,视频播放程序作为多媒体应用的核心组成部分,扮演着至关重要的角色。无论是在个人电脑、移动设备还是智能电视等平台上,用户都期望…...

相机Camera日志实例分析之二:相机Camx【专业模式开启直方图拍照】单帧流程日志详解

【关注我&#xff0c;后续持续新增专题博文&#xff0c;谢谢&#xff01;&#xff01;&#xff01;】 上一篇我们讲了&#xff1a; 这一篇我们开始讲&#xff1a; 目录 一、场景操作步骤 二、日志基础关键字分级如下 三、场景日志如下&#xff1a; 一、场景操作步骤 操作步…...

DBAPI如何优雅的获取单条数据

API如何优雅的获取单条数据 案例一 对于查询类API&#xff0c;查询的是单条数据&#xff0c;比如根据主键ID查询用户信息&#xff0c;sql如下&#xff1a; select id, name, age from user where id #{id}API默认返回的数据格式是多条的&#xff0c;如下&#xff1a; {&qu…...

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计&#xff0c;提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合&#xff1a;各模块职责清晰&#xff0c;便于独立开发…...

JVM暂停(Stop-The-World,STW)的原因分类及对应排查方案

JVM暂停(Stop-The-World,STW)的完整原因分类及对应排查方案,结合JVM运行机制和常见故障场景整理而成: 一、GC相关暂停​​ 1. ​​安全点(Safepoint)阻塞​​ ​​现象​​:JVM暂停但无GC日志,日志显示No GCs detected。​​原因​​:JVM等待所有线程进入安全点(如…...

CVE-2020-17519源码分析与漏洞复现(Flink 任意文件读取)

漏洞概览 漏洞名称&#xff1a;Apache Flink REST API 任意文件读取漏洞CVE编号&#xff1a;CVE-2020-17519CVSS评分&#xff1a;7.5影响版本&#xff1a;Apache Flink 1.11.0、1.11.1、1.11.2修复版本&#xff1a;≥ 1.11.3 或 ≥ 1.12.0漏洞类型&#xff1a;路径遍历&#x…...

[大语言模型]在个人电脑上部署ollama 并进行管理,最后配置AI程序开发助手.

ollama官网: 下载 https://ollama.com/ 安装 查看可以使用的模型 https://ollama.com/search 例如 https://ollama.com/library/deepseek-r1/tags # deepseek-r1:7bollama pull deepseek-r1:7b改token数量为409622 16384 ollama命令说明 ollama serve #&#xff1a…...

零知开源——STM32F103RBT6驱动 ICM20948 九轴传感器及 vofa + 上位机可视化教程

STM32F1 本教程使用零知标准板&#xff08;STM32F103RBT6&#xff09;通过I2C驱动ICM20948九轴传感器&#xff0c;实现姿态解算&#xff0c;并通过串口将数据实时发送至VOFA上位机进行3D可视化。代码基于开源库修改优化&#xff0c;适合嵌入式及物联网开发者。在基础驱动上新增…...