机器学习的分类与经典算法
机器学习算法按照学习方式分类,可以分为有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、半监督学习(Semi-supervised Learning)、强化学习(Reinforcement Learning)。
按照学习策略分类,可以分为机械学习、示教学习、类比学习、基于解释的学习、归纳学习。
按照学习任务分类,可以分为分类、回归、聚类。
按照应用领域分类,可以分为自然语言处理、计算机视觉、机器人、自动程序设计、智能搜索、数据挖掘和专家系统。
有监督学习
监督学习的定义
监督学习是指在给定的训练集中“学习”出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出,即特征值和目标值(标签),训练集中数据的目标值(标签)是由人工事先进行标注的。
监督学习流程图如下图所示,其中包括准备数据、数据预处理、特征提取和特征选择、训练模型和评价模型。
Step1:准备数据。
监督学习首先要准备数据,没有现成的数据就需要采集数据或者爬取数据,或者从网站上下载数据。可以将准备好的数据集分为训练集、验证集和测试集。训练集是用来训练模型的数据集,验证集是确保模型没有过拟合的数据集,测试集是用来评估模型效果的数据集。
Step2:数据预处理。
数据预处理主要包括重复数据检测、数据标准化、数据编码、缺失值处理、异常值处理等。
Step3:特征提取和特征选择。
特征提取是结合任务自身特点,通过结合和转换原始特征集,构造出新的特征。特征选择是从大规模的特征空间中提取与任务相关的特征。特征提取和特征选择都是对原始数据进行降维的方法,从而去除数据的无关特征和冗余特征。
Step4:训练模型。
模型就是函数,训练模型就是利用已有的数据,通过一些方法确定函数的参数。
Step5:评价模型。
对于同一问题会有不同的数学模型,通过模型指标的比较来选取最优模型;对同一数学模型,通过模型指标的比较来调整模型参数。模型评价的基本思路是采用交叉验证方法。
监督学习的任务
监督学习有两个主要任务:回归和分类。回归用于预测连续的、具体的数值;分类是对各种事物进行分类,用于离散预测。
监督学习具体算法
监督学习算法发展史如图2所示。
其中典型的监督学习算法有朴素贝叶斯、决策树、支持向量机、逻辑回归、线性回归、k近邻等,常见的8种监督学习算法的特点如表1所示。
算法名称 | 类型 | 特点 | 应用 |
---|---|---|---|
朴素贝叶斯 | 分类 | 通过一个给定的元组属于一个特定的概率来进行分类 | 文本分类、垃圾邮件分类、信用评估 |
决策树 | 分类 | 通过训练数据构建决策树,对未知数据进行分类 | 科学决策、风险评估、金融分析 |
支持向量机 | 分类 | 通过最大化分类边界点与分类平面的距离来实现分类 | 模式识别、文本分类 |
逻辑回归 | 分类 | 处理因变量为分类变量的回归问题,常见的有二分类或项分布问题,也有多分类问题 | 数据挖掘、疾病自动诊断、经济预测 |
线性回归 | 回归 | 通过一个超平面拟合数据集 | 流行病研究、金融分析、股市预测 |
k近邻 | 分类+回归 | 根据距离相近的邻居类别来判定自己所属类别 | 图像分类、模式识别 |
AdaBoost | 分类+回归 | 通过将一系列弱学习器组合起来,集成弱学习器的学习能力,得到一个强学习器 | 人脸检测、森林火灾预测 |
神经网络 | 分类+回归 | 通过对人脑神经元网络进行抽象,建立模型,按照不同的连接方式组成不同的网络 | 模式识别、语音识别、文本分类 |
无监督学习
无监督学习的定义
无监督学习是指在机器学习过程中,用来训练机器的数据是没有标签的,机器只能依靠自己不断探索,对知识进行归纳和总结,尝试发现数据中的内在规律和特征,从而对训练数据打标签。
无监督学习的任务
无监督学习的训练数据是无标签的,非监督学习的目标是对观察值进行分类或者区分。
常见的无监督学习算法主要有三种:聚类、降维和关联。聚类算法是无监督学习中最常用的算法,它将观察值聚成一个一个的组,每个组都含有一个或几个特征。聚类的目的是将相似的东西聚在一起,而并不关心这类东西具体是什么。降维指减少一个数据集的变量数量,同时保证传达信息的准确性。关联指的是发现事物共现的概率。
无监督学习具体算法
无监督学习算法主要用于识别无标签数据的结构,常见算法如表2所示。
算法名称 | 类型 | 特点 | 应用 |
---|---|---|---|
K-means | 基于划分方法的聚类 | 将数据分为K组,随机选取K个对象作为初始的聚类中心,计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心 | 客户分析与分类、图形分割 |
Birch | 基于层次的聚类 | 通过扫描数据库,建立一个聚类特征树,对聚类特征树的叶节点进行聚类 | 图片检索、网页聚类 |
Dbscan | 基于密度的聚类 | 将密度大的区域划分为族,在具有噪声的空间数据库中发现任意形状的簇,并将簇定义为密度相连的点的最大集合 | 社交网络聚类、电商用户聚类 |
Sting | 基于网格的聚类 | 将空间区域划分为矩形单元,对于不同级别的分辨率,存在多个矩形单元,高层单元被划分为多个低层单元,计算和存储每个网格单元属性的统计信息 | 语音识别、字符识别 |
主成分分析(PCA) | 线性降维 | 通过正交变换将一组可能存在相关性的变量数据转换为组线性不相关的变量,转换后的变量被称为主成分 | 数据挖掘、图像处理 |
线性判别分析(LDA) | 线性降维 | 将高维空间中的数据投影到低维空间中,投影后各个类别的类内方差小,而类间均值差别大 | 人脸识别、舰艇识别 |
局部线性嵌入(LLE) | 非线性降维 | 在保持原始数据性质不变的情况下,将高维空间的信号映射到低维空间,从而进行特征值的二次提取 | 图像识别、高维数据可视化 |
拉普拉斯映射(LE) | 非线性降维 | 从局部近似的角度构建数据之间的关系,对要降维的数据构建图,图中的每个节点和距离它最近的K个节点建立边关系 | 故障检测 |
半监督学习
半监督学习的定义
机器学习中的监督学习通过对大量有标签的样本进行学习,建立模型预测未知样本。然而,现实世界中有大量的无标签样本和少量的有标签样本。如果只用少量的有标签样本训练机器,学习系统往往很难具备强泛化能力,同时大量的无标签样本得不到利用,也会对数据资源造成极大的浪费。
如何在少量的有标签样本下,利用大量的无标签样本改善机器学习性能,成为机器学习研究者关注的问题之一。
目前,利用无标签样本的主流技术有(纯)半监督学习、直推学习和主动学习,这三种学习方式的共同点是利用大量无标签样本来辅助少量有标签样本的学习,如图3所示。
图3所示三种机器学习方式的相同点是训练数据集中都包含少量的有标签数据和大量的无标签数据,利用这些数据对模型进行训练。不同点在于主动学习将抽取部分无标签数据,交由专家进行人工标注,将标注后的数据放入有标签数据集中,一起对模型进行训练。而(纯)半监督学习和直推学习没有专家对训练数据集中的无标签数据进行标注的过程。
(纯)半监督学习和直推学习的不同之处在于训练完的模型预测的对象不同,(纯)半监督学习是预测待测数据,而直推学习是预测训练数据集中的无标签数据。
半监督学习的基本假设
半监督学习的成立依赖于模型的假设,当模型假设正确时,无标签样本能够帮助改进学习性能。
半监督学习中两个常用的假设是聚类假设和流形假设:
聚类假设是指处在相同聚类中的样本有较大可能具有相同的标签。在这一假设下,大量无标签样本的作用就是帮助探明样本空间中数据分布的稠密和稀疏区域,从而指导算法对利用有标签样本学习到的决策边界进行调整,使其尽量通过数据分布的稀疏区域。
流形假设是指在一个很小的局部区域内的样本具有相似的性质,其标签也相似。在这一假设下,大量无标签样本的作用就是让数据分布变得更加稠密,从而更准确地刻画局部区域的特性,使决策函数更好地进行数据拟合。
半监督学习具体算法
从不同的学习场景看,半监督学习算法可分为 4 大类:半监督分类、半监督回归、半监督聚类和半监督降维,如图4所示。
半监督分类算法的基本思想是在无标签样本的帮助下训练有标签样本,获得比单独使用有标签样本更好的分类器,弥补有标签样本不足的缺陷。
半监督回归算法的基本思想是在无输出的输入的帮助下训练有输出的输入,获得比只使用有输出的输入训练得到的回归器性能更好的回归器。
半监督聚类算法的基本思想是在有标签的样本信息的帮助下,获得比只使用无标签的样本更好的簇,提高聚类的精度。
半监督降维算法的基本思想是在有标签的样本信息的帮助下,找到高维输入数据的低维结构,同时保持原始高维数据和成对约束的结构不变。
相关文章:

机器学习的分类与经典算法
机器学习算法按照学习方式分类,可以分为有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、半监督学习(Semi-supervised Learning)、强化学习(Reinforcement Le…...

2.3物理层下面的传输媒体
目录 2.3物理层下面的传输媒体2.3.1导引型传输媒体1.双绞线2.同轴电缆3.光纤 2.3.2非导引型传输媒体无线电微波通信 2.3物理层下面的传输媒体 传输媒体是数据传输系统中在发送器和接收器之间的物理通路 两大类: 导引型传输媒体:电磁波被导引沿着固体媒体…...
笙默考试管理系统-MyExamTest----codemirror(57)
笙默考试管理系统-MyExamTest----codemirror(57) 目录 一、 笙默考试管理系统-MyExamTest----codemirror 二、 笙默考试管理系统-MyExamTest----codemirror 三、 笙默考试管理系统-MyExamTest----codemirror 四、 笙默考试管理系统-MyExamTest---…...

Qt高质量的开源项目合集
文章目录 1.Qt官网下载/文档2.第三方开源 1.Qt官网下载/文档 Qt Downloads Qt 清华大学开源软件镜像站 Qt 官方博客 2.第三方开源 记录了平常项目开发中用到的第三方库,以及一些值得参考的项目! Qt AV 基于Qt和FFmpeg的跨平台高性能音视频播放框…...
HarmonyOS ARKUI深度解析:图像组件及权限配置实战指南
文章目录 深入学习RKUI中的图片组件及权限配置图片组件简介图片源的三种格式Image : 图片显示组件图片组件属性及样式控制图片权限配置文章总结问题总结深入学习RKUI中的图片组件及权限配置 在本文中,我们将深入学习ArkUI(HarmonyOS UI框架)中的图片组件及其相关属性,同时…...

萨姆·奥尔特曼的预言
Sam Altman(萨姆奥尔特曼)是 OpenAI 的首席执行官,这家初创公司开发了众所周知的 ChatGPT。2023年11月,他突然被董事会解雇,并短暂调往微软。在 OpenAI 的每个人都威胁要辞职后,他又回来了。 新的商业模式…...

iPhone 13 Pro 更换『移植电芯』和『超容电池』体验
文章目录 考虑换电池Ⅰ 方案一Ⅱ 方案二 总结危险 Note系列地址 简 述: 首发买的iPhone 13P (2021.09),随性使用一年出头,容量就暴跌 85%,对比朋友一起买的同款,还是95%。这已经基本得一天两充 >_<&a…...
JavaScript 常用事件演示
Hi i,m JinXiang ⭐ 前言 ⭐ 本篇文章主要介绍在在JavaScript 常用事件演示以及部分理论知识 🍉欢迎点赞 👍 收藏 ⭐留言评论 📝私信必回哟😁 🍉博主收将持续更新学习记录获,友友们有任何问题可以在评论区…...

gzip引入后node_modules中.cache compression-webpack-plugin占用内存过多
1.Gzip Gzip(GNU zip)是一种常见的文件压缩格式和压缩算法,通常用于在 Web 服务器上对静态资源文件进行压缩,以减小文件大小并加快文件传输速度。在前端开发中,经常会使用 Gzip 压缩来优化网站的性能。 Gzip 压缩通过…...

Vue:使用IDEA开发Vue的相关配置
一、IDEA无法识别.vue文件 1、IDEA 添加Vue插件 2、添加Vue配置 File | Settings | Editor | File Types 找到 HTML 文件 在下面点号 输入*.vue 二、IDEA无法创建.vue文件 1、问题 在开发过程中,发现创建文件的界面,没有vue模板 2、相关配置 Fi…...

黑马程序员SSM框架-SpringBoot
视频连接:SpringBoot-01-SpringBoot工程入门案例开发步骤_哔哩哔哩_bilibili SpringBoot简介 入门程序 也可以基于官网创建项目。 SpringBoot项目快速启动 下面的插件将项目运行所需的依赖jar包全部加入到了最终运行的jar包中,并将入口程序指定。 Spri…...
Javascript细节、经验锦集
【版权声明】未经博主同意,谢绝转载!(请尊重原创,博主保留追究权) https://blog.csdn.net/m0_69908381/article/details/135311084 出自【进步*于辰的博客】 纯文字阐述,内容比较干。并且,由于考…...

git的使用基础教程
最近项目在搞自动化测试,需要将各种测试脚本集成到自动化框架里边,这个就需要用到版本管理系统了,下面简单价绍一下git的使用。 首先从官网下载并安装git工具,下面以wins系统为例子说明 https://git-scm.com/downloads wins安装好后ÿ…...

Springboot整合Elasticsearch 7.X 复杂查询
这里使用Springboot 2.7.12版本,Elasticsearch为7.15.0。 导入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-elasticsearch</artifactId></dependency> yaml文件配置…...

第5课 使用openCV捕获摄像头并实现预览功能
这节课我们开始利用ffmpeg和opencv来实现一个rtmp推流端。推流端的最基本功能其实就两个:预览画面并将画面和声音合并后推送到rtmp服务器。 一、FFmpeg API 推流的一般过程 1.引入ffmpeg库:在代码中引入ffmpeg库,以便使用其提供的功能。 2.捕获摄像头…...
Python3操作Json文件碰到的几个问题
文章目录 小结问题及解决byte数组与str字符串之间不兼容没有Index属性JSON.DUMP(S) & JSON.LOAD(S) 参考 小结 使用Python3操作Json文件碰到的几个问题,进行了解决。 问题及解决 byte数组与str字符串之间不兼容 以下的几个问题都是由于字节数组和字符串之间…...
Java中的自定义异常处理:业务异常类的创建与使用
文章内容 引言 在Java编程中,异常处理是一项重要的技术,它允许程序在遇到错误或特殊情况时能够优雅地处理,而不是直接崩溃。Java提供了丰富的内置异常类,但在实际业务开发中,我们往往需要根据具体的业务需求定义自己的…...
微信小程序有几个文件
微信小程序通常由多个文件组成,主要包括以下几种类型的文件: JSON 配置文件: app.json: 整个小程序的全局配置,包括页面路径、窗口样式、网络超时时间等。 page.json: 单个页面的配置,用于指定该页面的窗口样式、导航…...

计算机网络:知识回顾
0 本节主要内容 问题描述 解决思路 1 问题描述 通过一个应用场景来回顾计算机网络涉及到的协议(所有层)。如下图所示场景: 学生Bob将笔记本电脑用一根以太网电缆连接到学校的以太网交换机;交换机又与学校的路由器相连…...
【Python百宝箱】音韵探奇:探索Python中的音频与信号魔法
数字音符:畅游Python音频与信号处理的科技奇境 前言 在数字时代,音频与信号处理不仅仅是专业领域的关键,也成为了科技创新和艺术创作的核心。本文将带领您深入探索Python中多个强大的音频处理库和信号处理工具,从Librosa到Tenso…...

【JavaEE】-- HTTP
1. HTTP是什么? HTTP(全称为"超文本传输协议")是一种应用非常广泛的应用层协议,HTTP是基于TCP协议的一种应用层协议。 应用层协议:是计算机网络协议栈中最高层的协议,它定义了运行在不同主机上…...

从WWDC看苹果产品发展的规律
WWDC 是苹果公司一年一度面向全球开发者的盛会,其主题演讲展现了苹果在产品设计、技术路线、用户体验和生态系统构建上的核心理念与演进脉络。我们借助 ChatGPT Deep Research 工具,对过去十年 WWDC 主题演讲内容进行了系统化分析,形成了这份…...

基于Flask实现的医疗保险欺诈识别监测模型
基于Flask实现的医疗保险欺诈识别监测模型 项目截图 项目简介 社会医疗保险是国家通过立法形式强制实施,由雇主和个人按一定比例缴纳保险费,建立社会医疗保险基金,支付雇员医疗费用的一种医疗保险制度, 它是促进社会文明和进步的…...

聊聊 Pulsar:Producer 源码解析
一、前言 Apache Pulsar 是一个企业级的开源分布式消息传递平台,以其高性能、可扩展性和存储计算分离架构在消息队列和流处理领域独树一帜。在 Pulsar 的核心架构中,Producer(生产者) 是连接客户端应用与消息队列的第一步。生产者…...
连锁超市冷库节能解决方案:如何实现超市降本增效
在连锁超市冷库运营中,高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术,实现年省电费15%-60%,且不改动原有装备、安装快捷、…...
鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序
一、开发环境准备 工具安装: 下载安装DevEco Studio 4.0(支持HarmonyOS 5)配置HarmonyOS SDK 5.0确保Node.js版本≥14 项目初始化: ohpm init harmony/hospital-report-app 二、核心功能模块实现 1. 报告列表…...

PL0语法,分析器实现!
简介 PL/0 是一种简单的编程语言,通常用于教学编译原理。它的语法结构清晰,功能包括常量定义、变量声明、过程(子程序)定义以及基本的控制结构(如条件语句和循环语句)。 PL/0 语法规范 PL/0 是一种教学用的小型编程语言,由 Niklaus Wirth 设计,用于展示编译原理的核…...
数据库分批入库
今天在工作中,遇到一个问题,就是分批查询的时候,由于批次过大导致出现了一些问题,一下是问题描述和解决方案: 示例: // 假设已有数据列表 dataList 和 PreparedStatement pstmt int batchSize 1000; // …...

佰力博科技与您探讨热释电测量的几种方法
热释电的测量主要涉及热释电系数的测定,这是表征热释电材料性能的重要参数。热释电系数的测量方法主要包括静态法、动态法和积分电荷法。其中,积分电荷法最为常用,其原理是通过测量在电容器上积累的热释电电荷,从而确定热释电系数…...
SQL慢可能是触发了ring buffer
简介 最近在进行 postgresql 性能排查的时候,发现 PG 在某一个时间并行执行的 SQL 变得特别慢。最后通过监控监观察到并行发起得时间 buffers_alloc 就急速上升,且低水位伴随在整个慢 SQL,一直是 buferIO 的等待事件,此时也没有其他会话的争抢。SQL 虽然不是高效 SQL ,但…...