当前位置: 首页 > news >正文

【AI底层逻辑】——篇章5(下):机器学习算法之聚类降维时间序列

续上:

目录

4、聚类

5、降维

6、时间序列

三、无完美算法

 往期精彩:


4、聚类

聚类即把相似的东西归在一起,分类不同的是,聚类要处理的是没有标签的数据集,它根据样本数据的分布特性自动进行归类

人在认知是事物时倾向于简化,虽然世界上不存在完全相同的个体,但是却不影响对它们进行归类,大脑用抽取共性的方式使得我们快速记忆不同的事物。

聚类是典型的无监督学习算法,基本思路都是利用每个数据样本所表示的向量之间的“距离”或密集程度来进行归类。这与分类算法中的K邻近算法思路相近。典型的“计算距离”的聚类算法有K均值(K-Means)算法,具体步骤如下:

1、任意取k个数据点作为初始中心;
2、依次计算其他点到这些中心的距离;
3、将每个点归类到与它距离最近的中心,每个类别下点下的集合是一个类簇;
4、重新计算各类簇的中心位置(即类簇中所有点的中心——质心;
5、重复上述2、3、4步骤,直到所有数据点都被归类,且类簇的中心位置没有明显变化;

此时可认为聚类任务完成,其基本思路就是不断拉拢身边距离相近的样本数据,将它们归为同类。

不足:①需要提前指定类簇数量,实际应用时很难知道数据是什么分布,甚至不知道分为几类;②要提前定义初始中心,这个选择通常是随机的(初始中心不同最终结果也可能不同,如果初始中心都在同一类别,会对结果影响很大);③算法需要重复迭代地计算类簇中心,计算开销大;④常用欧式距离划分类簇,但是隐含一个前提假设——数据各个维度变量具有相同的重要性


“计算距离”只是聚类解题的一种思路,有些情况并不一定数据点之间距离越近就属于一类。因为数据在空间中的分布可能是任意尺寸、任意形状,如曲面。此时可考虑用“计算密度”(即根据数据之间的疏密程度)的方法:

聚类算法应用场景

①图像分割和特征提取,找到图像中相似的视觉区域;

②从海量论文中找到相似内容和观点的论文;

③异常点检测,如信用卡防欺诈、肿瘤病例筛查、刑侦破案等。


5、降维

大量的数据增加了数据采集和分析的难度,由于许多变量之间存在关联(和、差、积、商或其他运算关系),变量之间的关系不能孤立看待,盲目减少可能损失信息。所以需要一种合理的数据处理方法,在减少变量数量的同时,尽量降低原变量中包含信息的损失程度,如果变量之间存在关联,那么使用更少的综合变量来代替原变量,减少数据维度,理论上可行的——降维

如在特征提取时不必提取所有特征,精准抓住足够解决问题的特征即可,这是一个特征选择过程,主成分分析法可帮助我们快速完成特征筛选过程:

主成分分析法(Principal Component Analysis,PCA)在文件压缩、声音降噪等领域有着广泛应用,它是一种多个变量简化为少数几个主成分的统计方法,这些主成分能反映原变量的绝大部分信息,通常表示为原始变量的线性组合

PCA数学原理:对数据进行正交线性变换,把原始数据变换到一个新的坐标系中,从而找到新坐标系的主成分,求解过程需要用到矩阵运算特征分解,关键步骤是如何寻找最大方差的方向

原变量之间可组成不同的线性组合,PCA尝试找到最佳的特征组合,PCA有两个目标:①尽可能找到最小的特征组合,即去除冗余的特征;②尽可能体现特征的差异,即让不同特征能明显区分——举例来说,随意挑选两个特征构建它们的散点图,如下图所示,图中每个点有两个特征,分别对应X轴和Y轴,在图中画一条直线,将所有点投影到这条线上就可以构建出一个新的特征(新的X轴)——它可以通过两个旧特征的线性组合来表示。

不仅如此,PCA还会根据两种不同的“最佳”标准找到最合适的新坐标系:①让数据投影在新坐标系上的点(新特征)尽量分散,即方差最大化;②让新特征与原来的两个特征的距离偏差最小,即误差最小化。当同时满足上述两点时,新的特征组合就找到了。

PCA去除了冗余信息,保留了最有可能重建原有特征的新特征,这些新特征更有区分度,数学表征上方差更大。所以PCA不仅可以实现降维,也可以作为提取有效特征(特征工程)的一种方法,在分析数据时尤为有用。

6、时间序列

时间序列是一组按照时间顺序记录的有序数据,对时间序列进行观察、研究、找寻变化规律,预测未来趋势,即为时间序列分析。时间序列属于统计学的一个分支,遵循统计学基本原理——利用观察数据估计总体的性质。但时间序列也有其特殊性,由于时间不可回退,也不可重复,使得时间序列分析拥有一套自成体系的分析方法。

常用的时间序列分析方法大致有两种!

第一种采用趋势拟合的方法,比如提取时间序列的各种趋势规律(如ARIMA(差分整合自回归移动平均)算法),或用各种不同的频率和幅度的波形叠加组合(如傅里叶变换、小波分析),还有前面的回归算法第二种采用特征提取的方法,比如使用统计方法、专家经验提取时间序列特征,将这些特征、原始时序数据、标签等输入人工神经网络进行训练,或使用具有上下文记忆功能的人工神经网络算法。并没有特定分析方案,需要根据实际的数据特点挑选算法,也可以多个算法结合使用。

下面详细展开一种常用方法,这种方法考察时间序列数据的趋势性周期性季节性以及剩余不规则变化(随机变动,也叫残差)。

趋势性可使用线性回归、指数曲线、多项式函数来描述

周期性是一种循环的变动,取决于一个系统内部影响因素的周期变化规律,表现为一段时间内数据呈现涨落相同、峰谷交替的循环变动!

③如果一些波动受季节影响,说它是一种季节性变化。许多销售数据或经济活动会收到季节的影响!

④剔除时间序列的趋势性、周期性、季节性,剩余的波动部分通常被归为不规则变化,它包含突然性变动随机性变动。随机性变动是数据以随机形式呈现出的变动(通常是无法解释的噪声);突然性变动可能由突发事件导致,表现为一些异常值。

模型构建:趋势性、周期性、季节性都可以用时间序列的相关算法构建具体的数学模型,这些模型叠加组合后的总体结果。叠加效果数学上通常有两种处理方法,①各个影响因素相互累加,如信息熵的计算,一个时间的信息熵是每个子事件信息熵之和——加法模型假定多个影响因素之间相互独立,互不影响;②各个影响因素的结果相乘,如概率的计算,事件发生的概率是每个子事件发生的概率之积——乘法模型假定各个因素之间会相互影响。乘法模型较为常用,加法和乘法也可混合使用。

:时间序列模型在解决实际问题时,序列必须满足特定的数据分布,或者具有平稳的时间序列特性,比如在剔除趋势数据后,时间序列不能与时间有依赖关系,数据波动的频率和幅度不能随时间变化等。如果不能满足检验要求,则无法通过模型求解。


三、无完美算法

没有一个算法可以在任何领域总是表现最佳,不存在普遍适用的最优算法。使用任何算法都必须要有与待解决问题相关的假设,一旦脱离具体问题,空谈算法毫无意义!

一个好的算法不在于它足够复杂,而在于它的逻辑简洁、清晰、设计优雅!你觉得算法复杂是因为所要解决的场景复杂!——算法是简洁和高度抽象的表达,场景才是复杂的

 往期精彩:

【AI底层逻辑】——篇章3(下):信息交换&信息加密解密&信息中的噪声

【AI底层逻辑】——篇章3(上):数据、信息与知识&香农信息论&信息熵

【机器学习】——续上:卷积神经网络(CNN)与参数训练

【AI底层逻辑】——篇章1&2:统计学与概率论&数据“陷阱”

【AI底层逻辑】——篇章5(上):机器学习算法之回归&分类

相关文章:

【AI底层逻辑】——篇章5(下):机器学习算法之聚类降维时间序列

续上: 目录 4、聚类 5、降维 6、时间序列 三、无完美算法 往期精彩: 4、聚类 聚类即把相似的东西归在一起,与分类不同的是,聚类要处理的是没有标签的数据集,它根据样本数据的分布特性自动进行归类。 人在认知是…...

P1980 [NOIP2013 普及组] 计数问题

[NOIP2013 普及组] 计数问题 题目描述 试计算在区间 1 1 1 到 n n n 的所有整数中,数字 x x x( 0 ≤ x ≤ 9 0\le x\le9 0≤x≤9)共出现了多少次?例如,在 1 1 1 到 11 11 11 中,即在 1 , 2 , 3 , 4…...

需求管理全过程流程图及各阶段核心关注点详解

分析报告指出,多达76%的项目失败是因为差劲的需求管理,这个是项目失败的最主要原因,比落后的技术、进度失控或者混乱的变更管理还要关键。很多项目往往在开始的时候已经决定了失败,谜底就在谜面上,开始就注定的失败&am…...

Android开源 自定义emoji键盘,EmojiPack v2.1版本

目录 一,简介 二、安装 添加jitpack 仓库 添加依赖: 混淆规则: 三、使用 1、一次性配置emoji显示处理 二、emoji的自定义键盘的使用 一,简介 EmojiPack当前已提供emoji的显示和emoji的选择自定义键盘,在emoji显示这一方面&#xff0…...

SOLIDWORKS软件的优势分析 硕迪科技

在现代的机械设计领域,SOLIDWORKS是一款备受青睐三维设计软件,它具备强大的建模和设计功能,在全球范围内广泛应用于机械设计和工程领域,为用户提供了全面的工程解决方案。本文就SOLIDWORKS的优势进行详细分析。 1、易于学习和使用…...

Android性能优化之游戏的Theme背景图

近期,对游戏的内存优化,通过内存快照发现,某个Activity的theme背景图 占用3M 多。考虑着手对齐进行优化。 问题 查看游戏中的内存快照,发现有一个图片bitmap 占用3M 多,设置在Activity的背景中: 查看Phon…...

网络安全(黑客)系统自学,成为一名白帽黑客

前言 黑客技能是一项非常复杂和专业的技能,需要广泛的计算机知识和网络安全知识。你可以参考下面一些学习步骤,系统自学网络安全。 在学习之前,要给自己定一个目标或者思考一下要达到一个什么样的水平,是学完找工作(…...

lua学习-2 常见运算符

文章目录 赋值运算符普通赋值多重赋值交换赋值 算数运算符常见符号标识 关系运算符常见符号标识TIP 逻辑运算符常见符号标识模拟三目运算 赋值运算符 普通赋值 a 1b "123"c truec "true"多重赋值 a,b 1,2 a,b,c 2,"ss" -- c的值为nil交换赋…...

【图像处理】使用 OpenCV 将您的照片变成卡通

图像到卡通 一、说明 在当今世界,我们被图像和视频所包围。从社交媒体到广告,图像已成为一种强大的交流媒介。但是你有没有想过,如果你能把你的照片变成卡通会发生什么?想象一下,为您最喜欢的照片创建动画版本&#xf…...

暖手宝UL认证 亚马逊UL测试报告 UL499测试项目

UL499测试内容:1、 漏电流测试 2、 输入测试 3、 潮态下漏电流测试4、正常温升测试 5、 耐高压测试 6、 稳定性测试7、异常测试(DRY)8、 异常测试  9、 静压及强度测试10、 烧熔断器测试、 电源线拉力测试11、 电源线推力测试12、 塑件变…...

ES6模块化与异步编程高级用法

1. ES6模块化 1.1 回顾:node.js 中如何实现模块化 node.js 遵循了 CommonJS 的模块化规范。其中: 导入其它模块使用 require() 方法模块对外共享成员使用 module.exports 对象 模块化的好处: 大家都遵守同样的模块化规范写代码&#xff0…...

spring-cloud-starter-gateway 4.0.6负载均衡失败

spring:application:name: gatewaycloud:gateway:routes:- id: memberuri: lb://memberpredicates:- Path/member/**需要引入下面负载均衡依赖否则503找不到服务 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-s…...

Tomcat注册为Windows服务

要将Tomcat注册为Windows服务&#xff0c;可以使用Tomcat提供的实用工具service.bat。以下是注册和配置Tomcat作为Windows服务的步骤&#xff1a; 打开命令提示符&#xff08;Command Prompt&#xff09;或 PowerShell&#xff0c;然后进入Tomcat安装目录的"bin"文件…...

【Maven】Maven 中 pom.xml 文件

文章目录 前言什么是 pom&#xff1f;pom配置一览 1. dependencies2.scope3.properties4.plugin参考 前言 Maven 是一个项目管理工具&#xff0c;可以对 Java 项目进行构建和管理依赖。 本文&#xff0c;我们认识下 pom.xml 文件。POM(Project Object Model&#xff0c; 项目…...

2、Linux驱动开发:模块_引用符号

目录 &#x1f345;点击这里查看所有博文 随着自己工作的进行&#xff0c;接触到的技术栈也越来越多。给我一个很直观的感受就是&#xff0c;某一项技术/经验在刚开始接触的时候都记得很清楚。往往过了几个月都会忘记的差不多了&#xff0c;只有经常会用到的东西才有可能真正记…...

Python web实战 | Docker+Nginx部署python Django Web项目详细步骤【干货】

概要 在这篇文章中&#xff0c;我将介绍如何使用 Docker 和 Nginx 部署 Django Web 项目。一步步讲解如何构建 Docker 镜像、如何编写 Docker Compose 文件和如何配置 Nginx。 1. Docker 构建 Django Web 项目 1.1 配置 Django 项目 在开始之前&#xff0c;我们需要有一个 D…...

【uniapp】实现买定离手小游戏

前言 最近玩了一个小游戏&#xff0c;感觉挺有意思&#xff0c;打算放进我的小程序【自动化小助手】里面&#xff0c;“三张押一张&#xff0c;专押花姑娘&#xff01;”&#xff0c;从三张卡牌&#xff0c;挑选一张&#xff0c;中奖后将奖励进行发放&#xff0c;并且创建下一…...

【vim 学习系列文章 3 - vim 选中、删除、复制、修改引号或括号内的内容】

文章目录 vim 快捷命令vim 操作符vim 文本对象vim 动作 上篇文章: vim 学习系列文章 2 - vim 常用插件配置 vim 快捷命令 Vim 有一个模块化的结构&#xff0c;允许你使用各种命令的组合操作。大多数命令有两个、三个或四个部分。三部分结构的一个版本是这样的&#xff1a;操作…...

webpack联邦模块介绍及在dumi中使用问题整理

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、ModuleFederationPlugin参数含义&#xff1f;二、如何在dumi中使用及问题整理1. 如何在dumi中使用(这个配置是好使的)2.相关问题整理2.1 问题12.2 问题2 总…...

记录一下Kotlin: Module was compiled with an incompatible version of Kotlin.的问题

我遇到的整个报错是这样的&#xff1a; Error:Kotlin: Module was compiled with an incompatible version of Kotlin. The binary version of its metadata is 1.7.1, expected version is 1.1.16. 大概意思就是不匹配&#xff0c;但是我这是个不太能随便改代码的项目&#x…...

Cursor实现用excel数据填充word模版的方法

cursor主页&#xff1a;https://www.cursor.com/ 任务目标&#xff1a;把excel格式的数据里的单元格&#xff0c;按照某一个固定模版填充到word中 文章目录 注意事项逐步生成程序1. 确定格式2. 调试程序 注意事项 直接给一个excel文件和最终呈现的word文件的示例&#xff0c;…...

Appium+python自动化(十六)- ADB命令

简介 Android 调试桥(adb)是多种用途的工具&#xff0c;该工具可以帮助你你管理设备或模拟器 的状态。 adb ( Android Debug Bridge)是一个通用命令行工具&#xff0c;其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利&#xff0c;如安装和调试…...

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

下面我将详细介绍如何使用HarmonyOS SDK在HarmonyOS 5中实现类似抖音的点赞功能&#xff0c;包括动画效果、数据同步和交互优化。 1. 基础点赞功能实现 1.1 创建数据模型 // VideoModel.ets export class VideoModel {id: string "";title: string ""…...

大数据零基础学习day1之环境准备和大数据初步理解

学习大数据会使用到多台Linux服务器。 一、环境准备 1、VMware 基于VMware构建Linux虚拟机 是大数据从业者或者IT从业者的必备技能之一也是成本低廉的方案 所以VMware虚拟机方案是必须要学习的。 &#xff08;1&#xff09;设置网关 打开VMware虚拟机&#xff0c;点击编辑…...

服务器硬防的应用场景都有哪些?

服务器硬防是指一种通过硬件设备层面的安全措施来防御服务器系统受到网络攻击的方式&#xff0c;避免服务器受到各种恶意攻击和网络威胁&#xff0c;那么&#xff0c;服务器硬防通常都会应用在哪些场景当中呢&#xff1f; 硬防服务器中一般会配备入侵检测系统和预防系统&#x…...

leetcodeSQL解题:3564. 季节性销售分析

leetcodeSQL解题&#xff1a;3564. 季节性销售分析 题目&#xff1a; 表&#xff1a;sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...

vue3+vite项目中使用.env文件环境变量方法

vue3vite项目中使用.env文件环境变量方法 .env文件作用命名规则常用的配置项示例使用方法注意事项在vite.config.js文件中读取环境变量方法 .env文件作用 .env 文件用于定义环境变量&#xff0c;这些变量可以在项目中通过 import.meta.env 进行访问。Vite 会自动加载这些环境变…...

Android Bitmap治理全解析:从加载优化到泄漏防控的全生命周期管理

引言 Bitmap&#xff08;位图&#xff09;是Android应用内存占用的“头号杀手”。一张1080P&#xff08;1920x1080&#xff09;的图片以ARGB_8888格式加载时&#xff0c;内存占用高达8MB&#xff08;192010804字节&#xff09;。据统计&#xff0c;超过60%的应用OOM崩溃与Bitm…...

七、数据库的完整性

七、数据库的完整性 主要内容 7.1 数据库的完整性概述 7.2 实体完整性 7.3 参照完整性 7.4 用户定义的完整性 7.5 触发器 7.6 SQL Server中数据库完整性的实现 7.7 小结 7.1 数据库的完整性概述 数据库完整性的含义 正确性 指数据的合法性 有效性 指数据是否属于所定…...

淘宝扭蛋机小程序系统开发:打造互动性强的购物平台

淘宝扭蛋机小程序系统的开发&#xff0c;旨在打造一个互动性强的购物平台&#xff0c;让用户在购物的同时&#xff0c;能够享受到更多的乐趣和惊喜。 淘宝扭蛋机小程序系统拥有丰富的互动功能。用户可以通过虚拟摇杆操作扭蛋机&#xff0c;实现旋转、抽拉等动作&#xff0c;增…...