当前位置: 首页 > news >正文

【非监督学习 | 聚类】聚类算法类别大全 距离度量单位大全

在这里插入图片描述

🤵‍♂️ 个人主页: @AI_magician
📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。
👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍
🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能&硬件(虽然硬件还没开始玩,但一直很感兴趣!希望大佬带带)

在这里插入图片描述

【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一)
作者: 计算机魔术师
版本: 1.0 ( 2023.8.27 )

摘要: 本系列旨在普及那些深度学习路上必经的核心概念,文章内容都是博主用心学习收集所写,欢迎大家三联支持!本系列会一直更新,核心概念系列会一直更新!欢迎大家订阅

该文章收录专栏
[✨— 《深入解析机器学习:从原理到应用的全面指南》 —✨]

聚类算法

聚类算法是一种无监督学习的机器学习算法,用于将数据集中的样本划分为具有相特征的组或簇。其目标划分的原则是组内(内部)距离最小化,而组间(外部)距离最大化。在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体,并且概括出每一类消费者的消费模式或消费习惯。同时,聚类分析也可以作为数据分析算法中其他分析算法的一个预处理步骤,如异常值识别、连续型特征离散化等。

以下是基于不同方法的算法类别表

算法类别包括的主要算法优缺点分析
划分(分裂)方法K-Means算法(K-平均),K-MEDOIDS算法(K-中心点)和CLARANS算法(基于选择的算法)。优点:简单且易于实现,对处理大数据集和高维数据具有良好的可扩展性。缺点:对初始聚类中心的选择敏感,可能收敛到局部最优解,对异常值和噪声敏感。
层次分析方法BIRCH算法(平衡迭代规约和聚类),CURE算法(代表点聚类)和CHAMELEON算法(动态模型)。优点:可以自动发现任意形状和大小的聚类,不需要预先指定聚类个数。缺点:对于大数据集,计算成本较高,可能受到噪声和异常点的干扰。
基于密度的方法DBSCAN算法(基于高密度连接区域),DENCLUE算法(密度分布函数)和OPTICS算法(对象排序识别)。优点:能够发现任意形状的聚类,对噪声和异常值具有较好的鲁棒性。缺点:对于高维数据和具有不同密度聚类的数据集效果较差,需要事先指定一些参数。
基于网格的方法STING算法(统计信息网络),CLIOUE算法(聚类高维空间)和WAVE-CLUSTER算法(小波变换)。优点:对于高维数据和大规模数据集有良好的可扩展性,能够处理不同形状和大小的聚类。缺点:对初始网格的选择敏感,可能受到数据分布的影响。

以下是常用的聚类算法,

聚类算法模型所需参数适用范围距离度量优缺点
K-means簇的数量数值型数据欧几里德距离优点:简单易实现,计算效率高;缺点:对初始聚类中心敏感,不适用于非凸形状的簇
层次聚类(Hierarchical Clustering)距离或相似度的度量方法数值型或类别型数据可选多种距离度量方法,如欧几里德距离、曼哈顿距离等优点:不需要预先指定簇的数量,可用于发现任意形状的簇;缺点:计算复杂度高,不适用于处理大规模数据
DBSCAN邻域半径(epsilon)和最小邻域样本数(min_samples)数值型或类别型数据基于密度的距离度量优点:能够发现任意形状的簇,对初始聚类中心不敏感;缺点:对参数的选择敏感,不适用于高维数据
密度聚类(Density-Based Clustering)邻域密度阈值数值型或类别型数据基于密度的距离度量优点:对噪声数据和离群点具有较好的鲁棒性;缺点:对参数的选择敏感
局部离群因子(Local Outlier Factor,LOF)邻域大小(k)数值型或类别型数据基于密度的距离度量优点:能够检测出离群点和数据集中的聚类结构;缺点:对数据集中的局部结构敏感
高斯混合模型(Gaussian Mixture Model,GMM)簇的数量数值型数据基于概率模型的距离度量优点:能够对数据进行软聚类,灵活性高;缺点:对初始聚类中心敏感,计算复杂度高

以下是常用的聚类中的距离度量算法及其介绍,以及相应的优缺点分析:

名称介绍优缺点分析
欧氏距离(Euclidean Distance)欧氏距离是最常用的距离度量算法之一,它衡量两个向量之间的直线距离。在欧氏空间中,两个向量的欧氏距离等于它们各个维度差值的平方和的开方。优点:简单直观,易于理解和计算。缺点:对异常值敏感,受维度灾难影响。
曼哈顿距离(Manhattan Distance)曼哈顿距离衡量两个向量之间沿坐标轴的总距离。在二维空间中,曼哈顿距离等于两个点横坐标差的绝对值加上纵坐标差的绝对值。优点:对异常值不敏感,适用于稀疏数据。缺点:不考虑维度之间的相关性。
切比雪夫距离(Chebyshev Distance)切比雪夫距离是衡量两个向量之间的最大维度差值。在二维空间中,切比雪夫距离等于两个点横坐标差的最大绝对值和纵坐标差的最大绝对值中的较大值。优点:对异常值不敏感,适用于稀疏数据。缺点:不考虑维度之间的相关性。
闵可夫斯基距离(Minkowski Distance)闵可夫斯基距离是欧氏距离和曼哈顿距离的一种推广,它通过参数p来控制距离的计算方式。当p=1时,闵可夫斯基距离等同于曼哈顿距离;当p=2时,等同于欧氏距离。优点:灵活性强,可以根据需求选择不同的参数p。缺点:对于参数p的选择较为敏感。
马氏距离(Mahalanobis Distance)马氏距离考虑了数据集的协方差矩阵,通过将数据映射到一个空间中,使得在该空间中的欧氏距离与原始空间中的马氏距离等价。马氏距离可以解决特征之间的相关性和尺度不同的问题。优点:考虑了特征之间的相关性,适用于高维数据。缺点:需要估计协方差矩阵,计算复杂度较高。
皮尔逊相关系数(Pearson Correlation Coefficient)皮尔逊相关系数衡量两个向量之间的线性相关性。它的取值范围在-1到1之间,其中-1表示完全负相关,1表示完全正相关,0表示无相关性。优点:可以衡量线性相关性,不受尺度变换影响。缺点:只能衡量线性相关性,对于非线性关系不敏感。
余弦相似度(Cosine Similarity)余弦相似度衡量两个向量之间的夹角余弦。它通过计算两个向量的内积除以它们的模的乘积来衡量相似度。余弦相似度的取值范围在-1到1之间,其中1表示完全相似,-1表示完全相反,0表示无相似性。优点:对于稀疏向量计算高效,不受维度灾难影响。缺点:不考虑维度之间的差异。

其中大部分算法都可以通过sklearn 库进行实现.

在这里插入图片描述

						  🤞到这里,如果还有什么疑问🤞🎩欢迎私信博主问题哦,博主会尽自己能力为你解答疑惑的!🎩🥳如果对你有帮助,你的赞是对博主最大的支持!!🥳

相关文章:

【非监督学习 | 聚类】聚类算法类别大全 距离度量单位大全

🤵‍♂️ 个人主页: AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!&…...

案例026:基于微信的原创音乐小程序的设计与实现

文末获取源码 开发语言:Java 框架:SSM JDK版本:JDK1.8 数据库:mysql 5.7 开发软件:eclipse/myeclipse/idea Maven包:Maven3.5.4 小程序框架:uniapp 小程序开发软件:HBuilder X 小程序…...

网络运维与网络安全 学习笔记2023.11.26

网络运维与网络安全 学习笔记 第二十七天 今日目标 NAT场景与原理、静态NAT、动态NAT PAT原理与配置、动态PAT之EasyIP、静态PAT之NAT Server NAT场景与原理 项目背景 为节省IP地址和费用,企业内网使用的都是“私有IP地址” Internet网络的组成设备&#xff0c…...

STM32使用多路PWM注意事项

这是使用CubeMX自动产生的代码,使用TIM2产生了PA0,PA1,PA2,PA3这4路PWM,可以看到里面Pulse是共同使用了一个sConfigOC,如果是需要动态调整Pulse,就需要特别注意。 如果是用来产生呼吸灯,就会把这4个PWM都打乱,我觉得&a…...

汽车转向桥设计转向节转向桥机械设计

wx供重浩:创享日记 对话框发送:转向桥 获取完整报告说明书工程源文件 转向节图 装配图 本文设计的是JY1061A型采用前置后轮驱动的载货汽车转向桥,因此该转向桥为从动桥。从动桥的功用:从动桥也称非驱动桥,又称从动车轴…...

前端实现埋点

前端实现埋点 如何去了解用户呢?最直接有效的方式就是了解用户的行为,了解用户在网站中做了什么,呆了多久。而如何去实现这一操作,这就涉及到我们前端的埋点了。 埋点方式 什么是埋点? 所谓埋点是数据采集领域&…...

Apache多后缀解析漏洞分析

漏洞介绍 该漏洞与用户的配置有密切的关系,严格来说属于用户配置问题。Apache文件解析漏洞涉及到 Apache 解析文件的特性。在默认情况下,Apache 允许一个文件具有多个以点分割的后缀,在处理文件时会从右向左识别后缀名。(就是右边的后缀名无法识别,则继续识别左边的) 如果…...

基于Loki + Promtail + Grafana 搭建 Nginx 日志监控

文章目录 引言第一部分:Loki 简介与安装1.1 Loki 简介1.2 Loki 安装1.2.1 下载 Loki1.2.2 安装 Loki 1.3 启动 Loki 第二部分:Promtail 简介与安装2.1 Promtail 简介2.2 Promtail 安装2.2.1 下载 Promtail2.2.2 安装 Promtail 2.3 启动 Promtail 第三部分…...

车载通信架构 —— 传统车内通信网络CAN(可靠性为王)

车载通信架构 —— 传统车内通信网络CAN(可靠性为王) 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非…...

visual Studio MFC 绘制单一颜色三角形、渐变颜色边框三角形、渐变填充三角形、边框渐变的正方形与填充渐变的正方形实例

MFC 绘制三角形 本文使用visual Studio MFC 平台实现绘制单一颜色三角形、渐变颜色边框三角形、渐变填充三角形、边框渐变的正方形与填充渐变的正方形. 关于基础工程的创建请参考Visual Studio 使用MFC 单文档工程绘制单一颜色直线和绘制渐变颜色的直线 文章目录 MFC 绘制三角形…...

嵌入式八股 | 笔试面试 | 校招秋招 | 题目精选

嵌入式八股精华版1.0所有216道题目如下: 欢迎关注微信公众号【赛博二哈】并加入嵌入式求职交流群。提供简历模板、学习路线、岗位整理等 欢迎加入知识星球【嵌入式求职星球】获取完整嵌入式八股。 提供简历修改、项目推荐、求职规划答疑。另有各城市、公…...

力扣:180. 连续出现的数字(Python3)

题目: 表:Logs ---------------------- | Column Name | Type | ---------------------- | id | int | | num | varchar | ---------------------- 在 SQL 中,id 是该表的主键。 id 是一个自增列。 找出所有至少连续…...

【Python篇】详细讲解正则表达式

文章目录 🌹什么是正则表达式🍔语法字符类别重复次数组合模式 ✨例子 🌹什么是正则表达式 正则表达式(Regular Expression),简称为正则或正则表达式,是一种用于匹配、查找和操作文本字符串的工…...

Linux系统分区和挂载超过2T的硬盘

报错信息:DOS partition table format cannot be used on drives for volumes larger than 2199023255040 bytes for 512-byte sectors. Use GUID partition table format (GPT). 转载:Ubuntu(Linux)系统安装扩展硬盘并完成格式化及挂载 - 知乎...

Vue19 列表过滤

直接上代码 以下代码使用了两种实现方式&#xff0c;监视属性和计算属性 当能用计算属性实现时&#xff0c;推荐使用计算属性 <!DOCTYPE html> <html><head><meta charset"UTF-8" /><title>列表过滤</title><script type&q…...

【一起来学kubernetes】7、k8s中的ingress详解

引言配置示例负载均衡的实现负载均衡策略实现模式实现方案Nginx类型Ingress实现Treafik类型Ingress实现HAProxy类型ingress实现Istio类型ingress实现APISIX类型ingress实现 更多 引言 Ingress是Kubernetes集群中的一种资源类型&#xff0c;用于实现用域名的方式访问Kubernetes…...

[Java] 阿里一面~说一下ArrayList 与 LinkedList 区别

文章目录 是否保证线程安全底层数据结构插入和删除是否受元素位置的影响是否支持快速随机访问内存空间占用&#xff1a; 是否保证线程安全 ArrayList 和 LinkedList 都是不同步的&#xff0c;也就是不保证线程安全&#xff1b; 底层数据结构 ● ArrayList 底层使用的是 Obje…...

凸包问题的GRAHAM-SCAN解法 open3d c++ 代码

使用了Open3D库进行点云处理和可视化。下面是代码的大致解释: 引入必要的头文件和命名空间: 定义了三个函数: ComputeTriangleDirArea:计算带符号三角形的面积。Compute2Ddistance:计算两点之间的平面距离。GetConvexHullByGrahamScan:通过Graham Scan方法计算凸包点集。…...

从微软Cosmos DB浅谈一致性模型

最近回顾了微软的Cosmos DB的提供一致性级别&#xff0c;重新整理下一致性模型的相关内容。 0. Cosmos DB Cosmos DB&#xff08;Azure Cosmos DB&#xff09;是由微软推出的一个支持多模型、多 API 的全球分布式数据库服务。它旨在提供高度可扩展性、低延迟、强一致性和全球…...

spring-webmvc练习-日程管理-访问后端展示列表数据

1、util/request.js import axios from "axios";let request axios.create({baseURL: "http://localhost:8080",timeout: 50000 });export default request 2、api/schedule.js import request from "../util/request.js";export let getSchedu…...

基于STM32LXXX的数字电位器(AD5160BRJZ5-RL7)驱动应用程序设计

一、简介: AD5160BRJZ5-RL7 是 ADI 推出的一款 256 位、SPI 接口数字电位器,采用 SOT-23-8 封装,阻值为 5kΩ,非常适合用于需要精确电阻调节的电路设计。 二、主要技术特性: 基本规格:单通道、256 抽头位置、端到端电阻 5kΩ(另有 10kΩ/50kΩ/100kΩ 版本),20% 电阻…...

第8章 流程控制-8.3 循环结构

循环结构就是让程序不断地重复执行同一段代码。Python中的循环结构有3种&#xff0c;分别是while循环、for循环和循环嵌套。8.3.1 while循环while循环可以通过while语句和while…else语句实现。1.while语句while语句首先会判断其条件表达式是否成立&#xff0c;如果条件表达式成…...

012.整体框架适配SDRAM|千篇笔记实现嵌入式全栈/裸机篇

⚠️裸机仓库&#xff1a;https://gitee.com/simonchina_carel_li/mini2440-bare-metal.git ⚠️Tag: 11-sdram-apply 1. 这次要做什么&#xff1f; 我们已经完成了sdram的初始化&#xff0c;现在sdram已经可以使用了 我们之前的固件&#xff0c;栈空间是跑在SOC内置的4KB的S…...

【仅限首批200位工程师开放】工业PHP网关配置诊断工具包(含自动巡检脚本+配置熵值评分模型+整改优先级热力图)

第一章&#xff1a;工业PHP网关配置的演进与工程挑战工业级PHP网关已从早期的简单NginxPHP-FPM反向代理&#xff0c;演进为集路由分发、协议转换、熔断限流、可观测性注入于一体的复合中间件层。这一演进在提升系统弹性的同时&#xff0c;也带来了配置复杂度指数级上升、多环境…...

番茄小说下载器完整使用指南:免费下载保存任何小说

番茄小说下载器完整使用指南&#xff1a;免费下载保存任何小说 【免费下载链接】fanqienovel-downloader 下载番茄小说 项目地址: https://gitcode.com/gh_mirrors/fa/fanqienovel-downloader 番茄小说下载器是一款功能强大的开源工具&#xff0c;专门用于批量下载和保存…...

3分钟掌握MouseJiggler:告别屏幕锁定的终极效率指南

3分钟掌握MouseJiggler&#xff1a;告别屏幕锁定的终极效率指南 【免费下载链接】mousejiggler Mouse Jiggler is a very simple piece of software whose sole function is to "fake" mouse input to Windows, and jiggle the mouse pointer back and forth. 项目…...

SL3040兼容MP2494 4.5-80V宽电压输入,1.5A输出电流

在电力电子领域&#xff0c;DC-DC转换器作为能量转换与管理的核心组件&#xff0c;其性能直接影响到系统的稳定性与效率。SL3040作为一款集成了功率MOSFET的降压型开关稳压器&#xff0c;凭借其卓越的性能和广泛的应用场景&#xff0c;成为了众多工程师在设计高电压功率转换系统…...

构建企业级统一认证中心:Spring Boot OAuth2 Server 的架构实践与深度解析

构建企业级统一认证中心&#xff1a;Spring Boot OAuth2 Server 的架构实践与深度解析 【免费下载链接】oauth2-server spring boot (springboot 3) oauth2 server sso 单点登录 认证中心 JWT,独立部署,用户管理 客户端管理 项目地址: https://gitcode.com/gh_mirrors/oau/oa…...

OpenClaw+Qwen3-14B数据安全方案:敏感文件本地自动化处理

OpenClawQwen3-14B数据安全方案&#xff1a;敏感文件本地自动化处理 1. 为什么需要本地化的数据安全方案 去年我在处理公司季度财报时遇到一个棘手问题&#xff1a;需要将几十份PDF报表中的关键数据提取出来做交叉分析&#xff0c;但内容涉及商业机密&#xff0c;不敢直接上传…...

C语言指针精讲:从内存寻址到实战避坑指南

1. 指针的本质&#xff1a;内存地址的身份证 第一次接触指针时&#xff0c;我盯着代码里的星号和小箭头符号发呆了半小时。直到把内存想象成快递柜&#xff0c;才突然开窍——每个快递柜都有唯一编号&#xff0c;指针就是那个编号。当你声明int* p时&#xff0c;相当于申请了一…...