当前位置: 首页 > news >正文

聚类(性能度量)

文章目录

  • 聚类(性能度量)
    • 外部指标
      • 例1
    • 内部指标
      • 例2

聚类(性能度量)

对数据集 D={x1,x2,...,xm}D=\{x_1,x_2,...,x_m\}D={x1,x2,...,xm} ,假定通过聚类给出的簇划分为 C={C1,C2,...,Ck}C=\{C_1,C_2,...,C_k\}C={C1,C2,...,Ck} ,参考模型给出的簇划分为 C∗={C1∗,C2∗,...,Cs∗}C^*=\{C_1^*,C_2^*,...,C_s^*\}C={C1,C2,...,Cs} ,相应的,令 λ\lambdaλλ∗\lambda^*λ 分别表示与 CCCC∗C^*C 对应的簇标记向量。我们将样本两两配对考虑,定义:
a=∣SS∣,SS={(xi,xj)∣λi=λj,λi∗=λj∗,i<j}b=∣SD∣,SS={(xi,xj)∣λi=λj,λi∗≠λj∗,i<j}c=∣DS∣,SS={(xi,xj)∣λi≠λj,λi∗=λj∗,i<j}d=∣DD∣,SS={(xi,xj)∣λi≠λj,λi∗≠λj∗,i<j}a=\vert SS \vert,\quad SS=\{(x_i,x_j) \quad| \quad \lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,i<j\} \\ b=\vert SD \vert,\quad SS=\{(x_i,x_j) \quad| \quad \lambda_i=\lambda_j,\lambda_i^* \neq \lambda_j^*,i<j\} \\ c=\vert DS \vert,\quad SS=\{(x_i,x_j) \quad| \quad \lambda_i \neq \lambda_j,\lambda_i^*=\lambda_j^*,i<j\} \\ d=\vert DD \vert,\quad SS=\{(x_i,x_j) \quad| \quad \lambda_i \neq \lambda_j,\lambda_i^* \neq \lambda_j^*,i<j\} a=SS,SS={(xi,xj)λi=λj,λi=λj,i<j}b=SD,SS={(xi,xj)λi=λj,λi=λj,i<j}c=DS,SS={(xi,xj)λi=λj,λi=λj,i<j}d=DD,SS={(xi,xj)λi=λj,λi=λj,i<j}

其中,集合 SSSSSS 包含了在 CCC 中隶属于相同簇且在 C∗C^*C 中也隶属于相同簇的样本对,…

由于每个样本对 (xi,xj)(i<j)(x_i,x_j)(i<j)(xi,xj)(i<j) 仅能出现在一个集合中,因此有下列式子成立:
a+b+c+d=m(m−1)2a+b+c+d=\frac {m(m-1)} {2} a+b+c+d=2m(m1)

外部指标

基于以上式子可导出下面这些常用的聚类性能度量外部指标:

  • Jaccard系数(Jaccard Coefficient,简称 JC)

JC=aa+b+cJC = \frac {a} {a+b+c} JC=a+b+ca

  • FM指数(Fowlkes and Mallows Index,简称 FMI)

FMI=aa+b⋅aa+cFMI = \sqrt{\frac {a} {a+b} \cdot \frac {a} {a+c}} FMI=a+baa+ca

  • Rand指数(Rand Index,简称 RI)

RI=a(a+d)m(m−1)RI = \frac {a(a+d)} {m(m-1)} RI=m(m1)a(a+d)

显然,上述性能度量的结果值均在 [0,1][0,1][0,1] 区间,值越大越好。

例1

聚类 CCC参考 C∗C^*C
C1:x1,x2,x3C_1:x_1,x_2,x_3C1:x1,x2,x3C1∗:x1,x2,x4C_1^*:x_1,x_2,x_4C1:x1,x2,x4
C2:x4,x5C_2:x_4,x_5C2:x4,x5C2∗:x3,x5C_2^*:x_3,x_5C2:x3,x5

a=∣SS∣=1(x1,x2)b=∣SD∣=3(x1,x3),(x2,x3),(x4,x5)c=∣DS∣=3(x1,x4),(x2,x4),(x3,x5)d=∣DD∣=3(x1,x5),(x2,x5),(x3,x4)\begin {aligned} a&=\vert SS \vert =1 \quad (x_1,x_2) \\ b&=\vert SD \vert =3 \quad (x_1,x_3),(x_2,x_3),(x_4,x_5) \\ c&=\vert DS \vert =3 \quad (x_1,x_4),(x_2,x_4),(x_3,x_5) \\ d&=\vert DD \vert =3 \quad (x_1,x_5),(x_2,x_5),(x_3,x_4) \end {aligned} abcd=SS=1(x1,x2)=SD=3(x1,x3),(x2,x3),(x4,x5)=DS=3(x1,x4),(x2,x4),(x3,x5)=DD=3(x1,x5),(x2,x5),(x3,x4)

JC=aa+b+c=11+3+3=17FMI=aa+b⋅aa+c=11+3⋅11+3=14RI=a(a+d)m(m−1)=RI=2(1+3)5(5−1)=25\begin {aligned} JC &= \frac {a} {a+b+c} = \frac {1} {1+3+3} = \frac {1} {7} \\ FMI &= \sqrt{\frac {a} {a+b} \cdot \frac {a} {a+c}} = \sqrt{\frac {1} {1+3} \cdot \frac {1} {1+3}} = \frac {1} {4} \\ RI &= \frac {a(a+d)} {m(m-1)} = RI = \frac {2(1+3)} {5(5-1)} = \frac {2} {5} \end {aligned} JCFMIRI=a+b+ca=1+3+31=71=a+baa+ca=1+311+31=41=m(m1)a(a+d)=RI=5(51)2(1+3)=52

内部指标

考虑聚类结果的簇划分为 C={C1,C2,...,Ck}C = \{C_1,C_2,...,C_k\}C={C1,C2,...,Ck} ,定义
avg(C)=2∣C∣(∣C∣−1)∑1≤i<j≤∣C∣dist(xi,xj)avg(C) = \frac {2} {\vert C \vert (\vert C \vert -1)} \sum_{1 \leq i < j \leq \vert C \vert} dist(x_i,x_j) avg(C)=C(C1)21i<jCdist(xi,xj)

其中,avg(C)avg(C)avg(C) 对应于簇 CCC 内样本间的平均距离,dist(⋅,⋅)dist(\cdot,\cdot)dist(,) 用于计算两个样本之间的距离。

diam(C)=max1≤i<j≤∣C∣dist(xi,xj)diam(C) = max_{1 \leq i < j \leq \vert C \vert} dist(x_i,x_j) diam(C)=max1i<jCdist(xi,xj)

diam(C)diam(C)diam(C) 对应于簇 CCC 内样本间的最远距离。

dmin(Ci,Cj)=minxi∈Ci,xj∈Cjdist(xi,xj)d_{min}(C_i,C_j) = min_{x_i \in C_i,x_j \in C_j} dist(x_i,x_j) dmin(Ci,Cj)=minxiCi,xjCjdist(xi,xj)

dmin(Ci,Cj)d_{min}(C_i,C_j)dmin(Ci,Cj) 对应于簇 CiC_iCi 和簇 CjC_jCj 最近样本间的距离。

dcen(Ci,Cj)=dist(μi,μj)d_{cen}(C_i,C_j) = dist(\mu_i,\mu_j) dcen(Ci,Cj)=dist(μi,μj)

dcen(Ci,Cj)d_{cen} (C_i,C_j)dcen(Ci,Cj) 对应于簇 CiC_iCi 和簇 CjC_jCj 中心点间的距离,μ\muμ 代表簇 CCC 的中心点 μ=1∣C∣∑1≤i≤∣C∣xi\mu = \frac {1} {\vert C \vert} \sum_{1 \leq i \leq \vert C \vert} x_iμ=C11iCxi

基于以上式子可导出下面这些常用的聚类性能度量内部指标:

  • DB指数(Davies-Bouldin Index,简称 DBI)

DBI=1k∑i=1kmax⁡j≠i(avg(Ci)+avg(Cj)dcen(Ci,Cj))DBI = \frac {1} {k} \sum_{i=1}^{k} \max \limits_{j \neq i}(\frac {avg(C_i) + avg(C_j)} {d_{cen}(C_i,C_j)}) DBI=k1i=1kj=imax(dcen(Ci,Cj)avg(Ci)+avg(Cj))

  • Dunn指数(Dunn Index,简称DI)

DI=min⁡1≤i≤kmin⁡j≠i(dmin(Ci,Cj)max1≤l≤kdiam(Cl))DI = \min \limits_{1 \leq i \leq k} \min \limits_{j \neq i}(\frac {d_{min}(C_i,C_j)} {max_{1 \leq l \leq k} diam(C_l)}) DI=1ikminj=imin(max1lkdiam(Cl)dmin(Ci,Cj))

显然,DBIDBIDBI 的值越小越好,而 DIDIDI 则相反,值越大越好。

例2

avg(C1)=23(3−1)⋅(∣x1−x2∣+∣x1−x3∣+∣x2−x3∣)avg(C2)=22(2−1)⋅(∣x4−x5∣)avg(C3)=22(2−1)⋅(∣x6−x7∣)\begin {aligned} avg(C_1) &= \frac {2} {3 (3 -1)} \cdot (\vert x_1-x_2 \vert + \vert x_1 - x_3 \vert + \vert x_2 - x_3 \vert) \\ avg(C_2) &= \frac {2} {2 (2 -1)} \cdot (\vert x_4-x_5 \vert) \\ avg(C_3) &= \frac {2} {2 (2 -1)} \cdot (\vert x_6-x_7 \vert) \end {aligned} avg(C1)avg(C2)avg(C3)=3(31)2(x1x2+x1x3+x2x3)=2(21)2(x4x5)=2(21)2(x6x7)

diam(C1)=∣x1−x3∣diam(C2)=∣x4−x5∣diam(C3)=∣x6−x7∣diam(C_1) = \vert x_1 - x_3 \vert \\ diam(C_2) = \vert x_4 - x_5 \vert \\ diam(C_3) = \vert x_6 - x_7 \vert diam(C1)=x1x3diam(C2)=x4x5diam(C3)=x6x7

dmin(C1,C2)=∣x3−x4∣dmin(C2,C3)=∣x5−x6∣dmin(C1,C3)=∣x3−x6∣d_{min}(C_1,C_2) = \vert x_3 - x_4 \vert \\ d_{min}(C_2,C_3) = \vert x_5 - x_6 \vert \\ d_{min}(C_1,C_3) = \vert x_3 - x_6 \vert dmin(C1,C2)=x3x4dmin(C2,C3)=x5x6dmin(C1,C3)=x3x6

μ1=x1+x2+x33μ2=x4+x52μ3=x6+x72\mu_1 = \frac {x_1 + x_2 + x_3} {3} \quad \mu_2 = \frac {x_4 + x_5} {2} \quad \mu_3 = \frac {x_6 + x_7} {2} μ1=3x1+x2+x3μ2=2x4+x5μ3=2x6+x7

dcen(C1,C2)=∣μ1−μ2∣dcen(C2,C3)=∣μ2−μ3∣dcen(C1,C3)=∣μ1−μ3∣d_{cen}(C_1,C_2) = \vert \mu_1-\mu_2 \vert \\ d_{cen}(C_2,C_3) = \vert \mu_2-\mu_3 \vert \\ d_{cen}(C_1,C_3) = \vert \mu_1-\mu_3 \vert dcen(C1,C2)=μ1μ2dcen(C2,C3)=μ2μ3dcen(C1,C3)=μ1μ3

相关文章:

聚类(性能度量)

文章目录聚类&#xff08;性能度量&#xff09;外部指标例1内部指标例2聚类&#xff08;性能度量&#xff09; 对数据集 D{x1,x2,...,xm}D\{x_1,x_2,...,x_m\}D{x1​,x2​,...,xm​} &#xff0c;假定通过聚类给出的簇划分为 C{C1,C2,...,Ck}C\{C_1,C_2,...,C_k\}C{C1​,C2​,…...

GPT-4——比GPT-3强100倍

GPT-4——比GPT-3强100倍 当前世界上最强大的人工智能系统当属ChatGPT。推出2个月用户数就突破1亿。ChatGPT是当下最炙手可热的话题&#xff0c;科技圈几乎人人都在讨论。这边ChatGPT的热度还在不断攀升&#xff0c;另一边来自《纽约时报》的最新报道称ChatGPT即将被自家超越&…...

echart中x轴数据过多时展示不全

项目中遇到需要展示一些柱状图&#xff0c;之前做相关功能时&#xff0c;横坐标x轴一直用的是时间&#xff0c;所以没有注意到这个问题。 如下图所示&#xff1a; 当x轴显示的是”人名“这种类型的值的时候&#xff0c;这种显示情况就有问题了&#xff0c;这样就不会知道&…...

关于GIS原理的实际分析应用题的一些解法

话不多说&#xff0c;看题.01 公园选址问题1题目请写出利用GIS技术进行公园选址的空间操作步骤。其中公园选址条件:1&#xff09;为了安静舒适&#xff0c;要求该园区离主要公路1公里以外&#xff0c;且交通方便&#xff0c;离主要公路3公里以内。2&#xff09;公园最好依附在大…...

混合精度训练,FP16加速训练,降低内存消耗

计算机中的浮点数表示&#xff0c;按照IEEE754可以分为三种&#xff0c;分别是半精度浮点数、单精度浮点数和双精度浮点数。三种格式的浮点数因占用的存储位数不同&#xff0c;能够表示的数据精度也不同。 Signed bit用于控制浮点数的正负&#xff0c;0表示正数&#xff0c;1表…...

每天五分钟机器学习:新的大规模的机器学习机制——在线学习机制

本文重点 本节课程我们将学习一种新的大规模的机器学习机制--在线学习机制。在线学习机制让我们可以模型化问题。在线学习算法指的是对数据流进行学习而非离线的静态数据集的学习。许多在线网站都有持续不断的用户流,对于每一个用户,网站希望能在不将数据存储到数据库中便顺…...

计算机组成原理错题

静态RAM&#xff08;SRAM&#xff09;和动态RAM&#xff08;DRAM&#xff09;的基本电路图不同&#xff0c;因此可以通过观察存储器的基本电路图来判断它属于哪一类。 静态RAM的基本电路图包括一个存储单元和一个数据选择器。每个存储单元由一个触发器&#xff08;flip-flop&a…...

数学基础整理

收纳一些天天忘的结论qwq 线性求逆元 invi(p−pi)invpmodiinv_i(p-\dfrac{p}{i})\times inv_{p\bmod i}invi​(p−ip​)invpmodi​ 卡特兰数 组合数公式&#xff1a;HnC2nn−C2nn−1H_nC_{2n}^n-C_{2n}^{n-1}Hn​C2nn​−C2nn−1​ 递推式&#xff1a;HnHn−1(4n−2)n1H_n\d…...

JavaWeb11-死锁

目录 1.死锁定义 1.1.代码演示 1.2.使用jconsole/jvisualvm/jmc查看死锁 ①使用jconsole&#xff1a;最简单。 ②使用jvisualvm&#xff1a;&#xff08;Java虚拟机&#xff09;更方便&#xff0c;更直观&#xff0c;更智能&#xff0c;更高级&#xff0c;是合适的选择。 …...

堆的概念和结构以及堆排序

前言 普通的二叉树是不适合用数组来存储的&#xff0c;因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结 构存储。现实中我们通常把堆(一种二叉树)使用顺序结构的数组来存储&#xff0c;需要注意的是这里的堆和操作系统 虚拟进程地址空间中的堆是两回事&#xff0c…...

【Linux学习笔记】1.Linux 简介及安装

前言 本章介绍Linux及其安装方法。 Linux 简介 Linux 内核最初只是由芬兰人林纳斯托瓦兹&#xff08;Linus Torvalds&#xff09;在赫尔辛基大学上学时出于个人爱好而编写的。 Linux 是一套免费使用和自由传播的类 Unix 操作系统&#xff0c;是一个基于 POSIX 和 UNIX 的多…...

代码练习2~

在一个二维数组中&#xff08;每个一维数组的长度相同&#xff09;&#xff0c;每一行都按照从左到右递增的顺序排序&#xff0c;每一列都按照从上到下递增的顺序排序。请完成一个函数&#xff0c;输入这样的一个二维数组和一个整数&#xff0c;判断数组中是否含有该整数。def …...

微信小程序 之 云开发

一、概念1. 传统开发模式2. 新开发模式 ( 云开发模式 )3. 传统、云开发的模式对比4. 传统、云开发的项目流程对比5. 云开发的定位1. 个人的项目或者想法&#xff0c;不想开发服务器&#xff0c;直接使用云开发2. 某些公司的小程序项目是使用云开发的&#xff0c;但是不多&#…...

程序员的三门课,学习成长笔记

最近是有了解到一本好书&#xff0c;叫做程序员的三门课在这本书的内容当中我也确实汲取到了很多前辈能够传达出来的很多关于程序员职业规划以及成长路线上的见解&#xff0c;令我受益匪浅&#xff0c;故此想要把阅读完的每一章节结合自己的工作经验做一个精细化的小结&#xf…...

[技术经理]01 程序员最优的成长之路是什么?

00前言 谈起程序员的职业规划&#xff0c;针对大部分的职场人士&#xff0c;最优的成长之路应该是走技术管理路线&#xff0c;而不是走技术专家路线。 01关键的一步 中国自古就有“学而优则仕”的传统&#xff0c;发展到今天&#xff0c;在我们的现代企业里面&#xff0c;尤…...

linux集群技术(三)--七层负载均衡-nginx

nginx特点nginx优势、缺点生产架构nginx 7层负载均衡语法示例nginx负载均衡算法测试案例生产案例 1.nginx特点 1. 功能强大,性能卓越,运行稳定。 2. 配置简单灵活。 3. 能够自动剔除工作不正常的后端服务器。 4. 上传文件使用异步模式。client---nginx---web1 web2 web3 lvs同…...

阿里云物联网平台设备模拟器

在使用阿里云物联网平台过程中&#xff0c;如果开始调试没有实际的物理设备&#xff0c;可以考虑在阿里云物联网平台使用官方自带的模拟器进行调试。不过也可以通过叶帆科技开发的阿里云物联网平台设备模拟器AliIoTSimulator进行调试&#xff0c;AliIoTSimulator可以独立运行&a…...

docker全解

目录说明docker简介为什么是docker容器与虚拟机比较容器发展简史传统虚拟机技术容器虚拟化技术docker能干什么带来技术职级的变化开发/运维&#xff08;Devops)新一代开发工程师Docker应用场景why docker&#xff1f;docker的优势docker和dockerHub官网Docker安装CentOS Docker…...

Vue3 基础

Vue3 基础 概述 Vue (发音为 /vjuː/&#xff0c;类似 view) 是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和 JavaScript 构建&#xff0c;并提供了一套声明式的、组件化的编程模型&#xff0c;帮助你高效地开发用户界面。无论是简单还是复杂的界面&…...

【Linux】冯.诺依曼体系结构与操作系统

环境&#xff1a;centos7.6&#xff0c;腾讯云服务器Linux文章都放在了专栏&#xff1a;【Linux】欢迎支持订阅&#x1f339;冯.诺依曼体系结构什么是冯诺依曼体系结构&#xff1f;我们如今的计算机比如笔记本&#xff0c;或者是服务器&#xff0c;基本上都遵循冯诺依曼体系结构…...

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API&#xff0c;用于在函数组件中使用 state 和其他 React 特性&#xff08;例如生命周期方法、context 等&#xff09;。Hooks 通过简洁的函数接口&#xff0c;解决了状态与 UI 的高度解耦&#xff0c;通过函数式编程范式实现更灵活 Rea…...

stm32G473的flash模式是单bank还是双bank?

今天突然有人stm32G473的flash模式是单bank还是双bank&#xff1f;由于时间太久&#xff0c;我真忘记了。搜搜发现&#xff0c;还真有人和我一样。见下面的链接&#xff1a;https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...

PPT|230页| 制造集团企业供应链端到端的数字化解决方案:从需求到结算的全链路业务闭环构建

制造业采购供应链管理是企业运营的核心环节&#xff0c;供应链协同管理在供应链上下游企业之间建立紧密的合作关系&#xff0c;通过信息共享、资源整合、业务协同等方式&#xff0c;实现供应链的全面管理和优化&#xff0c;提高供应链的效率和透明度&#xff0c;降低供应链的成…...

C++.OpenGL (10/64)基础光照(Basic Lighting)

基础光照(Basic Lighting) 冯氏光照模型(Phong Lighting Model) #mermaid-svg-GLdskXwWINxNGHso {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GLdskXwWINxNGHso .error-icon{fill:#552222;}#mermaid-svg-GLd…...

HTML前端开发:JavaScript 常用事件详解

作为前端开发的核心&#xff0c;JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例&#xff1a; 1. onclick - 点击事件 当元素被单击时触发&#xff08;左键点击&#xff09; button.onclick function() {alert("按钮被点击了&#xff01;&…...

今日科技热点速览

&#x1f525; 今日科技热点速览 &#x1f3ae; 任天堂Switch 2 正式发售 任天堂新一代游戏主机 Switch 2 今日正式上线发售&#xff0c;主打更强图形性能与沉浸式体验&#xff0c;支持多模态交互&#xff0c;受到全球玩家热捧 。 &#x1f916; 人工智能持续突破 DeepSeek-R1&…...

从面试角度回答Android中ContentProvider启动原理

Android中ContentProvider原理的面试角度解析&#xff0c;分为​​已启动​​和​​未启动​​两种场景&#xff1a; 一、ContentProvider已启动的情况 1. ​​核心流程​​ ​​触发条件​​&#xff1a;当其他组件&#xff08;如Activity、Service&#xff09;通过ContentR…...

Ubuntu Cursor升级成v1.0

0. 当前版本低 使用当前 Cursor v0.50时 GitHub Copilot Chat 打不开&#xff0c;快捷键也不好用&#xff0c;当看到 Cursor 升级后&#xff0c;还是蛮高兴的 1. 下载 Cursor 下载地址&#xff1a;https://www.cursor.com/cn/downloads 点击下载 Linux (x64) &#xff0c;…...

【java面试】微服务篇

【java面试】微服务篇 一、总体框架二、Springcloud&#xff08;一&#xff09;Springcloud五大组件&#xff08;二&#xff09;服务注册和发现1、Eureka2、Nacos &#xff08;三&#xff09;负载均衡1、Ribbon负载均衡流程2、Ribbon负载均衡策略3、自定义负载均衡策略4、总结 …...

学习 Hooks【Plan - June - Week 2】

一、React API React 提供了丰富的核心 API&#xff0c;用于创建组件、管理状态、处理副作用、优化性能等。本文档总结 React 常用的 API 方法和组件。 1. React 核心 API React.createElement(type, props, …children) 用于创建 React 元素&#xff0c;JSX 会被编译成该函数…...