当前位置: 首页 > news >正文

聚类笔记:HDBSCAN

1 算法介绍

  • DBSCAN/OPTICS+层次聚类
  • 主要由以下几步组成
    • 空间变换
    • 构建最小生成树
    • 构建聚类层次结构(聚类树)
    • 压缩聚类树
    • 提取簇

2  空间变换

  • 互达距离来表示两个样本点之间的距离
    • ——>密集区域的样本距离不受影响
    • ——>稀疏区域的样本点与其他样本点的距离被放大
    • ——>增加了HDBSCAN聚类算法对散点的鲁棒性
  • 空间变换的效果取决于ε的选择
    • 当ε较大的时候,核心距离会变大
    • ——>互达距离变化
    • ——>更多样本点被分配到稀疏区域(更多点被视为散点)

2.1 核心距离

  • 同OPTICS(算法笔记:OPTICS 聚类-CSDN博客)的核心距离

2.2 互达距离

  • 比如下图,蓝点和绿点的互达距离,就是绿点的核心距离(绿线)
  • 红点和绿点的互达距离,就是他们两个点之间的距离(黄线)

3 建立最小生成树

使用Prim算法生成最小生成树

NTU课程:MAS714(4):贪心-CSDN博客

4 构建聚类层次结构

  • 给定最小生成树,下一步是将其转换为图分裂的层次结构
  • 这里用逆向思维完成这件事
    • 第一步:将树中的所有边按照距离递增排序
    • 第二步:然后依次选取每条边,将边的链接的两个子图进行合并。(类似于层次聚类的思路)
  • 以下得到的树又称为聚类树

此时如果和层次聚类一样,设置一条distance的阈值

  • 我们就可以将红线下面最近的节点作为聚类的一个类,而红线上面的聚起来的都是散点。

但是这样得到的聚类结果,会有很多有很少量节点的簇

——>我们需要压缩聚类树

5 压缩聚类树

通过压缩聚类树,我们可以得到一棵拥有少量节点的聚类树

5.1 具体步骤

  • 1,确定最小簇的大小(HDBSCAN的一个参数)
  • 2,当最小簇大小确定了后,我们就可以自上而下遍历聚类树,并在每个节点分裂时:看分裂产生的两个样本子集的样本数是否大于最小簇大小
    • 如果左右儿子中有一个子结点的样本数少于最小族大小,我们就直间将该节点删除,并且另一个子节点保留父节点的身份
    • 如果两个子结点中的样本数都小于最小族大小,那么就将其两个子节点都删除,即当前节点不再向下分裂
    • 如果两个子结点中的样本数都大于最小族大小,那么我们进行正常分裂,即保持原聚类树不变。
    • (删除的点都是HDBSCAN视为的噪点)

6 提取簇

  • 从压缩的聚类树种提取聚类的簇
    • 为压缩聚类树的每个节点打上一个类标签
  • 提取簇的一个原则是:某个节点属于某一个簇,那么他的子节点都属于这个簇
  • 经过聚类树的压缩操作,树中已经没有了散点(散点在压缩聚类树的过程中已经被删除)
    • 现在的任务只是将较近的节点合并到一簇中去,使得最后选择的簇能够有更好的稳定性

6.1 聚类树节点稳定性

  • 首先定义一个λ,表示距离的倒数\lambda=\frac{1}{distance}
  • 对于树中的某个节点(一个节点里有一堆样本点)定义两个量:\lambda_{birth},\lambda_{death}
    • \lambda_{birth}:分裂产生当前节点时,对应断开边长度的倒数(分类当前节点的父节点)
    • \lambda_{death}:当前节点被分裂成两个子结点时,对应断开边长度的倒数。
    • 分裂父节点时,断开边长度肯定比分裂当前点的时候长,所以倒数正好反过来
      • 也即:\lambda_{birth}<\lambda_{death}
  • 之后的我就没看懂了。。。可以参考【机器学习】密度聚类算法之HDBSCAN_hdbscan速度慢-CSDN博客 r

如果有会的同学,欢迎赐教~

7  sklearn实现

class sklearn.cluster.HDBSCAN(min_cluster_size=5, min_samples=None, cluster_selection_epsilon=0.0, max_cluster_size=None, metric='euclidean', metric_params=None, alpha=1.0, algorithm='auto', leaf_size=40, n_jobs=None, cluster_selection_method='eom', allow_single_cluster=False, store_centers=None, copy=False)

7.1 主要参数

min_cluster_size一个群组中样本的最小数量,以便将该群组视为一个簇;小于此大小的群组将被视为噪声
min_samples一个点被视为核心点的邻域内的样本数量。这包括点本身。
cluster_selection_epsilon一个距离阈值。低于此值的簇将被合并
metric计算特征数组中实例之间距离时使用的度量。
algorithm

用于计算核心点距离的算法

{“auto”, “brute”, “kdtree”, “balltree”}

参考内容: 【机器学习】密度聚类算法之HDBSCAN_hdbscan速度慢-CSDN博客

相关文章:

聚类笔记:HDBSCAN

1 算法介绍 DBSCAN/OPTICS层次聚类主要由以下几步组成 空间变换构建最小生成树构建聚类层次结构(聚类树)压缩聚类树提取簇 2 空间变换 用互达距离来表示两个样本点之间的距离 ——>密集区域的样本距离不受影响——>稀疏区域的样本点与其他样本点的距离被放大——>…...

【Python】批量将PDG合成PDF,以及根据SS号重命名秒传的文件

目录 说明批量zip2pdf批量zip2pdf下载SS号重命名源代码SS号重命名源代码下载附录&#xff0c;水文年鉴 说明 1、zip2pdf是一个开源软件&#xff0c;支持自动化解压压缩包成PDG&#xff0c;PDG合成PDF&#xff0c;笔者在其基础上做了部分修改&#xff0c;支持批量转换。 2、秒…...

2023亚太杯数学建模A题思路 - 采果机器人的图像识别技术

# 1 赛题 问题A 采果机器人的图像识别技术 中国是世界上最大的苹果生产国&#xff0c;年产量约为3500万吨。与此同时&#xff0c;中国也是世 界上最大的苹果出口国&#xff0c;全球每两个苹果中就有一个&#xff0c;全球超过六分之一的苹果出口 自中国。中国提出了一带一路倡议…...

3、LeetCode之无重复字符的最长子串

给定一个字符串 s &#xff0c;请你找出其中不含有重复字符的 最长子串 的长度 输入: s "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是 "abc"&#xff0c;所以其长度为 3。转载&#xff1a; C常用语法——unordered_set 题目主要思想&#xff…...

CONDITIONS EVALUATION REPORT-解决方案

在启动SpringBoot项目时&#xff0c;提示一堆的Positive matches、Negative matches&#xff08;如下代码框&#xff09;,感觉像是报错了样。但用SpringBoot的Test类操作数据库的Insert是成功的。提示这些信息通过网上搜索主要讲配置类被Spring容器加载与被加载的说明。名词解释…...

计算机网络——路由

文章目录 1. 前言&#xff1a;2. 路由基础2.1. 路由的相关概念2.2. 路由的特征2.3. 路由的过程 3 路由协议3.1. 静态路由&#xff1a;3.2. 动态路由&#xff1a;3.2.1. 距离矢量协议3.2.2. OSPF协议&#xff1a;3.2.2.1.OSPF概述OSPF的工作原理路由计算功能特性 3.2.2.2.OSPF报…...

python+requests+pytest+allure自动化框架

1.核心库 requests request请求 openpyxl excel文件操作 loggin 日志 smtplib 发送邮件 configparser unittest.mock mock服务 2.目录结构 base utils testDatas conf testCases testReport logs 其他 2.1base base_path.py 存放绝对路径,dos命令或Jenkins执行…...

css3

基础 <!DOCTYPE html> <html><head><meta charset"utf-8"><title>style</title><!-- link&#xff08;外部样式&#xff09;和style&#xff08;内部样式&#xff09;优先级相同&#xff0c;重复写会覆盖 --><link re…...

超级应用平台(HAP)起航

各位明道云用户和伙伴&#xff0c; 今天&#xff0c;我们正式发布明道云10.0版本。从这个版本开始&#xff0c;我们将产品名称正式命名为超级应用平台&#xff08;Hyper Application Platform, 简称HAP&#xff09;。我们用“超级”二字表达产品在综合能力方面的突破&#xff…...

cocos2dx ​​Animate3D(二)

Twirl 扭曲旋转特效 // 持续时间(时间过后不会回到原来的样子) // 整个屏幕被分成几行几列 // 扭曲中心位置 // 扭曲的数量 // 振幅 static Twirl* create(float duration, const Size& gridSize, const Vec2& position, unsigned int twirls, float amplitude)…...

基于java技术的社区交易二手平台

基于java技术的社区交易二手平台的设计与实现 &#xff08;一&#xff09;开发背景 随着因特网的日益普及与发展&#xff0c;更多的人们开始通过因特网来寻求便利。但是&#xff0c;许多人都觉得网上商店里的东西不贵。所以&#xff0c;有些顾客宁愿去那些用二次定价建立起来的…...

(Matalb回归预测)GA-BP遗传算法优化BP神经网络的多维回归预测

目录 一、程序及算法内容介绍&#xff1a; 基本内容&#xff1a; 亮点与优势&#xff1a; 二、实际运行效果&#xff1a; 三、部分代码&#xff1a; 四、分享本文全部代码数据说明手册&#xff1a; 一、程序及算法内容介绍&#xff1a; 基本内容&#xff1a; 本代码基于M…...

【Docker】从零开始:10.registry搭建私有仓库

【Docker】从零开始&#xff1a;10.registry搭建私有仓库 为什么要使用私有仓库关于Docker Registry基于容器搭建registry私有仓库1.下载镜像2. 启动镜像3.修改系统配置文件4.下载ubuntu镜像&#xff0c;修改名称3.提交镜像4.查看镜像 本地搭建私有仓库(目前编译报错找不到包&a…...

树莓派上使用Nginx通过内网穿透实现无公网IP访问内网本地站点

前言 安装 Nginx&#xff08;发音为“engine-x”&#xff09;可以将您的树莓派变成一个强大的 Web 服务器&#xff0c;可以用于托管网站或 Web 应用程序。相比其他 Web 服务器&#xff0c;Nginx 的内存占用率非常低&#xff0c;可以在树莓派等资源受限的设备上运行。同时结合c…...

长征故事vr互动教育体验系统让师生感同身受

红色文化是贯穿于新民主主义革命、社会主义建设的各个时期&#xff0c;具有深厚的历史价值和文化内涵的先进文化&#xff0c;是高效、优质的教育资源。思政课vr红色数字展馆充分开发和大力弘扬红色文化资源&#xff0c;发挥其独特资源优势和教育功能&#xff0c;应用到教学中&a…...

汽车级芯片NCV7518MWATXG 可编程六沟道低压侧 MOSFET预驱动器 特点、参数及应用

NCV7518MWATXG 可编程六沟道低压侧 MOSFET 预驱动器属于 FLEXMOS™ 汽车级产品&#xff0c;用于驱动逻辑电平 MOSFET。该产品可通过串行 SPI 和并行输入组合控制。该器件提供 3.3 V/5 V 兼容输入&#xff0c;并且串行输出驱动器可以采用 3.3 V 或 5 V 供电。内部通电重置提供受…...

【分布式】小白看Ring算法 - 03

相关系列 【分布式】NCCL部署与测试 - 01 【分布式】入门级NCCL多机并行实践 - 02 【分布式】小白看Ring算法 - 03 【分布式】大模型分布式训练入门与实践 - 04 概述 NCCL&#xff08;NVIDIA Collective Communications Library&#xff09;是由NVIDIA开发的一种用于多GPU间…...

使用Git bash切换Gitee、GitHub多个Git账号

Git是分布式代码管理工具&#xff0c;使用命令行的方式提交commit、revert回滚代码。这里介绍使用Git bash软件来切换Gitee、GitHub账号。     假设在gitee.com上的邮箱是alicefoxmail.com 、用户名为alice&#xff1b;在github上的邮箱是bobfoxmail.com、用户名为bob。 账号…...

【RtpRtcp】1: webrtc m79:audio的ChannelReceive 创建并使用

m79中,RtpRtcp::Create 的调用很少 不知道谁负责创建ChannelReceiveclass ChannelReceive : public ChannelReceiveInterface,public MediaTransportAudioSinkInterface {接收编码后的音频帧:接收rtcp包:...

Ubuntu系统安装docker

1.检查是否安装老版本 检查卸载老版本docker ubuntu下自带了docker的库&#xff0c;不需要添加新的源。 但是ubuntu自带的docker版本太低&#xff0c;需要先卸载旧的再安装新的。 apt-get remove docker docker-engine docker.io containerd runc 如果不能正常卸载&#x…...

告别按键困扰:QKeyMapper游戏手柄映射工具让你的操作体验全面升级

告别按键困扰&#xff1a;QKeyMapper游戏手柄映射工具让你的操作体验全面升级 【免费下载链接】QKeyMapper [按键映射工具] QKeyMapper&#xff0c;Qt开发Win10&Win11可用&#xff0c;不修改注册表、不需重新启动系统&#xff0c;可立即生效和停止。支持游戏手柄映射到键鼠…...

特征选择子空间集成方法在高维数据中的应用与优化

1. 特征选择子空间集成方法概述在机器学习实践中&#xff0c;高维数据集的处理一直是个棘手问题。当特征数量远大于样本数量时&#xff0c;传统算法容易陷入维度灾难&#xff0c;导致模型过拟合、计算成本飙升等问题。我曾在金融风控项目中遇到过3000特征的征信数据集&#xff…...

HTC老机型救砖刷机指南:从官解到S-OFF,手把手带你绕过版本限制

HTC经典机型深度救砖指南&#xff1a;解锁、降级与固件自由之路 手里那台老HTC突然黑屏卡logo&#xff1f;升级后卡成幻灯片&#xff1f;或是单纯怀念当年那个丝滑流畅的Sense UI&#xff1f;别急着让它退休。作为曾经的刷机王者&#xff0c;HTC设备有着极强的可玩性——只要掌…...

电话号码精确定位系统:3分钟搭建免费查询平台的完整指南

电话号码精确定位系统&#xff1a;3分钟搭建免费查询平台的完整指南 【免费下载链接】location-to-phone-number This a project to search a location of a specified phone number, and locate the map to the phone number location. 项目地址: https://gitcode.com/gh_mi…...

将Kali_Linux系统安装到U盘—随身携带_即插即用

将Kali Linux系统安装到U盘—随身携带/即插即用 一、准备工作 1、系统ISO&#xff1a;Get Kali | Kali Linux 版本说明&#xff1a; everything&#xff1a;几乎包含kali系统中全部的渗透测试和安全的软件&#xff0c;大小约12G Kali 2023.4&#xff1a;这个就是发行的稳定版本…...

颠覆微信手动操作:wxauto自动化工具如何将客服响应时间从12分钟压缩到2分钟

颠覆微信手动操作&#xff1a;wxauto自动化工具如何将客服响应时间从12分钟压缩到2分钟 【免费下载链接】wxauto Windows版本微信客户端&#xff08;非网页版&#xff09;自动化&#xff0c;可实现简单的发送、接收微信消息&#xff0c;简单微信机器人 项目地址: https://git…...

LaTeX2Word-Equation:学术写作的公式迁移革命,3秒完成数学公式完美转换

LaTeX2Word-Equation&#xff1a;学术写作的公式迁移革命&#xff0c;3秒完成数学公式完美转换 【免费下载链接】LaTeX2Word-Equation Copy LaTeX Equations as Word Equations, a Chrome Extension 项目地址: https://gitcode.com/gh_mirrors/la/LaTeX2Word-Equation 还…...

15分钟搞定Ncorr 2D数字图像相关软件:材料力学位移测量的终极指南

15分钟搞定Ncorr 2D数字图像相关软件&#xff1a;材料力学位移测量的终极指南 【免费下载链接】ncorr_2D_matlab 2D Digital Image Correlation Matlab Software 项目地址: https://gitcode.com/gh_mirrors/nc/ncorr_2D_matlab 还在为复杂的数字图像相关软件安装而烦恼吗…...

ComfyUI ControlNet Aux终极指南:AI图像预处理功能完全解析

ComfyUI ControlNet Aux终极指南&#xff1a;AI图像预处理功能完全解析 【免费下载链接】comfyui_controlnet_aux ComfyUIs ControlNet Auxiliary Preprocessors 项目地址: https://gitcode.com/gh_mirrors/co/comfyui_controlnet_aux 想要在ComfyUI中实现精准的图像控制…...

QMCFLAC2MP3终极指南:如何快速将QQ音乐加密格式转换为通用MP3

QMCFLAC2MP3终极指南&#xff1a;如何快速将QQ音乐加密格式转换为通用MP3 【免费下载链接】qmcflac2mp3 直接将qmcflac文件转换成mp3文件&#xff0c;突破QQ音乐的格式限制 项目地址: https://gitcode.com/gh_mirrors/qm/qmcflac2mp3 QMCFLAC2MP3是一个专为解决QQ音乐格…...