当前位置: 首页 > news >正文

【机器学习西瓜书学习笔记——聚类】

机器学习西瓜书学习笔记【第九章】

  • 第九章 聚类
      • 9.1 聚类任务
      • 9.2 性能度量
        • 两类指标
      • 9.3距离计算
        • 基本性质
        • 属性
          • 有序属性
          • 无序属性
        • 混合距离
        • 加权距离
      • 9.4 原型聚类
        • K-MEANS聚类算法
          • 步骤
          • 优势
          • 劣势
        • 学习向量量化
        • 高斯混合聚类
          • 步骤
          • 难点
          • 例子
          • EM思想的体现
          • 小结
      • 9.5 密度聚类
      • 9.6 层次聚类

第九章 聚类

9.1 聚类任务

簇:给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。

9.2 性能度量

两类指标

外部指标:将聚类结果与某个"参考模 型" 进行比较

  • Jaccard 系数

  • FM指数

  • Rand指数

内部指标:直接考察聚类结果而不利用任何参考模型

  • DB指数

  • Dunn指数(DI)

9.3距离计算

基本性质

非负性

统一性

对称性

直递性

属性
有序属性
  • 欧氏距离:
  • 曼哈顿距离:
  • 切比雪夫距离:
无序属性

混合距离
加权距离

9.4 原型聚类

K-MEANS聚类算法
步骤

①我们选择一些类/组来使用并随机地初始化它们各自的中心点。

②每个数据点通过计算点和每个组中心之间的距离进行分类,然后将这个点分类为最接近它的组。

③基于这些分类点,我们通过取组中所有向量的均值来重新计算组中心。

④对一组迭代重复这些步骤。

优势

速度非常快

劣势

①必须选择有多少组/类。

②从随机选择的聚类中心开始,因此在不同的算法运行中可能产生不同的聚类结果。因此,结果可能是不可重复的,并且缺乏一致性。

学习向量量化

和 K-means 的不同:

  • 每个样例有类别标签,即 LVQ 是一种监督式学习;
  • 输出不是每个簇的划分,而是每个类别的原型向量;
  • 每个类别的原型向量不是简单的均值向量,考虑了附近非 / 同样例的影响。

高斯混合聚类
步骤
  1. 初始化 高斯混合成分的个数 k ,假设高斯混合分布模型参数 α(高斯混合系数) μ (均值) , Σ(协方差矩阵)
  2. 分别计算每个样本点的 后验概率 (该样本点属于每一个高斯模型的概率);
  3. 迭代 α μ , Σ;
  4. 重复第二步直到收敛。
难点
  • 后验概率 (该样本点属于每一个高斯模型的概率)的计算:
      • 上述公式由 7.18 相减化简而来
  • 怎样迭代 α μ , Σ;
    • α ——通过样本加权平均值来估计
    • Σ ——通过样本加权平均值来估计
    • μ ——由样本属于该成分的平均后验概率确定
例子

EM思想的体现

小结

9.5 密度聚类

密度聚类:根据样本分布的紧密程度确定。密度聚类算法从样本密度的角度考察样本之间的连接性,并基于可连接样本不断扩展聚类簇。

9.6 层次聚类

在不同层次对数据集进行划分,形成树形的聚类结构。

聚集策略:自底向上

分拆策略:自顶向下

相关文章:

【机器学习西瓜书学习笔记——聚类】

机器学习西瓜书学习笔记【第九章】 第九章 聚类9.1 聚类任务9.2 性能度量两类指标 9.3距离计算基本性质属性有序属性无序属性 混合距离加权距离 9.4 原型聚类K-MEANS聚类算法步骤优势劣势 学习向量量化高斯混合聚类步骤难点例子EM思想的体现小结 9.5 密度聚类9.6 层次聚类 第九…...

MATLAB(8)深度变化模型

一、前言 在MATLAB中模拟深度变化模型通常依赖于具体的应用场景,比如海洋深度、地下水深度、地形高度变化等。由于“深度变化”可以涉及多种物理过程和数学模型,我将提供一个简化的示例,该示例模拟了一个基于时间变化的深度变化模型&#xff…...

mp3格式转换器哪个好用?汇总七款音频格式转换方法(无损转换)

音乐已经成为我们生活中不可或缺的一部分。但是在播放的时候,可能会遇到音频格式不兼容的情况。特别是在一些下载站或音乐平台获取的音频,有些特殊格式在播放器上无法正常播放,一般这种情况我们需要借助mp3转换器解决。 mp3是一种常见的数字音…...

移行前的复盘:CodeCommit 的重要地位分析

前言 截至7月28日,关于AWS CodeCommit的现状如下: 现有账号的现有存储库可以继续使用CodeCommit,不受限制。之前未使用过CodeCommit的账号(或没有现有存储库的账号)无法创建新的存储库。 这并不意味着CodeCommit的服…...

Java中等题-括号生成(力扣)

数字 n 代表生成括号的对数,请你设计一个函数,用于能够生成所有可能的并且 有效的 括号组合。 示例 1: 输入:n 3 输出:["((()))","(()())","(())()","()(())","()()(…...

Flink 实时数仓(八)【DWS 层搭建(二)流量域、用户域、交易域搭建】

前言 今天的任务是完成流量域最后一个需求、用户域的两个需求以及交易域的部分需求; 1、流量域页面浏览各窗口汇总表 任务:从 Kafka 页面日志主题读取数据,统计当日的首页和商品详情页独立访客数。 注意:一般我们谈到访客&…...

gitlab-runner /var/run/docker.sock connect permission denied

usermod -aG docker gitlab-runner sudo service docker restart参考:https://gitlab.com/gitlab-org/gitlab-runner/-/issues/3492...

网络安全 - 应急响应检查表

前言 本项目旨在为应急响应提供全方位辅助,以便快速解决问题。结合自身经验和网络资料,形成检查清单,期待大家提供更多技巧,共同完善本项目。愿大家在应急之路一帆风顺。 图片皆来源于网络,如有侵权请联系删除。 一…...

AD常用PCB设计规则介绍 (详细版)

AD09常用PCB设计规则介绍 电气设计规则用来设置在电路板布线过程中所遵循的电气方面的规则,包括安全间距、短路、未布线网络和未连接引脚这四个方面的规则: (1)、安全间距规则(clearance) 该规则用于设定在PCB设计中&#xff0…...

mysql主从服务配置

主从MySQL服务器 [rootlocalhost ~]# yum -y install ntpdate [rootlocalhost ~]# ntpdate cn.ntp.org.cn [rootlocalhost ~]# yum -y install rsync [rootlocalhost ~]# vim mysql.sh #!/bin/bash yum list installed |grep libaio if [ $? ne 0 ]; then yum -y install…...

Redis基础总结、持久化、主从复制、哨兵模式、内存淘汰策略、缓存

文章目录 Redis 基础Redis 是什么,有哪些特点为什么要使用 Redis 而不仅仅依赖 MySQLRedis 是单线程吗Redis 单线程为什么还这么快 Redis 数据类型和数据结构五种基本数据结构及应用场景其他数据类型Redis 底层数据结构 Redis 持久化数据不丢失的实现AOF 日志RDB 快…...

Java与Python优劣势对比:具体例子与深入分析

在软件开发的世界里,Java和Python是两座不可忽视的高峰。它们各自拥有独特的优势和应用场景,为开发者提供了多样化的选择。本文将通过具体例子,深入分析Java和Python在不同方面的表现,以期为读者提供更为详尽的参考。 1. 语法简洁…...

C++内存泄漏介绍

C内存泄漏(Memory Leak)是指程序在运行过程中,动态分配的内存没有被适当地释放或回收,导致这部分内存始终被占用,无法再被程序或其他程序使用。这种情况通常发生在使用了new或malloc等函数动态分配内存后,忘…...

C++分析红黑树

目录 红黑树介绍 红黑树的性质与平衡控制关系 红黑树节点的插入 情况1:不需要调整 情况2:uncle节点为红色 情况3:uncle节点为黑色 总结与代码实现 红黑树的删除(待实现) 红黑树的效率 红黑树介绍 红黑树是第二种平衡二…...

mysql线上查询之前要性能调优

查询优化是数据库性能调优的关键方面,目的是减少查询的执行时间和资源消耗。以下是一些常见的查询优化技巧及其示例: 使用合适的索引 问题: 全表扫描导致查询缓慢优化: 为经常用于搜索条件的列添加索引示例: 假设有一…...

GPIO输出控制之LED闪烁、LED流水灯以及蜂鸣器应用案例

系列文章目录 STM32之GPIO(General Purpose Input/Output,通用型输入输出) 文章目录 系列文章目录前言一、LED和蜂鸣器简介1.1 LED1.2 蜂鸣器1.3 面包板 二、LED硬件电路2.1 低电平驱动电路2.2 高电平驱动电路 三、蜂鸣器硬件电路3.1 PNP型三…...

体系结构论文导读(三十四):Design of Reliable DNN Accelerator with Un-reliable ReRAM

文章核心 这篇文章主要讨论了一种在不可靠的ReRAM(阻变存储器)设备上设计可靠的深度神经网络(DNN)加速器的方法。文章提出了两种关键技术来解决ReRAM固有的不可靠性问题:动态定点(DFP)数据表示…...

WebStock会话

其实使用消息队列也可以实现会话&#xff0c;直接前端监听指定的队列&#xff0c;使用rabbitmq的分组还可以实现不同群聊的效果。 1、依赖搭建&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org…...

5_现有网络模型的使用

教程&#xff1a;现有网络模型的使用及修改_哔哩哔哩_bilibili 官方网址&#xff1a;https://pytorch.org/vision/stable/models.html#classification 初识网络模型 pytorch为我们提供了许多已经构造好的网络模型&#xff0c;我们只要将它们加载进来&#xff0c;就可以直接使…...

软件安全测试报告内容和作用简析,软件测试服务供应商推荐

在数字化时代&#xff0c;软件安全问题愈发凸显&#xff0c;安全测试显得尤为重要。软件安全测试报告是对软件系统在安全性方面进行评估和分析后的书面文件。该报告通常包含测试过程、测试发现、漏洞描述、风险评估及改进建议等重要信息。报告的目的是为了帮助开发团队及时发现…...

如何通过二进制补丁技术实现微信QQ消息防撤回功能

如何通过二进制补丁技术实现微信QQ消息防撤回功能 【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁&#xff08;我已经看到了&#xff0c;撤回也没用了&#xff09; 项目地址: https://gitcode.com/GitHub_Trendi…...

Mac外接显示器必看:从排列到亮度调节的完整避坑指南

Mac外接显示器完全指南&#xff1a;从基础设置到高阶调校 开篇&#xff1a;为什么你的Mac需要外接显示器&#xff1f; 作为一名长期使用MacBook Pro的深度用户&#xff0c;我清楚地记得第一次连接外接显示器时的困惑与惊喜。那块13英寸的Retina屏幕虽然精致&#xff0c;但在处理…...

《短剧平台商品详情页前端性能优化实战》

&#x1f3ad; 《短剧平台商品详情页前端性能优化实战》背景&#xff1a;短剧平台&#xff08;如 ReelShort、河马剧场等&#xff09;的商品详情页&#xff08;PDP&#xff09;本质是“内容即商品”。用户路径为&#xff1a;刷剧 → 遇到付费节点 → 购买整部剧/解锁单集。核心…...

WAN2.2文生视频+SDXL Prompt风格保姆级教程:零基础5分钟生成你的第一段AI视频

WAN2.2文生视频SDXL Prompt风格保姆级教程&#xff1a;零基础5分钟生成你的第一段AI视频 1. 教程目标与准备工作 1.1 你能学到什么 通过本教程&#xff0c;你将掌握&#xff1a; 如何在5分钟内完成WAN2.2文生视频环境的搭建使用中文提示词直接生成高质量视频的完整流程SDXL…...

Kettle8.2转换组件实战:利用增加序列实现Excel数据自动编号

1. 为什么需要给Excel数据自动编号&#xff1f; 每次处理Excel数据时&#xff0c;最头疼的就是要给每行数据加个序号。手动添加不仅效率低&#xff0c;还容易出错。上周我帮市场部处理3000多条客户数据&#xff0c;就因为手工编号搞错顺序&#xff0c;差点引发数据混乱。这时候…...

Kimi-VL-A3B-Thinking效果展示:同一张发票图,连续追问税额、日期、供应商等字段

Kimi-VL-A3B-Thinking效果展示&#xff1a;同一张发票图&#xff0c;连续追问税额、日期、供应商等字段 1. 模型效果惊艳展示 Kimi-VL-A3B-Thinking作为一款高效的多模态视觉语言模型&#xff0c;在处理复杂文档理解任务时展现出令人印象深刻的能力。我们将通过一张普通发票的…...

电商客服+导购智能体的设计与开发翁

这个代码的核心功能是&#xff1a;基于输入词的长度动态选择反义词示例&#xff0c;并调用大模型生成反义词&#xff0c;体现了 “动态少样本提示&#xff08;Dynamic Few-Shot Prompting&#xff09;” 与 “上下文长度感知的示例选择” 的能力。 from langchain.prompts impo…...

如何快速部署YaeAchievement:原神成就数据自动化导出终极指南

如何快速部署YaeAchievement&#xff1a;原神成就数据自动化导出终极指南 【免费下载链接】YaeAchievement 更快、更准的原神数据导出工具 项目地址: https://gitcode.com/gh_mirrors/ya/YaeAchievement YaeAchievement是一款专为《原神》玩家设计的开源成就数据导出工具…...

【Calcite 系列】深入理解 Calcite 的 AggregateRemoveRule

AggregateRemoveRule 用来删掉“其实已经没有必要存在”的 Aggregate。它成立的前提是&#xff1a;输入在当前 group key 上已经唯一&#xff0c;而且所有聚合调用都可以被化成单行表达式或常量。本文结合源码实现&#xff0c;分析这条规则为什么能把 SUM(x) 退化成 x&#xff…...

NotaGen AI音乐生成:5分钟快速部署,零基础创作古典音乐

NotaGen AI音乐生成&#xff1a;5分钟快速部署&#xff0c;零基础创作古典音乐 1. 从零开始部署NotaGen 1.1 环境准备 NotaGen已经预置在Docker镜像中&#xff0c;无需额外安装依赖。您只需要&#xff1a; 确保系统已安装Docker&#xff08;推荐版本20.10&#xff09;拥有至…...