当前位置：首页 > news >正文

机器学习：关联规则：Apriori算法、FP - Growth算法的原理、应用场景及优缺点介绍

news 2026/2/10 22:06:41

一、关联规则算法概述

关联规则挖掘是数据挖掘中的一个重要任务，用于发现数据集中不同项之间的关联关系。

二、Apriori算法

原理
- 频繁项集生成：Apriori算法基于一个先验原理，即如果一个项集是频繁的，那么它的所有子集也是频繁的；反之，如果一个项集是非频繁的，那么它的所有超集也是非频繁的。首先，扫描数据集，统计每个单项（1 - 项集）的出现次数，找出满足最小支持度阈值的频繁1 - 项集。然后，通过频繁 $k - 1$ - 项集来生成候选 $k$ - 项集，再扫描数据集计算候选 $k$ - 项集的支持度，筛选出频繁 $k$ - 项集。这个过程不断迭代，直到不能生成新的频繁项集为止。
- 关联规则生成：对于每个频繁项集 $L$ ，生成所有可能的非空子集。对于每个非空子集 $A$ ，计算关联规则 $A\Rightarrow B$ （其中 $B = L - A$ ）的置信度，置信度计算公式为：
  $Confidence(A\Rightarrow B)=\frac{Support(A\cup B)}{Support(A)}$
  只保留满足最小置信度阈值的关联规则。
应用场景
- 超市购物篮分析。例如，分析顾客购买商品的行为，发现“购买牛奶和面包的顾客也经常购买鸡蛋”这样的关联规则，用于商品陈列优化和促销策略制定。
优点
- 简单易懂，是关联规则挖掘的经典算法。原理和实现相对直观，容易理解和应用。
- 能够有效地减少候选项集的数量。通过先验原理，避免了对大量不可能是频繁项集的候选项集进行计算，提高了效率。
缺点
- 在生成频繁项集时需要多次扫描数据集。当数据集很大时，频繁的I/O操作会导致性能下降。
- 可能会生成大量的候选项集，尤其是当最小支持度阈值设置较低时，计算和存储这些候选项集会消耗大量的资源。

三、FP - Growth算法

原理
- 构建FP - Tree：FP - Growth（频繁模式增长）算法首先构建一棵FP - Tree（频繁模式树）。扫描数据集一次，统计每个项的出现频率，按照频率降序排列所有项。然后再次扫描数据集，将每个事务中的项按照排好的顺序插入FP - Tree中。在插入过程中，如果树中已经存在当前项的路径，则更新路径上节点的计数；否则，创建新的分支。
- 挖掘频繁项集：从FP - Tree的头表（存储每个项及其出现次数和指向树中第一个相同项的指针）开始，通过递归的方式挖掘频繁项集。对于每个项，找到它在FP - Tree中的所有路径，根据路径构建条件模式基，然后从条件模式基构建条件FP - Tree，在条件FP - Tree上继续挖掘频繁项集。这个过程类似于FP - Tree的构建和挖掘，直到不能挖掘出新的频繁项集为止。
应用场景
- 同样适用于购物篮分析，能够更高效地处理大规模数据集，挖掘商品之间的关联关系。例如在大型连锁超市的销售数据挖掘中，发现不同商品类别之间的关联。
优点
- 只需要扫描数据集两次，相比Apriori算法大大减少了I/O开销。一次用于构建FP - Tree，另一次用于挖掘频繁项集（在挖掘过程中通过条件FP - Tree避免了对原始数据集的多次扫描）。
- 对于挖掘长频繁模式和密集数据集更有效。它能够利用FP - Tree的结构，快速地找到频繁项集，不会像Apriori算法那样生成大量的候选项集。
缺点
- 构建FP - Tree需要占用大量的内存空间，尤其是当数据集很大或者数据项很多时，内存消耗可能会成为瓶颈。
- 算法实现相对复杂，理解和实现FP - Tree的构建和挖掘过程需要一定的技术难度。

四、Eclat算法

原理
- Eclat算法基于集合的交集运算来挖掘频繁项集。它使用垂直数据表示，即将每个项的事务标识符（TID）列表存储起来。对于两个项集 $A$ 和 $B$ ，它们的交集的事务标识符列表就是同时包含 $A$ 和 $B$ 的事务集合。
- 频繁项集的支持度计算方式为：
  $Support(A)=\frac{|TID(A)|}{|D|}$
  其中 $T I D (A)$ 是项集 $A$ 的事务标识符列表， $∣ D ∣$ 是数据集 $D$ 的事务总数。通过递归地计算项集的交集来生成频繁项集。从单个项开始，计算它们之间的交集和支持度，找到频繁1 - 项集。然后通过频繁 $k - 1$ - 项集之间的交集来生成候选 $k$ - 项集，计算支持度，筛选出频繁 $k$ - 项集，直到不能生成新的频繁项集为止。
应用场景
- 在市场调查数据挖掘中，用于分析消费者对不同产品属性的组合偏好。例如，分析消费者对手机品牌、颜色、存储容量等属性组合的偏好，找出频繁出现的属性组合关联。
优点
- 采用垂直数据表示和集合交集运算，在某些情况下可以更高效地计算频繁项集。特别是当数据集的事务长度较短或者支持度阈值较高时，能够快速地计算出频繁项集。
- 可以方便地并行化计算。由于基于集合的交集运算，不同的项集之间的计算相对独立，可以利用并行计算资源来加速挖掘过程。
缺点
- 当数据集的事务长度较长或者支持度阈值较低时，计算项集的交集会导致大量的中间结果，需要大量的存储空间和计算时间。
- 对于稀疏数据集，性能可能会受到影响，因为需要处理大量的事务标识符列表和交集运算。

五、举例说明

假设我们有一个小型超市的购物篮数据集如下：

购物篮编号	购买商品
1	牛奶、面包、鸡蛋
2	牛奶、面包
3	面包、鸡蛋、果汁
4	牛奶、鸡蛋
5	牛奶、面包、果汁

Apriori算法示例
- 频繁项集生成：
  - 首先计算1 - 项集的支持度，假设最小支持度阈值为 $0.4$ 。“牛奶”出现了4次，支持度为 $\frac{4}{5}=0.8$ ；“面包”出现了4次，支持度为 $0.8$ ；“鸡蛋”出现了3次，支持度为 $0.6$ ；“果汁”出现了2次，支持度为 $0.4$ 。所以频繁1 - 项集为{牛奶、面包、鸡蛋、果汁}。
  - 然后生成候选2 - 项集：{牛奶、面包}，{牛奶、鸡蛋}，{牛奶、果汁}，{面包、鸡蛋}，{面包、果汁}，{鸡蛋、果汁}。计算它们的支持度，例如{牛奶、面包}出现了3次，支持度为 $\frac{3}{5}=0.6$ 。经过筛选，频繁2 - 项集为{牛奶、面包}，{牛奶、鸡蛋}，{面包、鸡蛋}，{牛奶、果汁}。
  - 接着生成候选3 - 项集：{牛奶、面包、鸡蛋}，{牛奶、面包、果汁}，{牛奶、鸡蛋、果汁}，{面包、鸡蛋、果汁}。计算支持度后，发现只有{牛奶、面包、鸡蛋}的支持度为 $\frac{2}{5}=0.4$ 满足阈值，是频繁3 - 项集。
- 关联规则生成：
  - 对于频繁3 - 项集{牛奶、面包、鸡蛋}，生成非空子集：{牛奶}，{面包}，{鸡蛋}，{牛奶、面包}，{牛奶、鸡蛋}，{面包、鸡蛋}。计算关联规则的置信度，例如对于规则{牛奶、面包} $\Rightarrow$ {鸡蛋}，置信度为 $\frac{Support(\{牛奶、面包、鸡蛋\})}{Support(\{牛奶、面包\})}=\frac{0.4}{0.6}=\frac{2}{3}$ 。根据最小置信度阈值（假设为 $0.6$ ），保留满足条件的关联规则。
FP - Growth算法示例
- 构建FP - Tree：
  - 首先统计每个项的出现次数，按照出现次数降序排列为：牛奶（4次）、面包（4次）、鸡蛋（3次）、果汁（2次）。
  - 构建FP - Tree，对于购物篮1（牛奶、面包、鸡蛋），先插入牛奶，然后在牛奶节点下插入面包，在面包节点下插入鸡蛋。以此类推，构建完整的FP - Tree。
- 挖掘频繁项集：
  - 从FP - Tree的头表开始，对于“果汁”，找到它在树中的路径，构建条件模式基，然后从条件模式基构建条件FP - Tree，挖掘包含“果汁”的频繁项集。同样地，对其他项进行挖掘，最终得到所有的频繁项集。
Eclat算法示例
- 垂直数据表示：
  - 牛奶的TID列表为{1,2,4,5}，面包的TID列表为{1,2,3,5}，鸡蛋的TID列表为{1,3,4}，果汁的TID列表为{3,5}。
- 频繁项集生成：
  - 计算1 - 项集的支持度，方法同Apriori算法。频繁1 - 项集为{牛奶、面包、鸡蛋、果汁}。
  - 计算2 - 项集的交集和支持度，例如牛奶和面包的交集TID列表为{1,2,5}，支持度为 $\frac{3}{5}=0.6$ 。经过筛选得到频繁2 - 项集，然后继续生成3 - 项集并计算支持度，以此类推，挖掘出所有频繁项集。

机器学习：关联规则：Apriori算法、FP - Growth算法的原理、应用场景及优缺点介绍

一、关联规则算法概述关联规则挖掘是数据挖掘中的一个重要任务，用于发现数据集中不同项之间的关联关系。二、Apriori算法原理频繁项集生成：Apriori算法基于一个先验原理，即如果一个项集是频繁的，那么它的所有子集也是频繁的…...

编程日记 2024/10/11 3:00:11

从0开始深度学习（7）——线性回归的简洁实现

在从0开始深度学习（5）——线性回归的逐步实现中，我们手动编写了数据构造模块、损失函数模块、优化器等，但是在现代深度学习框架下，这些已经包装好了本章展示如果利用深度学习框架简洁的实现线性回归 0 导入头文件 im…...

编程日记 2024/10/11 2:59:09

【网络安全 | Java代码审计】华夏ERP（jshERP）v2.3

未经许可，不得转载。文章目录技术框架开发环境代码审计权限校验绕过SQL注入Fastjson反序列化命令执行存储型XSS越权/未授权重置密码越权/未授权删除用户信息越权/未授权修改用户信息会话固定安全建议项目地址：https://github.com/jishenghua/jshERP 技术框架核心框架：Sp…...

编程日记 2024/10/11 2:58:07

Setting the value of ‘*‘ exceeded the quota

H5之localStorage限额报错quota_exceeded the quota-CSDN博客 Uncaught DOMException: Failed to set a named property on Storage: Setting the value of background exceeded the quota. 超出了 localStorage 的最大长度。...

编程日记 2024/10/11 2:57:06

前端页面模块修改成可动态生成数据模块——大部分数据为GPT生成（仅供学习参考）

前端页面模块修改成可动态生成数据模块： 这些案例展示了如何通过Blade模板将前端页面模块变成可动态生成的模板。通过巧妙使用Blade语法、控制结构、CSS/JS分离、组件复用等技巧，可以大大提高代码的灵活性和复用性。在Laravel的Controller中准备好数据并…...

编程日记 2024/10/11 2:56:05

5.错误处理在存储过程中的重要性（5/10）

错误处理在存储过程中的重要性引言在数据库编程中，存储过程是一种重要的组件，它允许用户将一系列SQL语句封装成一个单元，以便重用和简化数据库操作。然而，像任何编程任务一样，存储过程中的代码可能会遇到错误或异常…...

编程日记 2024/10/11 2:54:03

【WebGis开发 - Cesium】如何确保Cesium场景加载完毕

目录引言一、监听场景加载进度1. 基础代码2. 加工代码二、进一步封装代码1. 已知存在的弊端2. 封装hooks函数三、使用hooks方法1. 先看下效果2. 如何使用该hooks方法三、总结引言本篇为Cesium开发的一些小技巧。判断Cesium场景是否加载完毕这件事是非常有意义的。加载…...

编程日记 2024/10/11 2:49:58

【数据结构】6道经典链表面试题

目录 1.返回倒数第K个节点【链接】代码实现 2.链表的回文结构【链接】代码实现 3.相交链表【链接】代码实现 4.判断链表中是否有环【链接】代码实现常见问题解析 5.寻找环的入口点【链接】代码实现1 代码实现2 6.随机链表的复制【链接】代码实现 1.…...

编程日记 2024/10/11 2:48:57

等保测评1.0到2.0的演变发展

中国等保测评的演变作为中国强化网络安全监管制度的重要组成部分，信息安全等级保护测评不是一个新概念，可以追溯到1994年和2007年发布的多项管理规则（通常称为等保测评 1.0规则），根据这些规则，网络运营商…...

编程日记 2024/10/11 2:45:54

在/etc/yum.repo.d目录下格式： [repository_name] nameRepository description baseurlhttp://repository_url enabled1 gpgcheck0 gpgkeyfile:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-7 其中： [repository_name]：源的标识名称，…...

编程日记 2024/10/11 2:43:50

通过AI技术克服自动化测试难点（上）

本文我们一起分析一下AI技术如何解决现有的自动化测试工具的不足和我们衍生出来的新的测试需求。首先我们一起看一下计算机视觉的发展历史，在上世纪70年代，处于技术萌芽期，由字符的识别技术慢慢进行演化，发展到现在，人…...

编程日记 2024/10/11 2:41:48

等保测评：如何建立有效的网络安全监测系统

等保测评中的网络安全监测系统建立在建立等保测评中的网络安全监测系统时，应遵循以下步骤和策略： 确定安全等级和分类：首先，需要根据信息系统的安全性要求、资产的重要性和风险程度等因素，确定网络系统的安全等级&…...

编程日记 2024/10/11 2:39:47

yjs12——pandas缺失值的处理

1.缺失值的表示正常来说，pandas缺失值是“nan”表示，但是有且文件可能自己改成了相应的别的符号 2.如何将缺失值符号改成nan xxx.replace(to_replace"...",valuenp.nan) 3.判断是否有缺失值 1.pd.notnull(xxx)————如果有缺失，…...

编程日记 2024/10/11 2:37:45

噪声分布双峰，模拟函数或者模拟方法 python人工智能深度神经网络

在Python中模拟双峰分布，可以通过多种方法实现。以下是一些常用的方法： 1. **使用正态分布混合**： 可以通过组合两个正态分布来创建一个双峰分布。每个正态分布都有其自己的均值（mu）和标准差（sigma&…...

编程日记 2024/10/11 2:36:43

5个免费ppt模板网站推荐！轻松搞定职场ppt制作！

每次过完小长假，可以明显地感觉到，2024这一年很快又要结束了，不知此刻的你有何感想呢？是满载而归，还是准备着手制作年终总结ppt或年度汇报ppt呢？ 每当说到制作ppt，很多人的第一反应&#xff0c…...

编程日记 2024/10/11 2:35:43

HTML5+Css3（背景属性background）

css背景属性 background 1. background-color背景颜色背景颜色可以用“十六进制”、“rgb()”、“rgba()”或“英文单词”表示 2. background-image:url(路径);背景图片也可以写成 background:url(); 3. background-repeat背景重复属性值： - repeat:x,y平铺…...

编程日记 2024/10/11 2:32:40

高亚科技助力优巨新材，打造高效数字化研发项目管理平台

近日，中国企业管理软件资深服务商高亚科技与广东优巨先进新材料股份有限公司（以下简称“优巨新材”）正式签署合作协议，共同推进产品研发管理数字化升级。此次合作的主要目标是通过8Manage PM项目管理系统，提升优巨新材…...

编程日记 2024/10/11 2:30:38

用布尔表达式巧解数字电路图

1.前置知识明确AND,OR,XOR,NOR,NOT运算的规则参见:E25.【C语言】练习:修改二进制序列的指定位这里再补充一个布尔运算符:NOR,即先进行OR运算,再进行NOT运算如下图为其数字电路的符号注意到在OR符号的基础上,在尾部加了一个(其实由简化而来) 附:NOR的真值表 2.R-S触发…...

编程日记 2024/10/11 2:27:36

面试--开源框架面试题集合

Spring 谈谈自己对于 Spring IoC 的了解什么是 IoC?IoC 解决了什么问题?什么是 Spring Bean？将一个类声明为 Bean 的注解有哪些?Component 和 Bean 的区别是什么？注入 Bean 的注解有哪些？Autowired 和 Resource 的区别是什么？…...

编程日记 2024/10/11 2:24:32

如何选择医疗器械管理系统？盘谷医疗符合最新版GSP要求

去年12月7日，新版《医疗器械经营质量管理规范》正式发布，并于今年7月1日正式实施。新版GSP第五十一条提出“经营第三类医疗器械的企业，应当具有符合医疗器械经营质量管理要求的计算机信息系统，保证经营的产品可追溯”，…...

编程日记 2024/10/11 2:23:32

SciencePlots——绘制论文中的图片

文章目录安装一、风格二、1 资源安装 # 安装最新版 pip install githttps://github.com/garrettj403/SciencePlots.git# 安装稳定版 pip install SciencePlots一、风格简单好用的深度学习论文绘图专用工具包–Science Plot 二、 1 资源论文绘图神器来了：一行…...

编程新知 2025/9/8 13:50:07

智慧工地云平台源码，基于微服务架构+Java+Spring Cloud +UniApp +MySql

智慧工地管理云平台系统，智慧工地全套源码，java版智慧工地源码，支持PC端、大屏端、移动端。智慧工地聚焦建筑行业的市场需求，提供“平台网络终端”的整体解决方案，提供劳务管理、视频管理、智能监测、绿色施工、安全管…...

编程新知 2026/1/30 15:16:32

java 实现excel文件转pdf | 无水印 | 无限制

文章目录目录文章目录前言 1.项目远程仓库配置 2.pom文件引入相关依赖 3.代码破解二、Excel转PDF 1.代码实现 2.Aspose.License.xml 授权文件总结前言 java处理excel转pdf一直没找到什么好用的免费jar包工具，自己手写的难度，恐怕高级程序员花费一年的事件，也…...

编程新知 2025/11/5 4:10:42

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文？ 多租户隔离：自动为接入设备追加租户前缀，后端按 ClientID 拆分队列。零代码鉴权：将入站用户名替换为 OAuth Access-Token，后端 Broker 统一校验。灰度发布：根据 IP/地理位写…...

编程新知 2025/8/1 10:20:23

postgresql|数据库|只读用户的创建和删除（备忘）

CREATE USER read_only WITH PASSWORD 密码 -- 连接到xxx数据库 \c xxx -- 授予对xxx数据库的只读权限 GRANT CONNECT ON DATABASE xxx TO read_only; GRANT USAGE ON SCHEMA public TO read_only; GRANT SELECT ON ALL TABLES IN SCHEMA public TO read_only; GRANT EXECUTE O…...

编程新知 2025/9/18 19:34:22

数据库分批入库

今天在工作中，遇到一个问题，就是分批查询的时候，由于批次过大导致出现了一些问题，一下是问题描述和解决方案： 示例： // 假设已有数据列表 dataList 和 PreparedStatement pstmt int batchSize 1000; // …...

编程新知 2026/1/8 11:38:36

第 86 场周赛：矩阵中的幻方、钥匙和房间、将数组拆分成斐波那契序列、猜猜这个单词

Q1、[中等] 矩阵中的幻方 1、题目描述 3 x 3 的幻方是一个填充有从 1 到 9 的不同数字的 3 x 3 矩阵，其中每行，每列以及两条对角线上的各数之和都相等。给定一个由整数组成的row x col 的 grid，其中有多少个 3 3 的 “幻方” 子矩阵&am…...

编程新知 2026/2/7 13:27:36

全志A40i android7.1 调试信息打印串口由uart0改为uart3

一，概述 1. 目的将调试信息打印串口由uart0改为uart3。 2. 版本信息 Uboot版本：2014.07； Kernel版本：Linux-3.10； 二，Uboot 1. sys_config.fex改动使能uart3(TX:PH00 RX:PH01)，并让boo…...

编程新知 2026/2/5 6:28:09

【Java学习笔记】BigInteger 和 BigDecimal 类

BigInteger 和 BigDecimal 类二者共有的常见方法方法功能add加subtract减multiply乘divide除注意点：传参类型必须是类对象一、BigInteger 1. 作用：适合保存比较大的整型数 2. 使用说明创建BigInteger对象传入字符串 3. 代码示例 import j…...

编程新知 2025/11/8 15:39:00

【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变（硬件篇）

本项目是基于 STM32F103C8T6 微控制器的 SPWM（正弦脉宽调制）电源模块，能够生成可调频率和幅值的正弦波交流电源输出。该项目适用于逆变器、UPS电源、变频器等应用场景。供电电源输入电压采集上图为本设计的电源电路，图中 D1 为二极管，其目的是防止正负极电源反接， …...

编程新知 2026/1/25 3:29:22

机器学习：关联规则：Apriori算法、FP - Growth算法的原理、应用场景及优缺点介绍

相关文章：

机器学习：关联规则：Apriori算法、FP - Growth算法的原理、应用场景及优缺点介绍

从0开始深度学习（7）——线性回归的简洁实现

【网络安全 | Java代码审计】华夏ERP（jshERP）v2.3

Setting the value of ‘*‘ exceeded the quota

前端页面模块修改成可动态生成数据模块——大部分数据为GPT生成（仅供学习参考）

5.错误处理在存储过程中的重要性（5/10）

【WebGis开发 - Cesium】如何确保Cesium场景加载完毕

【数据结构】6道经典链表面试题

等保测评1.0到2.0的演变发展

yum 源配置

通过AI技术克服自动化测试难点（上）

等保测评：如何建立有效的网络安全监测系统

yjs12——pandas缺失值的处理

噪声分布双峰，模拟函数或者模拟方法 python人工智能深度神经网络

5个免费ppt模板网站推荐！轻松搞定职场ppt制作！

HTML5+Css3（背景属性background）

高亚科技助力优巨新材，打造高效数字化研发项目管理平台

用布尔表达式巧解数字电路图

面试--开源框架面试题集合

如何选择医疗器械管理系统？盘谷医疗符合最新版GSP要求

SciencePlots——绘制论文中的图片

智慧工地云平台源码，基于微服务架构+Java+Spring Cloud +UniApp +MySql

java 实现excel文件转pdf | 无水印 | 无限制

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

postgresql|数据库|只读用户的创建和删除（备忘）

数据库分批入库

第 86 场周赛：矩阵中的幻方、钥匙和房间、将数组拆分成斐波那契序列、猜猜这个单词

全志A40i android7.1 调试信息打印串口由uart0改为uart3

【Java学习笔记】BigInteger 和 BigDecimal 类

【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变（硬件篇）