大数据挖掘期末复习
大数据挖掘
数据挖掘
数据挖掘定义
技术层面:
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又==潜在有用的信息==的过程。
数据准备环节
数据选择 质量分析 数据预处理
数据仓库
从多个数据源搜集的信息存放在一致的模式之下
特征化
对目标数据的一般特性和特征汇总
聚类分析
最大化类内相似度 最小化类间相似性
数据准备
大数据定义
超出正常处理范围
由海量数据+复杂类型的数据 构成
数据对象
组成数据集的元素,每个数据对象均为一个实体
数据对象由属性描述
数据的正确性分析
缺失值
数据错误
度量标准错误
编码不一致
处理缺失数据
忽视
较小缺失率 有缺失值的样本或属性
人工补全缺失值
重新采样
领域知识
自动补全缺失值
固定值
均值
基于算法
插补法
均值插补
回归插补
极大似然估计
噪声过滤
回归法
均值平滑法
离群点分析
处理噪声数据
局部离群因子LOF计算
数据量
子集选择
数据量太大
减小时间复杂度
数据聚合
尺度变换
数据更稳定
调整类分布
不平衡数据
哈尔小波交换
通过调整分辨率
数据标准化
最小最大标准化
Z-score标准化
大数据挖掘与分析
邻近性
相似性和相异性统称为邻近性
数据矩阵
存放数据对象
相异性矩阵
存放数据对象的相异性值
二元属性邻近性
数值数据距离
闵可夫斯基距离
h=1 2 正无穷
维度诅咒
基于距离的聚类在高纬度下无效
在高维情况下 P(0,1)更有效
逆文档频率
IDF 或 Goodall度量
基本思路:
将基本词汇看做全部属性的集合
每个词频是属性的值
余弦度量
余弦相似度
逆文档频率 阻尼系数
累计距离矩阵(大概率)
计算等图
算法题目APRIORI
基本的Apriori算法
Apriori算法的基本思路是采用层次搜索的迭代方法,由候选(k-1)-项集来寻找候选k-项集,并逐一判断产生的候选k-项集是否是频繁的。
设C k 是长度为k的候选项集的集合,L k 是长度为k的频繁项集的集合。为了简单,设最小支持度阈值min_sup为最小元组数,即采用最小支持度计数。
输入:事务数据库D,最小支持度阈值min_sup。
输出:所有的频繁项集集合L。
方法:其过程描述如下:
通过扫描D得到1-频繁项集L1;
for (k=2;Lk-1!=Ф;k++)
{ Ck=由Lk-1通过连接运算产生的候选k-项集;for (事务数据库D中的事务t){ 求Ck中包含在t中的所有候选k-项集的计数;Lk={c | c∈Ck and c.sup_count≥min_sup};//求Ck中满足min_sup的候选k-项集}
}
return L=∪kLk;

这是通过Apriori计算最大频繁项集 和 计算强关联规则的题目
要求为超过最小支持度 最小支持度的计算很简单
即为

Apriori优化
基于散列的Apriori
基于散列的Apriori技术基于Apriori算法, 为了解决此算法在数据集较大的情况下候选项集数量爆炸的问题 以及支持度计数效率低下的问题
基于散列的优化:
在生成候选项集时,通过哈希函数映射分桶 每个桶记录频数 如果桶中的频数小于最小支持度的阈值 则该桶中所有项集可以直接剪枝
因为通过哈希函数可以快速找到相应的桶,所以计算效率较高
h(x,y)=(hash(x)+hash(y))modn
哈希树分组
算法题目FPgrowth


条件模式基的寻找
在FPtree的项目里倒着找,沿着虚线将出现的频次进行统计,,写出条件模式基
条件FP Tree
沿着条件模式基画FP Tree
记得剪去最小支持度不够的项
频繁项集
将条件FPtree与项进行组合 得到频繁项集
列式计数Apriori算法
使用垂直数据格式挖掘频繁项集

关联模式挖掘
超集
包含了另一个集合中所有元素的集合为超集
闭模式
一个频繁项集 没有任何它的超集具有与他相同的支持度
也就是不被冗余覆盖的核心模式
闭模式显著减少了需要存储的频繁模式数量
可以推导出所有频繁模式及其支持度
极大模式
没有频繁的超集
极大模式只保留频繁模式中“最大”的部分
无法还原所有频繁模式的支持度信息
序列模式
序列模式是指诸如此类的模式,其项中包含多个项,在计数时,相同项仅计数一次

聚类
好的聚类方法产生高质量的聚类结果
要求
高类内相似性 高内聚
低类间相似性 低耦合
能够发掘隐藏模式 有价值
聚类的好坏在于:
相似度测量方法
不同尺度 不同类型的距离函数设计不同
主要聚类方法
基于代表点的聚类
代表性方法:kmeans kmedians kmedoids CLARANS
层次方法
基于准则对数数据层次分解
代表性方法:Diana Agnes BIRCH CAMELEON
基于密度的方法
代表性方法:DBSCAN OPTICS DENClue
基于网格的方法
代表方法:STING WaveCluster CLIQUE
基于模型的方法
代表性方法:EM SOM COBWEB
聚类评估方法(概率低)
熵不考哈
熵 :可以反馈特征子集的聚类质量
经验法
肘方法
交叉验证
基于代表点聚类
K means


kmedians
选取代表点选取中值 对异常点不那么敏感
Kmedoids
从非代表点中随机选取点代替中心点集合中的某个点,重新划分 诸葛尝试 选择最优
PAM

1不受离群点数据影响
2适于处理小数据集
CLARA(小概率)
基于抽样的方法 找到最优中心点集为目标
CLAEANS(小概率)
采样并随机选择
层次聚类
AGNES凝聚法

不断将簇进行合并 最后得到所有合并后的集合为止

DIANA法
分裂法

Birch
CHAMELEON
基于密度聚类
- 发现任意形状簇Discover clusters of arbitrary shape
- 能容忍噪音Handle noise
- 一边扫描One scan
- 需要以密度相关的参数作为终止条件
DBSCAN
原理:
对象的密度可以用靠近该对象的节点数量表示。
找出核心对象和其邻域,形成稠密区为簇
参数:
Eps : 邻域半径
MinPts : 邻域半径内的最小节点数 判断是否为核心节点的阈值
核心节点q 满足
|N_Eps (q) | ≥ MinPts
核心节点扩展区域 边缘节点定义边界

或者

OPTICS(可能不考)
定义了两种距离,核心距离与可达距离
对于不同对象可能有不同的可达距离
DENCLUE(大概率不考)
引入影响函数与密度函数的概念进行聚类
离群点检测
离群点Outlier:
以一种不同机制产生的不同于大多数据表现的不正常的数据。
如:虚假行为,电信诈骗,医药分析,网络攻击,等。
与噪音数据区别
噪音数据是错的数据
是一个测量变量中的随机错误或误差 包括错误的值 偏离期望的孤立点
噪音数据在数据处理前已经被移除。
分类
全局离群点
情境(条件)离群点
今天的最高温度是-15度
集体离群点
数据对象的子集形成集体离群点
例如:一些计算机之间频繁发送信息
离群点特征
有趣的 少量的
基于离群点方法检测出的离群点不能对应真正的异常行为
只能为用户提供可疑数据
基于密度的方法
直方图
通过直方图找到
核密度估计
确定数据中的稀疏区域以便报告异常点
基于概率的方法
极值:对应概率分布的统计尾部
识别模型低概率区域中的对象
一元离群点检测
根据概率密度函数进行
基于距离的方法
基本思路
数据集中显著偏离其他对象的点
根据每个点在局部区域上的密度和其邻近点的密度来判断异常程度
基于聚类的方法
检测方法
建立正常模型
离群点为不能正常符合这个模型的数据点
将异常数据度量为数值
分数越大越可能是离群点
形式
基于聚类产生簇
寻找远离簇的数据点
考虑对象和它最近簇之间的距离
半监督学习
结合聚类与分类检测离群点
先基于聚类识别正常簇,然后使用这个簇的一类模型识别离群点
相关文章:
大数据挖掘期末复习
大数据挖掘 数据挖掘 数据挖掘定义 技术层面: 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息的过程。 数据准备环节 数据选择 质量分析 数据预处理 数据仓库 …...
凸函数与深度学习调参
问题1:如何区分凸问题和凹问题? 问题2:深度学习如何区分调参?...
Java前端基础——CSS
一、CSS介绍 1.1 什么是CSS CSS(Cascading Style Sheet),层叠样式表,用于控制页面的样式. CSS 能够对网页中元素位置的排版进行像素级精确控制, 实现美化页面的效果. 能够做到页面的样式和结构分离. 1.2 基本语法规范 选择器 {⼀条/N条声明} • 选择器决定针…...
Photino:通过.NET Core构建跨平台桌面应用程序,.net国产系统
一、Photino.NET简介: 最近发现了一个不错的框架 Photino.Net 一份代码运行,三个平台 windows max linux ,其中windows10,windows11,ubuntu 18.04,ubuntu 20.04 已测试均可以。mac 因为没有相关电脑没有测试。 github:https://github.com/t…...
个人全栈开发微信小程序上线了(记日记)
个人开发的全栈项目,《每日记鸭》微信小程序上线了! 主要是技术栈:uniapp,koa2,mongodb,langchian; 感兴趣的小伙伴可以来捧捧场!...
Linux移植IMX6ULL记录 一:编译源码并支持能顺利进入linux
目录 前言 一、不修改文件进行编译 二、修改设备树文件进行编译 前言 我用的开发板是100_ask_imx6ull_pro,其自带的linux内核版本linux-4.9.88,然后从linux官网下载过来的linux-4.9.88版本的arch/arm/configs/defconfig和dts设备树文件并没有对imx6ull…...
idea正则表达式-正则替换示例-2024.11笔记
注意idea中反向引用的格式是【$1】换行符是【\n】 需要在如下的代码中往接口的方法中添加一行注解,注解需要用到以后注解的中文备注 原文 Autowired private WomanService womanService; /** * 自定义分页 */ PostMapping("/page/{current}/{…...
Github 2024-11-20C开源项目日报 Top9
根据Github Trendings的统计,今日(2024-11-20统计)共有9个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量C项目9Assembly项目1raylib: 用于视频游戏编程的简单易用图形库 创建周期:3821 天开发语言:C协议类型:zlib LicenseStar数量:18556 个Fork数…...
安卓CameraX的使用
如果要在安卓应用中操作相机,有三个库可以选: Camera(已废弃):Camera是安卓最早的包,目前已废弃,在Android 5.0(API 级别 21)的设备上操作相机可以选择该包,…...
unity3d——基础篇小项目(开始界面)
示例代码: using System.Collections; using System.Collections.Generic; using UnityEngine;public class BeginPanel : BasePanel<BeginPanel> {public UIButton btnBegin;public UIButton btnRank;public UIButton btnSetting;public UIButton btnQuit; …...
【YOLOv8】安卓端部署-1-项目介绍
【YOLOv8】安卓端部署-1-项目介绍 1 什么是YOLOv81.1 YOLOv8 的主要特性1.2 YOLOv8分割模型1.2.1 YOLACT实例分割算法之计算掩码1.2.1.1 YOLACT 的掩码原型与最终的掩码的关系1.2.1.2 插值时的目标检测中提取的物体特征1.2.1.3 coefficients(系数)作用1.…...
安卓手机root+magisk安装证书+抓取https请求
先讲一下有这篇文章的背景吧,在使用安卓手机fiddler抓包时,即使信任了证书,并且手机也安装了证书,但是还是无法捕获https请求的问题,最开始不知道原因,后来慢慢了解到现在有的app为了防止抓包,把…...
11.20 深度学习-pytorch包和属性的基础语法
import torch import numpy as np def sci_close(): # 关闭pytorch 数据打印出来时科学计数法 torch.set_printoptions(sci_modeFalse) pass return 0 def create_tensor(): # 创建张量 t1torch.tensor(5) # 一阶张量 阶数看你传入的矩阵是多少阶的 这个是标量 不是一阶 一阶…...
SpringMVC域对象共享数据
目录 一.向 request 域对象共享数据 1.1使用ServletAPI向request域对象共享数据 1.2使用ModelAndView向request域对象共享数据 1.3使用Model向request域对象共享数据 1.4使用map向request域对象共享数据 1.5使用ModelMap向request域对象共享数据 二.Model、ModelMap、Ma…...
每日论文23-24ESSERC 6.4-16.1Ghz混合并联-串联谐振器
《A 6.4-to-16.1GHz Hybrid Parallel-Series Resonator Mode-Switching Oscillator with 206.6dBc/Hz FoMT at 1MHz Offset in 40nm CMOS》 24ESSERC 首先这篇文章有个地方我其实没太明白,它在title和行文的时候都写的是“ hybrid parallel-series resonator mode-…...
【软考】系统架构设计师-信息安全技术基础
信息安全核心知识点 信息安全5要素:机密性、完整性、可用性、可控性、审查性 信息安全范围:设备安全、数据安全、内容安全、行为安全 网络安全 网络安全的隐患体现在:物理安全性、软件安全漏洞、不兼容使用安全漏洞、选择合适的安全哲理 …...
kali搭建pikachu靶场
前言: 总所周知搭个网站需要有apachemysqlphp,Apache是一个开源的Web服务器软件, MySQL是一种关系型数据库管理系统(数据库),PHP是一种在服务器上执行的脚本语言 文章内容来自:【黑帽编程与攻…...
注解用于从 HTTP 请求中提取数据
在 Spring 框架中,PathVariable、RequestParam 和 RequestBody 等注解用于从 HTTP 请求中提取数据。具体来说: PathVariable:用于从 URL 路径中提取变量值。例如,在路径 /users/{id} 中,{id} 是一个路径变量。Request…...
(Linux)搭建静态网站——基于http/https协议的静态网站
简单了解nginx配置文件 1.下载并开启nginx服务 下载 [rootlocalhost ~]# dnf install nginx -y开启 [rootlocalhost ~]# systemctl restart nginx 1.(1)搭建静态网站——基于http协议的静态网站 实验1:搭建一个web服务器,访问该服务器时显示“hello w…...
【机器学习chp3】判别式分类器:线性判别函数、线性分类器、广义线性分类器、分段线性分类器
前言: 本文遗留问题:(1)对最小平方误差分类器的理解不清晰.(2)分段线性判别函数的局部训练法理解不清晰。 推荐文章1,其中有关于感知机的分析 【王木头从感知机到神经网络】-CSDN博客 推荐文…...
conda相比python好处
Conda 作为 Python 的环境和包管理工具,相比原生 Python 生态(如 pip 虚拟环境)有许多独特优势,尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处: 一、一站式环境管理:…...
idea大量爆红问题解决
问题描述 在学习和工作中,idea是程序员不可缺少的一个工具,但是突然在有些时候就会出现大量爆红的问题,发现无法跳转,无论是关机重启或者是替换root都无法解决 就是如上所展示的问题,但是程序依然可以启动。 问题解决…...
OpenLayers 可视化之热力图
注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 热力图(Heatmap)又叫热点图,是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...
SciencePlots——绘制论文中的图片
文章目录 安装一、风格二、1 资源 安装 # 安装最新版 pip install githttps://github.com/garrettj403/SciencePlots.git# 安装稳定版 pip install SciencePlots一、风格 简单好用的深度学习论文绘图专用工具包–Science Plot 二、 1 资源 论文绘图神器来了:一行…...
Java如何权衡是使用无序的数组还是有序的数组
在 Java 中,选择有序数组还是无序数组取决于具体场景的性能需求与操作特点。以下是关键权衡因素及决策指南: ⚖️ 核心权衡维度 维度有序数组无序数组查询性能二分查找 O(log n) ✅线性扫描 O(n) ❌插入/删除需移位维护顺序 O(n) ❌直接操作尾部 O(1) ✅内存开销与无序数组相…...
【python异步多线程】异步多线程爬虫代码示例
claude生成的python多线程、异步代码示例,模拟20个网页的爬取,每个网页假设要0.5-2秒完成。 代码 Python多线程爬虫教程 核心概念 多线程:允许程序同时执行多个任务,提高IO密集型任务(如网络请求)的效率…...
[Java恶补day16] 238.除自身以外数组的乘积
给你一个整数数组 nums,返回 数组 answer ,其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法,且在 O(n) 时间复杂度…...
大数据学习(132)-HIve数据分析
🍋🍋大数据学习🍋🍋 🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。 💖如果觉得博主的文章还不错的话,请点赞👍收藏⭐️留言Ǵ…...
Yolov8 目标检测蒸馏学习记录
yolov8系列模型蒸馏基本流程,代码下载:这里本人提交了一个demo:djdll/Yolov8_Distillation: Yolov8轻量化_蒸馏代码实现 在轻量化模型设计中,**知识蒸馏(Knowledge Distillation)**被广泛应用,作为提升模型…...
NPOI操作EXCEL文件 ——CAD C# 二次开发
缺点:dll.版本容易加载错误。CAD加载插件时,没有加载所有类库。插件运行过程中用到某个类库,会从CAD的安装目录找,找不到就报错了。 【方案2】让CAD在加载过程中把类库加载到内存 【方案3】是发现缺少了哪个库,就用插件程序加载进…...
