当前位置: 首页 > news >正文

数据挖掘(3)特征化

从数据分析角度,DM分为两类,描述式数据挖掘,预测式数据挖掘。描述式数据挖掘是以简介概要的方式描述数据,并提供数据的一般性质。预测式数据挖掘分析数据建立模型并试图预测新数据集的行为。

DM的分类:

  • 描述式DM:以简洁、概要的方式描述数据、提供数据的有趣的一般性质。
    • 用以产生数据的特征化和比较描述:
      • 特征化:提供给定数据集的简洁汇总(一个数据集)。
      • 比较(区分):提供两个或多个数据集的比较描述,其中一个为主数据集,其他数据集与其进行对比分析。
  • 预测式DM:分析数据,建立模型,试图预测新数据集的行为。

一、数据概化与基于汇总的特征化

1. 数据概化

  1. 更一般的(而不是较低的) 抽象层描述数据。
  2. 将大量的相关数据从一个较低的概念层次转化到一个比较高的层次。
    • 例如:把location维度上将地区概化为城市,甚至是省份
  3. 方法
    • 数据立方体(或OLAP)方法
    • 面向属性的归纳方法

 

2. 数据立方体(OLAP)方法

  1. 在数据立方体上进行计算和存储结果
  2. 优点:
    1. 数据概化的一种有效实现。
    2. 能计算多种不同的度量值。(count、ave、sum、min、max)
    3. 概化与特征分析通过一系列的数据立方体操作完成,上钻、下钻操作。
  3. 限制:
    * 只能为 非数值类型(离散的)维产生的概念分层。
    * 非数值类型:名义型、序数型(属于离散化的属性)。
    缺乏智能分析,不能自动确定分析中该使用哪些维,概化到哪个层次。

3. 面向属性归纳(AOI)(重点)

  1. 前提:有大量不同的取值
  2. 可处理连续性数据,比数据立方体更加智能
  3. 基本思想:
    1. 首先使用DB 收集任务相关的数据。
    2. 每个属性的不同值的个数进行概化(属性删除、属性概化)。
    3. 基本思想:
      1. 首先使用DB 收集任务相关的数据。
      2. 每个属性的不同值的个数进行概化(属性删除、属性概化)。
    4. 属性删除(重点)
      1. 一个属性有许多不同数值:且
        • 该属性没有定义概化操作符(没有概念分层)。
          • 一个属性拥有许多不同的数值,却没有定义对他的泛化操作。
        • 或较高层概念可以用其他属性表示。
          • eg:出生日期:birth_date:1995-1-1,出生日期是年龄的更高层次,可以将其表现,所以可以将birth_date删除。
    5. 属性概化(重点)
      1. 若一个属性有许多不同数值,且:在该属性上存在概化操作符(有概念分层),则应当选择该概化操作符,并逐层进行概化。
      2. 概化操作符:层次性,比如birth_day:年月日。

4.特征化(面向属性归纳)

两种方法:

  1. 属性概化阈值控制:(控制属性取值个数)
    • 取值范围:[2-8]
    • 属性的不同值个数大于属性概化阈值,则应当删除或概化。
    • 概化层次太高,可加大阈值(属性下钻);反之,减小阈值(属性上卷)。
  2. 概化关系阈值控制:(控制最后的广义元组数量)
    • 控制最后关系、规则的大小。(最后生成广义元组)
    • 设置阈值:[10-30]
    • 概化关系中不同元组的个数超过属性概化阈值,则概化。
    • 概化关系太少,可加大阈值(属性下钻);反之,减小阈值(属性上卷)。
    • 概化到最高层(最底层)也不满足,则需要将其删除。

 

5.例子分析

 

 二、属性相关分析(重点)

  1. 在处理数据中,包含很多与挖掘任务不相关或弱相关的属性,引入属性相关分析。
  2. 如果某个属性可以很好区分该类与其他类,则该属性是任务高度相关的。
  3. 在处理数据中,包含很多与挖掘任务不相关或弱相关的属性,引入属性相关分析。
  4. 如果某个属性可以很好区分该类与其他类,则该属性是任务高度相关的。

1. 属性相关分析法基本思想

  1. 基本思想:给定的数据集,计算某种度量,用于量化属性与给定的类或概念间的相关性。
  2. 常用的度量:信息增益、相关系数、GINI索引、不确定性

2.信息增益法(重点)

  1. 信息增益法:

    1. 决策树归纳学习算法(ID3,C4.5),删除信息量较少的属性,保留信息量较大的属性。
  2. ID3算法

    1. 概念为启发函数。
      •    
      • 熵越大、携带的信息量越大、越不容易被预测

    2. 选择具有最大信息增益的属性作为当前划分节点。
    3. 基本原理:
      • 根据类别已知的训练数据集构造一颗决策树;根据决策树再对类别未知的数据对象进行分类。
      • 每一步选择都是选择最大信息增益。
    4. 决策树:每个节点的选择:选择信息增益最大的属性为当前节点。
    5. 本步骤只是求出不确定性

 

3. 通过熵来进行选择

 

4.属性相关分析步骤

  1. 数据收集:建立目标数据集,以及对比数据集,目标数据集与对比数据集不相交。
  2. 利用保守的AOI方法进行属性相关分析。对初始的数据集进行删除、概化等操作形成候选数据集。
  3. 删除不相关、弱相关的属性。如信息增益度量
  4. 使用AOI产生概念描述:利用更严格的属性概化控制阈值进行属性的归纳。
    • 任务是:概念描述,使用初始目标数据集。
    • 任务是:比较概念描述,使用初始目标数据集,对比数据集。

三、挖掘类比较:区分不同的类

 

  1. 比较概念中,同一个属性要概化到同一个层次。
  2. d—权
    • qa所包含的Cj中数据行数与qa所涵盖的所有数据行数(包括目标数据集及所有对比数据集)之比

四、常见的统计度量指标

  1. 中心趋势:均值、中位数、模(众数)
    • 众数:如果每个数值仅出现1次则无众数
  2. 数据分布:四分位数、方差、标准差
    • 四分位数:
      • 数值下数据集合的第k个百分位数。
      • 中位数:第50个百分位数
      • 第一个四分位数Q_1第25个百分位数;第三个百分位数 Q_3:第75个百分位数
      • 中间四分位区间IQR=Q_3-Q_1
      • 识别孤立点: x \leq Q_1-1.5IQR || x \geq Q_3 + 1.5IQR

 

相关文章:

数据挖掘(3)特征化

从数据分析角度,DM分为两类,描述式数据挖掘,预测式数据挖掘。描述式数据挖掘是以简介概要的方式描述数据,并提供数据的一般性质。预测式数据挖掘分析数据建立模型并试图预测新数据集的行为。 DM的分类: 描述式DM&#…...

【RabbitMQ 实战】08 集群原理剖析

上一节,我们用docker-compose搭建了一个RabbitMQ集群,这一节我们来分析一下集群的原理 一、基础概念 1.1 元数据 前面我们有介绍到 RabbitMQ 内部有各种基础构件,包括队列、交换器、绑定、虚拟主机等,他们组成了 AMQP 协议消息…...

2023年 2月3月 工作经历

2月 #pragma make_public(type) 托管C导出传统C类,另一个托管C项目使用不了。传统C类make_public后,就可以使用了。对模板类无效,比如:std::string。 C#线程绑定CPU 我的方案: 假定我们想把 CPU0 设置成专有CPU。 定…...

selenium京东商城爬取

该项目主要参考与:http://c.biancheng.net/python_spider/selenium-case.html 你看完上述项目内容之后,会发现京东登录是一个比较坑的点,selenium控制浏览器没有登录京东,导致我们自动爬取网页被重定向到京东登录注册页面。 因此,我们要单独…...

用pandas处理数据时,使变量能够在不同的Notebook会话页面进行传递,魔法命令%store

【需求来源】 在使用pandas时,有的时候我想将.ipynb文件分开写 其中一个写清洗数据代码另外一个写数据可视化代码 【解决方案】 但是会涉及到变量转移问题,这个时候我通常使用的方法是: 1、在清洗完数据后导出到本地 2、在文件后面增加当…...

选择适合户外篷房企业的企业云盘解决方案

“户外篷房企业用什么企业云盘好?Zoho WorkDrive企业网盘可以帮助户外篷房企业实现文档统一管理、提高工作效率、加强团队协作,并且支持各种文件类型的预览和编辑。” S公司是一家注重管理规范的大型户外篷房企业,已经有10余年的经验。作为设…...

松鼠搜索算法(SSA)(含MATLAB代码)

先做一个声明:文章是由我的个人公众号中的推送直接复制粘贴而来,因此对智能优化算法感兴趣的朋友,可关注我的个人公众号:启发式算法讨论。我会不定期在公众号里分享不同的智能优化算法,经典的,或者是近几年…...

折半+dp之限制转状态+状压:CF1767E

https://vjudge.net/problem/CodeForces-1767E/origin 首先40,必然折半。然后怎么做? 分析性质。每次可以走1步or2步,等价什么?等价任意相邻2个必选一个!然后就可以建图 这个图是个限制图,我们折半后可以…...

如何写出优质代码

(本文转载自其他博主但是个人忘记了出处) 优质代码是什么? 优质代码是指那些易于理解、易于维护、可读性强、结构清晰、没有冗余、运行效率高、可复用性强、稳定性好、可扩展性强的代码。 这类代码不仅能够准确执行预期功能,同时也便于其他开发者理解…...

ChatGLM2-6B的通透解析:从FlashAttention、Multi-Query Attention到GLM2的微调、源码解读

前言 本文最初和第一代ChatGLM-6B的内容汇总在一块,但为了阐述清楚FlashAttention、Multi-Query Attention等相关的原理,以及GLM2的微调、源码解读等内容,导致之前那篇文章越写越长,故特把ChatGLM2相关的内容独立抽取出来成本文 …...

3D人脸生成的论文

一、TECA 1、论文信息 2、开源情况:comming soon TECA: Text-Guided Generation and Editing of Compositional 3D AvatarsGiven a text description, our method produces a compositional 3D avatar consisting of a mesh-based face and body and NeRF-based ha…...

解决问题:可以用什么方式实现自动化部署

自动化部署可以使用多种工具来实现: 脚本编写:可以使用 Bash、Python 等编写脚本来实现自动化部署。例如,可以使用 Bash 脚本来自动安装、配置和启动应用程序。 配置管理工具:像 Ansible、Puppet、Chef、Salt 等配置管理工具可以…...

【数据结构】链表栈

目录: 链表栈 1. 链式栈的实现2. 链表栈的创建3. 压栈4. 弹栈 链表栈 栈的主要表示方式有两种,一种是顺序表示,另一种是链式表示。本文主要介绍链式表示的栈。 链栈实际上和单链表差别不大,唯一区别就在于只需要对链表限定从头…...

Android笔记:Android 组件化方案探索与思考

组件化项目,通过gradle脚本,实现module在编译期隔离,运行期按需加载,实现组件间解耦,高效单独调试。 先来一张效果图 组件化初衷 APP版本不断的迭代,新功能的不断增加,业务也会变的越来越复杂…...

MeterSphere v2.10.X-lts 双节点HA部署方案

一、MeterSphere高可用部署架构及服务器配置 1.1 服务器信息 序号应用名称操作系统要求配置要求描述1负载均衡器CentOS 7.X /RedHat 7.X2C,4G,200GB部署Nginx,实现负载路由。 部署NFS服务器。2MeterSphere应用节点1CentOS 7.X /RedHat 7.X8C,16GB,200G…...

Java进阶篇--网络编程

​​​​​​​ 目录 计算机网络体系结构 什么是网络协议? 为什么要对网络协议分层? 网络通信协议 TCP/IP 协议族 应用层 运输层 网络层 数据链路层 物理层 TCP/IP 协议族 TCP的三次握手四次挥手 TCP报文的头部结构 三次握手 四次挥手 …...

PyTorch入门之【CNN】

参考:https://www.bilibili.com/video/BV1114y1d79e/?spm_id_from333.999.0.0&vd_source98d31d5c9db8c0021988f2c2c25a9620 书接上回的MLP故本章就不详细解释了 目录 traintest train import torch from torchvision.transforms import ToTensor from torchvi…...

马斯洛需求层次模型之安全需求之云安全浅谈

在互联网云服务领域,安全需求是用户首要考虑的因素之一。用户希望在将数据和信息托付给云服务提供商时,这些数据和信息能够得到充分的保护,避免遭受未经授权的访问、泄露或破坏。这种安全需求的满足,对于用户来说是至关重要的&…...

Pikachu靶场——远程命令执行漏洞(RCE)

文章目录 1. RCE1.1 exec "ping"1.1.1 源代码分析1.1.2 漏洞防御 1.2 exec "eval"1.2.1 源代码分析1.2.2 漏洞防御 1.3 RCE 漏洞防御 1. RCE RCE(remote command/code execute)概述: RCE漏洞,可以让攻击者直接向后台服务器远程注入…...

【WSN】无线传感器网络 X-Y 坐标到图形视图和位字符串前缀嵌入方法研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道(多模态 OCR → 语义检索 → 答案渲染)、两级检索(倒排 BM25 向量 HNSW)并以大语言模型兜底”的整体框架: 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后,分别用…...

Linux 文件类型,目录与路径,文件与目录管理

文件类型 后面的字符表示文件类型标志 普通文件:-(纯文本文件,二进制文件,数据格式文件) 如文本文件、图片、程序文件等。 目录文件:d(directory) 用来存放其他文件或子目录。 设备…...

.Net框架,除了EF还有很多很多......

文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...

前端倒计时误差!

提示:记录工作中遇到的需求及解决办法 文章目录 前言一、误差从何而来?二、五大解决方案1. 动态校准法(基础版)2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言 前几天听说公司某个项…...

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。 您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。 您还将了解如何分析列,以便知晓哪些列包含有价值的数据,…...

排序算法总结(C++)

目录 一、稳定性二、排序算法选择、冒泡、插入排序归并排序随机快速排序堆排序基数排序计数排序 三、总结 一、稳定性 排序算法的稳定性是指:同样大小的样本 **(同样大小的数据)**在排序之后不会改变原始的相对次序。 稳定性对基础类型对象…...

jmeter聚合报告中参数详解

sample、average、min、max、90%line、95%line,99%line、Error错误率、吞吐量Thoughput、KB/sec每秒传输的数据量 sample(样本数) 表示测试中发送的请求数量,即测试执行了多少次请求。 单位,以个或者次数表示。 示例:…...

Windows 下端口占用排查与释放全攻略

Windows 下端口占用排查与释放全攻略​ 在开发和运维过程中,经常会遇到端口被占用的问题(如 8080、3306 等常用端口)。本文将详细介绍如何通过命令行和图形化界面快速定位并释放被占用的端口,帮助你高效解决此类问题。​ 一、准…...

echarts使用graphic强行给图增加一个边框(边框根据自己的图形大小设置)- 适用于无法使用dom的样式

pdf-lib https://blog.csdn.net/Shi_haoliu/article/details/148157624?spm1001.2014.3001.5501 为了完成在pdf中导出echarts图,如果边框加在dom上面,pdf-lib导出svg的时候并不会导出边框,所以只能在echarts图上面加边框 grid的边框是在图里…...

41道Django高频题整理(附答案背诵版)

解释一下 Django 和 Tornado 的关系? Django和Tornado都是Python的web框架,但它们的设计哲学和应用场景有所不同。 Django是一个高级的Python Web框架,鼓励快速开发和干净、实用的设计。它遵循MVC设计,并强调代码复用。Django有…...