当前位置: 首页 > news >正文

数据挖掘(2.1)--数据预处理

一、基础知识

1.数据的基本概念

1.1基础知识

数据数据对象(Data Objects)及其属性(Attributes)的集合。

数据对象(一条记录、一个实体、一个案例、一个样本等)是对一个事物或者物理对象的描述

数据对象的属性则是这个对象的性质或特征,例如一个人的肤色、眼球颜色等是这个人的属性。

每一行为一条记录,每条记录即一个数据对象,代表一个用户的资料。而每一行的序号、男/女、收人、是否有配偶为数据对象的属性。而每一条记录的某一列即该对象属性的属性值,如:序号为一的对象“收入”属性的值为“10000”。

属性值是对一个属性所赋予的数值或符号,是属性的具体化。

1.2属性有不同类别

属性具有不同的类别,可以按照属性值的类型将属性类别分为4种:

  • (1)名称型属性(Nominal)。如身份证号码、眼球颜色和邮政编码等。
  • (2)顺序型属性(Ordinal)。如比赛排名、学分成绩和身高等。
  • (3)间隔型属性(Interval)。如日期间隔、摄氏和华氏温度等。
  • (4)比率型属性(Ratio)。如百分比和人口比例等。

一个属性属于以上4种属性的哪一种,取决于属性的属性值是否满足下列4种性质:区别性、有序性、可加性和乘除性。

名称型属性的属性值只满足区别性性质,即两个名称型属性的属性值可以判断相等或不等,但没有判断大小、加减乘除的意义。

顺序型属性的属性值除了满足区别性属性之外,也满足有序性。

间隔型属性的属性值满足区别性、有序性和可加性3种性质。

比率型属性的属性值满足以上全部4种性质。
属性除了以上分类之外,还有离散属性和连续属性之分。

离散属性只能从有限或可数的属性值集合中取值,通常可以用整数变量表示,如邮政编码、文档中的词数和身份证号码等。

二进制属性是离散属性的一个特例。连续属性与离散属性相对,可以从不可数无穷多个属性值中取值,通常取值范围为实数。实际中,通常只用有限多位来表示-一个数,因此连续属性在计算机中通常表示为浮点数。

1.3根据数据的组织方式和相对关系将数据呈现为以下形式

根据数据的组织方式和相对关系将数据呈现为以下形式: 

  • (1)记录数据。这种数据由一条条的记录组成,如记录数据、数据矩阵、文档数据和事务数据等。
  • (2)图数据。这种数据由记录(点)和记录之间的联系(边)组成,如万维网数据、化学分子结构数据等。
  • (3)有序数据。这种数据的记录之间存在时间和空间上的序关系,如序列数据、时间序列数据和空间数据等。

图数据和有序数据在孤立数据的基础上增加了数据之间的关联性,因此具有比孤立数据更加丰富的信息。由于图数据和有序数据的组织形式的特殊性,通常称对图数据进行的数据挖掘为图挖掘(GraphMining),称对序列数据进行的数据挖掘为序列挖掘(SequenceMining)。

记录数据

记录数据是数据集由一条一条记录组成数据,每条记录具有相同的属性集合。记录数
据是SQL数据库所使用的数据类型。
数据矩阵是记录数据的一种特例。当每个属性都是数值型属性的时候,这些数据对象就可以被看成空间中的点,每一个维度对应一个属性。这样的数据集可以用m*n的矩阵来表示,其中矩阵的行数m为记录的条数,矩阵的列数n为记录的属性个数。
文档数据是文档集合构成的数据集。在自然语言处理中,在“词袋模型”的假设下将一个文档中词出现的次数作为文档的属性是常见的做法。

交易数据是记录数据的一种特例,在交易数据中,每一条记录(交易)中包含若千个物品。例如超市的销售纪录。

超市销售记录

 

图数据

图数据由点与点之间的连线构成,通常用来表示具有某种关系的数据,如家谱图、分类体系图和互联网链接关系等。在万维网中,网页通常表示为HTML(超文本标记语言)格式,其中包含可以指向其他网页或站点的链接,如果把这些网页视为点,将链接视为有向边,则万维网数据可以看作一个有向图,也有无向图。

有序数据

有序数据是一种数据记录之间存在序关系的数据集,这种序关系体现在前后、时间或者空间上。交易序列数据是一种特殊的有序数据,其中每一个数据都是一个交易序列。

表2.4所示的超市销售记录序列数据中,每一行为一位顾客的购买记录序列,括号内是一次购买的物品清单,不同括号的先后顺序表示时间上的先后顺序。交易序列数据有助于挖掘在时间上具有先后的一些交易的性质,如重复购买,或关联商品。

2.为什么要进行数据预处理

最主要的原因是数据质量无法满足数据挖掘的要求,如数据可能具有某些不良特性,或者不符合后续挖掘的需要。一般来说,高质量的数据应该满足准确性、完整性和一致性的原则。数据质量的低劣甚至有着来自现实的原因。还有其他一些数据质量问题.如时效性、可信性、有价值、可解释性和可访问性等。

3.数据预处理的任务

数据预处理的主要任务包括数据清洗、数据集成、数据转换、数据归约和数据离散化等。
(1)数据清洗。对脏数据进行处理并去除这些不良特性的过程。脏数据是指包含噪声,存在缺失值.存在错误和不一致性的数据。
(2)数据集成。是将不同来源的数据集成到一起的过程,这些数据可能来自不同的数据库、数据报表和数据文件。数据集成需要解决数据在不同数据源中的格式和表示的不同,并整理为形式统一的数据。
(3)数据转换。是对数据的值进行转换的过程。在使用某些数据处理方法之前,如k均值聚类和贝叶斯分类,对数值进行转换非常必要。因为当数据的不同维度之间的数量级.差别很大的时候,分类和聚类的结果会变得非常不稳定,这时通常会对数据进行规范化,对数据值进行统- -的放缩。
(4)数据归约。是对数据的表示进行简化的技术。数据归约使得表示非常复杂的数据可以以更加简化的方式来表示。数据归约可以使得数据处理在计算效率、存储效率上获得.较大的提升,而不至于在挖掘分析性能上做出大的牺牲。
(5) 数据离散化。是对连续数据值进行离散化的过程。数据离散化有时也称为量化,数据在离散化过程中可能会损失部分信息,信息论中的率失真理论给出了量化过程中的信息损失与量化的位数的关系。

相关文章:

数据挖掘(2.1)--数据预处理

一、基础知识 1.数据的基本概念 1.1基础知识 数据是数据对象(Data Objects)及其属性(Attributes)的集合。 数据对象(一条记录、一个实体、一个案例、一个样本等)是对一个事物或者物理对象的描述。 数据对象的属性则是这个对象的性质或特征,例如一个人的肤色、眼球…...

PMP考前冲刺3.06 | 2023新征程,一举拿证

题目1-2:1.一名团队成员表示,他们的用户故事要等到迭代结束后才能完成,因为他们的职能经理要求他们协助解决高优先级的生产问题。项目经理应该做什么?A.将问题上报给项目发起人以解决和调整项目燃尽图B.与产品负责人讨论用户故事不…...

buuctf-pwn write-ups (11)

文章目录buu083-x_ctf_b0verfl0wbuu084-picoctf_2018_leak_mebuu085-inndy_echobuu086-hitcontraining_unlinkbuu087-ciscn_2019_final_3buu088-axb_2019_fmt64buu089-wustctf2020_name_your_catbuu090-pwnme1buu091-axb_2019_brop64buu092-[极客大挑战 2019]Not Badbuu083-x_c…...

【VTK】VTK隐藏vtkOutputWindow窗口的正确方法

VTK隐藏vtkOutputWindow窗口 要求隐藏vtkOutputWindow窗口,但是不能把Warning警告和Error错误的信息都给屏蔽了 网上常见的错误方法: 现在百度搜索出来的方法几乎都是在这样做:在main文件中使用vtkOutputWindow::SetGlobalWarningDisplay(0…...

顺序表以及链表的应用及区别(包含OJ讲解)

前面我已经发过怎么实现链表以及顺序表,今天大概的总结一下。 顺序表: 1.能够随时的存取,比较方便。 2.插入删除时,需要挪动数据,比较麻烦,因为是连续存储。 3.存储密度相对于链表来说是比较高的&#…...

JVM简介

一、什么是JVM JVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。 Java语言的一个非常重要的特点就是与平…...

Leetcode.1653 使字符串平衡的最少删除次数

题目链接 Leetcode.1653 使字符串平衡的最少删除次数 Rating &#xff1a; 1794 题目描述 给你一个字符串 s&#xff0c;它仅包含字符 a和 b​​​​ 。 你可以删除 s中任意数目的字符&#xff0c;使得 s平衡 。当不存在下标对 (i,j)满足 i < j&#xff0c;且 s[i] b的同…...

leetcode 71~80 学习经历

leetcode 71~80 学习经历71. 简化路径72. 编辑距离73. 矩阵置零74. 搜索二维矩阵75. 颜色分类76. 最小覆盖子串77. 组合78. 子集79. 单词搜索80. 删除有序数组中的重复项 II小结71. 简化路径 给你一个字符串 path &#xff0c;表示指向某一文件或目录的 Unix 风格 绝对路径 &am…...

使用metrics-server监控k8s的资源指标

首先&#xff0c;欢迎使用DHorse部署k8s应用。 k8s可以通过top命令来查询pod和node的资源使用情况&#xff0c;如果直接运行该命令&#xff0c;如下所示。 [rootcentos05 deployment]# kubectl top pod W0306 15:23:24.990550 8247 top_pod.go:140] Using json format to …...

【Copula】考虑风光联合出力和相关性的Copula场景生成(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…...

【java基础】泛型程序设计基础

文章目录泛型是什么自定义泛型类自定义泛型方法类型变量的限定总结泛型是什么 泛型类和泛型方法有类型参数&#xff0c;这使得它们可以准确地描述用特定类型实例化时会发生什么。在没有泛型类之前&#xff0c;程序员必须使用Objct编写适用于多种类型的代码。这很烦琐&#xff…...

【省选模拟测试23 T1直径】更好的做法

题目大意和普通做法 省选模拟测试23 T1直径 题解 对于上文中有三个儿子的根节点的树&#xff0c;其直径数量为abbccaabbccaabbcca。那么对于上文中有nnn个儿子的根节点的树&#xff0c;其直径数量为多少呢&#xff1f; 每个儿子所在子树中的点与其他儿子所在子树中的点都能组…...

SpringCloud基础(3)-微服务远程调用

SpringCloud基础1. 微服务的远程调用2. Eureka注册中心1. 搭建Eureka服务注册中心1. 微服务的远程调用 服务提供者&#xff1a;一次业务中被其它服务调用的一方&#xff1b; 服务消费者&#xff1a;一次业务中调用其它服务的一方&#xff1b; 2. Eureka注册中心 记录所有服务…...

10.单点登录原理及JWT实现

单点登录原理及JWT实现 一、单点登录效果 首先我们看通过一个具体的案例来加深对单点登录的理解。案例地址&#xff1a;https://gitee.com/xuxueli0323/xxl-sso?_fromgitee_search 把案例代码直接导入到IDEA中 然后分别修改下server和samples中的配置信息 在host文件中配置 …...

图表控件LightningChart.NET 系列教程(十一):LightningChart 组件——添加至 Blend WPF 项目

LightningChart.NET 是一款高性能 WPF 和 Winforms 图表,可以实时可视化多达1万亿个数据点。可有效利用CPU和内存资源&#xff0c;实时监控数据流。同时&#xff0c;LightningChart使用突破性创新技术&#xff0c;以实时优化为前提&#xff0c;大大提升了实时渲染的效率和效果&…...

libGDX:灯光效果实现一(实现一个点光源)

国内的libGDX文章很少&#xff0c;特别是libGDX实现灯光效果&#xff0c;所以就开始总结灯光效果的实现 绿色的框 是为了方便看到Body位置&#xff0c;使用Box2DDebugRenderer渲染的 工欲善其事&#xff0c;必先利其器&#xff0c;工具集合 gdx-setup.jar 1. 从libGDX官网下载…...

Java生态/Redis中如何使用Lua脚本

文章目录一、安装LUA1&#xff09;简单使用二、lua语法简介1、注释1&#xff09;单行注释2&#xff09;多行注释2、关键字3、变量1&#xff09;全局变量2&#xff09;局部变量4、数据类型1&#xff09;Lua数组2&#xff09;字符串操作5、if-else6、循环1&#xff09;for循环1&g…...

网络编程 socket 编程(一)

1. C/S 架构 C/S 架构即客户端/服务端架构&#xff0c;B/S 架构&#xff08;浏览器与服务端&#xff09;也是 C/S 架构的一种。 C/S 架构与 socket 的关系&#xff1a;学习 socket 可以完成 C/S 架构的开发。 2. osi 七层 一个完整的计算机系统由硬件、操作系统以及应用软件…...

【SpringCloud】SpringCloud教程之Nacos实战(一)

目录Nacos是什么&#xff1f;一.Nacos下载二.安装Nacos三.Nacos原理四.Nacos快速入门五.Nacos服务多级存储模式六.Nacos根据集群设置负载均衡1.根据同集群优先访问2.根据权重配置负载均衡七.Nacos的环境隔离八.Nacos和Eureka的区别前提&#xff1a;以订单服务和用户服务为例&am…...

高通Android 12/13 默认应用程序授予权限

1、一提到权限很多Android开发者都会想到 比如拨打电话 读取手机通讯录 定位 这些都是需要申请权限&#xff0c;Google Android 6.0之后&#xff08;sdk 23&#xff09; 需要app动态申请权限 或者权限组 2、我这里打个比方 比如需要在fm应用 默认打开mic权限 3、我们需要知道…...

救命!电路板维修高频故障排查口诀,背会秒上手,修板快准稳

修板半天没头绪&#xff1f;工控伺服板一修就慌&#xff1f;测遍元件还烧板&#xff1f;其实电路板故障排查不用死磕&#xff0c;一套好记的速记口诀&#xff0c;能帮你少走弯路、少赔成本&#xff0c;新手能快速上手&#xff0c;老手直接拉高效率&#xff0c;刷到这篇干货&…...

实时行情系统设计:从协议选择到高可用架构,再到数据源选型

一、核心问题及解决方案&#xff08;按踩坑频率排序&#xff09; 问题 1&#xff1a;误删他人持有锁——最基础也最易犯的漏洞 成因&#xff1a;释放锁时未做身份校验&#xff0c;直接执行 DEL 命令删除键。典型场景&#xff1a;服务 A 持有锁后&#xff0c;业务逻辑耗时超过锁…...

新手零压力入门,快马ai带你三步搞定nodejs环境配置

最近在帮几个朋友入门Node.js时&#xff0c;发现很多新手卡在了环境配置这一步。作为一个过来人&#xff0c;我完全理解那种面对命令行手足无措的感觉。好在现在有了InsCode(快马)平台&#xff0c;可以快速生成一个专为Node.js新手设计的入门项目模板&#xff0c;把抽象的配置过…...

MATLAB实战:如何用三种噪声干扰模拟器提升脉冲雷达抗干扰能力

MATLAB实战&#xff1a;三种噪声干扰模拟器在脉冲雷达抗干扰测试中的应用 雷达系统在现代电子战中扮演着关键角色&#xff0c;而抗干扰能力是评估雷达性能的重要指标。本文将深入探讨如何利用MATLAB构建射频噪声、调幅噪声和调频噪声三种干扰模拟器&#xff0c;通过完整的代码实…...

DeerFlow免费开源:字节跳动出品,个人研究者的强大AI工具

DeerFlow免费开源&#xff1a;字节跳动出品&#xff0c;个人研究者的强大AI工具 1. 项目概述 DeerFlow是由字节跳动公司开源的一款深度研究辅助工具&#xff0c;基于LangStack技术框架开发。这个项目通过整合语言模型、网络搜索和Python代码执行等能力&#xff0c;为个人研究…...

Multisim课程设计救星:从卡诺图到仿真,手把手搞定五人表决器(附源文件)

五人表决器数字电路设计实战&#xff1a;从卡诺图到Multisim仿真的全流程解析 第一次拿到数字电路课程设计任务书时&#xff0c;看着"五人表决器"这个题目&#xff0c;我的大脑和实验室的示波器一样一片空白。直到在面包板上成功点亮第一个LED指示灯&#xff0c;才真…...

AI Agent与传统RPA工具有什么本质区别?2026深度解析企业级智能体进化路径

在2026年3月下旬的当下&#xff0c;全球自动化技术正经历着从“按图索骥”到“自主导航”的范式跃迁。随着GPT-5.4等具备原生电脑操作能力的大模型发布&#xff0c;以及开源项目OpenClaw在过去一周内的爆发式增长&#xff0c;**AI Agent与传统RPA工具有什么本质区别&#xff1f…...

上篇:那个隔墙听声的侦探——AI中的隐马尔可夫模型到底是什么,以及它为什么被发明出来

想象一下这样的场景&#xff1a;你被关在一间屋子里&#xff0c;隔壁房间有一个人在扔硬币。但你看不到那个房间&#xff0c;也看不到那个人&#xff0c;更看不到硬币。你唯一能做的&#xff0c;就是竖起耳朵听——每隔一段时间&#xff0c;你能听到一个声音&#xff1a;“叮”…...

GetQzonehistory终极指南:三步永久备份你的QQ空间数字记忆

GetQzonehistory终极指南&#xff1a;三步永久备份你的QQ空间数字记忆 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否也曾翻看QQ空间&#xff0c;发现那些承载青春记忆的说说正在…...

3步让你的Windows 11性能提升60%:专业级系统优化工具Win11Debloat全解析

3步让你的Windows 11性能提升60%&#xff1a;专业级系统优化工具Win11Debloat全解析 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to…...