当前位置: 首页 > news >正文

数据仓库作业一:第1章 绪论

目录

    • 一、给出下列英文短语或缩写的中文名称,并简述其含义。
    • 二、简述操作型数据与分析型数据的主要区别。
    • 三、简述数据仓库的定义。
    • 四、简述数据仓库的特征。
    • 五、简述主题的定义。
    • 六、简述元数据的概念。
    • 七、简述数据挖掘的主要任务。
    • 八、简述数据挖掘的主要步骤。
    • 九、下列活动是否属于数据挖掘任务,并简述其理由。
    • 十、简述数据仓库与数据挖掘的区别。

一、给出下列英文短语或缩写的中文名称,并简述其含义。

1、DataBase(DB)

数据库(DataBase,DB):是长期存储在计算机内的、有组织的、可共享的数据集合。具有较小的冗余度、较高的数据独立性和易扩展性,并为用户共享。

2、On-Line Transaction Processing(OLTP)

联机事务处理(On-Line Transaction Processing,OLTP):指一种信息处理方式,用于处理日常业务事务。对传统数据库进行联机的日常操作,因此称为操作性处理。

3、Decision Support System(DSS)

决策支持系统(Decision Support System,DSS):对数据进行分析处理任务的计算机系统,提供管理者决策支持。

4、Systems Development Life Cycle(SDLC)

系统开发生命周期(Systems Development Life Cycle,SDLC):指支持日常事务操作事务处理需求驱动符合系统开发生命周期,即操作型系统遵循 “需求调查、需求分析、设计&编程、系统测试、系统集成、系统实施” 的系统开发生命周期。

5、Extract-Transform-Load(ETL)

抽取-转换-加载(Extract-Transform-Load,ETL):对数据源数据进行抽取、清理、转换和加载到DW的过程。

6、Data Warehouse(DW)

数据仓库(Data Warehouse,DW):是一个面向主题的、集成的、不可修改的、随时间变化的,支持管理决策的数据集合。

7、Data Warehouse Management System(DWMS)

数据仓库管理系统(Data Warehouse Management System,DWMS):是位于用户与操作系统(OS)之间的一层数据分析管理软件,负责对数据仓库数据进行统一更新、管理和使用控制,为用户和应用程序提供访问数据仓库的方法或接口软件的集合。

8、Data Warehouse System(DWS)

数据仓库系统(Data Warehouse System,DWS):是计算机系统、DW、DWMS、应用软件、数据库管理员和用户的集合。

9、Knowledge Discovery in database(KDD)

数据库中的知识发现(Knowledge Discovery in database,KDD):指采用有效算法从大量的、不完全的、有噪声的、模糊和随机的数据中识别出有效的、新颖的、潜在有用乃至最终可理解的模式的非平凡过程。

10、Data Mining(DM)

数据挖掘(Data Mining,DM):是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

11、On-Line Analytic Processing(OLAP)

在线分析处理(On-Line Analytic Processing,OLAP):指一种用于分析数据的技术和工具,它允许用户从不同的角度、多个维度对数据进行分析、查询和报表生成。

二、简述操作型数据与分析型数据的主要区别。

  从用途角度来看,操作型数据主要用于支持组织的日常业务活动和实时决策,通常用于记录、更新和管理组织的运作;分析型数据主要用于支持决策制定、趋势分析、预测和发现潜在的商业见解,可以帮助组织了解业务表现和规划未来方向。
  从处理方式角度来看,操作型数据以快速、实时的方式进行处理,通常存储在关系型数据库或类似的数据存储系统中,以便实时访问和更新;分析型数据通常以批处理或实时流式处理的方式进行,主要用于数据挖掘、机器学习、统计分析等用途。
  在特点方面,操作性数据的数据量较小,数据更新频繁,主要用于支持实时的业务流程和交易处理;分析型数据的数据量较大,数据处理过程可能需要复杂的算法和技术支持,主要用于深入分析和挖掘数据背后的信息。
  总的来说,操作型数据主要用于支持日常业务活动的实时处理,而分析型数据则用于深入分析和挖掘数据背后的信息,帮助组织做出更明智的决策。操作型数据强调实时性和快速访问,而分析型数据注重深度分析和发现隐藏在数据中的价值。

三、简述数据仓库的定义。

  数据仓库是一个面向主题的、集成的、不可修改的、随时间变化的,支持管理决策的数据集合。因此可以说,数据仓库是一个特殊的数据库,其特殊性体现在它的数据具有面向主题、集成、不可修改和随时间变化等4个特征,其目的是支持企业的管理决策而不是支持事务管理。
  数据仓库的建设需要进行一系列的过程,包括需求分析、数据建模、ETL (Extract-Transform-Load)处理、数据存储和管理、数据挖掘和分析等。通过数据仓库,企业可以获得准确、全面、一致和实时的数据,以支持企业的决策和管理需求。同时,数据仓库还可以帮助企业发现数据中潜在的模式、规律和趋势,以指导企业的发展和优化决策。

四、简述数据仓库的特征。

1、数据仓库的数据是面向主题的

  主题是宏观决策问题的一个分析对象,它由决策分析问题的要求来确定,并用一个在较高管理层次上的综合数据集合来描述。

2、数据仓库的数据是集成的

  根据决策分析的主题需要,把多个异种数据源中的数据收集起来形成一个统一并且一致的数据集合的过程。

3、数据仓库的数据是不可修改的

  数据仓库的数据都是从事务处理数据源抽取过来的历史数据,因而是不可以修改的,且基于数据仓库的决策分析只有读操作而没有修改操作。

4、数据仓库的数据是随时间变化的

  主要体现在以下3方面:数据仓库随时间变化不断增加新的数据内容;数据仓库随时间变化不断删去旧的数据内容;数据仓库中包含有大量的综合数据,且随着时间要求的变化而不断变化。

五、简述主题的定义。

  主题是宏观决策问题的一个分析对象,它由决策分析问题的要求来确定,并用一个在较高管理层次上的综合数据集合来描述。
  从信息管理的角度看,主题是在一个较高管理层次上对数据库系统中数据,按照具体的管理要求重新综合、归类的分析对象。从数据组织的角度看,主题就是一个数据集合,这些数据对分析对象进行了比较完整、一致的描述,不仅描述了数据自身,还描述了数据之间的关系。

六、简述元数据的概念。

  元数据是描述数据的数据,它提供关于数据的信息,帮助组织理解、管理和有效利用其数据资源。换句话说,元数据是对数据进行描述、定义和解释的数据。元数据通常包括以下几个方面的信息:

  • 数据结构:描述数据的逻辑结构、字段名称、数据类型、长度等信息。
  • 数据来源:记录数据的来源、采集方式、生产时间等信息。
  • 数据质量:包括数据的准确性、完整性、一致性等质量指标。
  • 数据关系:描述数据之间的关联、依赖关系以及数据流向。
  • 数据用途:记录数据的业务含义、用途、访问权限等信息。
  • 数据变更历史:记录数据的修改、更新历史,包括谁、何时、为什么做出了数据变更。

七、简述数据挖掘的主要任务。

1、分类分析(Classification Analysis)

  通过分析已知类别标记的样本集合(示例数据库)中的数据对象(记录),为每个类别做出准确的描述,或建立分类模型,或提取出分类规则(Classification Rules);然后用这个分类模型或规则对样本集合以外的记录进行分类。

2、聚类分析(Clustering Analysis)

  根据给定的某种相似性度量标准,将没有类别标记的数据库记录集划分成若干个不相交的子集(簇),使簇内的记录之间相似度很高,而不同簇的记录之间相似度很低。聚类分析可以帮助我们判断,数据库中记录划分成什么样的簇更有实际意义,在客户细分、定向营销、信息检索等领域广泛应用。

3、关联分析(Association Analysis)

  关联分析最初是针对购物篮分析问题而提出的,其目的是发现交易数据库中商品之间的相互联系的规则,即关联规则(Association rules)。关联分析主要用于市场营销、事务分析等领域。

4、序列模式(Sequential Patterns)

  数据间的前后序列关系,包括相似模式发现、周期模式发现等,主要应用于客户购买行为模式预测、疾病诊断、防灾救灾、Web访问模式预测和网络入侵检测等领域。

5、离群点检测(Outlier detection)

  离群点(Outlier)是一个数据集中过分偏离其它绝大部分数据的特殊数据。离群点检测就是希望从数据集中发现这种与众不同的数据,已在银行、保险、电信、电子商务等行业的欺诈行为检测中得到广泛应用,比如银行的反洗钱检测系统,互联网的入侵检测系统等。

八、简述数据挖掘的主要步骤。

1、问题定义

  弄清楚需要哪些方面的数据(也称为数据选择)以及希望挖掘出什么样的知识,即确定挖掘任务。

2、数据准备

  数据抽取,从各种可用数据源中抽取与挖掘任务相关的数据。预处理,包括消除噪声、补充缺损值数据、消除重复记录、转换数据类型(连续型数据转换为离散型数据,或与之相反)等。数据存储,即把经过预处理的数据,按照数据挖掘任务和挖掘算法的要求集成起来,重新组织并以数据库或数据文件等恰当的方式存储,作为数据挖掘的对象。

3、挖掘实施

  选定数据挖掘算法,编写应用程序或使用商品化挖掘工具的功能模块,从数据挖掘对象中挖掘出用户可能需要的知识或模式,并将这些知识或模式用一种特定的方式,比如表格、图形等可视化方法表示。

4、评估解释

  挖掘人员、企业高管和领域专家,对发现的知识或模式进行评估,剔除冗余或无关的模式,并对余下的知识或模式进行解释,发现并理解其中有实际应用价值的知识。如果挖掘出来的知识无法满足用户的要求,就需要开始新一轮的数据挖掘,或者回到前面的某一步重新开始。

5、知识应用

  将经过评估解释,且被用户理解的知识,用于商业决策。

九、下列活动是否属于数据挖掘任务,并简述其理由。

1、根据性别划分超市的顾客。

  不属于教据挖掘任务。根据性别划分顾客是一种简单的数据分类,它不涉及对数据进行深入分析或模式识别。可以通过简单的统计方法,如计数和百分比,来获得这些信息。

2、根据可赢性划分超市的顾客。

  属于数据挖掘任务。可赢利性是一个复杂的概念,涉及多个因素,如收入、消费习惯、购买频率等。根据“可赢性”(即顾客的购买潜力或利润贡献)来划分顾客需要对数据进行分析和模式识别,可以使用聚类、分类等数据挖掘技术来实现。通过挖掘大量的顾客数据,可以识别出那些具有高可赢利性的顾客,并制定相应的营销策略。

3、预测投一对骰子的结果。

  不属于数据挖掘任务。因为骰子投掷的结果是基于随机的概率事件,而不是基于数据分析或模式识别。

4、使用历史记录预测某超市股票明天的价格。

  属于数据挖掘任务。通过分析历史股票价格数据,可以运用时间序列分析、回归分析等数据挖掘技术来预测未来股票价格走势,这涉及对数据的深入分析和模式识别。

十、简述数据仓库与数据挖掘的区别。

  数据仓库是一个用于集成、存储和管理大量数据的系统,旨在支持企业的决策制定和分析需求。通常用于存储结构化数据,经过清洗、整合和转换后的数据以便进行查询和分析。数据仓库的主要功能包括数据的抽取、转换、加载(ETL)、数据存储、数据管理和提供报表等功能。数据仓库的目的是为了提供高效的数据访问和查询,帮助用户进行各种分析和报告工作。
  数据挖掘是从大量数据中发现隐藏的模式、关系和信息的过程,旨在提取对业务有用的知识和见解。数据挖掘技术包括聚类、分类、关联规则挖掘、异常检测等方法,可以帮助发现数据中的潜在模式。通常应用于数据仓库中的数据,通过分析数据挖掘结果来实现更深入的业务理解和决策支持。数据挖掘的目的是发现数据中的价值和趋势,帮助企业做出更明智的决策和预测未来的走向。
  总的来说,数据仓库主要用于数据的存储、管理和查询,而数据挖掘则是在数据仓库中进行的一种分析过程,旨在发现数据中隐藏的信息和规律。数据仓库是数据挖掘的数据来源和支撑,二者共同为企业提供数据驱动的决策支持和业务洞察。

相关文章:

数据仓库作业一:第1章 绪论

目录 一、给出下列英文短语或缩写的中文名称,并简述其含义。二、简述操作型数据与分析型数据的主要区别。三、简述数据仓库的定义。四、简述数据仓库的特征。五、简述主题的定义。六、简述元数据的概念。七、简述数据挖掘的主要任务。八、简述数据挖掘的主要步骤。九…...

spring aop中获取request和response

Spring AOP 操作中如何使用request和response 实际使用时,如果方法一不行,请使用方法二 方法一 HttpServletRequest request ((ServletRequestAttributes) RequestContextHolder.getRequestAttributes()).getRequest(); HttpServletResponse respons…...

在Mac上安装nginx+rtmp 本地服务器

需要使用终端命令,如果没有Homebrew,要安装Homebrew,执行: ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" 一、安装Nginx 1、先clone Nginx项目到本地: brew tap de…...

解决ChatGPT发送消息没有反应

ChatGPT发消息没反应 今天照常使用ChatGPT来帮忙码代码,结果发现发出去的消息完全没有反应,即不给我处理,也没有抱任何的错误,按浏览器刷新,看起来很正常,可以查看历史对话,但是再次尝试还是一…...

windows关闭copilot预览版

如果用户不想在windows系统当中启用Copilot,可以通过以下三种方式禁用。 第一种:隐藏Copilot 按钮 右键点击任务栏,取消勾选“显示 Copilot(预览版)按钮”,任务栏则不再显示,用户可以通过快捷键…...

基于Java的社区买菜系统(Vue.js+SpringBoot)

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、系统设计2.1 功能模块设计2.1.1 数据中心模块2.1.2 菜品分类模块2.1.3 菜品档案模块2.1.4 菜品订单模块2.1.5 菜品收藏模块2.1.6 收货地址模块 2.2 可行性分析2.3 用例分析2.4 实体类设计2.4.1 菜品分类模块2.4.2 菜品档案模块2.4.3…...

html--心花怒放

代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>Canvas 绘制一个❤</title><link rel"shortcut icon" href"../../assets/images/icon/favicon.ico" type"ima…...

FPGA的配置状态字寄存器Status Register

目录 简介 状态字定义 Unknown Device/Many Unknow Devices 解决办法 一般原因 简介 Xilinx的FPGA有多种配置接口&#xff0c;如SPI&#xff0c;BPI&#xff0c;SeletMAP&#xff0c;Serial&#xff0c;JTAG等&#xff1b;如果从时钟发送者的角度分&#xff0c;还可以…...

【HarmonyOS Arkts笔记】http网络请求封装

common.ts export default class CommonConstant {/*** The host address of the server.*/static readonly SERVER: string 请求接口地址;/*** The request success code.*/static readonly SUCCESS_CODE: number 200;/*** Read timeout.*/static readonly READ_TIMEOUT: n…...

html前端的几种加密/解密方式

HTML前端的加密解密方式有以下几种&#xff1a; 一、base64加密 Base64编码&#xff1a;Base64是一种将二进制数据转换为可打印字符的编码方式。在前端&#xff0c;可以使用JavaScript的btoa()函数进行Base64编码&#xff0c;使用atob()函数进行解码。 var str "hello…...

算法学习01:排序二分

算法学习01&#xff1a;排序&&二分 文章目录 算法学习01&#xff1a;排序&&二分前言需要记忆的模版&#xff1a;快速排序归并排序&#xff1a;整数二分&#xff1a;浮点数二分 一、排序1.快速排序2.归并排序&#xff1a; 二、二分1.整数2.浮点数 总结 前言 需要…...

OpenAI (ChatGPT)中国免费试用地址

GitHub - click33/chatgpt---mirror-station-summary: 汇总所有 chatgpt 镜像站&#xff0c;免费、付费、多模态、国内外大模型汇总等等 持续更新中…… 个人能力有限&#xff0c;搜集到的不多&#xff0c;求大家多多贡献啊&#xff01;众人拾柴火焰高&#xff01;汇总所有 cha…...

IOS面试题object-c 11-20

11、解释self [super init]方法&#xff1f; 容错处理, 当父类初始化失败,会返回一个nil, 表示初始化失败。 由于继承的关系, 子类是需要拥有父类的实例和行为, 因此, 我们必须先初始化父类,然后再初始化子类 12、简述使用block有什么优点&#xff1f;代码紧凑&#xff0c;传值…...

北斗导航 | 十四种抗差稳健估计(抗差M估计)方法(算法公式)

===================================================== github:https://github.com/MichaelBeechan CSDN:https://blog.csdn.net/u011344545 ===================================================== 稳健估计(M估计) 1、Huber法2、残差绝对和最小法3、L1-L2法...

【JavaEE】_Spring MVC项目使用数组与集合传参

目录 1. 使用数组传参 1.2 传递单个参数 1.3 传递多个名称相同的参数 1.3.1 关于urlencode 2. 使用集合传参 1. 使用数组传参 创建一个Spring MVC项目&#xff0c;其中 .java文件内容如下&#xff1a; package com.example.demo.controller;import com.example.demo.Per…...

Centos 9 安装 k8s

为了尽可能契合生产环境的部署情况&#xff0c;这里用kubeadm安装集群&#xff0c;同时方便跟随笔记一步步实践的过程&#xff0c;也更加了解k8s的一些特性和基础知识。 先决条件 这里将通过虚拟机安装3台centos stream 9服务器&#xff0c;并组成kubeneters集群&#xff08;…...

WiFi模块助力少儿编程:创新学习与实践体验

随着科技的飞速发展&#xff0c;少儿编程已经成为培养孩子们创造力和问题解决能力的重要途径之一。在这个过程中&#xff0c;WiFi模块的应用为少儿编程领域注入了新的活力&#xff0c;使得学习编程不再是单一的代码教学&#xff0c;而是一个充满创新与实践的综合性体验。 物联网…...

最新:Selenium操作已经打开的Chrome(免登录)

最近重新尝试了一下&#xff0c;之前写的博客内容。重新捋了一下思路。 目的就是&#xff0c;selenium在需要登录的网站面前&#xff0c;可能就显得有些乏力&#xff0c;因此是不是有一种东西&#xff0c;可以操作它打开我们之前打开过的网站&#xff0c;这样就不用登录了。 …...

三色标记过程

可达性分析 GC过程中需要对对象图遍历做可达性分析。使用了三色标记法进行分析。 什么三色&#xff1f; 白色&#xff1a;尚未访问过。 黑色&#xff1a;本对象已访问过&#xff0c;而且本对象 引用到 的其他对象 也全部访问过了。 灰色&#xff1a;本对象已访问过&#xff0…...

记录汇川:IO隔离编程

IO隔离&#xff1a;方便程序修改 无论是输入点坏了还是输出点坏了&#xff0c;或者人为接错线&#xff0c;或者对调点&#xff0c;我们只需要更改IO隔离得输入输出就可以了。方便。 停止按钮外接常闭&#xff0c;里面也使用常闭&#xff0c;为了断线检测功能(安全)&#xff…...

C++初阶-list的底层

目录 1.std::list实现的所有代码 2.list的简单介绍 2.1实现list的类 2.2_list_iterator的实现 2.2.1_list_iterator实现的原因和好处 2.2.2_list_iterator实现 2.3_list_node的实现 2.3.1. 避免递归的模板依赖 2.3.2. 内存布局一致性 2.3.3. 类型安全的替代方案 2.3.…...

如何将联系人从 iPhone 转移到 Android

从 iPhone 换到 Android 手机时&#xff0c;你可能需要保留重要的数据&#xff0c;例如通讯录。好在&#xff0c;将通讯录从 iPhone 转移到 Android 手机非常简单&#xff0c;你可以从本文中学习 6 种可靠的方法&#xff0c;确保随时保持连接&#xff0c;不错过任何信息。 第 1…...

论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法(ISWC2024)

笔记整理&#xff1a;刘治强&#xff0c;浙江大学硕士生&#xff0c;研究方向为知识图谱表示学习&#xff0c;大语言模型 论文链接&#xff1a;http://arxiv.org/abs/2407.16127 发表会议&#xff1a;ISWC 2024 1. 动机 传统的知识图谱补全&#xff08;KGC&#xff09;模型通过…...

Spring Boot面试题精选汇总

&#x1f91f;致敬读者 &#x1f7e9;感谢阅读&#x1f7e6;笑口常开&#x1f7ea;生日快乐⬛早点睡觉 &#x1f4d8;博主相关 &#x1f7e7;博主信息&#x1f7e8;博客首页&#x1f7eb;专栏推荐&#x1f7e5;活动信息 文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...

vue3+vite项目中使用.env文件环境变量方法

vue3vite项目中使用.env文件环境变量方法 .env文件作用命名规则常用的配置项示例使用方法注意事项在vite.config.js文件中读取环境变量方法 .env文件作用 .env 文件用于定义环境变量&#xff0c;这些变量可以在项目中通过 import.meta.env 进行访问。Vite 会自动加载这些环境变…...

有限自动机到正规文法转换器v1.0

1 项目简介 这是一个功能强大的有限自动机&#xff08;Finite Automaton, FA&#xff09;到正规文法&#xff08;Regular Grammar&#xff09;转换器&#xff0c;它配备了一个直观且完整的图形用户界面&#xff0c;使用户能够轻松地进行操作和观察。该程序基于编译原理中的经典…...

鸿蒙DevEco Studio HarmonyOS 5跑酷小游戏实现指南

1. 项目概述 本跑酷小游戏基于鸿蒙HarmonyOS 5开发&#xff0c;使用DevEco Studio作为开发工具&#xff0c;采用Java语言实现&#xff0c;包含角色控制、障碍物生成和分数计算系统。 2. 项目结构 /src/main/java/com/example/runner/├── MainAbilitySlice.java // 主界…...

【数据分析】R版IntelliGenes用于生物标志物发现的可解释机器学习

禁止商业或二改转载&#xff0c;仅供自学使用&#xff0c;侵权必究&#xff0c;如需截取部分内容请后台联系作者! 文章目录 介绍流程步骤1. 输入数据2. 特征选择3. 模型训练4. I-Genes 评分计算5. 输出结果 IntelliGenesR 安装包1. 特征选择2. 模型训练和评估3. I-Genes 评分计…...

Golang——6、指针和结构体

指针和结构体 1、指针1.1、指针地址和指针类型1.2、指针取值1.3、new和make 2、结构体2.1、type关键字的使用2.2、结构体的定义和初始化2.3、结构体方法和接收者2.4、给任意类型添加方法2.5、结构体的匿名字段2.6、嵌套结构体2.7、嵌套匿名结构体2.8、结构体的继承 3、结构体与…...

C# 表达式和运算符(求值顺序)

求值顺序 表达式可以由许多嵌套的子表达式构成。子表达式的求值顺序可以使表达式的最终值发生 变化。 例如&#xff0c;已知表达式3*52&#xff0c;依照子表达式的求值顺序&#xff0c;有两种可能的结果&#xff0c;如图9-3所示。 如果乘法先执行&#xff0c;结果是17。如果5…...