当前位置: 首页 > news >正文

计算机三级 - 数据库技术 - 第十四章 数据仓库与数据挖掘 笔记

第十四章 数据仓库与数据挖掘

 

内容提要:

  1. 了解数据仓库相关技术
  2. 了解数据仓库的设计、建造、运行及维护
  3. 了解OLAP及多维数据模型
  4. 了解数据挖掘技术

  • 决策支持系统(DSS):综合利用大量数据有机组合众多模型(数学模型和数据处理模型),通过人机交互,辅助各级决策者实现科学决策的系统。

14.2  数据仓库技术概述:

  1. 数据仓库的概念与特性:

    • 建立数据仓库的目的:
      • 根据决策需求对企业的数据采取适当的手段进行集成,形成一个综合的面向分析的数据环境,用于支持企业的信息型决策型的分析应用。
    • 数据仓库的特性:
      1. 面向主题性:
        • 数据仓库中的数据是以面向主题的方式进行组织的。
        • 目前,数据仓库主题数据的实现采用关系型数据库技术。
      2. 集成性:
        • 数据仓库最重要的特性。分为数据抽取、转换、清理(过滤)和装载4项任务
      3. 不可更新性:
        • 数据仓库中的数据以批量方式处理,不进行一般意义上的数据更新。
      4. 时间特性:
        • 随时间变化:不断捕捉数据。

  1. 数据仓库的体系结构与环境:

    • 从数据层次角度可分为:操作性数据、操作性数据存储、数据仓库、数据集市,也可以包括个体层数据
    • 从功能结构角度可分为:数据处理、数据管理、数据应用

  1. 数据仓库的数据组织:

    • 粒度:
      • 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小
    • 数据分区(分割):
      • 将数据分散到各自的物理单元中去,它们能独立地处理。
      • 最常见的是按照时间标准分区。
    • 元数据:
      • 关于数据的数据,或叫描述数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。
      • 它描述了数据的结构、内容、链和索引等内容
      • 分为:技术型元数据和业务型元数据
    • 数据集市 -- 小型的,面向部门或工作组级数据仓库

  1. 操作型数据存储(ODS) :

    • 是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。
    • 四个基本特点:面向主题、集成、可变、当前或接近当前的。

14.3 设计与建造数据仓库

CLDS由数据开始,一旦数据到手,就集成数据,然后,如果数据有偏差,就检验看看数据存在什么偏差,再针对数据写程序,分析程序执行结果,最后,系统需求才得到理解。

  1. 数据仓库的数据模型:

    • 数据仓库的数据模型分为概念(E-R图)、逻辑(关系型模型或多维数据模型)、物理三级数据模型。与普通数据库系统的数据模型不同。
      1. 一般不包含纯操作型数据。
      2. 一般需要扩充关键字结构,在其中加入时间属性。
      3. 需要增加导出数据。
  2. 数据仓库设计步骤:

    • 数据仓库的设计过程分为:

                             概念模型设计、技术评估与环境准备工作、逻辑模型设计、物理模型设计、数据生成与应用实现、数据仓库运行与维护

14.4 数据仓库的运行和维护

  1. 数据仓库数据的更新维护

  • 维护策略
    1. 实时维护

                                在数据源发生变化时,立即更新

                    2.延时维护

                                在数据仓库中的视图被查询时完成更新

                    3.快照维护

                                定期对数据仓库进行维护,触发条件是时间

  • 捕捉数据源的变化

        典型的方法有:

  1. 触发器
  2. 修改数据源应用程序
  3. 通过日志文件
  4. 快照比较法

14.5 联机分析处理与多维数据模型:

  1. OLAP简介

    • OLAP--联机分析处理或在线分析处理
      • 主要用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。
    • OLAP工具一般具有快速、可分析和多维的特点。

  1. 多维分析的基本操作

    1. 钻取与卷起

                        OLAP分析最基本的操作。钻取指对应于某维逐步向更细节层方向观察数据,卷起则反

               2. 切片和切块

                        实现局部数据的显示。

                3. 旋转

                        改变一个报告或页面显示的维方向,得到不同视角的数据。最简单的旋转就是数据交叉

  • OLAP的实现方式

        OLAP的实现方式有三种:

  1. 基于多维数据库的OLAP(MOLAP)
    • 以多维数组为基本存储结构。
  2. 基于关系数据库的OLAP(ROLAP)
    • 采用关系表表示和存储。(星形模式或雪花模式)
  3. 混合型的OLAP(HOLAP)
    • 结合MOLAP与ROLAP。具有最好的查询性能。

14.6 数据挖掘技术:

  • 数据挖掘:
    • 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程

  1. 数据挖掘步骤:

  • 数据挖掘作为知识发展的过程,分为三个阶段
    1. 数据准备

                                三个子步骤:数据选取,数据预处理,数据变化

                    2.  数据挖掘

                                首先确定挖掘的任务,其次决定挖掘算法

                    3.  结果解释评估

                                剔除几余或无关的模式

  • 常见的数据挖掘任务:

    1. 分类预测任务

                                常见的方法:决策树、神经网络、规则归纳、支持向量机、贝叶斯、粗糙集、回归分析、K-最近邻等。

                    2.  描述型任务

                                典型的方法:聚类、关联、分析等。

  1. 关联规则挖掘

  • 关联规则挖掘过程主要包含两个阶段:
    • 第一阶段必须先从资料集合中找出所有的高频项目组
    • 第二阶段再由这些高频项目组中产生关联规则

  1. 分类挖掘

    • 用于预测数据对象的离散类别
    • 一般分为两个步骤:
      • 通过已知数据集,建立分类函数,构造分类器
      • 利用所获得的分类函数对未知类别标记的数据项进行分类操作。

  1. 聚类挖掘

    • 用于对集中的数据进行分组,使得每组内的数据尽量相似而不同,组间的数据尽可能不同。
    • 聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法等

  1. 时间序列分析

    • 时间序列----用时间排序的一组随机变量。
    • 时间序列分析----又称为数据演变分析,描述行为随时间变化的对象的规律或趋势,并对其进行建模
    • 从不同角度可分为:一元时间序列和多元时间序列;等间隔时间序列和不等间隔时间序列;平稳时间序列和非平稳时间序列。

其余章节进我主页进行查看

相关文章:

计算机三级 - 数据库技术 - 第十四章 数据仓库与数据挖掘 笔记

第十四章 数据仓库与数据挖掘 内容提要: 了解数据仓库相关技术了解数据仓库的设计、建造、运行及维护了解OLAP及多维数据模型了解数据挖掘技术 决策支持系统(DSS):综合利用大量数据有机组合众多模型(数学模型和数据处理模型),通过人机交互&a…...

低代码移动端集成:简化开发、提升用户体验的利器

什么是低代码平台? 低代码平台是一种开发工具,它允许用户通过图形化界面而非传统编程语言来构建应用程序。这种平台通过可视化的拖拽组件和配置,显著简化了应用开发过程。用户可以在这些平台上快速创建功能模块、设计用户界面,并…...

Redis入门1

Redis简介 Redis是一个基于内存的 key-value 结构数据库。 基于内存存储,读写性能高 适合存储热点数据(热点商品、资讯、新闻) 企业应用广泛 官网:https://redis.io 中文网:https://www.redis.net.cn/ window版启动命令 redis-server.exe redis.windows.con…...

SHT20温湿度传感器的C语言驱动

SHT20 是一款高精度的温湿度传感器,常用于环境监测和自动化控制系统中。以下是 SHT20 温湿度传感器的 C 语言驱动示例,展示了如何通过 I2C 通信与 SHT20 传感器进行通信以获取温度和湿度数据。 驱动流程 初始化 I2C 通信发送命令读取温度或湿度数据解析…...

系统架构师考试学习笔记第四篇——架构设计实践知识(16)层次式架构设计理论与实践

本章考点: 大纲,本课时知识点会涉及单选为题型(约占2~5分)和案例题(25分),本课时内容偏重于方法的掌握和应用,根据以往全国计算机技术与软件专业技术资格(水平)考试的出题规律,概念知识的考查内容多数来源于实际应用,还需要灵活运用相关知识点。本课时知识架构如图1…...

顶踩Emlog插件源码

源码介绍 顶踩Emlog插件源码 前些天看到小刀娱乐网的文章页面有了一些变化,那就是增加了一个有价值/无价值的顶踩按钮。 样式也是非常的好看 再加上两个表情包是非常的有趣。 写到了Emlog系统,效果如上图。 如何使用: 需要在echo_log.…...

国庆出游季,南卡Runner Pro5骨传导耳机让旅途更完美!

国庆长假将至,无论是计划一场远行还是近郊的户外活动,一款适合的耳机都能让旅途更加愉快。南卡Runner Pro5骨传导耳机以其独特的设计和功能,成为了国庆出行的理想伴侣。 首先,骨传导耳机通过颅骨传递声音,避免了传统耳…...

HarmonyOS NEXT 封装实现好用的网络模块(基于最新5.0的API12)

在 HarmonyOS-NEXT 开发中,网络请求是应用开发中不可或缺的一部分。为了提高开发效率和代码复用性,我们可以封装一个好用的网络模块组件。本文将介绍如何在 HarmonyOS-NEXT 中封装一个功能强大且易于使用的网络模块组件。 封装目的 网络模块使用的频率最…...

Visual Studio提示:无法安装CPpython.Exe.x64

如果你需要在Visual Studio中使用python环境,而且你本身已经有一个python环境,则只需要将你自己的python环境配置到Visual Studio中即可,可以无视如题报错,将不会产生实质性的问题或影响。 解决办法: 工具->获取工…...

计算机网络 ---- 电路交换、报文交换、分组交换

目录 零、前言 一、计算机网络发展初期面临的问题 1.1 电路交换的主要特点【电话网络采用电路交换技术】 1.1.1 电路交换的基本知识介绍 1.1.2 电路交换的优缺点 1.3 报文交换技术的特点【电报网络采用报文交换技术】 1.3.1 报文交换的基本知识介绍 1.3.2 报文交换技术…...

OceanBase 基于企业版本OAT安装与OMS安装与InfluxDB的集成

一、前言与环境准备 说明:OceanBase V3 的OMS手动安装与V4的OMS手动安装是存在区别的,建议V4版本的OMS通过OAT进行安装。 前言: OAT 是 OceanBase V4是企业版本安装Web界面的简易安装工具。 InfluxDB 是OMS 的监控时序数据库。 OMS 是Ocea…...

【油猴脚本】tampermonkey 的使用方法,油猴脚本(tampermonkey )编写方法,油猴脚本(tampermonkey )获取脚本的方法

前言:哈喽,大家好,今天给大家分享【油猴脚本】tampermonkey 的使用方法,油猴脚本(tampermonkey )编写方法,油猴脚本(tampermonkey )获取脚本的方法!并提供具体…...

Keil MDK报错:Browse information of one or more files is not available----解决方法:

Keil MDK报错:Browse information of one or more files is not available----解决方法: 问题描述 最近在项目中遇到这样一个问题:拷贝过来添加到工程的.c文件在编译时报如下错误: 解决方案: 总结以下一些解决办法&…...

C# WPF编程-串口通信

C# WPF编程-串口通信 串口通信1. NuGet安装System.IO.Ports2. 界面布局XAML3. C#代码4. 运行效果源码下载 串口通信 1. NuGet安装System.IO.Ports 2. 界面布局XAML <Window x:Class"BlocksTools.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006…...

MybatisPlus中tableName、tableId 和 tableField

在MyBatis-Plus中&#xff0c;tableName、tableId 和 tableField 等注解主要用于自动映射实体类与数据库表之间的关系&#xff0c;以及指定表的主键、字段名等&#xff0c;以减少手动配置的工作量。这些注解是MyBatis-Plus为了简化开发而提供的强大特性之一。下面分别介绍这些注…...

《2024中国数据要素产业图谱2.0版》重磅发布

数据猿出品 本次“数据猿2024年度三大媒体策划活动——《2024中国数据要素产业图谱2.0版》”的发布&#xff0c;下一次版本迭代将于2024年12月底发布2024年3.0版&#xff0c;敬请期待&#xff0c;欢迎报名。 大数据产业创新服务媒体 ——聚焦数据 改变商业 随着技术不断革新&a…...

算法-图论(建图,拓扑排序)

文章目录 建图的三种方式邻接矩阵邻接表链式前向星 拓扑排序拓扑排序基础原理介绍拓扑排序步骤解析拓扑排序模板leetcode-课程表 建图的三种方式 我们建图的三种方式分别是邻接矩阵, 邻接矩阵, 链式前向星 邻接矩阵 假设我们的点的个数为N个, 我们就把他们的下标依次标为1, …...

天童教育:课外阅读图书推荐

新学期开始了&#xff0c;现在正是孩子培养良好的阅读习惯的关键时期。让孩子感受阅读&#xff0c;爱上阅读&#xff0c;无疑会丰富孩子的日常生活&#xff0c;开阔孩子的视野&#xff0c;帮助孩子更好地生活。今天西安天童教育就和大家推荐几本适合孩子看的课外阅读书目&#…...

“汉语新解” Prompt新高度,火爆的李继刚

“汉语新解” prompt 是由李继刚设计的一个用于启发人工智能模型进行创意性文本生成的指令模板。这个 prompt 的设计初衷是为了让AI能够以一种独特的方式解析和重新诠释常见的中文词汇&#xff0c;从而产生出具有深刻洞察力和幽默感的文本内容&#xff0c;仿佛是由鲁迅或林语堂…...

论文:AOP框架安全框架-系统架构师(六十六)

1详细论述安全架构设计中鉴别框架和访问控制框架设计内容&#xff0c;并论述鉴别框架和访问控制所面临的主要威胁&#xff0c;说明其危害。 解析&#xff1a; 鉴别框架有用户密码鉴别、生物特征鉴别和多因素鉴别。 用户密码鉴别可以采用验证登入的用户账号是否正确。 生物特…...

OpenHarmony软总线实战:手把手教你实现Wi-Fi/BLE双模设备发现(附避坑指南)

OpenHarmony软总线深度实战&#xff1a;Wi-Fi/BLE双模设备发现的工程化实现与性能调优 在智能家居设备爆发式增长的今天&#xff0c;多模连接已成为终端设备的标配能力。作为OpenHarmony分布式能力的核心支撑&#xff0c;软总线&#xff08;SoftBus&#xff09;的混合发现机制直…...

Mermaid:文本驱动的可视化引擎深度指南

Mermaid&#xff1a;文本驱动的可视化引擎深度指南 【免费下载链接】mermaid mermaid-js/mermaid: 是一个用于生成图表和流程图的 Markdown 渲染器&#xff0c;支持多种图表类型和丰富的样式。适合对 Markdown、图表和流程图以及想要使用 Markdown 绘制图表和流程图的开发者。 …...

Go语言广播系统设计:基于Channel的高性能事件分发机制

引言 在后端系统架构中&#xff0c;事件广播是一种常见的通信模式。本文将深入分析一个基于Go语言channel实现的广播管理器&#xff0c;探讨其设计思想、实现细节以及在实际项目中的应用价值。 参考代码 点击直达 背景与需求 在许多应用场景中&#xff0c;我们需要实现一对…...

STM32模拟Linux内核自动初始化机制实现

STM32模拟Linux内核自动初始化机制实现1. 项目概述1.1 技术背景在传统嵌入式开发中&#xff0c;程序通常按照顺序逻辑执行&#xff0c;当系统复杂度增加时会导致代码臃肿、模块耦合紧密。Linux内核通过initcall机制实现了模块化初始化&#xff0c;本项目在STM32平台上模拟实现了…...

AR.js实战指南:如何在Web浏览器中构建高效增强现实应用

AR.js实战指南&#xff1a;如何在Web浏览器中构建高效增强现实应用 【免费下载链接】AR.js Image tracking, Location Based AR, Marker tracking. All on the Web. 项目地址: https://gitcode.com/gh_mirrors/arj/AR.js 在移动设备普及的今天&#xff0c;增强现实&…...

MATLAB 数值计算辅助:分析 Stable Yogi 生成图像的色彩与纹理特征

MATLAB 数值计算辅助&#xff1a;分析 Stable Yogi 生成图像的色彩与纹理特征 1. 引言 最近在尝试用 Stable Yogi 生成一些皮革纹理的设计图&#xff0c;效果确实挺惊艳的。但生成得多了&#xff0c;就遇到一个新问题&#xff1a;我手头攒了几百张图&#xff0c;风格各异&…...

如何快速掌握终端数字雨效果:完整跨平台配置指南

如何快速掌握终端数字雨效果&#xff1a;完整跨平台配置指南 【免费下载链接】cmatrix Terminal based "The Matrix" like implementation 项目地址: https://gitcode.com/gh_mirrors/cm/cmatrix 想在终端中重现《黑客帝国》电影里的经典数字雨场景吗&#xf…...

TuShare实战(二)高效构建多股数据面板

1. 为什么需要多股数据面板 做量化投资的朋友都知道&#xff0c;数据准备是最基础也最耗时的环节。想象一下&#xff0c;你正在研究一个投资策略&#xff0c;需要同时分析5只股票的历史走势。如果每次都要单独获取、整理每只股票的数据&#xff0c;那效率实在太低了。这就是为什…...

为什么92%的Python WASM尝试失败?——资深编译器工程师披露LLVM-WASI链路5大隐性断点

第一章&#xff1a;Python WASM部署的现状与认知误区WebAssembly&#xff08;WASM&#xff09;正迅速成为浏览器端高性能计算的新基石&#xff0c;但将 Python 部署至 WASM 环境仍存在显著的认知断层。许多开发者误以为“Python 代码可直接编译为 WASM”&#xff0c;实则 Pytho…...

ChromePass终极指南:3分钟找回Chrome浏览器所有保存密码

ChromePass终极指南&#xff1a;3分钟找回Chrome浏览器所有保存密码 【免费下载链接】chromepass Get all passwords stored by Chrome on WINDOWS. 项目地址: https://gitcode.com/gh_mirrors/chr/chromepass 你是否曾在Chrome浏览器中保存了重要账号密码&#xff0c;却…...