NoSQL 数据库管理系统和模型的比较
前些天发现了一个人工智能学习网站,通俗易懂,风趣幽默,最重要的屌图甚多,忍不住分享一下给大家。点击跳转到网站。
NoSQL 数据库管理系统和模型的比较
介绍
当大多数人想到数据库时,他们通常会想到传统的关系数据库模型,其中涉及由行和列组成的表。虽然关系数据库管理系统仍然处理互联网上的大部分数据,但近年来,随着开发人员寻求解决关系模型局限性的方法,替代数据模型变得更加普遍。这些非关系数据库模型各有其独特的优点、缺点和用例,已被归类为NoSQL 数据库。
本文将介绍一些比较常用的NoSQL数据库模型。并将权衡它们的一些优点和缺点,并提供一些数据库管理系统的示例以及每个系统的潜在用例。
关系数据库及其局限性
数据库是逻辑建模的信息或数据集群。同时,数据库管理系统(DBMS)是一种与数据库交互的计算机程序。DBMS 允许我们控制对数据库的访问、写入数据、运行查询以及执行与数据库管理相关的任何其他任务。尽管数据库管理系统通常被称为“数据库”,但这两个术语并不完全可以互换。数据库可以是任何数据集合,而不仅仅是存储在计算机上的数据,而 DBMS 是允许我们与数据库交互的特定软件。
所有数据库管理系统都有一个底层模型来构建数据的存储和访问方式。关系数据库管理系统(RDBMS)是采用关系数据模型的 DBMS。在此模型中,数据被组织成表,在 RDBMS 的上下文中更正式地称为关系。关系数据库管理系统通常采用结构化查询语言(SQL)来管理和访问数据库中保存的数据。
从历史上看,关系模型一直是最广泛使用的数据管理方法,迄今为止,许多最流行的数据库管理系统都实现了关系模型。然而,关系模型存在一些限制,在某些用例中可能会出现问题。
例如,水平扩展关系数据库可能很困难。水平扩展或横向扩展是向现有堆栈添加更多机器以分散负载并允许更多流量和更快处理的做法。这通常与垂直扩展形成对比,垂直扩展涉及升级现有服务器的硬件,通常通过添加更多 RAM 或 CPU 来实现。
关系数据库难以水平扩展的原因与关系模型旨在确保一致性有关,这意味着查询同一数据库的客户端将始终看到最新的数据。如果要在多台机器上水平扩展关系数据库,则很难确保一致性,因为客户端可能会将数据写入一个节点而不是其他节点,并且初始写入与其他节点写入的时间之间可能存在延迟。更新以反映更改。
RDBMS 带来的另一个限制是,关系模型旨在管理结构化数据,或者与预定义数据类型一致的数据,或者至少以某种预定方式组织的数据,使其易于排序和搜索。然而,随着 20 世纪 90 年代初个人计算的普及和互联网的兴起,非结构化数据(例如电子邮件、照片、视频等)变得更加普遍。
随着这些限制变得越来越严格,开发人员开始寻找传统关系数据模型的替代方案,从而导致 NoSQL 数据库越来越受欢迎。
关于NoSQL
NoSQL标签本身的定义相当模糊。“NoSQL”是 Carlo Strozzi 于 1998 年创造的,之所以选择它,只是因为它不使用 SQL 来管理数据。
2009 年,Johan Oskarsson 为开发人员组织了一次聚会,讨论Cassandra和Voldemort等“开源、分布式和非关系数据库”的传播,该术语有了新的含义。Oskarsson 将此次聚会命名为“NOSQL”,从那时起,该术语就被用作任何不采用关系模型的数据库的统称。Strozzi 的 NoSQL 数据库实际上采用了关系模型,这意味着原始的 NoSQL 数据库并不符合当代 NoSQL 的定义。
由于“NoSQL”通常指任何不采用关系模型的 DBMS,因此有多种与 NoSQL 概念相关的操作数据模型。下表包括几个此类数据模型,但请注意,这不是完整的列表:
操作数据库模型 | DBMS 示例 |
---|---|
键值存储 | Redis, MemcacheDB |
列式数据库 | Cassandra, Apache HBase |
文件存储 | MongoDB、Couchbase |
图形据库 | OrientDB, Neo4j |
尽管底层数据模型不同,但大多数 NoSQL 数据库都有几个共同特征。其一,NoSQL 数据库通常旨在以牺牲一致性为代价来最大化可用性。从这个意义上说,一致性是指任何读操作都会返回最近写入数据库的数据。在强一致性设计的分布式数据库中,写入一个节点的任何数据都将立即在所有其他节点上可用;否则会出现错误。
相反,NoSQL 数据库通常以最终一致性为目标。这意味着新写入的数据最终会在数据库中的其他节点上可用(通常在几毫秒内),但不一定立即可用。这样做的好处是提高数据的可用性:即使我们可能看不到写入的最新数据,我们仍然可以查看它的早期版本,而不会收到错误。
关系数据库旨在处理完全符合预定义模式的规范化数据。在 DBMS 的上下文中,规范化数据是以消除冗余的方式组织的数据,这意味着数据库占用尽可能少的存储空间,而模式是数据库中数据的结构的概述。
虽然 NoSQL 数据库能够处理标准化数据,并且能够在预定义模式内对数据进行排序,但它们各自的数据模型通常比关系数据库强加的严格结构具有更大的灵活性。因此,NoSQL 数据库被誉为存储半结构化和非结构化数据的更好选择。不过,考虑到这一点,因为 NoSQL 数据库没有预定义模式,这通常意味着需要由数据库管理员来定义如何组织和访问数据,无论哪种方式对其应用程序最有意义。
现在我们已经了解了 NoSQL 数据库是什么以及它们与关系数据库的不同之处,接下来让我们仔细看看一些更广泛实施的 NoSQL 数据库模型。
键值数据库
键值数据库,也称为键值存储,通过存储和管理关联数组来工作。关联数组,也称为字典或哈希表,由键值对的集合组成,其中键用作检索关联值的唯一标识符。值可以是任何内容,从简单的对象(如整数或字符串)到更复杂的对象(如 JSON 结构)。
关系数据库定义了由具有预定义数据类型的行和列的表组成的数据结构,与此相反,键值数据库将数据存储为单个集合,没有任何结构或关系。连接到数据库服务器后,应用程序可以定义一个键(例如,the_meaning_of_life
)并提供一个匹配值(例如,42
),稍后可以通过提供该键以相同的方式检索该值。键值数据库将其中保存的任何数据视为不透明的 blob;由应用程序来理解它的结构。
键值数据库通常被描述为高性能、高效且可扩展。键值数据库的常见用例是缓存、消息队列 和 会话管理。
一些流行的开源键值数据存储是:
数据库 | 描述 |
---|---|
Redis | Redis 是一种用作数据库、缓存或消息代理的内存数据存储,支持各种数据结构,从字符串到位图、流和空间索引。 |
Memcached | 通用内存对象缓存系统,经常用于通过在内存中缓存数据和对象来加速数据驱动的网站和应用程序。 |
Riak | 具有高级本地和多集群复制功能的分布式键值数据库。 |
列式数据库
列式数据库有时也称为面向列的数据库,是按列存储数据的数据库系统。这看起来与传统的关系数据库类似,但不是将列分组到表中,而是将每个列存储在系统存储中的单独文件或区域中。
列式数据库中存储的数据按记录顺序显示,这意味着一列中的第一个条目与其他列中的第一个条目相关。这种设计允许查询仅读取所需的列,而不必读取表中的每一行并在将不需要的数据存储在内存中后丢弃这些数据。
由于每列中的数据属于相同类型,因此允许采用各种存储和读取优化策略。特别是,许多列式数据库管理员实施压缩策略,例如游程编码,以最大限度地减少单个列占用的空间量。这样做的好处是可以加快读取速度,因为查询需要遍历的行更少。然而,列式数据库的一个缺点是加载性能往往很慢,因为每一列必须单独写入,并且数据通常保持压缩状态。特别是增量加载以及读取单个记录,在性能方面可能会付出高昂的代价。
面向列的数据库自 20 世纪 60 年代以来就已出现。然而,自 2000 年代中期以来,列式数据库已更广泛地用于数据分析,因为列式数据模型非常适合快速查询处理。在应用程序需要频繁执行聚合函数(例如查找列中数据的平均值或总和)的情况下,它们也被认为是有利的。一些列式数据库管理系统甚至能够使用 SQL 查询。
一些流行的开源柱状数据库是:
数据库 | 描述 |
---|---|
Apache Cassandra | 旨在最大限度地提高可扩展性、可用性和性能的列存储。 |
Apache HBase | 一种分布式数据库,支持大量数据的结构化存储,旨在与Hadoop 软件库配合使用。 |
ClickHouse | 支持实时生成分析数据和 SQL 查询的容错 DBMS。 |
面向文档的数据库
面向文档的数据库或文档存储是以文档形式存储数据的 NoSQL 数据库。文档存储是一种键值存储:每个文档都有一个唯一的标识符——它的键——文档本身充当值。
这两种模型之间的区别在于,在键值数据库中,数据被视为不透明,数据库不知道也不关心其中保存的数据;由应用程序来了解存储了哪些数据。然而,在文档存储中,每个文档都包含某种元数据,为数据提供一定程度的结构。文档存储通常附带 API 或查询语言,允许用户根据文档包含的元数据检索文档。它们还允许复杂的数据结构,因为我们可以将文档嵌套在其他文档中。
与关系数据库不同,关系数据库中给定对象的信息可能分布在多个表或数据库中,面向文档的数据库可以将给定对象的所有数据存储在单个文档中。文档存储通常将数据存储为JSON、BSON、XML或YAML文档,有些可以存储二进制格式,例如 PDF 文档。有些使用 SQL 的变体、全文搜索或它们自己的本机查询语言来进行数据检索,而另一些则采用不止一种查询方法。
近年来,面向文档的数据库越来越受欢迎。由于其灵活的架构,它们经常用于电子商务、博客和分析平台以及内容管理系统。文档存储被认为是高度可扩展的,分片是一种常见的水平扩展策略。它们还非常适合保存大量不相关、结构各异的复杂信息。
一些流行的基于开源文档的数据存储是:
数据库 | 描述 |
---|---|
MongoDB | MongoDB 是一种通用的分布式文档存储,在撰写本文时是世界上使用最广泛的面向文档的数据库。 |
Couchbase | 最初称为 Membase,一种基于 JSON、与 Memcached 兼容的基于文档的数据存储。Couchbase是一个多模型数据库,也可以充当键值存储。 |
Apache CouchDB | CouchDB 是 Apache 软件基金会的一个项目,将数据存储为 JSON 文档,并使用 JavaScript 作为其查询语言。 |
图形据库
图形数据库可以被认为是文档存储模型的子类别,因为它们将数据存储在文档中并且不坚持数据遵循预定义的模式。但不同之处在于,图形数据库通过突出显示各个文档之间的关系,为文档模型添加了一个额外的层。
为了更好地掌握图数据库的概念,理解以下术语很重要:
- 节点:节点是图形数据库跟踪的单个实体的表示。它或多或少相当于关系数据库中的记录或行或文档存储中的*文档的概念。*例如,在音乐录音艺术家的图形数据库中,节点可能代表单个表演者或乐队。
- 属性:属性是与各个节点相关的相关信息。基于我们的唱片艺术家示例,某些属性可能是“歌手”、“爵士乐”或“白金唱片销售艺术家”,具体取决于与数据库相关的信息。
- 边:也称为图或关系,边是两个节点如何相关的表示,是图数据库的关键概念,将其与 RDBMS 和文档存储区分开来。边可以是有向的,也可以是无向的。
- 无向:在无向图中,节点之间的边的存在只是为了显示它们之间的连接。在这种情况下,边可以被认为是“双向”关系——一个节点与另一个节点的关系之间没有隐含的差异。
- 有向:在有向图中,根据关系起源的方向,边可以具有不同的含义。在这种情况下,边是“单向”关系。例如,有向图数据库可能会指定从 Sammy 到 Seaweeds 的关系,显示 Sammy 为该团体制作了一张专辑,但可能不会显示从 The Seaweeds 到 Sammy 的等效关系。
使用图形数据库执行某些操作要简单得多,因为它们如何链接和分组相关信息。这些数据库通常用于以下情况:必须能够从数据点之间的关系中获取见解,或者用于最终用户可用的信息由其与其他人的连接决定的应用程序(如社交网络)。它们经常用于欺诈检测、推荐引擎以及身份和访问管理应用程序。
一些流行的开源图形数据库是:
数据库 | 描述 |
---|---|
Neo4j | 具有本机图形存储和处理功能的ACID兼容DBMS 。截至撰写本文时,Neo4j 是世界上最流行的图形数据库。 |
ArangoDB | ArangoDB 不仅仅是一种图形数据库,它还是一种多模型数据库,它将图形、文档和键值数据模型统一在一个 DBMS 中。它具有 AQL(一种原生的类似 SQL 的查询语言)、全文搜索和排名引擎。 |
OrientDB | OrientDB 是另一个多模型数据库,支持图、文档、键值和对象模型。它支持 SQL 查询和 ACID 事务。 |
结论
在本文中,我们仅介绍了当今使用的一些 NoSQL 数据模型。一些 NoSQL 模型(例如对象存储多年来已经得到了不同程度的使用,但在某些用例中仍然是关系模型的可行替代方案。其他数据库,如对象关系数据库和时间序列数据库,混合了关系数据模型和 NoSQL 数据模型的元素,形成了介于两端之间的一种中间立场。
NoSQL 数据库类别极其广泛,并且至今仍在不断发展。
相关文章:
NoSQL 数据库管理系统和模型的比较
前些天发现了一个人工智能学习网站,通俗易懂,风趣幽默,最重要的屌图甚多,忍不住分享一下给大家。点击跳转到网站。 NoSQL 数据库管理系统和模型的比较 介绍 当大多数人想到数据库时,他们通常会想到传统的关系数据库…...
数据库(SQL)
目录 1 触发器 1.1 触发器简介 1.2 触发器的创建 语法 说明 1.3 示例 2 存储过程 2.1 什么是存储过程(函数) 2.1.1 存储过程和存储函数的区别 2.2 优势 2.3 应用场景 2.4 存储过程的创建和使用 说明 各参数类型所实现的存储过程 无参数无返…...

如何用Docker+jenkins 运行 python 自动化?
1.在 Linux 服务器安装 docker 2.创建 jenkins 容器 3.根据自动化项目依赖包构建 python 镜像(构建自动化 python 环境) 4.运行新的 python 容器,执行 jenkins 从仓库中拉下来的自动化项目 5.执行完成之后删除容器 前言 环境准备 Linux 服务器一台(我的是 CentOS7)…...

uniapp瀑布流实现
1. 图片瀑布流: 不依赖任何插件,复制即可见效: <template><view class"page"><view class"left" ref"left"><image class"image" v-for"(item,i) in leftList" :k…...

鸿蒙:@Link装饰器-父子双向同步
子组件中被Link装饰的变量与其父组件中对应的数据源建立双向数据绑定。从API version 9开始,该装饰器支持在ArkTS卡片中使用。 需要注意:Link装饰的变量与其父组件中的数据源共享相同的值。Link装饰器不能在Entry装饰的自定义组件中使用。 一、装饰器使…...
Leetcode--27
给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。 不要使用额外的数组空间,你必须仅使用 O(1) 额外空间并 原地 修改输入数组。 元素的顺序可以改变。你不需要考虑数组中超出新长度后面…...

使用Eclipse搞Android项目报错
相信现在都没什么人还会用Eclipse来开发的了。 不过安装完后,打开Eclipse会提示我的Jdk版本不符合 --------------------------- Incompatible JVM --------------------------- Version 1.8.0_391 of the JVM is not suitable for this product. Version: 17 or g…...
import sys是什么
import sys语句 允许你使用sys模块提供的各种功能,从而更好地与Python解释器和操作系统底层进行交互。通过熟练掌握sys模块的使用,可以大大提高Python开发的效率和灵活性。 sys模块 是Python的内置模块之一,用于与Python解释器和系统环境交…...

Python爬虫:XPath基本语法
XPath(XML Path Language)是一种用于在XML文档中定位元素的语言。它使用路径表达式来选择节点或节点集,类似于文件系统中的路径表达式。 不啰嗦,讲究使用,直接上案例。 导入 pip3 install lxmlfrom lxml import etr…...

UML/SysML建模工具更新情况(截至2024年1月)(1)UModel 2024
最近一段时间更新的工具有: 工具最新版本:Umple 1.33.0 更新时间:2024年1月10日 工具简介 自称“Model-Oriented Programming”,把图形和文本结合起来,支持Java、PHP和Ruby代码生成,可以在线使用…...

ubuntu20-github不通问题
github不通 一直在github下载失败 Git报错fatal unable to connect to github.com: github.com[0: 20.205.243.166] >>> alsa-ucm-conf v1.2.6.3 Downloading(卡在这里,很烦啊) 然后搜了很多文档,然后以下操作: 1.GitHub.com - GitHub: Lets build from here Git…...

【MAC】Multi-Level Monte Carlo Actor-Critic阅读笔记
基本思想: 利用多层次蒙特卡洛方法(Multi-Level Monte Carlo,MLMC)和Actor-Critic算法,解决平均奖励强化学习中的快速混合问题。 快速混合? 在强化学习中,当我们说一个策略"混合得快"…...

[GN] 设计模式—— 创建型模式
文章目录 创建型模式单例模式 -- 确保对象唯一性例子优化饿汉式懒汉式 优缺点使用场景 简单工厂模式例子:优化优缺点适用场景 工厂方法模式 -- 多态工厂的实现例子优缺点优化适用场景 抽象工厂模式 -- 产品族的创建例子优缺点适用场景 总结 创建型模式 单例模式 –…...

链表——超详细
一、无头单向非循环链表 1.结构(两个部分): typedef int SLTDataType; typedef struct SListNode {SLTDataType data;//数据域struct SListNode* next;//指针域 }SLNode; 它只有一个数字域和一个指针域,里面数据域就是所存放的…...

【刷题】 leetcode 面试题 08.05.递归乘法
递归乘法 1 题目描述2 思路一(返璞归真版)3 思路二(二进制乘法器版)4 思路三(变态版)Thanks♪(・ω・)ノ谢谢阅读下一篇文章见!!! 1 题目…...

C语言实现希尔排序算法(附带源代码)
希尔排序 希尔排序,也称递减增量排序算法,是插入排序的一种更高效的改进版本。希尔排序是非稳定排序算法。 希尔排序是基于插入排序的以下两点性质而提出改进方法的: 插入排序在对几乎已经排好序的数据操作时,效率高࿰…...
R语言【taxlist】——subset():取taxlist对象的子集
Package taxlist version 0.2.4 Description taxlist对象的子集将通过逻辑操作或模式匹配来完成。子集可以引用包含在插槽taxonNames、taxonRelations或taxonTraits中的信息。 Usage ## S4 method for signature taxlist subset(x,subset,slot "names",keep_child…...

单片机学习笔记---定时器计数器(含寄存器)工作原理介绍(详解篇2)
目录 T1工作在方式2时 T0工作在方式3时 四种工作方式的总结 定时计数器对输入信号的要求 定时计数器对的编程的一个要求 关于初值计算的问题 4种工作方式的最大定时时间的大小 关于编程方式的问题 实例分析 实例1 实例2 T1工作在方式2时 51单片机,有两个…...

《动手学深度学习(PyTorch版)》笔记4.1
注:书中对代码的讲解并不详细,本文对很多细节做了详细注释。另外,书上的源代码是在Jupyter Notebook上运行的,较为分散,本文将代码集中起来,并加以完善,全部用vscode在python 3.9.18下测试通过。…...

OpenAI发布新模型!ChatGPT性能重磅提升,API大幅降价,GPT-4 「变懒」被修复
OpenAI 对ChatGPT进行了大更新:推出了新一代的嵌入模型,对GPT-4 Turbo模型进行了更新,并将很快对GPT-3.5 Turbo的API进行大幅降价,GPT-4「变懒」行为也被修复。 接下来二狗就带大家看看ChatGPT的这次详细更新。 推出新的嵌入模型…...

C++实现分布式网络通信框架RPC(3)--rpc调用端
目录 一、前言 二、UserServiceRpc_Stub 三、 CallMethod方法的重写 头文件 实现 四、rpc调用端的调用 实现 五、 google::protobuf::RpcController *controller 头文件 实现 六、总结 一、前言 在前边的文章中,我们已经大致实现了rpc服务端的各项功能代…...
ES6从入门到精通:前言
ES6简介 ES6(ECMAScript 2015)是JavaScript语言的重大更新,引入了许多新特性,包括语法糖、新数据类型、模块化支持等,显著提升了开发效率和代码可维护性。 核心知识点概览 变量声明 let 和 const 取代 var…...
Java 语言特性(面试系列1)
一、面向对象编程 1. 封装(Encapsulation) 定义:将数据(属性)和操作数据的方法绑定在一起,通过访问控制符(private、protected、public)隐藏内部实现细节。示例: public …...
前端倒计时误差!
提示:记录工作中遇到的需求及解决办法 文章目录 前言一、误差从何而来?二、五大解决方案1. 动态校准法(基础版)2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言 前几天听说公司某个项…...

python/java环境配置
环境变量放一起 python: 1.首先下载Python Python下载地址:Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个,然后自定义,全选 可以把前4个选上 3.环境配置 1)搜高级系统设置 2…...
oracle与MySQL数据库之间数据同步的技术要点
Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异,它们的数据同步要求既要保持数据的准确性和一致性,又要处理好性能问题。以下是一些主要的技术要点: 数据结构差异 数据类型差异ÿ…...

Linux-07 ubuntu 的 chrome 启动不了
文章目录 问题原因解决步骤一、卸载旧版chrome二、重新安装chorme三、启动不了,报错如下四、启动不了,解决如下 总结 问题原因 在应用中可以看到chrome,但是打不开(说明:原来的ubuntu系统出问题了,这个是备用的硬盘&a…...
C++.OpenGL (10/64)基础光照(Basic Lighting)
基础光照(Basic Lighting) 冯氏光照模型(Phong Lighting Model) #mermaid-svg-GLdskXwWINxNGHso {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GLdskXwWINxNGHso .error-icon{fill:#552222;}#mermaid-svg-GLd…...
关于 WASM:1. WASM 基础原理
一、WASM 简介 1.1 WebAssembly 是什么? WebAssembly(WASM) 是一种能在现代浏览器中高效运行的二进制指令格式,它不是传统的编程语言,而是一种 低级字节码格式,可由高级语言(如 C、C、Rust&am…...
OpenLayers 分屏对比(地图联动)
注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能,和卷帘图层不一样的是,分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...