当前位置：首页 > news >正文

初识Hadoop，走进大数据世界

news 2026/5/15 20:13:33

文章目录

数据！数据！
遇到的问题
Hadoop的出现
相较于其他系统的优势
- 关系型数据库
- 网格计算

本文章属于Hadoop系列文章，分享Hadoop相关知识。后续文章中会继续分享Hadoop的组件、MapReduce、HDFS、Hbase、Flume、Pig、Spark、Hadoop集群管理系统以及案例项目等。想学习大数据的同学希望可以点赞、收藏、持续关注不迷路。

在古时候，人们用牛来拉重物，当一头牛拉不动一根圆木时，人们从来没有考虑过要想方设法培育出一种更强壮的牛。同理，我们也不该想方设法打造什么超级计算机，而应该千方百计综合利用更多计算机来解决问题。

数据！数据！

在这里插入图片描述

我们生活在这个数据大爆炸的时代，很难估算全球的电子设备存储量。根据国际数据公司（IDC）曾经发布的报告，2013年统计出全球数据总量为4.4ZB，预测到2020年数据量将会达到44ZB，1ZB等于1000EB，等于1 000 000PB，等于大家所熟悉的10亿TB，这远远超过了全世界任意一块硬盘所能保存的数据量。

数据“洪流”有很多来源，以下面列出为例：

纽约证交所每天产生的交易数据大约的4TB到5TB之间。
FaceBook存储的照片超过2400亿张，并以每月至少7PB的速度增长。
互联网档案馆存储的数据约为18PB。
瑞士日内瓦附近的大型强子对撞机每年产生数据越30PB。

还有其他大量的数据，比如作为物联网一部分的机器设备产生的日志、RFID读卡器、车载GPS等等。

组织或企业要想在未来取得成功，不仅需要管理好自己的数据，更需要从其他渠道获取有价值的信息。现在得益于开放的互联网，我们已经可以从各个地方获取到需要的数据，这是个好消息，但不幸的是，我们必须想方设法好好的存储和分析这些数据。

遇到的问题

我们遇到的问题很简单，在硬盘存储容量多年来不断提升的同时，硬盘数据读取的速度却没有与时俱进。1990年，一个普通的硬盘可以存储1370MB的数据，传输速度为4.4 MB/s，因此只需要5分钟就可以读完整个硬盘的数据。20年过去了，1TB的硬盘成为主流，但其数据传输速度约为100 MB/s，读完整个硬盘至少需要花费2.5个小时。

一个很简单减少读取时间的办法是同时从多个硬盘上读数据。试想，如果有100个硬盘，每个硬盘存储1%的数据，并行读取，那么不到两分钟就可以读完所有数据。仅使用硬盘容量的1%似乎很浪费，但是我们可以存储100个数据集，每个数据集1TB，并实现共享硬盘的读取。

Hadoop的出现

在这里插入图片描述

虽然如此，但要对多个硬盘中的数据并行进行读/写数据，还有很多问题要解决。

第一个需要解决的是硬件故障问题。一旦开始使用多个硬件，其中个别硬件就很有可能发生故障。为了避免数据丢失，最常见的做法是复制：系统保存数据的副本，一旦有系统发生故障，就可以用另外保存的副本。例如，冗余硬盘阵列（RAID）就是按这个原理实现的，另外，Hadoop的文件系统（HDFS）也是这一类。

第二个问题是大多数分析任务需要结合大部分数据共同完成分析，即从一个硬盘读取的数据可能需要从另外99个硬盘的数据结合使用，保证其正确性是一个非常大的挑战，MapReduce提出一个编程模型，该模型抽象出这些硬盘读/写问题，并转换为对一个数据集（由键-值对组成）的计算，有很高的可靠性。

简而言之，Hadoop为我们提供了一个可靠的且可扩展的存储与分析平台。此外，由于Hadoop运行在商用硬件上且是开源的，所以使用成本是在可接受范围内的。

相较于其他系统的优势

Hadoop不是历史上第一个用于数据存储和分析的分布式系统，但是Hadoop的一些特性将它和类似的系统区别开来。

关系型数据库

为什么不能用配有大量硬盘的数据库来进行大规模数据分析？为什么用Hadoop？

这两个问题的答案来自于计算机硬盘的发展趋势：寻址时间的提升远远不敌传输速率的提升，寻址是将磁头移动到硬盘的某个位置进行读/写操作的过程，它是导致硬盘操作延迟的主要原因，而传输速率取决于硬盘的带宽。
如果数据访问中包含大量的硬盘寻址，那么读取大量数据必然会花更长的时间。另一方面，如果数据库系统只更新一小部分记录，那么传统的B树更有优势。但数据库系统如果有大量的数据更新，B树的效率就明显落后于MapReduce了。在很多情况下，可以将MapReduce作为关系型数据库的补充，两个系统之间差异如下

	关系型数据库	MapReduce
数据大小	GB	PB
数据存取	交互式和批处理	批处理
更新	多次读/写	一次写入，多次读取
事务	ACID	无
结构	写时模式	读时模式
完整性	高	低
横向扩展	非线性	线性

网格计算

高性能计算和网格计算组织多年来一直在研究大规模数据处理，主要使用类似于消息传递接口的API。广义上讲，高性能计算采用的方法是将作业分散到集群的各个机器上，这些机器访问存储区域网络（SAN）所组成的共享文件系统，如果节点需要访问的数据量更庞大，很多节点就会因为网络带宽的瓶颈问题而不得不闲下来等数据。

Hadoop尽量在计算节点上存储数据，以实现数据的本地快速访问。数据本地化是Hadoop数据处理的核心，并因此获得良好的性能。

初识Hadoop，走进大数据世界

文章目录

数据！数据！

遇到的问题

Hadoop的出现

相较于其他系统的优势

关系型数据库

网格计算

相关文章：

初识Hadoop，走进大数据世界

加油站会员管理小程序实战开发教程14 会员充值

leetcode 1792. 最大平均通过率

15-基础加强-2-xml(约束)枚举注解

13：高级篇 - CTK 事件管理机制（signal/slot）

群晖-第1章-IPV6的DDNS

centos7系统-kubeadm安装k8s集群（v1.26版本）亲测有效，解决各种坑可供参考

帮助指令 man ，help及文档常用管理指令

电子科技大学操作系统期末复习笔记（五）：文件管理

SpringBoot+ActiveMQ-发布订阅模式（生产端）

Android实例仿真之三

关于MySQL的limit优化

Java-Stream流基本使用

Liunx(狂神课堂笔记)

【史上最全面esp32教程】点灯大师篇

【Java 面试合集】内存中为什么要区分栈和堆

【NLP实战】Python字符串处理

17.CSS伪类

数据链路层

投票需要什么流程微信投票互助平台的免费投票平台搭建

别再对着示波器数NOP了！用STM32的SPI+DMA驱动WS2812灯带，一个CubeMX配置就搞定

车载以太网之要火系列 - 第43篇：郭大侠学SOME/IP ：服务写死痛点多，SD出山更灵活

用STM32 HAL库和MPU6050 DIY平衡小车：PID参数整定实战与小车‘站起来’的调试日记

智能休息提醒扩展：基于上下文感知的开发者健康管理工具

告别毛边！保姆级教程：在Unity里完美播放Pr导出的WebM透明视频（附完整参数）

别熬大夜改 PPT 了！Paperxie AI PPT，一键搞定毕业论文答辩

VCF 9.1 Consumption CLI 插件同步失败解决方法

Spinning Up模型保存终极指南：checkpoint管理完整教程

重新定义游戏体验：Atmosphere稳定版如何重塑Switch生态系统

PotPlayer终极画质调校：深入MadVR渲染器设置，让你的显示器发挥100%潜力