【大数据】重塑时代的核心技术及其发展历程

🐇明明跟你说过:个人主页
🏅个人专栏:《大数据前沿:技术与应用并进》🏅
🔖行路有良友,便是天堂🔖
目录
一、引言
1、什么是大数据
2、大数据技术诞生的背景
二、大数据技术的发展历程
1、早期阶段(1960s-1980s)
2、互联网时代的到来(1990s-2000s)
3、大数据概念的提出与技术体系的形成(2000s-2010s)
4、大数据生态系统的扩展与成熟(2010s-至今)
5、关键技术的里程碑
三、大数据关键技术
1、数据采集
2、数据存储
3、数据分析
一、引言
1、什么是大数据
大数据(Big Data)是指无法通过传统的数据处理技术和工具在合理的时间范围内高效处理、存储和分析的数据集合。它通常具有以下几个核心特征,也被称为大数据的“5V”特征:
1. Volume(数据量)
- 规模巨大:大数据的核心特征之一是其数据量庞大,通常以TB(太字节)、PB(拍字节)甚至EB(艾字节)为单位。传统的数据管理工具和数据库难以处理如此规模的数据。
2. Velocity(速度)
- 生成和处理速度快:大数据不仅涉及庞大的数据量,还要求快速的数据生成、传输和处理。实时数据处理需求增加,例如实时流媒体、实时交易数据分析等,都要求能够在毫秒或秒级的时间内处理数据。
3. Variety(多样性)
- 数据类型多样:大数据不仅包括结构化数据(如表格数据),还包括大量的非结构化数据(如文本、图像、视频)和半结构化数据(如JSON、XML)。这些数据格式各异,来源广泛,需要不同的处理和分析技术。
4. Veracity(真实性)
- 数据真实性和准确性:大数据中包含的信息可能来源复杂,存在噪声、错误或不一致性,因此在处理大数据时,数据的质量、可信度和准确性是一个重要的挑战。
5. Value(价值)
- 数据潜在价值巨大:大数据本身并不意味着有价值,真正的价值在于通过对大数据的分析和挖掘,能够发现有意义的模式、趋势和相关性,从而为企业和组织提供决策支持、优化业务流程和创造新的商业机会。

2、大数据技术诞生的背景
大数据技术的诞生背景可以追溯到信息化时代的发展,特别是随着互联网、移动设备、社交媒体、物联网(IoT)等技术的普及,数据生成量呈现爆炸式增长。这种数据的爆炸性增长带来了巨大的挑战和机遇,推动了大数据技术的诞生。
1. 数据量的急剧增长
- 互联网普及:互联网的广泛应用使得全球各地的人们可以生成和访问大量的数据,包括网页、电子邮件、社交媒体内容、视频等。
- 移动设备和物联网:智能手机、传感器、智能家居设备等不断生成数据,从位置数据、传感器数据到使用模式等。这些数据的数量远超传统数据源。
2. 数据类型的多样性
- 非结构化和半结构化数据:除了传统的结构化数据(如数据库中的表格数据),非结构化数据(如文本、图像、视频)和半结构化数据(如XML、JSON)成为重要的数据类型,需要新的技术来处理和分析。
- 实时数据处理需求:许多应用场景要求对数据进行实时处理和分析,例如金融市场、网络安全监控、物联网设备管理等。
3. 传统数据处理技术的局限性
- 存储和处理能力不足:传统数据库技术和数据仓库在处理大规模数据(TB、PB级别)时遇到了瓶颈,无论是在存储、计算能力还是查询性能上,都难以应对新的需求。
- 扩展性差:传统数据处理技术通常难以横向扩展,难以在多台机器上高效分布式处理大规模数据。
4. 计算能力和存储技术的进步
- 分布式计算框架:如Hadoop、Spark等分布式计算框架的出现,提供了处理海量数据的能力。这些框架能够在大规模集群上并行处理数据,显著提高了数据处理效率。
- 云计算:云计算的兴起为大数据处理提供了弹性、高效的计算资源,用户可以根据需求动态调整计算和存储资源。

二、大数据技术的发展历程
1、早期阶段(1960s-1980s)
- 数据管理和数据库的诞生:20世纪60年代,计算机的普及促使数据量逐步增加,早期的数据库管理系统(DBMS)如IBM的IMS、Oracle的关系数据库开始发展。数据管理技术逐渐成熟,关系数据库成为数据存储和查询的主要方式。
- 结构化数据的存储与管理:随着企业信息化的推进,结构化数据(如财务报表、库存管理等)成为数据库的主要处理对象。SQL(Structured Query Language)在20世纪70年代被开发出来,成为关系数据库操作的标准语言。
2、互联网时代的到来(1990s-2000s)
- 数据爆炸的开始:随着互联网的普及和电子商务的发展,数据量迅速增加。传统的关系数据库在处理海量数据时遇到了瓶颈,特别是在处理非结构化数据(如文本、图像、视频)方面。
- NoSQL数据库的兴起:为应对大规模数据和分布式存储需求,NoSQL数据库(如Cassandra、MongoDB、HBase)在2000年代逐渐兴起,这类数据库设计用于处理高并发读写和水平扩展。

3、大数据概念的提出与技术体系的形成(2000s-2010s)
- 大数据的定义与特征:在2000年代中期,“大数据”概念逐渐成形,通常用4V(Volume, Velocity, Variety, Veracity)来描述,即数据量巨大、速度快、种类多、真实性复杂。
- Hadoop的诞生:2006年,Apache Hadoop项目正式启动。Hadoop是基于Google的MapReduce论文的开源实现,提供了分布式存储(HDFS)和分布式计算(MapReduce)能力,成为大数据处理的基础框架。
- 数据仓库与BI(商业智能):传统数据仓库技术(如Teradata、Informatica)与BI工具(如Tableau、Power BI)开始与大数据技术结合,支持对大规模数据的深度分析和可视化。
4、大数据生态系统的扩展与成熟(2010s-至今)
- 实时数据处理与流计算:随着物联网、社交媒体和在线交易等实时数据源的普及,实时数据处理需求激增。Apache Kafka、Apache Storm、Apache Flink等流处理框架应运而生,支持实时数据的采集、传输和处理。
- 云计算与大数据:云计算平台(如AWS、Google Cloud、Microsoft Azure)提供了大规模数据处理和存储的基础设施,极大地降低了企业部署大数据解决方案的门槛。Hadoop生态系统中的技术如Hive、Spark等在云环境中得到广泛应用。
- 人工智能与机器学习的融合:大数据技术与AI/ML技术的结合成为新的趋势,通过大规模数据训练机器学习模型,从而实现精准预测和智能决策。深度学习框架(如TensorFlow、PyTorch)在处理大数据集方面展现出巨大潜力。
- 数据湖和多模分析:为了处理结构化、半结构化和非结构化数据,数据湖(Data Lake)概念被提出,允许存储多种类型的数据并进行多模分析。

5、关键技术的里程碑
- MapReduce(2004):Google发表的MapReduce论文奠定了大规模分布式计算的基础。
- Hadoop 1.0(2011):Apache Hadoop项目推出了正式的1.0版本,标志着大数据处理技术的成熟。
- Apache Spark(2014):作为内存计算框架,Spark的发布提供了比MapReduce更高效的处理能力,特别是在迭代计算和流数据处理方面。
三、大数据关键技术
1、数据采集
数据采集是大数据处理流程的第一步,也是最为关键的环节之一。它指的是从各种来源中获取原始数据,并将其传输到数据处理系统进行后续的存储、处理和分析。由于大数据具有多样性、高速性和庞大数据量的特点,数据采集技术需要具备高效、可靠、灵活和可扩展的特性。
数据采集的来源
数据采集的来源非常广泛,主要包括以下几类:
- 日志数据:如服务器日志、应用程序日志、用户操作日志等,通常通过日志收集工具如Flume、Filebeat等进行采集。
- 传感器数据:如物联网设备、智能硬件产生的传感器数据,通常通过MQTT、HTTP等协议传输,并通过流处理系统如Kafka进行采集。
- 社交媒体数据:如微博、Facebook、Twitter等社交平台的数据,通常通过API接口或者网络爬虫采集。
- 交易数据:如银行交易记录、电商平台的购买记录等,通常直接从数据库或通过消息队列进行采集。
- 音视频数据:如监控摄像头、直播数据等,通常通过专门的视频流传输协议进行采集。
- 开放数据源:如政府发布的公开数据、科学研究数据等,通常通过API接口或直接下载的方式进行采集。

2、数据存储
数据存储是大数据技术体系中的核心部分,指的是将采集到的数据按照一定的结构和格式进行存储,以便后续的查询、分析和处理。由于大数据具有海量性、多样性和高速性等特点,传统的存储技术已经无法满足需求,因此,专门针对大数据设计的存储技术和架构应运而生。
数据存储的关键技术
- 分布式文件系统:如HDFS(Hadoop Distributed File System),HDFS是大数据存储的基础,它将大文件拆分成小块并分布式存储在集群的多个节点上,具有高可靠性和可扩展性。
- NoSQL数据库:为应对大数据环境下的多样性需求,NoSQL数据库应运而生,包括:
- 键值存储:如Redis、Cassandra,适合存储键值对类型的数据,提供快速读写性能。
- 列式存储:如HBase,适合处理大规模数据的随机读写,尤其适用于宽表结构的数据存储。
- 文档存储:如MongoDB,适合存储和查询半结构化数据,支持灵活的数据模式。
- 图数据库:如Neo4j,适合存储和处理节点和边之间关系复杂的图数据。
- 分布式数据库:如Google Spanner、CockroachDB,这些数据库通过分片技术将数据分布在多个节点上,并提供强一致性和全球分布式存储能力,适合超大规模数据的存储。
- 数据仓库技术:如Apache Hive、Google BigQuery、Amazon Redshift,这些技术提供了大规模结构化数据的存储和查询能力,支持SQL查询,并且能够处理批处理数据和实时数据的分析。
- 对象存储:如Amazon S3、Google Cloud Storage,主要用于存储非结构化数据,如图片、视频、音频等。对象存储具有高可扩展性、低成本的特点,适合大规模非结构化数据的存储。
- 数据湖:数据湖是一种新型的数据存储架构,支持以原始格式存储各种类型的数据(结构化、半结构化和非结构化)。Apache Hadoop、Azure Data Lake等技术是典型的实现,它允许用户根据需要灵活地对数据进行处理和分析。
- 列式存储格式:如Apache Parquet、Apache ORC,这些格式专为分析查询优化,支持高效的压缩和查询性能,特别适用于数据仓库和数据湖中大规模结构化数据的存储。

3、数据分析
数据分析是大数据技术体系中的核心环节之一,旨在从海量数据中提取有价值的信息和知识,以支持决策、优化业务流程和发现新的商业机会。大数据分析的关键技术涉及数据的处理、挖掘、建模和可视化等多个方面。
1. 分布式计算框架:
- Apache Hadoop:Hadoop是大数据处理的基础框架,基于MapReduce模型进行分布式计算,适合批处理大规模数据集。
- Apache Spark:Spark是一种内存计算框架,支持更快速的批处理任务,并且可以进行实时数据处理和复杂的迭代算法,如机器学习。
2. 数据挖掘:
- 聚类分析:如K-means、DBSCAN,用于将数据集划分为多个类别或群组,发现数据中的内在结构。
- 分类和回归:如决策树、随机森林、支持向量机,用于对数据进行分类预测或回归分析。
- 关联规则挖掘:如Apriori算法,用于发现数据中具有相关性的项集,广泛应用于市场篮子分析等领域。
- 异常检测:用于识别数据中的异常模式或异常值,常用于金融欺诈检测、网络安全监控等领域。
3. 实时数据分析:
- 流数据处理框架:如Apache Kafka、Apache Flink,用于实时处理和分析流数据,支持低延迟和高吞吐量的计算。
- CEP(复杂事件处理):用于识别流数据中的复杂事件模式,适用于金融交易监控、实时用户行为分析等场景。
4. 数据可视化:
- 图表工具:如Tableau、Power BI、D3.js,帮助用户以可视化的形式呈现数据分析结果。
- 交互式数据探索:如Jupyter Notebook、Apache Zeppelin,允许用户以编程方式进行数据分析和可视化。

💕💕💕每一次的分享都是一次成长的旅程,感谢您的陪伴和关注。希望这些关于大数据的文章能陪伴您走过技术的一段旅程,共同见证成长和进步!😺😺😺
🧨🧨🧨让我们一起在技术的海洋中探索前行,共同书写美好的未来!!!
相关文章:
【大数据】重塑时代的核心技术及其发展历程
🐇明明跟你说过:个人主页 🏅个人专栏:《大数据前沿:技术与应用并进》🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、什么是大数据 2、大数据技术诞生的背景 二、大…...
基于python的小区监控图像拼接系统设计与实现
博主介绍: 大家好,本人精通Java、Python、C#、C、C编程语言,同时也熟练掌握微信小程序、Php和Android等技术,能够为大家提供全方位的技术支持和交流。 我有丰富的成品Java、Python、C#毕设项目经验,能够为学生提供各类…...
在HFSS中对曲线等结构进行分割(Split)
在HFSS中对曲线进行分割 我们往往需要把DXF等其他类型文件导入HFSS进行分析,但是有时需要对某一个曲线单独进行分割成两段修改。 如果是使用HFSS绘制的曲线,我们修改起来非常方便,修改参数即可。但是如果是导入的曲线,则需要使用…...
高等数学精解【8】
文章目录 直线与二元一次方程平行垂直题目点到直线距离直线束概述直线束的详细说明一、定义二、计算 三、例子例子1:中心直线束例子2:平行直线束 四、例题 参考文献 直线与二元一次方程 平行 两直线平等的条件是它们的斜率相同。 L 1 : A 1 x B 1 y …...
山石网科---WAF---巨细
文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 前言 今天被安排协助一线上架一台WAF,在这里重点总结一下WAF的内容 一.WAF部署 串联透明模式 串联模式特点: 二层透明接入,对客户网络影响小站点和webserve…...
【C++】6.类和对象(4)
文章目录 5.赋值运算符重载5.1 运算符重载5.2 赋值运算符重载5.3 前置和后置重载5.4 日期类的实现 6.取地址运算符重载6.1 const成员函数6.2 取地址运算符重载 5.赋值运算符重载 5.1 运算符重载 当运算符被用于类类型的对象时,C语言允许我们通过运算符重载的形式指…...
【5.2 python中的列表】
python中的列表 Python中的列表(List)是一种非常灵活且强大的数据结构,用于存储一系列的元素。列表是可变的,意味着你可以添加、删除或修改列表中的元素。列表中的元素可以是不同类型的数据,包括整数、浮点数、字符串、…...
opencv-特征检测
1,Harris角点检测 如果粉色窗口向四周移动,窗口内的像素没有变化则认定为平坦区域,如果窗口向上移动无明显变化,而左右移动有变化则认定为边缘,如果窗口向任意方向移动均有明显变化则为角点,如下图 dst不是…...
单片机在线升级架构(bootloader+app)
1、架构(bootloaderapp) 在一定的时间内如果没有程序需要更新则自动跳转到app地址执行用户程序 内部flash 512K bootloader 跑裸机 48k 主要实现USB升级和eeprom标志位升级 app 跑freeRtos 464K 程序的基本功能,升级时软件复位开始执行bootloader升级…...
leetcode169. 多数元素,摩尔投票法附证明
leetcode169. 多数元素 给定一个大小为 n 的数组 nums ,返回其中的多数元素。多数元素是指在数组中出现次数 大于 ⌊ n/2 ⌋ 的元素。 你可以假设数组是非空的,并且给定的数组总是存在多数元素。 示例 1: 输入:nums [3,2,3] 输…...
Pixel Adventure Unity2D开发完整指南
本文参考:2-2. Get and Setup Assets_哔哩哔哩_bilibili 1、下载资源 在Asset Store中下载Pix Adventure1 2的资源: 在import的时候,不用到Scene import进来,如下图所示,Scenes目录反勾选一下。 两个资源都下载完成后…...
signed main()与int main()的区别
刷算法题时为了防止爆int ,通常会开long long #define int long long 但这样int main()会出现问题,main函数的返回值必须是signed或int,由于定义int 为long long 我们只能让返回值变为signed main() #include<bits/stdc.h> using namespace std; #define int long lo…...
【面试宝典】Java基础 这个面试题整理的不全 后期会进行补充
一、equals 和 hashcode 1、简述 hashCode() 和 equals(Object obj) 的作用及其关系 hashCode() 方法用于获取对象的哈希码,即一个整数。这个哈希码在基于哈希的集合(如HashSet、HashMap等)中用于确定对象的存储位置。 equals(Object obj)…...
获取语音文件时长
获取语音文件时长一会儿有一会儿没的,百思不得其解。 错误代码: const getAudioDuration async src > {const audio new Audio(src);const duration await new Promise(resolve > {if (audio.duration) {return resolve(parseInt(audio.duratio…...
应急响应计划:网络安全事件后的快速恢复策略
在数字化时代,网络安全威胁日益严峻,任何企业都无法完全避免遭受网络攻击或数据泄露的风险。因此,制定一套完善的应急响应计划,以便在网络安全事件发生后能够迅速、有效地进行应对和恢复,成为企业保障业务连续性、保护…...
【网络】IP和MAC地址的映射——ARP协议和ARP欺骗概述
目录 引言 ARP的工作机制 ARP欺骗 ARP欺骗的断网行为 ARP欺骗成为中间人 工具介绍 个人主页:东洛的克莱斯韦克-CSDN博客 引言 同一子网内不同主机用数据链路层的MAC地址来寻址,而不是子网内的私有IP(网络层)。数据包中的IP…...
鸿蒙(API 12 Beta3版)【音视频解封装】 文件解析封装
开发者可以调用本模块的Native API接口,完成音视频解封装,即从比特流数据中取出音频、视频等媒体帧数据。 当前支持的数据输入类型有:远程连接(http协议、HLS协议)和文件描述符(fd)。 支持的解封装格式如下: 媒体格式封装格式码…...
智能马桶盖和普通马桶盖有什么不同?
智能马桶盖与普通马桶盖之间存在显著的差异,主要体现在以下几个方面: 一、功能差异 1.清洗功能: 智能马桶盖:配备了清洗功能,包括臀洗、妇洗等,特别针对女性设计了贴心功能,如移动喷水、水流按…...
C# OnnxRuntime部署LivePortrait实现快速、高质量的人像驱动视频生成
目录 效果 说明 项目 模型信息 代码 下载 效果 LivePortrait实现快速、高质量的人像驱动视频生成 说明 官网地址:https://github.com/KwaiVGI/LivePortrait 代码实现参考:https://github.com/hpc203/liveportrait-onnxrun 模型下载:…...
Spring boot框架指南
1. Spring Boot 概述 1.1 定义与起源 Spring Boot是一种基于Spring框架的开源框架,旨在简化Spring应用程序的创建和开发过程。它通过提供一系列默认配置和自动配置功能,减少了开发者在配置上的工作量,使得快速搭建生产级别的Spring应用程序…...
Python+AI:自动分析财报数据的5个实战技巧
总共28小时,整整3天半! 而且这还只是季报,如果是年报更厚。更崩溃的是,有些公司财报格式不统一,找数据像大海捞针。 我当时的想法是:这活儿能不能自动化? 一、解决方案:PythonAI自动…...
Hyperf方案 Kubernetes部署
<?php /*** 案例标题:Kubernetes部署* 说明:K8s deployment/service/configmap yaml配置,含滚动更新、资源限制、健康探针* 需要安装的包:无需PHP包,这是K8s YAML配置文件*/// k8s/namespace.yaml /* apiVersion…...
技术文章大纲:用Anaconda驯服AI开发流
技术文章大纲:用Anaconda驯服AI开发流引言简述AI开发的复杂性与环境管理的重要性介绍Anaconda作为Python数据科学和AI开发的集成工具优势Anaconda的核心功能与AI开发适配性虚拟环境管理:隔离不同项目依赖Conda包管理:简化复杂库(如…...
PLC控制四轴攻丝机全伺服工程案例(含接线图):附带启动停止原点定位等控制指令详解及文本屏即用程序
plc控制伺服电机 四轴攻丝机案例(包含伺服接线图) 该程序为plc控制伺服电机的工程案例包含伺服电机接线图,包含程序流程的详细解释说明 程序包括伺服电机的启动,停止,原点定位,回归原点,位置控制以及方向控制包括了所有…...
3个步骤掌握Cats Blender插件:从模型导入到VRChat资产优化
3个步骤掌握Cats Blender插件:从模型导入到VRChat资产优化 【免费下载链接】cats-blender-plugin :smiley_cat: A tool designed to shorten steps needed to import and optimize models into VRChat. Compatible models are: MMD, XNALara, Mixamo, DAZ/Poser, Bl…...
文献阅读 260404-Effect of climate warming on the timing of autumn leaf senescence reverses after ...
Effect of climate warming on the timing of autumn leaf senescence reverses after the summer solstice 来自 <https://www.science.org/doi/10.1126/science.adf5098> ## Abstract: Structured Abstract INTRODUCTION Ongoing climate change is causing rapid shif…...
javaweb小区饮水机自动售水系统的设计和实现
目录同行可拿货,招校园代理 ,本人源头供货商功能需求分析核心业务功能技术实现要点安全与扩展性项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作同行可拿货,招校园代理 ,本人源头供货商 功能需求分析 用户管理模块 用户注册与…...
3个方法解决C盘空间不足问题的系统优化工具
3个方法解决C盘空间不足问题的系统优化工具 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner WindowsCleaner是一款开源的系统优化工具,专为解决Windows…...
解锁B站直播自由:第三方推流工具深度技术解析
解锁B站直播自由:第三方推流工具深度技术解析 【免费下载链接】bilibili_live_stream_code 用于在准备直播时获取第三方推流码,以便可以绕开哔哩哔哩直播姬,直接在如OBS等软件中进行直播,软件同时提供定义直播分区和标题功能 项…...
如何完全掌握微信聊天数据:WeChatMsg免费工具的终极指南
如何完全掌握微信聊天数据:WeChatMsg免费工具的终极指南 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeC…...
