当前位置：首页 > news >正文

关于大数据

news 2026/5/18 1:52:21

在大数据背景下存在的问题：

非结构化、半结构化数据：NoSQL数据库只负责存储；程序处理时涉及到数据移动，速度慢
是否存在一套整体解决方案？

可以存储并处理海量结构化、半结构化、非结构化数据
处理海量数据的速度很快，且扩展性强

大数据：数据达到一定规模以后，对数据进行存储和计算的技术

大数据的特征包括：

数据规模巨大（Volume）
生成和处理速度极快（Velocity）
数据类型多样（Variety）
价值巨大但密度较低（Value）

场景

离线和实时区分：数据是否有界。
离线：数据产生以后存起来(如10G)，以后不会增加或减少，以后的计算都是这么大。（断网也可以断网）。--------适合批处理
实时：数据产生后直接计算。------适合流处理

生态

传统单机架构：比如在OS上安装了MySQL，OS为mysql提供了文件系统、通用计算(比如sql转成os的指令来执行)、资源管理。
大数据：有没有操作系统底层就是管理多个机器的？没有。所以我们要在软件层面来实现把OS构建成分布式的，然后这些分布式分别装不同组件。Hadoop

大数据开发的工作内容：
如果做数仓，就用sqoop把数据抽到HDFS，用spark或者mapreduce进行数据清洗，计算的结果放在Hive里或者sparksql。中间这些任务调度用Oozie或Azkaban。
对于流处理来说，用flume或lagstach去监控非结构化或半结构化的数据，用OGG/CDC监控数据库日志（结构化），把这些数据实时抽取到kafak，然后由流引擎，比如sparkes生态圈的spark streaming，或flink进行处理，数据处理之后再把结果存到HBase里进行保存或者es。

Hadoop分布式文件系统，有三个核心子项目(HDFS、Yarn、Mapreduce)，围绕着这三个子项目发展出来的生态就是Hadoop生态圈。

HDFS

关于大数据

相关文章：

关于大数据

9-收纳的知识

堆的实现——堆的应用（堆排序）

机器学习6-全连接神经网络2

基于 SpringBoot 的电影购票系统

C++SLT（三）——list

C++ Primer 算术运算符

数据结构-堆和PriorityQueue

【玩转 Postman 接口测试与开发2_017】第13章：在 Postman 中实现契约测试（Contract Testing）与 API 接口验证（下）

R语言 | 使用 ComplexHeatmap 绘制热图，分区并给对角线分区加黑边框

React图标库: 使用React Icons实现定制化图标效果

Python sider-ai-api库 — 访问Claude、llama、ChatGPT、gemini、o1等大模型API

DeepSeek、哪吒和数据库：厚积薄发的力量

DDD - 微服务架构模型_领域驱动设计（DDD）分层架构 vs 整洁架构（洋葱架构） vs 六边形架构（端口-适配器架构）

第 1 天：UE5 C++ 开发环境搭建，全流程指南

【华为OD-E卷 - 109 磁盘容量排序 100分（python、java、c++、js、c）】

【大数据技术】编写Python代码实现词频统计（python+hadoop+mapreduce+yarn）

5-Scene层级关系

JVM执行流程与架构（对应不同版本JDK）

本地部署 DeepSeek-R1：简单易上手，AI 随时可用！

AI智能体生态的包管理器：agenticmarket-cli 设计与实践

如何免费解锁WeMod专业版：2026年终极完整指南

如何快速突破平台限制：跨平台Steam创意工坊模组下载终极指南

基于GitHub Pages与Jekyll的静态博客搭建与深度定制指南

LLVM开发实战指南：从入门到精通编译器与程序分析

Arduino与手机蓝牙通信：nRF8001 BLE模块硬件连接与软件配置全解析

飞书自动化工具feishu-atuo：Python积木式开发与实战指南

Claude模型思维链评估框架claweval：原理、实战与高级定制指南

基于RAG与向量数据库的智能信息管理系统（IIMS）架构与实现

如何在Chrome浏览器中快速生成与解析二维码：Chrome QRCode插件终极指南