当前位置: 首页 > article >正文

物联网数据湖架构

物联网海量数据湖分析架构(推荐实践)

┌──────────────┐
│   IoT设备端   │
└──────┬───────┘│(MQTT/HTTP)▼
┌──────────────┐
│    EMQX等     │   可选(也可设备直接接Kafka/MQ)
└──────┬───────┘│(MQTT→Kafka Bridge)▼
┌──────────────┐
│    Kafka     │   ★ 数据总线,高并发缓冲与削峰
└──────┬───────┘││(流式消费)▼
┌────────────────────────┐
│   Flink/Spark Streaming │   ★ 流/批处理,数据清洗、聚合、分桶分区、批量落盘
│   (写数据湖/OSS)      │
└──────┬───────────┬─────┘│           ││           ││(7天内热数据) │(数据湖分区归档)▼           ▼
┌──────────────┐   ┌────────────────────────────┐
│   MongoDB    │   │    OSS/S3/MinIO 数据湖区    │
│(短期热数据)│   │  Parquet/ORC分区批量归档存储│
└──────────────┘   │(如year=2025/month=05/…)   │└────────────┬───────────────┘│┌───────────────┴──────────────┐▼                              ▼Trino/Presto/StarRocks             离线分析/可视化★ 分布式SQL分析引擎直接查OSS湖区(支持中位数、P95、聚合统计)

架构分层说明与选型理由

1. 采集层

  • IoT设备端 → EMQX(可选)→ Kafka
  • 负责承接海量并发,Kafka做主消息缓冲和削峰,方便后端弹性扩容。

2. 计算与写入层

  • Flink/Spark Streaming
  • 实时消费Kafka消息,数据预处理、格式校验、异常数据隔离。
  • 批量写入MongoDB(仅7天热数据)用于短期API查询。
  • 按时间/设备等分区批量归档到OSS/数据湖(Parquet/ORC格式),实现低成本无限扩容。

3. 存储层

  • MongoDB

    • 只保存近7天热数据,满足实时接口和最新查询需求。
    • 定期自动清理过期数据,降低成本。
  • OSS/S3/MinIO(数据湖区)

    • 主存储,Parquet/ORC分区存储全部历史数据,适用于大批量聚合分析。
    • 按时间、设备等多级分区,检索效率高。

4. 分析与服务层

  • Trino/Presto/StarRocks

    • 直接用SQL连接OSS数据湖,支持max/min/avg/median/p95/窗口聚合等分析。
    • 支持多用户高并发大规模历史数据查询,完全无需再将OSS数据批量倒回MongoDB。
  • 可选:离线分析/BI可视化工具

    • 如Superset、Tableau,连接Trino等实现数据报表和大屏。

核心优势

  • 超强弹性:Kafka、Flink、OSS/数据湖全部可横向扩容。
  • 冷热分层、成本低:MongoDB只做热数据,OSS承担所有归档数据,节省高性能数据库资源。
  • 超强分析能力:Trino/Presto等支持SQL直查海量历史,聚合/分位点分析性能极佳,毫无压力。
  • 开发和运维简单:如同MyBatis查MySQL一样用SQL查数据湖,逻辑简单,技术栈成熟。

数据湖分区和存储规范举例

  • 存储格式:Parquet(列式存储,压缩高效,分析性能好)

  • 分区策略

    oss://iot-data-bucket/iot_data/year=2025/month=05/day=20/device_id=xxxx/part-xxxxx.parquet
    

    或简单时间分区+字段过滤

  • 每条数据内容

    device_idtsparam_aparam_b
    xxx0012025-05-20 10:01:2312.38.6
    xxx0022025-05-20 10:01:2415.47.8

查询范例(以Trino为例)

SELECTdate_trunc('minute', ts) AS minute,avg(param_x) AS avg_value,max(param_x) AS max_value,min(param_x) AS min_value,approx_percentile(param_x, 0.5) AS median_value,approx_percentile(param_x, 0.95) AS p95_value
FROMhive.iot_data
WHEREdevice_id = 'your_device_id'AND ts BETWEEN TIMESTAMP '2025-05-19 00:00:00'AND TIMESTAMP '2025-05-19 23:59:59'
GROUP BYdate_trunc('minute', ts)
ORDER BYminute;

常见问题解答

  • OSS数据能实时查吗?
    通常数据归档延迟可做到分钟级,Trino等SQL引擎查OSS/MinIO的数据几乎是实时的,性能远超传统数据库聚合。

  • Java应用如何查?
    和查MySQL一样,用Trino/Presto的JDBC驱动发SQL即可,不需要自研复杂代码。

  • 如果业务刚迁移,原有MongoDB接口怎么办?
    前7天热数据照常查MongoDB,历史分析走SQL数据湖即可,两者可并行平滑过渡。


补充:核心技术选型

场景推荐组件
消息中间件Kafka
流式处理Flink/Spark Streaming
热数据缓存MongoDB
数据湖/归档存储OSS/S3/MinIO + Parquet
SQL分析Trino/Presto/StarRocks
BI与报表Superset/Tableau等

相关文章:

物联网数据湖架构

物联网海量数据湖分析架构(推荐实践) ┌──────────────┐ │ IoT设备端 │ └──────┬───────┘│(MQTT/HTTP)▼ ┌──────────────┐ │ EMQX等 │ 可选(也可…...

详解RabbitMQ工作模式之发布订阅模式

目录 发布订阅模式 概念 概念介绍 特点和优势 应用场景 注意事项 代码案例 引入依赖 常量类 编写生产者代码 编写消费者1代码 运行代码 发布订阅模式 概念 RabbitMQ的发布订阅模式(Publish/Subscribe)是一种消息传递模式,它允许消…...

什么是子网委派?

Azure 子网委派的概念 子网委托使您能够为所选的 Azure PaaS 服务指定一个特定的子网,并将其注入到您的虚拟网络中。子网委托为客户提供了完全的控制权,可以管理 Azure 服务与其虚拟网络的集成。 当您将子网委托给 Azure 服务时,您允许该服务为该子网建立一些基本的网络配…...

微信学习之导航功能

先看这个功能的效果: 然后开始学习吧。 一、我们这里用的是vant的Grid控件,首先我们导入: { "usingComponents": {"van-search": "vant/weapp/search/index","my-swiper":"../../components…...

城市内涝监测预警系统守护城市安全

一、系统背景 城市内涝是指由于强降水或连续性降水超过城市排水能力,导致城市内产生积水灾害的现象。随着气候变化和城市化进程的加快,城市内涝现象愈发频繁和严重。传统的城市排水系统已难以满足当前的城市排水需求,特别是在暴雨等极端天气条…...

用 CodeBuddy 搭建「MiniGoal 小目标打卡器」:一次流畅的 UniApp 开发体验

我正在参加CodeBuddy「首席试玩官」内容创作大赛,本文所使用的 CodeBuddy 免费下载链接:腾讯云代码助手 CodeBuddy - AI 时代的智能编程伙伴 在日常生活中,我们总是希望能够坚持一些小习惯,比如每天锻炼十分钟、读一页书、早睡十分…...

Web技术与Nginx网站环境部署

目录 一.web基础 1.域名和DNS (1).域名的概念 (2).hosts文件 (3).DNS (4).域名注册 2.网页与HTML (1).网页简介 (2).HTML &a…...

AI移动监测:仓储环境安全的“全天候守护者”

AI移动监测在仓储方面的应用:技术赋能与场景突破 一、背景:仓储环境的“隐形威胁”与AI破局 仓储行业长期面临设备损坏、货物损失、卫生隐患等风险。传统监控依赖人工巡检或固定摄像头,难以实时捕捉动态风险。例如: 动物入侵&a…...

【数据库】数据库故障排查指南

数据库故障排查指南 数据库连接问题 检查数据库服务是否正常运行,确认网络连接是否畅通,验证数据库配置文件的正确性,确保防火墙或安全组规则允许数据库端口的访问。 性能问题 分析慢查询日志,优化SQL语句,检查索引…...

mariadb 升级 (通过yum)

* 注意下 服务名, 有的服务器上是mysql,有的叫mariadb,mysqld的 #停止 systemctl stop mysql #修改源 vi /etc/yum.repos.d/MariaDB.repo baseurl http://yum.mariadb.org/11.4/centos7-amd64 #卸载 yum remove mysql #安装 yum install MariaDB-server galera-4 MariaDB-…...

2025年5月华为H12-821新增题库带解析

IS-IS核心知识 四台路由器运行IS-IS且已经建立邻接关系,区域号和路由器的等级如图中标记,下列说法中正确的有? R2和R3都会产生ATT置位的Level-1的LSPR1没有R4产生的LSP,因此R1只通过缺省路由和R4通信R2和R3都会产生ATT置位的Leve1-2的LSPR2和…...

用 python 编写的一个图片自动分类小程序(三)

图片自动分类识别小程序记录 2025/5/18 0:38修改程序界面,增加一些功能 用 python 编写的一个图片自动识别分类小程序。 操作系统平台:Microsoft Windows 11 编程语言和 IDE:python 3.10 Visual studio code 一:图片自动分…...

用户行为日志分析的常用架构

## 1. 经典Lambda架构 Lambda架构是一种流行的大数据处理架构,特别适合用户行为日志分析场景。 ### 1.1 架构组成 Lambda架构包含三层: - **批处理层(Batch Layer)**: 存储全量数据并进行离线批处理 - **实时处理层(Speed Layer)**: 处理最新数据&…...

初识 java

目录 前言 一、jdk,JRE和JVM之间的关系 二、JVM的内存划分 前言 初步了解 jdk,JRE,JVM 之间的关系,JVM 的内存划分。 一、jdk,JRE和JVM之间的关系 jdk 是 java 开发工具集,包含JRE; JRE 是…...

3D 数据交换格式(.3DXML)简介

3DXML 是一种基于 XML 的 3D 数据交换格式,由达索系统(Dassault Systmes)开发,主要用于其 CATIA、SOLIDWORKS 和 3DEXPERIENCE 等产品中。 基本概述 ​​全称​​:3D XML​​开发者​​:达索系统​​主要用途​​:3D…...

frida 配置

1.环境 1.1 下载 frida-server firda-server github下载地址 这边推荐使用最新版的上一个版本 根据虚拟机自行选择版本 我使用这个版本 frida-server-16.7.17-android-x86_64 1.2 启动 frida-server-16.7.17-android-x86_64 将文件解压至虚拟机目录 使用adb命令执行 chmo…...

16-看门狗和RTC

一、独立看门狗 1、独立看门狗概述 在由单片机构成的微型计算机系统中,由于单片机的工作常常会受到来自外界电磁场的干扰,造成程序的跑飞(不按照正常程序进行运行,如程序重启,但是如果我们填加看门狗的技术&#xff0…...

【AI论文】用于评估和改进大型语言模型中指令跟踪的多维约束框架

摘要:接下来的指令评估了大型语言模型(LLMs)生成符合用户定义约束的输出的能力。 然而,现有的基准测试通常依赖于模板化的约束提示,缺乏现实使用的多样性,并限制了细粒度的性能评估。 为了填补这一空白&…...

AUTOSAR图解==>AUTOSAR_SRS_TimeService

AUTOSAR TimeService模块详解 AUTOSAR经典平台时间服务分析与图解 目录 1. 概述2. TimeService架构分析 2.1 模块位置与组件关系2.2 模块功能职责3. TimeService组件结构 3.1 预定义定时器类型3.2 时间函数功能3.3 与GPT驱动关系4. TimeService定时器实例 4.1 实例数据结构4.2 …...

设计模式的原理及深入解析

创建型模式 创建型模式主要关注对象的创建过程,旨在通过不同的方式创建对象,以满足不同的需求。 工厂方法模式 定义:定义一个创建对象的接口,让子类决定实例化哪一个类。 解释:工厂方法模式通过定义一个创建对象的…...

Chromium 浏览器核心生命周期剖析:从 BrowserProcess 全局管理到 Browser 窗口实例

在 Chromium 浏览器架构中,BrowserProcess 和 Browser 是两个核心类,分别管理 浏览器进程的全局状态 和 单个浏览器窗口的实例。它们的生命周期设计直接影响浏览器的稳定性和资源管理。以下是它们的详细生命周期分析: 1. BrowserProcess 的生…...

易境通海外仓系统:一件代发全场景数字化解决方案

随着全球经济一体化和消费升级,一件代发业务的跨境电商市场规模持续增长。然而,一件代发的跨境运营也面临挑战,传统海外仓管理模式更因效率低下、协同困难成为业务扩张的瓶颈。 一、一件代发跨境运营痛点 1、多平台协同:卖家往往…...

Flink 非确定有限自动机NFA

Flink 是一个用于状态化计算的分布式流处理框架,而非确定有限自动机(NFA, Non-deterministic Finite Automaton)是一种在计算机科学中广泛使用的抽象计算模型,常用于正则表达式匹配、模式识别等领域。 Apache Flink 提供了对 NFA…...

YoloV9改进策略:卷积篇|风车卷积|即插即用

论文信息 论文标题:《Pinwheel-shaped Convolution and Scale-based Dynamic Loss for Infrared Small Target Detection》 论文链接:https://arxiv.org/pdf/2412.16986 GitHub链接:https://github.com/JN-Yang/PConv-SDloss-Data 论文翻译 摘要 https://arxiv.org/pd…...

【Python训练营打卡】day30 @浙大疏锦行

DAY 30 模块和库的导入 知识点回顾: 1. 导入官方库的三种手段 2. 导入自定义库/模块的方式 3. 导入库/模块的核心逻辑:找到根目录(python解释器的目录和终端的目录不一致) 作业:自己新建几个不同路径文件尝试下如何…...

超越想象:利用MetaGPT打造高效的AI协作环境

前言 在人工智能迅速发展的今天,如何让多个大语言模型(LLM)高效协同工作成为关键挑战。MetaGPT 作为一种创新的多智能体框架,成功模拟了一个真实软件公司的运作流程,实现了从需求分析到代码实现的全流程自动化&#x…...

仿腾讯会议——添加音频

1、实现开启或关闭音频 2、 定义信号 3、实现开始暂停音频 4、实现信号槽连接 5、回收资源 6、初始化音频视频 7、 完成为每个人创建播放音频的对象 8、发送音频 使用的是对象ba,这样跨线程不会立刻回收,如果使用引用,跨线程会被直接回收掉&a…...

虚幻引擎5-Unreal Engine笔记之`GameMode`、`关卡(Level)` 和 `关卡蓝图(Level Blueprint)`的关系

虚幻引擎5-Unreal Engine笔记之GameMode、关卡(Level) 和 关卡蓝图(Level Blueprint)的关系 code review! 参考笔记: 1.虚幻引擎5-Unreal Engine笔记之GameMode、关卡(Level) 和 关卡蓝图&…...

vue3 vite 项目中自动导入图片

vue3 vite 项目中自动导入图片 安装插件配置插件使用方法 安装插件 yarn add vite-plugin-vue-images -D 或者 npm install vite-plugin-vue-images -D配置插件 在 vite.config.js 文件中配置插件 // 引入 import ViteImages from vite-plugin-vue-images;plugins: [vue(),/…...

MTK zephyr平台:系统休眠流程

一、概述: 当内核没有需要调度的东西时,就会进入空闲状态。 CONFIG_PM=y时允许内核调用PM subsys,将空闲系统置于支持的电源状态之一。 Application负责设置唤醒事件,该事件通常是由SoC外围模块触发的中断,例如: SysTick、RTC、计数器、GPIO 并非所有外设在所有电源模式…...