当前位置: 首页 > news >正文

Apache Hudi数据湖技术应用在网络打车系统中的系统架构设计、软硬件配置、软件技术栈、具体实现流程和关键代码

网络打车系统利用Hudi数据湖技术成功地解决了其大规模数据处理和分析的难题,提高了数据处理效率和准确性,为公司的业务发展提供了有力的支持。
Apache Hudi数据湖技术的一个典型应用案例是网络打车系统的数据处理场景,具体如下:
大型网络打车公司每天需要处理的数据量达到数千亿条,数据规模达到数百PB级别。网络打车系统使用Hudi数据湖技术来跟踪记录每一次打车过程的所有事件,包括打开打车应用、发起打车、上车、到达目的地下车以及对司机的评价打分等。
在这个场景中,网络打车系统选择使用Hudi的写时复制表(COW)来存储应用程序中用户交互的历史记录数据。这些数据一旦产生并不会发生追溯修改,因此适合使用COW表来存储。使用Hudi后,网络打车系统的写入效率相比之前的Spark作业提高了100多倍,同时满足了数据查询的性能和低延迟要求。
此外,网络打车系统还利用Hudi提供的多种视图能力来优化数据查询。例如,使用快照查询来获取某个时间点的数据快照,使用增量查询来只查询自上次查询以来的新数据。这些视图能力使得网络打车系统能够更加高效地处理和分析数据,进而优化其业务决策和运营效率。

根据网络打车系统的Hudi应用场景,以下是详细的架构设计与实现方案:

一、硬件配置方案

  1. 存储层:
  • 分布式存储:10,000节点HDFS集群(或S3兼容对象存储)
  • 存储类型:NVMe SSD(热数据)+ HDD(冷数据)
  • 总容量:1.5EB(支持3副本)
  • 网络:100Gbps RDMA网络
  1. 计算层:
  • Spark/Flink集群:5000节点
  • 配置:256核/节点,2TB内存/节点
  • 本地SSD缓存:10TB/节点
  1. 网络架构:
  • 东西向流量:Clos网络架构
  • 延迟要求:计算节点间<1ms
  • 带宽:数据节点间40Gbps专线

二、系统架构设计

批量处理
流处理
元数据
存储
数据源
Kafka集群
处理层
Spark
Flink
Hudi数据湖
Hive Metastore
HDFS/S3
查询引擎
Presto/Trino
Hive
Spark SQL
BI工具

三、软件技术栈

  1. 核心组件:
  • 存储引擎:Apache Hudi 0.12.0
  • 计算引擎:Spark 3.3 + Flink 1.16
  • 资源调度:YARN 3.3 + Kubernetes 1.26
  • 数据格式:Parquet + Avro
  • 元数据管理:Hive Metastore 3.1.2
  1. 辅助组件:
  • 数据采集:Flume 1.10 + Kafka 3.3
  • 查询引擎:Trino 412
  • 监控体系:Prometheus 2.43 + Grafana 9.4

四、具体实现流程

  1. 数据写入流程:
# 示例Spark写入代码(Scala)
val hudiOptions = Map[String,String]("hoodie.table.name" -> "ride_events","hoodie.datasource.write.recordkey.field" -> "event_id","hoodie.datasource.write.partitionpath.field" -> "event_date,event_type","hoodie.datasource.write.precombine.field" -> "event_ts","hoodie.upsert.shuffle.parallelism" -> "5000","hoodie.insert.shuffle.parallelism" -> "5000","hoodie.bulkinsert.shuffle.parallelism" -> "5000"
)val eventDF = spark.read.format("kafka").option("kafka.bootstrap.servers", "kafka-cluster:9092").option("subscribe", "ride-events").load().select(from_json(col("value"), schema).as("data")).select("data.*")eventDF.write.format("org.apache.hudi").options(hudiOptions).option("hoodie.datasource.write.operation", "upsert").mode("append").save("s3://data-lake/ride_events")
  1. 查询优化配置:
-- 创建Hudi表外部关联
CREATE EXTERNAL TABLE ride_events
USING hudi
LOCATION 's3://data-lake/ride_events';-- 快照查询(最新数据)
SELECT * FROM ride_events 
WHERE event_date = '2023-08-01' AND event_type = 'payment';-- 增量查询(Java示例)
HoodieIncQueryParam incParam = HoodieIncQueryParam.newBuilder().withStartInstantTime("20230801120000").build();SparkSession.read().format("org.apache.hudi").option(HoodieReadConfig.QUERY_TYPE, HoodieReadConfig.QUERY_TYPE_INCREMENTAL_OPT_VAL).option(HoodieReadConfig.BEGIN_INSTANTTIME, "20230801120000").load("s3://data-lake/ride_events").createOrReplaceTempView("incremental_data");

五、关键优化技术

  1. 存储优化:
// Hudi表配置(Java)
HoodieWriteConfig config = HoodieWriteConfig.newBuilder().withPath("s3://data-lake/ride_events").withSchema(schema.toString()).withParallelism(5000, 5000).withCompactionConfig(HoodieCompactionConfig.newBuilder().withInlineCompaction(true).withMaxNumDeltaCommitsBeforeCompaction(5).build()).withStorageConfig(HoodieStorageConfig.newBuilder().parquetMaxFileSize(2 * 1024 * 1024 * 1024L)  // 2GB.build()).build();
  1. 索引优化:
# hudi.properties
hoodie.index.type=BLOOM
hoodie.bloom.index.bucketized.checking=true
hoodie.bloom.index.keys.per.bucket=100000
hoodie.bloom.index.filter.type=DYNAMIC_V0

六、运维监控体系

  1. 关键监控指标:
# Prometheus监控指标示例
hudi_commit_duration_seconds_bucket{action="commit",le="10"} 23567
hudi_compaction_duration_minutes 8.3
hudi_clean_operations_total 1428
hudi_bytes_written_total{type="parquet"} 1.2e+18

七、性能调优参数

  1. Spark调优参数:
spark.conf.set("spark.sql.shuffle.partitions", "10000")
spark.conf.set("spark.executor.memoryOverhead", "4g")
spark.conf.set("spark.hadoop.parquet.block.size", 268435456)  # 256MB

该架构设计可实现以下性能指标:

  • 写入吞吐:>500万条/秒
  • 查询延迟:点查<1s,全表扫描<5min/PB
  • 数据新鲜度:端到端延迟<5分钟
  • 存储效率:压缩比8:1(原始JSON vs Parquet)

实际部署时需要根据数据特征动态调整以下参数:

  1. 文件大小(hoodie.parquet.max.file.size)
  2. 压缩策略(hoodie.compact.inline.trigger.strategy)
  3. Z-Order索引字段选择
  4. 增量查询时间窗口策略

相关文章:

Apache Hudi数据湖技术应用在网络打车系统中的系统架构设计、软硬件配置、软件技术栈、具体实现流程和关键代码

网络打车系统利用Hudi数据湖技术成功地解决了其大规模数据处理和分析的难题&#xff0c;提高了数据处理效率和准确性&#xff0c;为公司的业务发展提供了有力的支持。 Apache Hudi数据湖技术的一个典型应用案例是网络打车系统的数据处理场景&#xff0c;具体如下&#xff1a; 大…...

安全策略配置

需求: 1、VLAN 2属于办公区;VLAN 3属于生产区 2、办公区PC在工作日时间(周一至周五&#xff0c;早8到晚6)可以正常访问0A Server&#xff0c;其他时间不允许 3、办公区PC可以在任意时刻访问web server 4、生产区PC可以在任意时刻访问0A Server&#xff0c;但是不能访问Web serv…...

c++ stl 遍历算法和查找算法

概述&#xff1a; 算法主要由头文件<algorithm> <functional> <numeric> 提供 <algorithm> 是所有 STL 头文件中最大的一个&#xff0c;提供了超过 90 个支持各种各样算法的函数&#xff0c;包括排序、合并、搜索、去重、分解、遍历、数值交换、拷贝和…...

【Envi遥感图像处理】008:波段(批量)分离与波段合成

文章目录 一、波段分离提取1. 提取单个波段2. 批量提取单个波段二、波段合成相关阅读:【ArcGIS微课1000例】0058:波段合成(CompositeBands)工具的使用 一、波段分离提取 1. 提取单个波段...

线程创建与管理 - 创建线程、线程同步(C++)

前言 在现代软件开发中&#xff0c;线程的创建和管理是并发编程的核心内容之一。通过合理地创建和管理线程&#xff0c;可以有效提高程序的响应速度和资源利用率。本文将详细讲解如何在C中创建线程&#xff0c;并探讨几种常见的线程同步机制。我们假设读者具备一定的C基础&…...

【C语言篇】“三子棋”

一、游戏介绍 三子棋&#xff0c;英文名为 Tic - Tac - Toe&#xff0c;是一款简单而经典的棋类游戏。游戏在一个 33 的棋盘上进行&#xff0c;两名玩家轮流在棋盘的空位上放置自己的棋子&#xff08;通常用 * 和 # 表示&#xff09;&#xff0c;率先在横、竖或斜方向上连成三个…...

安培定律应用于 BH 曲线上的工作点

在本篇博文中&#xff0c;我将展示如何应用安培定律来确定磁芯包裹的导体必须承载多少电流才能从 BH 值工作点获得 B 值&#xff0c;该工作点对应于磁芯材料中的最大 B 值。我在 BH 曲线上使用两个工作点&#xff0c;一个在线性区域&#xff0c;另一个在饱和区域。 安培定律 H…...

深度求索DeepSeek横空出世

真正的强者从来不是无所不能&#xff0c;而是尽我所能。多少有关输赢胜负的缠斗&#xff0c;都是直面本心的搏击。所有令人骄傲振奋的突破和成就&#xff0c;看似云淡风轻寥寥数语&#xff0c;背后都是数不尽的焚膏继晷、汗流浃背。每一次何去何从的困惑&#xff0c;都可能通向…...

【CSS】什么是响应式设计?响应式设计的基本原理,怎么做

在当今多设备、多屏幕尺寸的时代&#xff0c;网页设计面临着前所未有的挑战。传统的固定布局已无法满足用户在不同设备上浏览网页的需求&#xff0c;响应式设计&#xff08;Responsive Web Design&#xff09;应运而生&#xff0c;成为网页设计的趋势和标准。本文将深入探讨响应…...

后盾人JS--继承

继承是原型的继承 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> </hea…...

提升开发效率:IDE使用技巧与插件推荐

在软件开发过程中&#xff0c;选择一个合适的集成开发环境&#xff08;IDE&#xff09;并掌握其使用技巧&#xff0c;可以显著提高开发效率。本文将分享一些常用的IDE使用技巧&#xff0c;并推荐几款实用的插件&#xff0c;帮助开发者更好地利用IDE进行开发。 一、IDE使用技巧…...

开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势(一)

一、前言 在当今人工智能技术迅猛发展的时代,各类人工智能模型如雨后春笋般不断涌现,其性能的优劣直接影响着应用的广度与深度。从自然语言处理到计算机视觉,从智能安防到医疗诊断,AI 模型广泛应用于各个领域,人们对其准确性、稳定性和高效性的期望也与日俱增。 在此背景下…...

小书包:让阅读更美的二次开发之作

小书包是在一款知名阅读软件的基础上进行二次开发的产品。在保留原有软件的基本功能和用户体验的同时&#xff0c;对其界面和视觉效果进行了精心美化&#xff0c;让阅读体验更加舒适和愉悦。 内置了171条书源&#xff0c;虽然数量不算多&#xff0c;但都是作者精挑细选出来的&a…...

MySQL 插入数据指南

MySQL 插入数据指南 引言 MySQL 是一款广泛使用的开源关系数据库管理系统&#xff0c;被广泛应用于各种规模的组织中。在数据库管理中&#xff0c;数据的插入是基础操作之一。本文将详细介绍如何在 MySQL 中插入数据&#xff0c;包括插入单条记录和多条记录&#xff0c;以及一…...

防火墙安全策略实验

一、拓扑图 需求 Cloud云&#xff1a; 二、防火墙配置 初始化防火墙 Username:admin Password:***** The password needs to be changed. Change now? [Y/N]: y Please enter old password: Admin123 Please enter new password: admin123 Please confirm new password: …...

【Redis】主从模式,哨兵,集群

主从复制 单点问题&#xff1a; 在分布式系统中&#xff0c;如果某个服务器程序&#xff0c;只有一个节点&#xff08;也就是一个物理服务器&#xff09;来部署这个服务器程序的话&#xff0c;那么可能会出现以下问题&#xff1a; 1.可用性问题&#xff1a;如果这个机器挂了…...

互联网行业常用12个数据分析指标和八大模型

本文目录 前言 一、互联网线上业务数据分析的12个指标 1. 用户数据&#xff08;4个&#xff09; (1) 存量&#xff08;DAU/MAU&#xff09; (2) 新增用户 (3) 健康程度&#xff08;留存率&#xff09; (4) 渠道来源 2. 用户行为数据&#xff08;4个&#xff09; (1) 次数/频率…...

多模块协同信息安全管理平台

1.产品介绍 产品名称 【SecureMOS - 多模块协同信息安全管理平台】 主要功能&#xff1a; [功能1] 模块化架构设计与集成 具体作用与使用方式: 通过模块化的设计&#xff0c;将信息安全系统分解为多个独立且可扩展的组件&#xff0c;便于快速部署和维护。需求满足与问题解…...

基于RK3588/RK3576+MCU STM32+AI的储能电站电池簇管理系统设计与实现

伴随近年来新型储能技术的高质量规模化发展&#xff0c;储能电站作为新能源领域的重要载体&#xff0c; 旨在配合逐步迈进智能电网时代&#xff0c;满足电力系统能源结构与分布的创新升级&#xff0c;给予相应规模 电池管理系统的设计与实现以新的挑战。同时&#xff0c;电子系…...

使用LightGlue进行图像配准并提取图像重叠区域

发表日期&#xff1a;2023年6月23日 项目地址&#xff1a;https://github.com/cvg/LightGlue https://github.com/cvg/glue-factory/ LightGlue是一个在精度上媲美Superglue&#xff0c;但在速度上比Superglue快一倍的模型。通过博主实测&#xff0c;LightGlue的配准效果比Su…...

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

一、变量声明设计&#xff1a;let 与 mut 的哲学解析 Rust 采用 let 声明变量并通过 mut 显式标记可变性&#xff0c;这种设计体现了语言的核心哲学。以下是深度解析&#xff1a; 1.1 设计理念剖析 安全优先原则&#xff1a;默认不可变强制开发者明确声明意图 let x 5; …...

盘古信息PCB行业解决方案:以全域场景重构,激活智造新未来

一、破局&#xff1a;PCB行业的时代之问 在数字经济蓬勃发展的浪潮中&#xff0c;PCB&#xff08;印制电路板&#xff09;作为 “电子产品之母”&#xff0c;其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透&#xff0c;PCB行业面临着前所未有的挑战与机遇。产品迭代…...

关于iview组件中使用 table , 绑定序号分页后序号从1开始的解决方案

问题描述&#xff1a;iview使用table 中type: "index",分页之后 &#xff0c;索引还是从1开始&#xff0c;试过绑定后台返回数据的id, 这种方法可行&#xff0c;就是后台返回数据的每个页面id都不完全是按照从1开始的升序&#xff0c;因此百度了下&#xff0c;找到了…...

【论文阅读28】-CNN-BiLSTM-Attention-(2024)

本文把滑坡位移序列拆开、筛优质因子&#xff0c;再用 CNN-BiLSTM-Attention 来动态预测每个子序列&#xff0c;最后重构出总位移&#xff0c;预测效果超越传统模型。 文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵&#xff08;S…...

Go 语言并发编程基础:无缓冲与有缓冲通道

在上一章节中&#xff0c;我们了解了 Channel 的基本用法。本章将重点分析 Go 中通道的两种类型 —— 无缓冲通道与有缓冲通道&#xff0c;它们在并发编程中各具特点和应用场景。 一、通道的基本分类 类型定义形式特点无缓冲通道make(chan T)发送和接收都必须准备好&#xff0…...

push [特殊字符] present

push &#x1f19a; present 前言present和dismiss特点代码演示 push和pop特点代码演示 前言 在 iOS 开发中&#xff0c;push 和 present 是两种不同的视图控制器切换方式&#xff0c;它们有着显著的区别。 present和dismiss 特点 在当前控制器上方新建视图层级需要手动调用…...

C++ 设计模式 《小明的奶茶加料风波》

&#x1f468;‍&#x1f393; 模式名称&#xff1a;装饰器模式&#xff08;Decorator Pattern&#xff09; &#x1f466; 小明最近上线了校园奶茶配送功能&#xff0c;业务火爆&#xff0c;大家都在加料&#xff1a; 有的同学要加波霸 &#x1f7e4;&#xff0c;有的要加椰果…...

MySQL 部分重点知识篇

一、数据库对象 1. 主键 定义 &#xff1a;主键是用于唯一标识表中每一行记录的字段或字段组合。它具有唯一性和非空性特点。 作用 &#xff1a;确保数据的完整性&#xff0c;便于数据的查询和管理。 示例 &#xff1a;在学生信息表中&#xff0c;学号可以作为主键&#xff…...

Spring AI Chat Memory 实战指南:Local 与 JDBC 存储集成

一个面向 Java 开发者的 Sring-Ai 示例工程项目&#xff0c;该项目是一个 Spring AI 快速入门的样例工程项目&#xff0c;旨在通过一些小的案例展示 Spring AI 框架的核心功能和使用方法。 项目采用模块化设计&#xff0c;每个模块都专注于特定的功能领域&#xff0c;便于学习和…...

加密通信 + 行为分析:运营商行业安全防御体系重构

在数字经济蓬勃发展的时代&#xff0c;运营商作为信息通信网络的核心枢纽&#xff0c;承载着海量用户数据与关键业务传输&#xff0c;其安全防御体系的可靠性直接关乎国家安全、社会稳定与企业发展。随着网络攻击手段的不断升级&#xff0c;传统安全防护体系逐渐暴露出局限性&a…...