业务应用和大数据平台的数据流向
概述
业务应用与大数据平台之间的交互是实现数据驱动决策和实时业务处理的关键环节。其交互方式多样,协议选择取决于数据流向、实时性要求及技术架构。一句话总结,数据流向可以是从业务应用写入大数据平台,也可以是大数据平台回写至业务应用的数据库。
一、交互场景与协议分类
1. 数据采集(业务应用 → 大数据平台)
目标:将业务数据(日志、交易记录等)实时或批量传输到大数据平台存储或处理。
常用协议与工具:
-
HTTP/HTTPS:
- 场景:业务应用通过 REST API 发送数据。
- 工具:
- Apache Flume:通过 HTTP Source 接收数据,写入 HDFS/Kafka。
- 自定义 API 服务:业务应用直接调用大数据平台的 API 网关。
- 示例:
# 业务应用通过 POST 请求发送 JSON 数据 import requests data = {"user_id": 123, "action": "purchase"} response = requests.post("https://bigdata-api.example.com/events", json=data)
-
消息队列协议(TCP/AMQP/MQTT):
- 场景:高吞吐、低延迟的实时数据传输。
- 工具:
- Apache Kafka:业务应用通过 Kafka Producer 发送数据到 Topic。
- RabbitMQ:使用 AMQP 协议传输数据。
- 示例(Kafka):
// 业务应用发送数据到 Kafka Properties props = new Properties(); props.put("bootstrap.servers", "kafka-broker:9092"); Producer<String, String> producer = new KafkaProducer<>(props); producer.send(new ProducerRecord<>("user_events", "key", "{\"event\": \"login\"}"));
-
文件传输协议(SFTP/SCP/HDFS API):
- 场景:批量上传日志文件或数据库导出文件。
- 工具:
- Apache NiFi:通过 SFTP 拉取文件后写入 HDFS。
- Hadoop HDFS Client:直接调用 HDFS API 上传文件。
- 示例(HDFS CLI):
# 业务服务器上传日志到 HDFS hdfs dfs -put /var/log/app.log /data/raw/logs/
2. 数据处理与查询(双向交互)
目标:大数据平台处理数据后,业务应用查询结果或订阅实时分析结果。
常用协议与工具:
-
SQL 协议(JDBC/ODBC):
- 场景:业务应用通过 SQL 查询数据仓库。
- 工具:
- Apache Hive/Trino:提供 JDBC 驱动,支持标准 SQL 查询。
- ClickHouse:高性能 OLAP 数据库,支持 HTTP 和 JDBC。
- 示例(JDBC 查询 Hive):
// 业务应用通过 JDBC 连接 Hive Class.forName("org.apache.hive.jdbc.HiveDriver"); Connection conn = DriverManager.getConnection("jdbc:hive2://hive-server:10000/default"); Statement stmt = conn.createStatement(); ResultSet rs = stmt.executeQuery("SELECT user_id, COUNT(*) FROM logs GROUP BY user_id");
-
REST API:
- 场景:查询预计算的结果(如报表、用户画像)。
- 工具:
- Elasticsearch:通过 REST API 提供全文检索和聚合结果。
- Superset/Tableau:可视化工具通过 API 拉取数据。
- 示例(查询 Elasticsearch):
# 业务应用查询用户行为统计 curl -XGET "http://es-server:9200/user_actions/_search?q=action:login"
-
流式结果订阅(WebSocket/SSE):
- 场景:实时监控或告警(如风控系统接收实时异常事件)。
- 工具:
- Apache Flink:通过 WebSocket 或 Kafka 推送实时处理结果。
- Redis Pub/Sub:业务应用订阅频道获取实时数据。
- 示例(Flink + WebSocket):
// Flink 将处理结果写入 WebSocket Sink DataStream<String> alerts = ...; // 实时风控结果 alerts.addSink(new WebSocketSink("ws://business-app:8080/alerts"));
3. 反向数据同步(大数据平台 → 业务应用)
目标:将分析结果(推荐模型、用户标签)回写至业务数据库或缓存。
常用协议与工具:
-
数据库协议(JDBC/ODBC):
- 场景:将聚合结果写入 MySQL、PostgreSQL 等业务数据库。
- 工具:
- Apache Spark:使用 JDBC 写入业务库。
- Airflow:通过 Python 脚本同步数据。
- 示例(Spark 写 MySQL):
# Spark 将结果写入业务库 df.write.format("jdbc") \.option("url", "jdbc:mysql://mysql-host:3306/app_db") \.option("dbtable", "user_stats") \.save()
-
缓存协议(Redis/Memcached):
- 场景:实时更新缓存中的用户画像或推荐结果。
- 工具:
- Apache Flink:直接调用 Redis Sink 更新缓存。
- 示例(Flink + Redis):
// Flink 实时更新 Redis 中的用户积分 DataStream<Tuple2<String, Integer>> userScores = ...; userScores.addSink(new RedisSink<>(config, new RedisMapper(...)));
-
文件导出(SFTP/HTTP):
- 场景:生成 CSV/Excel 报表供业务下载。
- 工具:
- Apache Airflow:定时导出数据到 SFTP 服务器。
- MinIO:通过预签名 URL 提供临时下载链接。
- 示例(Airflow SFTP 导出):
# Airflow 任务将 Hive 查询结果导出到 SFTP sftp_operator = SFTPOperator(task_id="export_report",ssh_conn_id="sftp_conn",local_filepath="/tmp/report.csv",remote_filepath="/reports/report_{{ ds }}.csv" )
二、协议选型关键因素
-
实时性要求:
- 实时:Kafka、WebSocket、Redis Pub/Sub。
- 准实时/批量:JDBC、SFTP、HDFS。
-
数据规模:
- 大文件/高吞吐:HDFS、Kafka。
- 小数据/低延迟:HTTP、gRPC。
-
安全性:
- 敏感数据:HTTPS、SFTP、Kerberos 认证的 HDFS。
- 公开数据:HTTP、普通 JDBC。
-
技术栈兼容性:
- Java 生态:优先选 Kafka、HDFS、Hive JDBC。
- Python 生态:多用 REST API、PySpark、Airflow。
三、典型架构示例
电商实时推荐系统
- 数据采集:
- 用户点击流数据通过 Kafka 实时发送至 Flink。
- 数据处理:
- Flink 实时计算用户兴趣标签,写入 Redis。
- 结果反馈:
- 业务应用(推荐服务)通过 Redis 读取标签,生成推荐列表。
- 离线分析:
- 每日通过 Spark 批量计算历史订单数据,结果写入 MySQL 供运营查看。
日志分析平台
- 日志收集:
- 业务服务器通过 Filebeat 将日志发送至 Kafka。
- 存储与处理:
- Kafka 数据落地到 HDFS,由 Spark 进行 ETL。
- 查询展示:
- 处理后的数据导入 Elasticsearch,前端通过 REST API 查询可视化仪表盘。
四、安全与治理
- 认证与授权:
- Kafka:SASL/SCRAM 或 SSL 客户端认证。
- HDFS:Kerberos 集成 LDAP/AD。
- 数据加密:
- 传输层:TLS(如 HTTPS、Kafka SSL)。
- 存储层:HDFS Transparent Encryption。
- 审计与监控:
- 记录 API 调用日志(如 Elasticsearch Audit Log)。
- 使用 Prometheus + Grafana 监控接口性能。
总结
业务应用与大数据平台的交互是一个多层次、多协议协作的过程,需根据具体场景选择合适的技术栈。核心要点包括:
- 实时场景:优先使用消息队列(Kafka)和流处理引擎(Flink)。
- 批量处理:依赖 HDFS、Spark 和调度工具(Airflow)。
- 查询与反馈:通过 SQL(JDBC)、REST API 或缓存(Redis)实现。
- 安全:始终贯穿传输加密、身份认证与权限控制。
通过合理设计交互协议与工具链,可构建高效、稳定且安全的数据流水线。
相关文章:
业务应用和大数据平台的数据流向
概述 业务应用与大数据平台之间的交互是实现数据驱动决策和实时业务处理的关键环节。其交互方式多样,协议选择取决于数据流向、实时性要求及技术架构。一句话总结,数据流向可以是从业务应用写入大数据平台,也可以是大数据平台回写至业务应用…...
C语言中的文件和文件操作
文件操作 一、文件的打开和关闭二、文件的顺序读写fgetc和fputcfgets和fputsfscanf和fprintfsscanf和sprintffread和fwrite 三、文件的随机读写1.fseek2.ftell3.rewind 四、补充1.文件读取结束的判定2.文件缓冲区 一、文件的打开和关闭 流和标准流 流:想象为流淌着…...
插入排序:一种简单而直观的排序算法
大家好!今天我们来聊聊一个简单却非常经典的排序算法——插入排序(Insertion Sort)。在所有的排序算法中,插入排序是最直观的一个。 一、插入排序的基本思想 插入排序的核心思想是:将一个待排序的元素,插…...
2.24力扣每日一题--设计有序流
1656. 设计有序流 - 力扣(LeetCode) (设计一个可以存储n个字符串的数据结构,其中满足存在一个”指针“,用以展示当下是否还存在空间存储,每个字符串有自己ID需要存储) 数据结构: 字…...
本地Oracle数据库复制数据到Apache Hive的Linux服务器集群的分步流程
我们已经有安装Apache Hive的Linux服务器集群,它可以连接到一个Oracle RDS数据库,需要在该Linux服务器上安装配置sqoop,然后将Oracle RDS数据库中所有的表数据复制到Hive。 为了将本地Oracle数据库中的所有表数据复制到Apache Hive Linux服务…...
【R语言】ggplot2绘图常用操作
目录 坐标轴以及标签的相关主题 图例调整 字体类型设置 颜色相关 ggplot2如何添加带箭头的坐标轴? 标题相关主题调整 修改点图中点的大小 如何使得点的大小根据变量取值的大小来改变? 柱状图和条形图 坐标轴以及标签的相关主题 theme( # 增大X…...
正态分布的奇妙性质:为什么奇数阶中心矩(odd central moments)为零?
正态分布的奇妙性质:为什么奇数阶矩为零? 正态分布(Normal Distribution)是统计学中最常见的分布之一,它的钟形曲线几乎无处不在,从身高体重到测量误差,都能看到它的影子。除了均值和方差这两个…...
架构——Nginx功能、职责、原理、配置示例、应用场景
以下是关于 Nginx 的功能、职责、原理、配置示例、应用场景及其高性能原因的详细说明: 一、Nginx 的核心功能 1. 静态资源服务 功能:直接返回静态文件(如 HTML、CSS、JS、图片、视频等)。配置示例:server {listen 80…...
涉密载体管控系统革新:RFID技术引领,信息安全新境界
行业背景 文件载体管控系统DW-S402是用于对各种SM载体进行有效管理的智能柜(智能管理系统),实现对载体的智能化、规范化、标准化管理,广泛应用于保密、机要单位以及企事业单位等有载体保管需求的行业。 随着信息化技术发展&…...
基于 SpringBoot 的 “电影交流平台小程序” 系统的设计与实现
大家好,今天要和大家聊的是一款基于 SpringBoot 的 “电影交流平台小程序” 系统的设计与实现。项目源码以及部署相关事宜请联系我,文末附上联系方式。 项目简介 基于 SpringBoot 的 “电影交流平台小程序” 系统设计与实现的主要使用者分为 管理员 和…...
【Rust中级教程】2.9. API设计原则之显然性(obvious) :文档与类型系统、语义化类型、使用“零大小”类型
喜欢的话别忘了点赞、收藏加关注哦(加关注即可阅读全文),对接下来的教程有兴趣的可以关注专栏。谢谢喵!(・ω・) 2.9.1. 文档与类型系统 用户可能不会完全理解API的所有规则和限制。所以你写的API应该让你…...
git branch
文章目录 1.简介2.格式3.选项4.示例参考文献 1.简介 git branch 用于管理分支,包括查看、创建、删除、重命名和关联。 git branch 是 Git 版本控制系统中用于管理分支的命令。分支是 Git 的核心功能之一,允许开发者在同一个代码库中并行开发不同的功能…...
【网络编程】广播和组播
数据包发送方式只有一个接受方,称为单播。如果同时发给局域网中的所有主机,称为广播。只有用户数据报(使用UDP协议)套接字才能广播: 广播地址以192.168.1.0 (255.255.255.0) 网段为例,最大的主机地址192.168.1.255代表该网段的广…...
运维Crontab面试题及参考答案
Crontab 文件的六个域分别是什么?顺序如何? Crontab 文件用于设置定时执行任务,其六个域及顺序从左到右依次为:分钟(Minute)、小时(Hour)、日期(Day of month)…...
Lecture 1 - AI Systems (Overview)
一、Machine Learning Approach标准机器学习流程 • Train ML algorithm(训练机器学习算法):基于收集的数据训练机器学习模型。 二、Machine Learning for Adaptation(适应性机器学习) 加入了数据更新和自动化的部分…...
Ansible 学习笔记
这里写自定义目录标题 基本架构文件结构安装查看版本 Ansible 配置相关文件主机清单写法 基本架构 Ansible 是基于Python实现的,默认使用22端口, 文件结构 安装 查看用什么语言写的用一下命令 查看版本 Ansible 配置相关文件 主机清单写法...
设计模式-结构型-代理模式
1. 代理模式概述 代理模式(Proxy Pattern) 是一种结构型设计模式,它允许通过代理对象来控制对目标对象的访问。代理模式主要用于以下场景: 控制对象访问:限制某些对象的访问权限,例如权限控制。 延迟实例…...
FCC CE SRRC MIC是什么意思?
1.FCC CE SRRC MIC是什么意思? 2.4000 GHz 至 2.4835 GHz:<33 dBm(FCC),<20 dBm(CE/SRRC/MIC) 5.150 GHz 至 5.250 GHz(CE:5.170 GHz 至 5.250 GHz)&a…...
springboot005学生心理咨询评估系统(源码+数据库+文档)
源码地址:学生心理咨询评估系统 文章目录 1.项目简介2.部分数据库结构与测试用例3.系统功能结构4.包含的文件列表(含论文)后台运行截图 1.项目简介 使用旧方法对学生心理咨询评估信息进行系统化管理已经不再让人们信赖了,把现…...
Apache Doris:一款高性能的实时数据仓库
Apache Doris 是一款基于 MPP 架构的高性能、实时分析型数据库。它以高效、简单和统一的特性著称,能够在亚秒级的时间内返回海量数据的查询结果。Doris 既能支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。 Apache Doris 最初是百度广告报表业务…...
使用Vue-Flow创建一个流程图可视化节点坐标查询器
在开发中遇到这样一个需求,需要后端返回数据前端网页生成流程图,由于流程图使用了Vue-Flow,所以需要坐标来辅助后端生成数据。 首先引入方法并定义添加节点数据 const { updateEdge, addEdges, addNodes} useVueFlow() const add_nodes …...
面试基础--Java 集合框架详解
Java 集合框架详解:从 ArrayList 到 HashMap 的底层原理 引言 在 Java 开发中,集合框架(Collection Framework)是处理数据存储和操作的核心工具。无论是日常开发还是大厂面试,对集合框架的理解都是考察的重点之一。本…...
轻量级日志管理平台Grafana Loki
文章目录 轻量级日志管理平台Grafana Loki背景什么是Loki为什么使用 Grafana Loki?架构Log Storage Grafana部署使用基于 Docker Compose 安装 LokiMinIO K8s集群部署Loki采集Helm 部署方式和案例 参考 轻量级日志管理平台Grafana Loki 背景 在微服务以及云原生时…...
回文串
长度为偶数的串,重排连续字串变成回文串。 Problem - D - Codeforces 代码: #include <bits/stdc.h> #define fi first #define se second using namespace std; typedef long long LL; typedef pair<int,int> PII; typedef pair<LL,L…...
《跟李沐学 AI》AlexNet论文逐段精读学习心得 | PyTorch 深度学习实战
前一篇文章,使用 AlexNet 实现图片分类 | PyTorch 深度学习实战 本系列文章 GitHub Repo: https://github.com/hailiang-wang/pytorch-get-started 本篇文章内容来自于学习 9年后重读深度学习奠基作之一:AlexNet【下】【论文精读】】的心得。 《跟李沐…...
【电机控制器】FU6832S——持续更新
【电机控制器】FU6832S——持续更新 文章目录 [TOC](文章目录) 前言一、ADC二、UART三、PWM四、参考资料总结 前言 使用工具: 提示:以下是本篇文章正文内容,下面案例可供参考 一、ADC 二、UART 三、PWM 四、参考资料 总结 本文仅仅简…...
Flutter屏幕适配终极方案:flutter_screenutil深度解析
在跨平台应用开发中,屏幕适配始终是开发者面临的核心挑战。Flutter虽然自带响应式布局体系,但面对复杂的设计稿标注时,手动计算比例效率低下。今天我们将深度解析目前Flutter社区最受欢迎的屏幕适配方案——flutter_screenutil,手…...
计算机视觉算法实战——产品分拣(主页有源码)
✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ 1. 领域简介✨✨ 产品分拣是工业自动化和物流领域的核心技术,旨在通过机器视觉系统对传送带上的物品进行快速识别、定位和分类&a…...
可视化报表
根据你的需求,以下是一些可以实现报表可视化的开源项目,这些项目提供了类似阿里巴巴 FBI 报表的功能,支持数据可视化、报表设计、仪表盘和大屏展示等功能: 1. DataEase DataEase 是一个开源的 BI 工具,帮助用户快速分…...
基于模块联邦的微前端架构:重构大型前端应用的模块化边界
引言:企业级前端的模块化困境 字节跳动广告系统采用Webpack 5模块联邦后,主应用构建时间从14分钟降至38秒,微应用独立发布频率提升至每天50次。在动态加载机制下,首屏资源加载体积减少79%,跨团队组件复用率达到92%。其…...
