当前位置: 首页 > article >正文

实战电商用户行为分析:基于Dinky+Flink SQL构建实时数仓(Kafka→HBase→Doris全链路)

电商用户行为实时分析实战基于Dinky与Flink SQL的全链路实现电商平台每天产生海量用户行为数据如何实时处理这些数据并快速生成业务洞察成为提升用户体验和商业价值的关键。本文将手把手带你构建一个完整的实时分析系统从Kafka原始日志到HBase维表关联最终实现Doris数仓与Kafka消息队列的双路输出。1. 实时计算技术栈选型与架构设计在电商场景中用户点击、浏览、加购等行为需要毫秒级响应。我们选择以下核心组件构建实时分析流水线Flink SQL作为流处理引擎核心提供声明式的数据处理能力Dinky一站式实时计算平台简化Flink作业开发与管理Kafka高吞吐消息队列承接用户行为日志HBase低延迟KV存储存放用户画像等维表数据DorisMPP分析型数据库支持实时OLAP查询典型数据流向如下图所示文字描述替代图示用户设备上报行为日志到KafkaFlink实时消费日志并与HBase维表关联打宽后的数据同时写入Kafka消息总线相同数据同步到Doris供即时分析这种架构的优势在于端到端延迟可控制在秒级资源利用率高避免重复计算数据一致性通过Checkpoint机制保证扩展性强各组件可独立扩容2. 环境准备与Dinky平台部署2.1 基础组件安装确保以下服务已就绪组件版本要求用途说明JDK1.8运行环境基础MySQL5.7Dinky元数据存储Hadoop3.xHDFS存储CheckpointHBase2.2维表存储Kafka2.6消息队列Doris1.1实时数仓2.2 Dinky部署步骤下载并解压安装包wget https://www.dinky.org.cn/download/dlink-release-1.2.0.tar.gz tar -zxvf dlink-release-1.2.0.tar.gz初始化MySQL数据库CREATE DATABASE dinky DEFAULT CHARSET utf8; GRANT ALL PRIVILEGES ON dinky.* TO dinky% IDENTIFIED BY dinky; FLUSH PRIVILEGES;修改配置文件config/application.ymlspring: datasource: url: jdbc:mysql://localhost:3306/dinky username: dinky password: dinky启动服务./auto.sh start访问http://localhost:8888使用admin/admin登录即可进入控制台。3. 实时数据处理流水线构建3.1 维表数据准备电商场景通常需要以下维表用户信息表HBaseCREATE dim_user_info, f1 put dim_user_info, 1, f1:id, 1 put dim_user_info, 1, f1:phone, 18612345678地理信息表HBaseCREATE dim_geo_area, f put dim_geo_area, w7w3j, f:p, 浙江省 put dim_geo_area, w7w3j, f:c, 杭州市3.2 Flink SQL作业开发在Dinky中创建新作业实现以下处理逻辑Kafka源表定义CREATE TABLE user_behavior ( user_id BIGINT, item_id BIGINT, action_time TIMESTAMP(3), longitude DOUBLE, latitude DOUBLE, WATERMARK FOR action_time AS action_time - INTERVAL 5 SECOND ) WITH ( connector kafka, topic user_events, properties.bootstrap.servers kafka:9092, format json );HBase维表关联CREATE TABLE dim_user_info ( rowkey STRING, f1 ROWphone STRING, gender INT, PRIMARY KEY (rowkey) NOT ENFORCED ) WITH ( connector hbase-2.2, table-name dim_user_info, zookeeper.quorum hbase:2181 );实时打宽处理CREATE VIEW enriched_events AS SELECT b.user_id, d.f1.phone, b.item_id, b.action_time FROM user_behavior b LEFT JOIN dim_user_info FOR SYSTEM_TIME AS OF b.proc_time AS d ON CAST(b.user_id AS STRING) d.rowkey;3.3 双路输出配置Kafka输出通道CREATE TABLE kafka_sink ( user_id BIGINT, phone STRING, item_id BIGINT, action_time TIMESTAMP(3) ) WITH ( connector kafka, topic enriched_events, properties.bootstrap.servers kafka:9092 ); INSERT INTO kafka_sink SELECT * FROM enriched_events;Doris输出通道CREATE TABLE doris_sink ( user_id BIGINT, phone STRING, item_id BIGINT, action_time TIMESTAMP(3) ) WITH ( connector doris, fenodes doris:8030, table.identifier db.events ); INSERT INTO doris_sink SELECT * FROM enriched_events;4. 高级功能实现4.1 自定义函数开发处理地理位置信息时常需要GeoHash编码Java UDF实现public class GeoHashUDF extends ScalarFunction { public String eval(Double lat, Double lng) { return GeoHash.geoHashStringWithCharacterPrecision(lat, lng, 6); } }注册使用CREATE FUNCTION geo_hash AS com.example.GeoHashUDF; SELECT geo_hash(latitude, longitude) FROM user_behavior;4.2 状态管理与容错配置Checkpoint保证Exactly-Once语义-- 作业级配置 SET execution.checkpointing.interval 10s; SET state.backend filesystem; SET state.checkpoints.dir hdfs://hadoop:8020/checkpoints;4.3 动态参数传递通过Dinky变量实现灵活配置-- 定义变量 SET kafka.brokers ${kafka_brokers}; -- 引用变量 CREATE TABLE source_table (...) WITH ( properties.bootstrap.servers ${kafka.brokers} );5. 生产环境优化建议经过多个项目的实践验证以下配置能显著提升稳定性资源调优参数# flink-conf.yaml taskmanager.numberOfTaskSlots: 4 parallelism.default: 8 taskmanager.memory.process.size: 4096m常见问题处理注意HBase连接超时时可调整以下参数hbase.client.operation.timeout: 30000hbase.client.retries.number: 3性能监控指标Kafka消费延迟Checkpoint完成时间算子背压状态Doris导入QPS这套方案在某电商平台落地后用户行为分析时效性从小时级提升到秒级促销活动期间的实时大屏数据更新延迟不超过5秒。最关键的是所有数据处理逻辑通过SQL实现极大降低了开发和维护成本。

相关文章:

实战电商用户行为分析:基于Dinky+Flink SQL构建实时数仓(Kafka→HBase→Doris全链路)

电商用户行为实时分析实战:基于Dinky与Flink SQL的全链路实现 电商平台每天产生海量用户行为数据,如何实时处理这些数据并快速生成业务洞察,成为提升用户体验和商业价值的关键。本文将手把手带你构建一个完整的实时分析系统,从Kaf…...

如何通过开源看板工具Kanboard实现团队高效协作

如何通过开源看板工具Kanboard实现团队高效协作 【免费下载链接】kanboard Kanban project management software 项目地址: https://gitcode.com/gh_mirrors/ka/kanboard 在当今快节奏的工作环境中,团队协作效率是项目成功的关键因素。Kanboard作为一款免费开…...

从报错到解决:Pycharm中Tensorflow2.x与1.x代码兼容性问题全解析

从报错到解决:Pycharm中Tensorflow2.x与1.x代码兼容性问题全解析 在深度学习领域,TensorFlow作为最受欢迎的框架之一,其版本迭代带来的变化常常让开发者感到头疼。特别是从TensorFlow 1.x升级到2.x版本后,许多核心API发生了重大改…...

ArcGIS实战:5分钟搞定正高转椭球体高度(附详细步骤)

ArcGIS高程转换实战:从正高到椭球体高度的精准跨越 在测绘与地理信息系统中,高程数据的精确转换是许多专业应用的基础环节。无论是卫星影像处理、无人机航测还是工程测量,不同高程基准之间的转换需求无处不在。本文将带您深入理解正高与椭球…...

Dify工作流实战:用Agent节点串联多个MCP服务,让智能体同时操作数据库和外部工具

Dify工作流深度实战:用Agent节点构建多服务协同的智能体系统 在AI应用开发领域,Dify平台的工作流功能正在重新定义智能体的能力边界。不同于简单的单点工具调用,工作流允许开发者将多个MCP服务像乐高积木一样组合起来,创造出能够…...

如何在1小时内掌握TinySAM:从零开始构建高效图像分割模型

如何在1小时内掌握TinySAM:从零开始构建高效图像分割模型 【免费下载链接】TinySAM 项目地址: https://gitcode.com/gh_mirrors/ti/TinySAM 想象一下,你需要在移动设备上实时分割图像中的任意物体,但传统模型动辄几百兆,运…...

Janus-Pro-7B模型部署精讲:VMware虚拟机中的隔离环境搭建

Janus-Pro-7B模型部署精讲:VMware虚拟机中的隔离环境搭建 想在自己的电脑上测试Janus-Pro-7B这类大模型,但又担心搞乱本地环境,或者影响其他工作?用虚拟机搭建一个隔离的测试环境,是个非常稳妥的选择。它就像在你的电…...

搞懂 SAP Fiori 中的 RFC 连接:把后端系统、系统别名与 Launchpad 运行链路一次讲透

在很多 SAP Fiori 项目里,团队把注意力都放在 SAPUI5、OData、Fiori Elements、语义对象导航这些能力上,却常常在集成经典应用时踩坑。真正到了项目上线阶段,用户不会关心应用是 SAPUI5、Web Dynpro ABAP,还是 SAP GUI for HTML 实现的,他们只会问一句:为什么在 SAP Fior…...

把 SAP Fiori 远程系统配置讲透:SM59、System Alias、sap-system 与多后端路由实践

在 SAP Fiori launchpad 的真实项目里,用户登录的系统,和应用实际运行、实际取数的系统,往往并不是同一台机器。很多团队在做 PoC 的时候,一切看起来都很顺;一旦进入企业级部署,前端服务器、Gateway、ECC、S/4HANA、SRM 甚至多个区域性后端同时出现,导航失败、取数跑偏、…...

macOS极简部署:OpenClaw+nanobot镜像10分钟快速入门

macOS极简部署:OpenClawnanobot镜像10分钟快速入门 1. 为什么选择这个组合? 上周我在测试个人自动化助手方案时,发现传统部署流程需要分别配置模型服务、OpenClaw框架和通信渠道,光是环境依赖就耗掉半天时间。直到遇到星图平台的…...

避坑指南:在CodeSys里用three.js加载3D模型,我踩过的那些安全策略和路径坑

CodeSys集成three.js的实战避坑手册:从安全策略到模型加载的完整解决方案 在工业自动化领域,可视化界面正经历着从传统2D向3D交互的转型。当我在最近一个机械臂控制项目中尝试将three.js集成到CodeSys WebVisu环境时,原以为简单的任务却遭遇…...

自定义语音合成插件开发指南:从技术原理到创新应用

自定义语音合成插件开发指南:从技术原理到创新应用 【免费下载链接】tts-server-android 这是一个Android系统TTS应用,内置微软演示接口,可自定义HTTP请求,可导入其他本地TTS引擎,以及根据中文双引号的简单旁白/对话识…...

三步解锁Bruno API测试工具的隐藏潜力

三步解锁Bruno API测试工具的隐藏潜力 【免费下载链接】bruno 开源的API探索与测试集成开发环境(作为Postman/Insomnia的轻量级替代方案) 项目地址: https://gitcode.com/GitHub_Trending/br/bruno Bruno作为Postman的开源替代品,以其…...

告别GPU依赖?LocalAI让普通设备玩转本地化AI部署的完整方案

告别GPU依赖?LocalAI让普通设备玩转本地化AI部署的完整方案 【免费下载链接】LocalAI mudler/LocalAI: LocalAI 是一个开源项目,旨在本地运行机器学习模型,减少对云服务的依赖,提高隐私保护。 项目地址: https://gitcode.com/Gi…...

leetcode 1534. 统计好三元组 Count Good Triplets

Problem: 1534. 统计好三元组 Count Good Triplets 用变量存储数组中的值&#xff0c;防止多次访问IO Code class Solution { public:int countGoodTriplets(vector<int>& arr, int a, int b, int c) {int n arr.size(), a1, b1, c1, ans 0;for(int i 0; i <…...

嵌入式NTP客户端高精度时间同步实现

1. NTP客户端库深度解析&#xff1a;嵌入式系统中的高精度时间同步实现1.1 项目背景与工程痛点NTP&#xff08;Network Time Protocol&#xff09;是嵌入式设备实现网络时间同步的核心协议。在工业控制、数据采集、日志记录等场景中&#xff0c;毫秒级甚至亚毫秒级的时间精度直…...

C++ 异常安全的最佳策略

C 异常安全的最佳策略 在C开发中&#xff0c;异常安全是确保程序在抛出异常时仍能保持正确性和资源管理的关键。异常处理不当可能导致内存泄漏、数据不一致或资源未释放等问题。本文将探讨C异常安全的最佳策略&#xff0c;帮助开发者编写更健壮的代码。 资源管理&#xff1a;…...

Pixel Mind Decoder 跨平台调用演示:从微信小程序发送分析请求

Pixel Mind Decoder 跨平台调用演示&#xff1a;从微信小程序发送分析请求 1. 场景引入&#xff1a;为什么需要情绪分析功能 最近在开发一个社交类微信小程序时&#xff0c;遇到了一个有趣的需求&#xff1a;用户希望能在聊天过程中实时了解对方的情绪状态。想象一下&#xf…...

轻量模型不轻量:Nano-Banana Turbo LoRA在A10显卡上30秒出图实测

轻量模型不轻量&#xff1a;Nano-Banana Turbo LoRA在A10显卡上30秒出图实测 1. 项目简介 Nano-Banana是一款专门为产品拆解和平铺展示风格设计的轻量化文生图系统。这个项目的核心在于深度融合了专属的Turbo LoRA微调权重&#xff0c;专门针对Knolling平铺、爆炸图、产品部件…...

手把手教你用GLM-4V-9B:上传图片就能对话的AI模型部署实战

手把手教你用GLM-4V-9B&#xff1a;上传图片就能对话的AI模型部署实战 1. 环境准备与快速部署 1.1 系统要求 操作系统&#xff1a;Linux (推荐Ubuntu 20.04)GPU&#xff1a;NVIDIA显卡&#xff0c;显存≥24GB (如RTX 4090)CUDA&#xff1a;11.7Python&#xff1a;3.8 1.2 一…...

告别Visio!用Text Flow三分钟搞定纯文本流程图(附实战案例)

用纯文本革命&#xff1a;Text Flow如何三分钟重塑技术文档流程图 在代码注释里直接插入流程图&#xff0c;在Markdown文件中无缝嵌入架构图&#xff0c;无需切换工具就能完成专业图表——这曾是许多开发者的奢望。传统流程图工具如Visio、Draw.io虽然功能强大&#xff0c;但存…...

3大突破:开源工具VideoCaptioner如何让零门槛实现AI实时字幕效率提升300%

3大突破&#xff1a;开源工具VideoCaptioner如何让零门槛实现AI实时字幕效率提升300% 【免费下载链接】VideoCaptioner &#x1f3ac; 卡卡字幕助手 | VideoCaptioner - 基于 LLM 的智能字幕助手&#xff0c;无需GPU一键高质量字幕视频合成&#xff01;视频字幕生成、断句、校正…...

永磁同步电机全速域无位置传感器控制探索之旅

永磁同步电机全速域无位置传感器控制&#xff08;高频注入改进滑膜控制方法&#xff0c;PMSM矢量控制仿真&#xff09; 永磁同步电机-PMSM的仿真-原理-算法-复现 1&#xff09;关于PMSM控制算法的文章复现、matlab编程仿真等均可&#xff0c;Matlab/Simulink仿真建模 分析建模 …...

Laravel 5.x核心特性与升级指南

Laravel 5.x 系列是 PHP 框架的重要升级版本&#xff0c;引入了多项创新特性。以下是核心特性总结&#xff1a;一、核心架构改进目录结构优化采用 app/Http 统一存放控制器、中间件和请求类&#xff0c;逻辑分层更清晰&#xff1a;app/├── Http/│ ├── Controllers/│ …...

SmallThinker-3B-Preview惊艳效果:将模糊产品需求转化为PRD+技术方案+风险提示

SmallThinker-3B-Preview惊艳效果&#xff1a;将模糊产品需求转化为PRD技术方案风险提示 你有没有遇到过这样的情况&#xff1f;产品经理或者老板给你一个模糊的想法&#xff0c;比如“我们做个智能助手吧”&#xff0c;或者“开发一个能自动生成周报的工具”。你听完后一头雾…...

Kronos金融AI预测模型实战指南:从零构建企业级量化交易系统

Kronos金融AI预测模型实战指南&#xff1a;从零构建企业级量化交易系统 【免费下载链接】Kronos Kronos: A Foundation Model for the Language of Financial Markets 项目地址: https://gitcode.com/GitHub_Trending/kronos14/Kronos 在金融市场这个充满不确定性的战场…...

智能媒体捕获:猫抓cat-catch的资源拦截与解析技术方案

智能媒体捕获&#xff1a;猫抓cat-catch的资源拦截与解析技术方案 【免费下载链接】cat-catch 猫抓 chrome资源嗅探扩展 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓cat-catch作为一款开源浏览器扩展&#xff0c;通过深度网络请求分析与流媒体协议…...

WarcraftHelper:魔兽争霸3现代优化解决方案 - 突破兼容性壁垒,重焕经典游戏活力

WarcraftHelper&#xff1a;魔兽争霸3现代优化解决方案 - 突破兼容性壁垒&#xff0c;重焕经典游戏活力 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper …...

智能号码定位引擎:企业级地理信息快速响应解决方案

智能号码定位引擎&#xff1a;企业级地理信息快速响应解决方案 【免费下载链接】location-to-phone-number This a project to search a location of a specified phone number, and locate the map to the phone number location. 项目地址: https://gitcode.com/gh_mirrors…...

Linux服务器安全升级:5分钟搞定Google Authenticator+SSH双因素认证(附应急码管理技巧)

Linux服务器极简安全升级&#xff1a;Google Authenticator与SSH双因素认证实战指南 当你还在为服务器密码泄露风险辗转反侧时&#xff0c;全球已有超过80%的企业级系统采用双因素认证作为基础防护。但传统方案往往让运维新手望而却步——直到Google Authenticator遇上SSH&…...