当前位置：首页 > news >正文

【毕设选题】flink大数据淘宝用户行为数据实时分析与可视化

news 2026/2/9 2:21:41

文章目录

0 前言
1、环境准备
- 1.1 flink 下载相关 jar 包
- 1.2 生成 kafka 数据
- 1.3 开发前的三个小 tip
2、flink-sql 客户端编写运行 sql
- 2.1 创建 kafka 数据源表
- 2.2 指标统计：每小时成交量
- - 2.2.1 创建 es 结果表，存放每小时的成交量
  - 2.2.2 执行 sql ，统计每小时的成交量
- 2.3 指标统计：每10分钟累计独立用户数
- - 2.3.1 创建 es 结果表，存放每10分钟累计独立用户数
  - 2.3.2 创建视图
  - 2.3.3 执行 sql ，统计每10分钟的累计独立用户数
- 2.4 指标统计：商品类目销量排行
- - 2.4.1 创建商品类目维表
  - 2.4.1 创建 es 结果表，存放商品类目排行表
  - 2.4.2 创建视图
  - 2.4.3 执行 sql , 统计商品类目销量排行
3、最终效果与体验心得
- 3.1 最终效果
- 3.2 体验心得
- - 3.2.1 执行
  - 3.2.2 存储
4 最后

0 前言

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。

为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是

🚩 flink大数据淘宝用户行为数据实时分析与可视化

🥇学长这里给一个题目综合评分(每项满分5分)

难度系数：3分
工作量：3分
创新点：4分

1、环境准备

1.1 flink 下载相关 jar 包

flink-sql 连接外部系统时，需要依赖特定的 jar 包，所以需要事先把这些 jar 包准备好。说明与下载入口

本项目使用到了以下的 jar 包，下载后直接放在了 flink/lib 里面。

需要注意的是 flink-sql 执行时，是转化为 flink-job 提交到集群执行的，所以 flink 集群的每一台机器都要添加以下的 jar 包。

外部	版本	jar
kafka	4.1	flink-sql-connector-kafka_2.11-1.10.2.jar flink-json-1.10.2-sql-jar.jar
elasticsearch	7.6	flink-sql-connector-elasticsearch7_2.11-1.10.2.jar
mysql	5.7	flink-jdbc_2.11-1.10.2.jar mysql-connector-java-8.0.11.jar

1.2 生成 kafka 数据

用户行为数据来源：阿里云天池公开数据集

网盘：https://pan.baidu.com/s/1wDVQpRV7giIlLJJgRZAInQ 提取码：gja5

商品类目纬度数据来源: category.sql

数据生成器：datagen.py

有了数据文件之后，使用 python 读取文件数据，然后并发写入到 kafka。

修改生成器中的 kafka 地址配置，然后运行以下命令，开始不断往 kafka 写数据

# 5000 并发
nohup python3 datagen.py 5000 &

1.3 开发前的三个小 tip

生成器往 kafka 写数据，会自动创建主题，无需事先创建
flink 往 elasticsearch 写数据，会自动创建索引，无需事先创建
Kibana 使用索引模式从 Elasticsearch 索引中检索数据，以实现诸如可视化等功能。

使用的逻辑为：创建索引模式》Discover (发现) 查看索引数据》visualize（可视化）创建可视化图表》dashboards（仪表板）创建大屏，即汇总多个可视化的图表

2、flink-sql 客户端编写运行 sql

# 进入 flink-sql 客户端, 需要指定刚刚下载的 jar 包目录
./bin/sql-client.sh embedded -l lib

2.1 创建 kafka 数据源表

-- 创建 kafka 表, 读取 kafka 数据
CREATE TABLE user_behavior (user_id BIGINT,item_id BIGINT,category_id BIGINT,behavior STRING,ts TIMESTAMP(3),proctime as PROCTIME(),WATERMARK FOR ts as ts - INTERVAL '5' SECOND  
) WITH ('connector.type' = 'kafka', 'connector.version' = 'universal',  'connector.topic' = 'user_behavior',  'connector.startup-mode' = 'earliest-offset', 'connector.properties.zookeeper.connect' = '172.16.122.24:2181', 'connector.properties.bootstrap.servers' = '172.16.122.17:9092', 'format.type' = 'json'  
);
SELECT * FROM user_behavior;

2.2 指标统计：每小时成交量

2.2.1 创建 es 结果表，存放每小时的成交量

CREATE TABLE buy_cnt_per_hour (hour_of_day BIGINT,buy_cnt BIGINT
) WITH ('connector.type' = 'elasticsearch', 'connector.version' = '7',  'connector.hosts' = 'http://172.16.122.13:9200',  'connector.index' = 'buy_cnt_per_hour','connector.document-type' = 'user_behavior','connector.bulk-flush.max-actions' = '1','update-mode' = 'append','format.type' = 'json'
);

2.2.2 执行 sql ，统计每小时的成交量

INSERT INTO buy_cnt_per_hour
SELECT HOUR(TUMBLE_START(ts, INTERVAL '1' HOUR)), COUNT(*)
FROM user_behavior
WHERE behavior = 'buy'
GROUP BY TUMBLE(ts, INTERVAL '1' HOUR);

2.3 指标统计：每10分钟累计独立用户数

2.3.1 创建 es 结果表，存放每10分钟累计独立用户数

CREATE TABLE cumulative_uv (time_str STRING,uv BIGINT
) WITH ('connector.type' = 'elasticsearch', 'connector.version' = '7',  'connector.hosts' = 'http://172.16.122.13:9200',  'connector.index' = 'cumulative_uv','connector.document-type' = 'user_behavior',    'update-mode' = 'upsert','format.type' = 'json'
);

2.3.2 创建视图

CREATE VIEW uv_per_10min AS
SELECTMAX(SUBSTR(DATE_FORMAT(ts, 'HH:mm'),1,4) || '0') OVER w AS time_str,COUNT(DISTINCT user_id) OVER w AS uv
FROM user_behavior
WINDOW w AS (ORDER BY proctime ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW);

2.3.3 执行 sql ，统计每10分钟的累计独立用户数

INSERT INTO cumulative_uv
SELECT time_str, MAX(uv)
FROM uv_per_10min
GROUP BY time_str;

2.4 指标统计：商品类目销量排行

2.4.1 创建商品类目维表

先在 mysql 创建一张商品类目的维表，然后配置 flink 读取 mysql。

CREATE TABLE category_dim (sub_category_id BIGINT,parent_category_name STRING
) WITH ('connector.type' = 'jdbc','connector.url' = 'jdbc:mysql://172.16.122.25:3306/flink','connector.table' = 'category','connector.driver' = 'com.mysql.jdbc.Driver','connector.username' = 'root','connector.password' = 'root','connector.lookup.cache.max-rows' = '5000','connector.lookup.cache.ttl' = '10min'
);

2.4.1 创建 es 结果表，存放商品类目排行表

CREATE TABLE top_category  (category_name  STRING,buy_cnt  BIGINT
) WITH ('connector.type' = 'elasticsearch', 'connector.version' = '7',  'connector.hosts' = 'http://172.16.122.13:9200',  'connector.index' = 'top_category','connector.document-type' = 'user_behavior','update-mode' = 'upsert','format.type' = 'json'
);

2.4.2 创建视图

CREATE VIEW rich_user_behavior AS
SELECT U.user_id, U.item_id, U.behavior, C.parent_category_name as category_name
FROM user_behavior AS U LEFT JOIN category_dim FOR SYSTEM_TIME AS OF U.proctime AS C
ON U.category_id = C.sub_category_id;

2.4.3 执行 sql , 统计商品类目销量排行

INSERT INTO top_category
SELECT category_name, COUNT(*) buy_cnt
FROM rich_user_behavior
WHERE behavior = 'buy'
GROUP BY category_name;

3、最终效果与体验心得

3.1 最终效果

整个开发过程，只用到了 flink-sql ，无需写 java 或者其它代码，就完成了这样一个实时报表。

3.2 体验心得

3.2.1 执行

flink-sql 的 ddl 语句不会触发 flink-job , 同时创建的表、视图仅在会话级别有效。
对于连接表的 insert、select 等操作，则会触发相应的流 job，并自动提交到 flink 集群，无限地运行下去，直到主动取消或者 job 报错。
flink-sql 客户端关闭后，对于已经提交到 flink 集群的 job 不会有任何影响。

本次开发，执行了 3 个 insert , 因此打开 flink 集群面板，可以看到有 3 个无限的流 job 。即使 kafka 数据全部写入完毕，关闭 flink-sql 客户端，这个 3 个 job 都不会停止。

3.2.2 存储

flnik 本身不存储业务数据，只作为流批一体的引擎存在，所以主要的用法为读取外部系统的数据，处理后，再写到外部系统。
flink 本身的元数据，包括表、函数等，默认情况下只是存放在内存里面，所以仅会话级别有效。但是，似乎可以存储到 Hive Metastore 中，关于这一点就留到以后再实践。

4 最后

【毕设选题】flink大数据淘宝用户行为数据实时分析与可视化

文章目录 0 前言1、环境准备1.1 flink 下载相关 jar 包1.2 生成 kafka 数据1.3 开发前的三个小 tip 2、flink-sql 客户端编写运行 sql2.1 创建 kafka 数据源表2.2 指标统计：每小时成交量2.2.1 创建 es 结果表， 存放每小时的成交量2.2.2 执行 sql &#x…...

编程日记 2023/9/16 6:23:21

机器学习练习-决策树

机器学习练习-决策树代码更新地址：https://github.com/fengdu78/WZU-machine-learning-course 代码修改并注释：黄海广，haiguang2000wzu.edu.cn 1．分类决策树模型是表示基于特征对实例进行分类的树形结构。决策树可以转换成一个if…...

编程日记 2023/9/16 6:22:20

分类预测 | Matlab实现基于LFDA-SVM局部费歇尔判别数据降维结合支持向量机的多输入分类预测

分类预测 | Matlab实现基于LFDA-SVM局部费歇尔判别数据降维结合支持向量机的多输入分类预测目录分类预测 | Matlab实现基于LFDA-SVM局部费歇尔判别数据降维结合支持向量机的多输入分类预测效果一览基本介绍程序设计参考资料效果一览基本介绍基于局部费歇尔判别数据降维的L…...

编程日记 2023/9/16 6:21:19

Say0l的安全开发-代理扫描工具-Sayo-proxyscan【红队工具】

写在前面终于终于，安全开发也练习一年半了，有时间完善一下项目，写写中间踩过的坑。安全开发的系列全部都会上传至github，欢迎使用和star。工具链接地址 https://github.com/SAY0l/Sayo-proxyscan 工具简介 SOCKS4/SOCKS4…...

编程日记 2023/9/16 6:20:18

使用FFmpeg+ubuntu系统转化flac无损音频为mp3

功能需求如上题,我们来具体的操作一下: 1.先在ubuntu上面安装FFmpeg:sudo apt install ffmpeg 2.进入有flac音频文件的目录使用下述命令: ffmpeg -i test.FLAC -c:a libmp3lame -q:a 2 output.mp3 3.如果没有什么意外的话,你就能看到你的文件夹里面已经有转化好的mp3文件了批…...

编程日记 2023/9/16 6:18:13

I/O多路复用三种实现

一.select 实现 （1）select流程基本流程是： 1. 先构造一张有关文件描述符的表; fd_set readfds 2. 清空表 FD_ZERO() 3. 将你关心的文件描述符加入到这…...

编程日记 2023/9/16 6:17:12

DataInputStream数据读取 Vs ByteBuffer数据读取的巨大性能差距

背景： 今天在查找一个序列化和反序列化相关的问题时，意外发现使用DataInputStream读取和ByteBuffer读取之间性能相差巨大，本文就来记录下这两者在读取整数类型时的性能差异，以便在平时使用的过程中引起注意 DataInputStream数据…...

编程日记 2023/9/16 6:16:12

org.apache.flink.table.api.TableException: Sink does not exists

FlinkSQL_1.12_用DDL实现Kafka到MySQL的数据传输_实现按照条件进行过滤写入MySQL_flink从kafka拉取数据并过滤数据写入mysql_旧城里的阳光的博客-CSDN博客参考这篇文章，写了kafka到mysql的代码例子，因为自己改了表结构，运行下面代码&#x…...

编程日记 2023/9/16 6:15:11

【多线程】CAS 详解

CAS 详解一. 什么是 CAS二. CAS 的应用1. 实现原子类2. 实现自旋锁三. CAS 的 ABA 问题四. 相关面试题一. 什么是 CAS CAS: 全称Compare and swap，字面意思:”比较并交换“一个 CAS 涉及到以下操作： 我们假设内存中的原数据 V，旧的预期值…...

编程日记 2023/9/16 6:13:09

卷积神经网络实现咖啡豆分类 - P7

🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者：K同学啊 | 接辅导、项目定制🚀 文章来源：K同学的学习圈子目录环境步骤环境设置包引用全局设备对象数据准备查看图像的信息制作数据集模型设…...

编程日记 2023/9/16 6:12:08

C++之默认与自定义构造函数问题(二百一十七)

简介： CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！ 优质专栏：Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言： 人生…...

编程日记 2023/9/16 6:10:06

Docker从认识到实践再到底层原理（五）｜Docker镜像

前言那么这里博主先安利一些干货满满的专栏了！ 首先是博主的高质量博客的汇总，这个专栏里面的博客，都是博主最最用心写的一部分，干货满满，希望对大家有帮助。高质量博客汇总然后就是博主最近最花时间的一个专栏…...

编程日记 2023/9/16 6:08:04

【Flowable】任务监听器（五）

前言之前有需要使用到Flowable，鉴于网上的资料不是很多也不是很全也是捣鼓了半天，因此争取能在这里简单分享一下经验，帮助有需要的朋友，也非常欢迎大家指出不足的地方。一、监听器在Flowable中，我们可以使用监听…...

编程日记 2023/9/16 6:05:02

spring-kafka中ContainerProperties.AckMode详解

近期，我们线上遇到了一个性能问题，几乎快引起线上故障，后来仅仅是修改了一行代码，性能就提升了几十倍。一行代码几十倍，数据听起来很夸张，不过这是真实的数据，线上错误的配置的确有可能导致性能…...

编程日记 2023/9/16 6:04:00

【rpc】Dubbo和Zookeeper结合使用，它们的作用与联系（通俗易懂，一文理解）

目录 Dubbo是什么？ 把系统模块变成分布式，有哪些好处，本来能在一台机子上运行，为什么还要远程调用 Zookeeper是什么？ 它们进行配合使用时，之间的关系服务注册服务发现动态地址管理 Dubbo是…...

编程日记 2023/9/16 6:03:00

ChatGPT的未来

随着人工智能的快速发展，ChatGPT作为一种自然语言生成模型，在各个领域都展现出了巨大的潜力。它不仅可以用于日常对话、创意助手和知识查询，还可以应用于教育、医疗、商业等各个领域，为人们带来更多便利和创新。在教育领域&#…...

编程日记 2023/9/16 6:01:58

Pytorch模型转ONNX部署

开始以为会很困难，但是其实非常方便，下边分两步走：1. pytorch模型转onnx；2. 使用onnx进行inference 0. 准备工作 0.1 安装onnx 安装onnx和onnxruntime，onnx貌似是个环境。。倒是没有直接使用，onnxruntim…...

编程日记 2023/9/16 6:00:57

k8s优雅停服

在应用程序的整个生命周期中，正在运行的 pod 会由于多种原因而终止。在某些情况下，Kubernetes 会因用户输入（例如更新或删除 Deployment 时）而终止 pod。在其他情况下，Kubernetes 需要释放给定节点上的资源时会终止 po…...

编程日记 2023/9/16 5:59:56

面试题五：computed的使用

题记大部分的工作中使用computed的频次很低的，所以今天拿出来一文对于computed进行详细的介绍，因为Vue的灵魂之一就是computed。模板内的表达式非常便利，但是设计它们的初衷是用于简单运算的。在模板中放入太多的逻辑会让模板过重且难以维护…...

编程日记 2023/9/16 5:58:56

完美的分布式监控系统 Prometheus与优雅的开源可视化平台 Grafana

1、之间的关系 prometheus与grafana之间是相辅相成的关系。简而言之Grafana作为可视化的平台，平台的数据从Prometheus中取到来进行仪表盘的展示。而Prometheus这源源不断的给Grafana提供数据的支持。 Prometheus是一个开源的系统监控和报警系统，能够监…...

编程日记 2023/9/16 5:57:55

后进先出（LIFO）详解

LIFO 是 Last In, First Out 的缩写，中文译为后进先出。这是一种数据结构的工作原则，类似于一摞盘子或一叠书本： 最后放进去的元素最先出来 -想象往筒状容器里放盘子： （1）你放进的最后一个盘子&#xff08…...

编程新知 2026/2/8 1:22:58

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...

编程新知 2026/2/8 4:37:20

Leetcode 3576. Transform Array to All Equal Elements

Leetcode 3576. Transform Array to All Equal Elements 1. 解题思路2. 代码实现题目链接：3576. Transform Array to All Equal Elements 1. 解题思路这一题思路上就是分别考察一下是否能将其转化为全1或者全-1数组即可。至于每一种情况是否可以达到&#xf…...

编程新知 2025/9/17 7:25:07

SCAU期末笔记 - 数据分析与数据挖掘题库解析

这门怎么题库答案不全啊日来简单学一下子来一、选择题（可多选） 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 A. 频繁模式挖掘：专注于发现数据中…...

编程新知 2026/1/24 14:15:43

质量体系的重要

质量体系是为确保产品、服务或过程质量满足规定要求，由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面： 🏛️ 一、组织架构与职责质量体系明确组织内各部门、岗位的职责与权限，形成层级清晰的管理网络&#xf…...

编程新知 2025/10/24 9:13:44

Frozen-Flask ：将 Flask 应用“冻结”为静态文件

Frozen-Flask 是一个用于将 Flask 应用“冻结”为静态文件的 Python 扩展。它的核心用途是：将一个 Flask Web 应用生成成纯静态 HTML 文件，从而可以部署到静态网站托管服务上，如 GitHub Pages、Netlify 或任何支持静态文件的网站服务器。 &am…...

编程新知 2025/12/5 20:57:13

镜像里切换为普通用户

如果你登录远程虚拟机默认就是 root 用户，但你不希望用 root 权限运行 ns-3（这是对的，ns3 工具会拒绝 root），你可以按以下方法创建一个非 root 用户账号并切换到它运行 ns-3。一次性解决方案：创建非 roo…...

编程新知 2025/9/11 11:00:29

Java 加密常用的各种算法及其选择

在数字化时代，数据安全至关重要，Java 作为广泛应用的编程语言，提供了丰富的加密算法来保障数据的保密性、完整性和真实性。了解这些常用加密算法及其适用场景，有助于开发者在不同的业务需求中做出正确的选择。一、对称加密算法…...

编程新知 2025/11/22 20:41:02

HBuilderX安装（uni-app和小程序开发）

下载HBuilderX 访问官方网站：https://www.dcloud.io/hbuilderx.html 根据您的操作系统选择合适版本： Windows版（推荐下载标准版） Windows系统安装步骤运行安装程序： 双击下载的.exe安装文件如果出现安全提示&…...

编程新知 2026/1/31 12:52:04

Android 之 kotlin 语言学习笔记三（Kotlin-Java 互操作）

参考官方文档：https://developer.android.google.cn/kotlin/interop?hlzh-cn 一、Java（供 Kotlin 使用） 1、不得使用硬关键字不要使用 Kotlin 的任何硬关键字作为方法的名称或字段。允许使用 Kotlin 的软关键字、修饰符关键字和特殊标识…...

编程新知 2026/2/8 0:33:04