当前位置: 首页 > news >正文

大数据技能大赛(高职组)答案

任务C:数据挖掘(10分)

所有模块都有,不是白嫖!!有需要可以联系我

环境说明:

服务端登录地址详见各任务服务端说明。
补充说明:各节点可通过Asbru工具或SSH客户端进行SSH访问;
主节点MySQL数据库用户名/密码:root/123456(已配置远程连接);
Spark任务在Yarn上用Client运行,方便观察日志。
该任务均使用Scala编写,利用Spark相关库完成。

子任务一:特征工程

剔除订单信息表与订单详细信息表中用户id与商品id不存在于现有的维表中的记录,同时建议多利用缓存并充分考虑并行度来优化代码,达到更快的计算效果。
1、据Hudi的dwd_ds_hudi库中相关表或MySQL数据库shtd_store中订单相关表(order_detail、order_info、sku_info),对用户购买过的商品进行去重,将其转换为以下格式:第一列为用户id mapping,第二列为用户购买过的商品id mapping,按照user_id与sku_id进行升序排序,输出前5行,将结果截图粘贴至客户端桌面【Release\任务C提交结果.docx】中对应的任务序号下;
字段 类型 中文含义 备注
user_id int 用户id的mapping对应键
sku_id int 商品id的mapping对应键
提示:

Mapping操作:例如用户id:1、4、7、8、9,则做完mapping操作转为字典类型,键0对应用户id

1,键1对应用户id 4,以此类推
2、根据第1小题的结果,对其进行聚合,其中对sku_id进行one-hot转换,将其转换为以下格式矩阵:第一列为用户id,其余列名为商品id,按照用户id进行升序排序,展示矩阵第一行前5列数据,将结果截图粘贴至客户端桌面【Release\任务C提交结果.docx】中对应的任务序号下。
字段 类型 中文含义 备注
user_id double 客户key
sku_id0 double 用户是否购买过商品1 若用户购买过该商品,则值为1,否则为0
sku_id1 double 用户是否购买过商品2 若用户购买过该商品,则值为1,否则为0
sku_id2 double 用户是否购买过商品3 若用户购买过该商品,则值为1,否则为0

子任务二:推荐系统

1、根据子任务一的结果,对其进行SVD分解,对数据进行降维保留前5个奇异值信息,根据该用户已购买的商品分别与未购买的商品计算余弦相似度再进行累加求均值,将均值最大的5件商品id进行输出作为推荐使用。将输出结果截图粘贴至客户端桌面【Release\任务C提交结果.docx】中对应的任务序号下。
结果格式如下:

------------------------推荐Top5结果如下------------------------
相似度top1(商品id:1,平均相似度:0.983456)
相似度top2(商品id:71,平均相似度:0.782672)
相似度top3(商品id:22,平均相似度:0.7635246)
相似度top4(商品id:351,平均相似度:0.7335748)
相似度top5(商品id:14,平均相似度:0.522356)

任务D:数据采集与实时计算(20分)

环境说明:
服务端登录地址详见各任务服务端说明。
补充说明:各节点可通过Asbru工具或SSH客户端进行SSH访问;
Flink任务在Yarn上用per job模式(即Job分离模式,不采用Session模式),方便Yarn回收资源。

子任务一:实时数据采集

1、在主节点使用Flume采集实时数据生成器10050端口的socket数据,将数据存入到Kafka的Topic中(Topic名称为order,分区数为4),使用Kafka自带的消费者消费order(Topic)中的数据,将前2条数据的结果截图粘贴至客户端桌面【Release\任务D提交结果.docx】中对应的任务序号下;

2、采用多路复用模式,Flume接收数据注入kafka 的同时,将数据备份到HDFS目录/user/test/flumebackup下,将查看备份目录下的第一个文件的前2条数据的命令与结果截图粘贴至客户端桌面【Release\任务D提交结果.docx】中对应的任务序号下。
子任务二:使用Flink处理Kafka中的数据
编写Scala代码,使用Flink消费Kafka中Topic为order的数据并进行相应的数据统计计算(订单信息对应表结构order_info,订单详细信息对应表结构order_detail(来源类型和来源编号这两个字段不考虑,所以在实时数据中不会出现),同时计算中使用order_info或order_detail表中create_time或operate_time取两者中值较大者作为EventTime,若operate_time为空值或无此列,则使用create_time填充,允许数据延迟5s,订单状态order_status分别为1001:创建订单、1002:支付订单、1003:取消订单、1004:完成订单、1005:申请退回、1006:退回完成。另外对于数据结果展示时,不要采用例如:1.9786518E7的科学计数法)。
1、使用Flink消费Kafka中的数据,统计商城实时订单数量(需要考虑订单状态,若有取消订单、申请退回、退回完成则不计入订单数量,其他状态则累加),将key设置成totalcount存入Redis中。使用redis cli以get key方式获取totalcount值,将结果截图粘贴至客户端桌面【Release\任务D提交结果.docx】中对应的任务序号下,需两次截图,第一次截图和第二次截图间隔1分钟以上,第一次截图放前面,第二次截图放后面;

2、在任务1进行的同时,使用侧边流,使用Flink消费Kafka中的订单详细信息的数据,实时统计商城中销售量前3的商品(不考虑订单状态,不考虑打折),将key设置成top3itemamount存入Redis中(value使用String数据格式,value为前3的商品信息并且外层用[]包裹,其中按排序依次存放商品id:销售量,并用逗号分割)。使用redis cli以get key方式获取top3itemamount值,将结果截图粘贴至客户端桌面【Release\任务D提交结果.docx】中对应的任务序号下,需两次截图,第一次截图和第二次截图间隔1分钟以上,第一次截图放前面,第二次截图放后面;
示例如下:
top3itemamount:[1:700,42:500,41:100]

3、在任务1进行的同时,使用侧边流,使用Flink消费Kafka中的订单详细信息的数据,实时统计商城中销售额前3的商品(不考虑订单状态,不考虑打折,销售额为order_price*sku_num),将key设置成top3itemconsumption存入Redis中(value使用String数据格式,value为前3的商品信息并且外层用[]包裹,其中按排序依次存放商品id:销售额,并用逗号分割)。使用redis cli以get key方式获取top3itemconsumption值,将结果截图粘贴至客户端桌面【Release\任务D提交结果.docx】中对应的任务序号下,需两次截图,第一次截图和第二次截图间隔1分钟以上,第一次截图放前面,第二次截图放后面。
示例如下:
top3itemconsumption:[1:10020.2,42:4540.0,12:540]

相关文章:

大数据技能大赛(高职组)答案

任务C:数据挖掘(10分) 所有模块都有,不是白嫖!!有需要可以联系我 环境说明: 服务端登录地址详见各任务服务端说明。 补充说明:各节点可通过Asbru工具或SSH客户端进行SSH访问&#xf…...

C++动态规划算法:最多可以参加的会议数目

本周推荐阅读 C二分算法:得到子序列的最少操作次数 本题的其它解法 C二分算法:最多可以参加的会议数目 II 本文涉及的基础知识点 二分查找算法合集 题目 给你一个 events 数组,其中 events[i] [startDayi, endDayi, valuei] &#xf…...

Windows 下安装MySQL8.0 Zip

1、将下载的mysql 压缩包解压。 2、已管理员身份证 打开 cmd窗口,进入到解压目录的,本文以解压到 D:\soft\mysql-8.0.29-winx64 为例来介绍。 3、在解压目录下 新建一个 my.ini 文件。 my.ini 文件内容如下: [mysqld] # 设置3306端口 por…...

8.2 Windows驱动开发:内核解锁与强删文件

在某些时候我们的系统中会出现一些无法被正常删除的文件,如果想要强制删除则需要在驱动层面对其进行解锁后才可删掉,而所谓的解锁其实就是释放掉文件描述符(句柄表)占用,文件解锁的核心原理是通过调用ObSetHandleAttri…...

【Spark源码分析】事件总线机制分析

Spark事件总线机制 采用Spark2.11源码,以下类或方法被DeveloperApi注解额部分,可能出现不同版本不同实现的情况。 Spark中的事件总线用于接受事件并提交到对应的监听器中。事件总线在Spark应用启动时,会在SparkContext中激活spark运行的事件总…...

c语言第七弹--扫雷小游戏!

今天做一个有趣的扫雷小游戏 现在正式开始设计。 思路&#xff1a;想要根本上实现必须拥有 实现函数的主体.c文件 头文件.h 及头文件实现.c。 头文件.h #pragma once #include <stdio.h> #include <stdlib.h> #include <time.h> #define EASY_COUNT 10 #d…...

浏览器是什么

浏览器是什么 本文简要介绍浏览器的功能和组成。 浏览器&#xff08;Web Browser&#xff09;是一种用于访问和浏览互联网上的网页和资源的软件应用程序。它是用户与互联网交互的主要工具之一。 浏览器通过使用网络协议&#xff08;如HTTP、HTTPS等&#xff09;与远程服务器通…...

一文彻底看懂Python切片,Python切片理解与操作

1.什么是切片 切片是Python中一种用于操作序列类型(如列表、字符串和元组)的方法。它通过指定起始索引和结束索引来截取出序列的一部分,形成一个新的序列。切片是访问特定范围内的元素,就是一个Area。 说个笑话:切片不是切片,而是切片,但是又是切片。大家理解下呢(末…...

聊聊tomcat的connection-timeout

序 本文主要研究一下tomcat的connection-timeout ServerProperties.Tomcat org/springframework/boot/autoconfigure/web/ServerProperties.java public static class Tomcat {/*** Access log configuration.*/private final Accesslog accesslog new Accesslog();/*** Th…...

HCIA-RS基础:动态路由协议基础

摘要&#xff1a;本文介绍动态路由协议的基本概念&#xff0c;为后续动态路由协议原理课程提供基础和引入。主要讲解常见的动态路由协议、动态路由协议的分类&#xff0c;以及路由协议的功能和自治系统的概念。文章旨在优化标题吸引力&#xff0c;并通过详细的内容夯实读者对动…...

jQuery 第十一章(表单验证插件推荐)

文章目录 前言jValidateZebra FormjQuery.validValValidityValidForm BuilderForm ValidatorProgressionformvalidationjQuery Validation PluginjQuery Validation EnginejQuery ValidateValidarium后言 前言 hello world欢迎来到前端的新世界 &#x1f61c;当前文章系列专栏&…...

SSL握手失败的解决方案

一、SSL握手失败的原因&#xff1a; 1&#xff0c;证书过期&#xff1a;SSL证书有一个有效期限&#xff0c;如果证书过期&#xff0c;就会导致SSL握手失败。 2&#xff0c;证书不被信任&#xff1a;如果网站的SSL证书不被浏览器或操作系统信任&#xff0c;也会导致SSL握手失败…...

K8S客户端一 Rancher的安装

一 安装方式一 通过官网方式安装&#xff1a;官网 sudo docker run --privileged -d --restartunless-stopped -p 80:80 -p 443:443 rancher/rancher:stable访问服务器地址即可&#xff1a;http://192.168.52.128 修改语言 第一次安装会生成密码&#xff0c;查看密码步骤如下…...

websocket与node.js实现

什么是 websocket&#xff1f; websoket 是一种网络通信协议&#xff0c;基于 tcp 连接的全双工通信协议&#xff08;客户端和服务器可以同时收发信息&#xff09;&#xff0c;值得注意的是他不基于 http 协议&#xff0c;websocket 只有在建立连接的时候使用到 http 协议进行…...

postpresql 查询某张表的字段名和字段类型

postpresql 查询某张表的字段名和字段类型 工作中第一次接触postpresql&#xff0c;接触到这么个需求&#xff0c;只是对sql有点了解&#xff0c;于是就网上查阅资料。得知通过系统表可以查询&#xff0c;设计到几张系统表&#xff1a;pg_class、pg_attrubute、information_sc…...

jetson NX部署Yolov8

一,事情起因,由于需要对无人机机载识别算法进行更新,所以需要对yolov8算法进行部署到边缘端。 二,环境安装 安装虚拟环境管理工具,这个根据个人喜好。 我们需要选择能够在ARM架构上运行的conda,这里我们选择conda-forge 下载地址 安装即可 剩下的就是和conda 创建虚拟…...

【论文阅读笔记】Emu Edit: Precise Image Editing via Recognition and Generation Tasks

【论文阅读笔记】Emu Edit: Precise Image Editing via Recognition and Generation Tasks 论文阅读笔记论文信息摘要背景方法结果额外 关键发现作者动机相关工作1. 使用输入和编辑图像的对齐和详细描述来执行特定的编辑2. 另一类图像编辑模型采用输入掩码作为附加输入 。3. 为…...

python:列表的拷贝详解

python&#xff1a;列表的拷贝详解 文章目录 python&#xff1a;列表的拷贝详解方法1&#xff1a;直接赋值&#xff08;&#xff09;方法2&#xff1a;浅拷贝&#xff08;.copy方法&#xff09;格式原理注意 方法3&#xff1a;深拷贝&#xff08;.deepcopy方法&#xff09;格式…...

zip4j压缩使用总结

一、引入依赖 <dependency><groupId>net.lingala.zip4j</groupId><artifactId>zip4j</artifactId><version>1.3.1</version></dependency>二、使用添加文件&#xff08;addFiles&#xff09;的方式生成压缩包 /*** Author wan…...

【第一部分:概述】ARM Realm Management Monitor specification

目录 概述机密计算系统软件组成MonitorRealmRealm Management Monitor (RMM)Virtual Machine (VM)HypervisorSecure Partition Manager (SPM)Trusted OS (TOS)Trusted Application (TA) Realm Management Monitor 参考文献 概述 RMM是一个软件组件&#xff0c;它构成了实现ARM…...

Docker跨架构镜像拉取失败?5步精准定位glibc版本、内核模块、CPU特性三大隐藏冲突源

第一章&#xff1a;Docker跨架构镜像拉取失败的典型现象与系统性认知当开发者在 ARM64 主机&#xff08;如 Apple M1/M2、树莓派或 AWS Graviton 实例&#xff09;上执行 docker pull 命令时&#xff0c;常遭遇镜像拉取成功但运行失败、容器立即退出、或提示 exec format error…...

2025最权威的十大AI论文方案推荐榜单

Ai论文网站排名&#xff08;开题报告、文献综述、降aigc率、降重综合对比&#xff09; TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 要是针对维普检测系统的 AI 降重需求&#xff0c;那就得从文本特征调整这方面着手。首先呢&a…...

UE5Varest发送https请求发不出去,收不到任何回复

不要勾选&#xff0c;设置好后必须重启才能生效...

Agenus 指定 BAP Pharma 为 BOT+BAL 准入项目全球独家合作伙伴

• 本次合作将通过法国政府报销的 Autorisation d’Accs Compassionnel&#xff08;AAC&#xff09;&#xff0c;以及部分国家的付费指定患者用药项目&#xff08;Named Patient Programs&#xff0c;NPP&#xff09;&#xff0c;为患者及时获取 botensilimab 联合 balstilimab…...

Qwen3.5-4B-Claude-Opus应用场景:高校编程课程助教——自动批改思路点评

Qwen3.5-4B-Claude-Opus应用场景&#xff1a;高校编程课程助教——自动批改思路点评 1. 高校编程教学的痛点与机遇 在高校计算机专业的编程课程教学中&#xff0c;作业批改一直是让教师头疼的问题。一个50人的班级&#xff0c;每周布置3-5道编程题&#xff0c;教师需要&#…...

Rust的闭包捕获列表与move关键字在跨线程发送中的所有权语义明确化

Rust的闭包捕获列表与move关键字在跨线程发送中的所有权语义明确化 Rust作为一门以安全性和并发性为核心的系统编程语言&#xff0c;其所有权机制和闭包设计在多线程场景下尤为重要。闭包捕获列表与move关键字的结合&#xff0c;为跨线程数据传递提供了清晰的所有权语义&#…...

多替诺雷Dotinurad降尿酸:剂量选择与服药时间的科学依据

痛风与高尿酸血症的长期管理依赖于精准的用药方案&#xff0c;多替诺雷&#xff08;Dotinurad&#xff09;作为新型选择性尿酸转运蛋白1&#xff08;URAT1&#xff09;抑制剂&#xff0c;其剂量选择与服药时间直接影响疗效与安全性。剂量选择&#xff1a;从起始到维持的个体化调…...

从Kubernetes到Docker:看云原生技术如何成功‘跨越鸿沟’(给技术布道者的实战指南)

云原生技术布道实战&#xff1a;如何复制Kubernetes的成功跨越路径 当Docker在2013年横空出世时&#xff0c;开发者们突然发现容器技术不再只是谷歌等科技巨头的专利。短短几年后&#xff0c;Kubernetes从Google内部项目成长为云原生计算的基石。这两个标志性技术的成功绝非偶然…...

从康复理疗到智能假肢:sEMG特征提取如何在实际项目中落地?我的5个踩坑经验分享

从康复理疗到智能假肢&#xff1a;sEMG特征提取如何在实际项目中落地&#xff1f;我的5个踩坑经验分享 在康复医疗和人机交互领域&#xff0c;表面肌电信号&#xff08;sEMG&#xff09;技术正经历着从实验室走向商业化的关键转折。作为一名参与过三款智能假肢开发的工程师&…...

消息防撤回技术解密:如何让撤回的消息无处可藏?

消息防撤回技术解密&#xff1a;如何让撤回的消息无处可藏&#xff1f; 【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁&#xff08;我已经看到了&#xff0c;撤回也没用了&#xff09; 项目地址: https://gitco…...