当前位置：首页 > news >正文

Spark 计算总销量

news 2025/7/13 0:05:08

Spark 计算总销量

题目：

某电商平台存储了所有商品的销售数据，平台希望能够找到销量最好的前 N 个商品。通过分析销售记录，帮助平台决策哪些商品需要更多的推广资源。

假设你得到了一个商品销售记录的文本文件

product_id, product_name, quantity, sale_date
1, "Smartphone", 10, "2024-11-01"
2, "Laptop", 5, "2024-11-02"
3, "T-Shirt", 25, "2024-11-03"
4, "Smartwatch", 8, "2024-11-04"
5, "Headphones", 12, "2024-11-05"
1, "Smartphone", 15, "2024-11-06"
2, "Laptop", 10, "2024-11-07"
3, "T-Shirt", 10, "2024-11-08"

各字段含义：
product_id: 商品ID
product_name: 商品名称
quantity: 销售数量
sale_date: 销售日期

任务：
计算总销量：计算每个商品的总销量，输出如下。

product_id  product_name  total_sales
1           Smartphone    25
2           Laptop        15
3           T-Shirt       35
4           Smartwatch    8
5           Headphones    12

找出销量最高的前 N 个商品：根据计算出的销量，找出前 N 个销售量最多的商品，N 由用户输入。N=3时输出如下：

product_id  product_name total_sales
3           T-Shirt       35
1          Smartphone     25
2           Laptop        15

运行

在桌面创建文件buy_count.txt,输入文本内容
Java代码

import org.apache.spark.api.java.*;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.Function2;
import scala.Serializable;
import scala.Tuple2;
import java.util.Scanner;public class Test02 {/** Serializable* 标记一个类可以被序列化，* 即可以将其状态转换为字节流，* 以便进行持久化存储或在网络上传输* */static  class  Product implements Serializable{int product_id;String product_name;int quantity;@Overridepublic String toString() {return  String.format("%-10s %-20s %-10s", product_id, product_name, quantity);}}public static void main(String[] args) {// 文件路径// 获取用户的主目录并构建绝对路径String userHome = System.getProperty("user.home");String logFile = "file://" + userHome + "/Desktop/spark_test.txt";
//        String logFile = "file:///Desktop/spark_test.txt";// SparkConf 对象// setMaster("local")表示应用程序将在本地模式下运行// setAppName("SimpleApp")设置了应用程序的名称为SimpleAppSparkConf conf=new SparkConf().setMaster("local").setAppName("SimpleApp");// JavaSparkContext对象，它是与Spark交互的主要入口点。它接收前面创建的SparkConf对象作为参数JavaSparkContext sc=new JavaSparkContext(conf);// sc.textFile(logFile)加载文本文件内容// .cache()方法会将此RDD缓存起来以便后续重复使用时能更快访问JavaRDD<String> linesRDD = sc.textFile(logFile).cache();/** 按商品分组* JavaPairRDD 键值对* PairFunction用于定义将输入对象转换为键值对的逻辑* filter 方法对linesRDD中的每一行执行过滤(删除标题行)* mapToPair 会对每一行进行处理，生成键值对* 以product_name做键，Product对象做值* */JavaPairRDD<Integer, Product> productRDD = linesRDD.filter(new Function<String, Boolean>() {public Boolean call(String line) {return !line.contains("product_id");}}).mapToPair(new PairFunction<String, Integer, Product>(){@Overridepublic Tuple2<Integer, Product> call(String line) throws Exception {String[] fields = line.split(", ");Product product = new Product();product.product_id = Integer.parseInt(fields[0]);product.product_name = fields[1].replace("\"", "");product.quantity = Integer.parseInt(fields[2]);return new Tuple2<Integer, Product>(product.product_id, product);}});System.out.printf("%-10s %-20s %-10s%n", "product_id", "product_name", "total_sales");productRDD.foreach(tuple -> {Product value = tuple._2;System.out.println(value);});System.out.println("------------------------------------");/** 合并同一商品的数量* */JavaPairRDD<Integer, Product> productRDD2 = productRDD.reduceByKey(new Function2<Product, Product, Product>(){@Overridepublic Product call(Product product, Product product2) throws Exception {product2.quantity += product.quantity;return product2;}});// 按照商品id升序排序JavaPairRDD<Integer, Product> fourproductRankDescRDD = productRDD2.sortByKey(true);System.out.printf("%-10s %-20s %-10s%n", "product_id", "product_name", "total_sales");fourproductRankDescRDD.foreach(tuple -> {Product value = tuple._2;System.out.println(value);});// 将 JavaPairRDD 转换为 JavaRDD<Product>JavaRDD<Product> productRDD3 = productRDD2.values();// 按照 quantity 降序排序JavaRDD<Product> sortedByQuantityRDD = productRDD3.sortBy(product -> product.quantity, false, 1);Scanner scanner = new Scanner(System.in);System.out.print("请输入要显示的前N名商品：");int N =  scanner.nextInt();System.out.printf("%-10s %-20s %-10s%n", "product_id", "product_name", "total_sales");sortedByQuantityRDD.take(N).forEach(product -> System.out.println(product));}
}

IDEA打包:https://blog.csdn.net/kelekele111/article/details/123047189
终端运行

/usr/local/spark/bin/spark-submit  ~/Desktop/Spark.jar

Spark 计算总销量

Spark 计算总销量题目： 某电商平台存储了所有商品的销售数据，平台希望能够找到销量最好的前 N 个商品。通过分析销售记录，帮助平台决策哪些商品需要更多的推广资源。假设你得到了一个商品销售记录的文本文件 product_id, product_name,…...

编程日记 2024/12/6 6:34:55

矩阵置零

矩阵置零给定一个 m x n 的矩阵，如果一个元素为 0 ，则将其所在行和列的所有元素都设为 0 。请使用原地算法。示例 1： 输入：matrix [[1,1,1],[1,0,1],[1,1,1]] 输出：[[1,0,1],[0,0,0],[1,0,1]]示例 2&#xff…...

编程日记 2024/12/6 6:33:54

Ai编程cursor + sealos + devBox实现登录以及用户管理增删改查（十三）

一、什么是 Sealos？ Sealos 是一款以 Kubernetes 为内核的云操作系统发行版。它以云原生的方式，抛弃了传统的云计算架构，转向以 Kubernetes 为云内核的新架构，使企业能够像使用个人电脑一样简单地使用云。二、适用场景业务运…...

编程日记 2024/12/6 6:32:53

深度解读：生产环境中的日志优化与大数据处理实践20241116

🌟 深度解读：生产环境中的日志优化与大数据处理实践在现代软件开发中，日志是系统调试与问题排查的重要工具。然而，随着应用的复杂化和数据量的增长，传统日志模块在应对复杂嵌套对象、大数据类型时可能面临性能问题和安…...

编程日记 2024/12/6 6:31:49

1、Gitlab镜像查找Gitlab镜像 docker search gitlab 拉取Gitlab镜像 docker pull gitlab/gitlab-ce:latest 2、启动Gitlab容器 # 启动容器 docker run \-itd \-p 9980:80 \-p 9922:22 \-v /home/gitlab/etc:/etc/gitlab \-v /home/gitlab/log:/var/log/gitlab \-v /ho…...

编程日记 2024/12/6 6:30:45

SpringBoot 分层解耦

从没有分层思想到传统 Web 分层，再到 Spring Boot 分层架构 1. 没有分层思想在最初的项目开发中，很多开发者并没有明确的分层思想，所有逻辑都堆砌在一个类或一个方法中。这样的开发方式通常会导致以下问题： 代码混乱&#xff1…...

编程日记 2024/12/6 6:29:42

opencv复习

目录 1.core 1.图像变换 1.1 affine仿射变换 1.2 透视变换 2.四元数（旋转） 2.1 轴角转四元数 2.2 旋转矩阵转四元数 2.3 欧拉角转旋转矩阵 2.4 四元数转旋转矩阵 2.5 四元数用eigen用的比较多 2. imgproc. Image Processing 2.1 bilateralF…...

编程日记 2024/12/6 6:26:34

flask-socketio相关总结

flask-socketio是一个为flask应用程序添加的实时双向通信功能的扩展库，有了这个库，就可以在flask应用中应用websocket协议，帮助flask实现低延迟、双向的客户端、服务端通信。客户端通过任何SocketIO官方库，都能与服务器建立长连接…...

编程日记 2024/12/6 6:25:33

2024-12-03OpenCV图片处理基础

OpenCV图片处理基础 OpenCV的视频教学：https://www.bilibili.com/video/BV14P411D7MH 1-OpenCV摄像头读取 OpenCV使用摄像头读取图片帧，点击S保存当前帧到指定文件夹，点击Q关闭窗口，点击其他按钮打印按钮的值要实现这个功能&…...

编程日记 2024/12/6 6:22:31

本地部署开源趣味艺术画板Paint Board结合内网穿透跨网络多设备在线绘画

文章目录前言1.关于Paint Board2.本地部署paint-board3.使用Paint Board4.cpolar内网穿透工具安装5.创建远程连接公网地址6.固定Paint Board公网地址前言大家好，是不是每次想要在电脑上画画时，都被那些笨重的专业绘图软件搞得头大如斗呢？…...

编程日记 2024/12/6 6:20:29

iOS、android的app备案超简单的公钥、md5获取方法

很多云商的备案平台，推荐下载一些工具来获取公钥和MD5，但是这些工具的跨平台性不是很好，安装也十分麻烦，安装的时候还需要设置国内源等等。这里，其实有在线工具可以获取APP的公钥和MD5、SHA1值这些信息的。不需要安装…...

编程日记 2024/12/6 6:19:28

SpringCloud 与 SpringBoot版本对应关系，以及maven,jdk

目录 SpringCloud 与 SpringBoot各版本的对应关系方式一 Learn 方式二 OverView SpringBoot与JDK、maven 容器等对应关系 SpringCloud 与 SpringBoot各版本的对应关系 SpringCloudSpringBootFinchley2.0.xFinchley.SR1Spring Boot >=2.0.3.RELEASE and <=2.0.9RELEAS…...

编程日记 2024/12/6 6:18:27

23种设计模式之装饰模式

目录 1. 简介2. 代码2.1 ABatterCake （抽象组件）2.2 BatterCake （具体组件）2.3 ADecorator （抽象装饰者）2.4 EggDecorator （具体装饰者）2.5 SausageDecorator（具体装饰者…...

编程日记 2024/12/6 6:17:26

HTMLHTML5革命：构建现代网页的终极指南 - 2. HTMLHTML5H5的区别

HTML&HTML5革命：构建现代网页的终极指南 2. HTML&HTML5&H5的区别大家好，我是莫离老师在上一节课，我们了解了HTML的重要性和前端开发的核心概念。今天，我们将深入探讨 HTML、HTML5 和 H5 的区别，并重点…...

编程日记 2024/12/6 6:16:23

Django之ORM表操作

ORM表操作 1.ORM单表操作首先想操作表的增删改查，需要先导入这个表,以之前创建的UserInfo表为例,在app下的views.py中导入 from app import modelsdef query(request):new_obj models.UserInfo(id1,name北北,bday2019-09-27,checked1,)new_obj.save()return Htt…...

编程日记 2024/12/6 6:15:21

python下几个淘宝、天猫、京东爬虫实例

以下是使用Python编写的针对淘宝、天猫、京东详情页的爬虫实例。请注意，这些实例仅供参考，实际使用时可能需要根据网站结构的变化进行调整，并且需要遵守各平台的爬虫协议和法律法规。淘宝详情页爬虫实例环境准备： Python 3.xSe…...

编程日记 2024/12/6 6:14:20

级联树结构TreeSelect和上级反查

接口返回结构前端展示格式前端组件 <template><div ><el-scrollbar height"70vh"><el-tree :data"deptOptions" :props"{ label: label, children: children }" :expand-on-click-node"false":filter-node-me…...

编程日记 2024/12/6 6:12:18

gradle下载慢解决方案2024 /12 /1android studio (Windows环境)

gradle下载慢解决方案2024 /12 /1 默认环境配置好了,环境配置和程序安装请出门右转打开软件,点击右上角设置,找到如下设置页选择本地安装并制定好你已经安装好的 gradle 应用保存即可全局插件环境配置(新版本可以直接在设置中添加了) 找对应位置添加国内源并把前面的内置源…...

编程日记 2024/12/6 6:11:17

Python+OpenCV系列：GRAY BGR HSV

以下是 GRAY、BGR 和 HSV 三种色彩空间的对比，涵盖了它们的定义、特点、应用场景和优缺点： 1. 定义 GRAY： 灰度图像仅包含亮度信息，每个像素用一个值（通常在0到255之间）表示亮度（黑到白&#x…...

编程日记 2024/12/6 6:10:16

丢垃圾视频时间检测 -- 基于状态机的实现

文章目录 OverviewKey PointsPseudo-code Overview 需要考虑的方面状态定义和转换条件时序约束空间约束异常处理状态机的设计需要考虑的场景： 没有人人进入人携带垃圾人离开但垃圾留下垃圾消失异常情况（检测失败、多人多垃圾等） Key P…...

编程日记 2024/12/6 6:09:15

后进先出（LIFO）详解

LIFO 是 Last In, First Out 的缩写，中文译为后进先出。这是一种数据结构的工作原则，类似于一摞盘子或一叠书本： 最后放进去的元素最先出来 -想象往筒状容器里放盘子： （1）你放进的最后一个盘子&#xff08…...

编程新知 2025/7/9 5:39:12

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架，它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用，和丰富的HTTP工具。使用Express可以快速地搭建一个完整功能的网站。 Expre…...

编程新知 2025/7/11 4:02:52

SCAU期末笔记 - 数据分析与数据挖掘题库解析

这门怎么题库答案不全啊日来简单学一下子来一、选择题（可多选） 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 A. 频繁模式挖掘：专注于发现数据中…...

编程新知 2025/7/9 1:18:48

工程地质软件市场：发展现状、趋势与策略建议

一、引言在工程建设领域，准确把握地质条件是确保项目顺利推进和安全运营的关键。工程地质软件作为处理、分析、模拟和展示工程地质数据的重要工具，正发挥着日益重要的作用。它凭借强大的数据处理能力、三维建模功能、空间分析工具和可视化展示手段&…...

编程新知 2025/6/17 23:10:20

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及，充电桩作为核心配套设施，其安全性与可靠性备受关注。然而，在高温、高负荷运行环境下，充电桩的散热问题与消防安全隐患日益凸显，成为制约行业发展的关键瓶颈。如何通过智慧化管理手段优化散…...

编程新知 2025/7/12 22:20:22

【git】把本地更改提交远程新分支feature_g

创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...

编程新知 2025/7/11 8:13:31

Java毕业设计：WML信息查询与后端信息发布系统开发

JAVAWML信息查询与后端信息发布系统实现一、系统概述本系统基于Java和WML(无线标记语言)技术开发，实现了移动设备上的信息查询与后端信息发布功能。系统采用B/S架构，服务器端使用Java Servlet处理请求，数据库采用MySQL存储信息&#xff0…...

编程新知 2025/6/16 16:14:08

MySQL 知识小结（一）

一、my.cnf配置详解我们知道安装MySQL有两种方式来安装咱们的MySQL数据库，分别是二进制安装编译数据库或者使用三方yum来进行安装,第三方yum的安装相对于二进制压缩包的安装更快捷，但是文件存放起来数据比较冗余，用二进制能够更好管理咱们M…...

编程新知 2025/7/9 23:34:29

【网络安全】开源系统getshell漏洞挖掘

审计过程： 在入口文件admin/index.php中： 用户可以通过m,c,a等参数控制加载的文件和方法，在app/system/entrance.php中存在重点代码： 当M_TYPE system并且M_MODULE include时，会设置常量PATH_OWN_FILE为PATH_APP.M_T…...

编程新知 2025/7/6 20:49:39

多模态图像修复系统：基于深度学习的图片修复实现

多模态图像修复系统：基于深度学习的图片修复实现 1. 系统概述本系统使用多模态大模型（Stable Diffusion Inpainting）实现图像修复功能，结合文本描述和图片输入，对指定区域进行内容修复。系统包含完整的数据处理、模型训练、推理部署流程。 import torch import numpy …...

编程新知 2025/7/9 18:01:18

Spark 计算总销量

Spark 计算总销量

题目：

运行

相关文章：

Spark 计算总销量

矩阵置零

Ai编程cursor + sealos + devBox实现登录以及用户管理增删改查（十三）

深度解读：生产环境中的日志优化与大数据处理实践20241116

docker 搭建gitlab，亲测可用

SpringBoot 分层解耦

opencv复习

flask-socketio相关总结

2024-12-03OpenCV图片处理基础

本地部署开源趣味艺术画板Paint Board结合内网穿透跨网络多设备在线绘画

iOS、android的app备案超简单的公钥、md5获取方法

SpringCloud 与 SpringBoot版本对应关系，以及maven,jdk

23种设计模式之装饰模式

HTMLHTML5革命：构建现代网页的终极指南 - 2. HTMLHTML5H5的区别

Django之ORM表操作

python下几个淘宝、天猫、京东爬虫实例

级联树结构TreeSelect和上级反查

gradle下载慢解决方案2024 /12 /1android studio (Windows环境)

Python+OpenCV系列：GRAY BGR HSV

丢垃圾视频时间检测 -- 基于状态机的实现

后进先出（LIFO）详解

第19节 Node.js Express 框架

SCAU期末笔记 - 数据分析与数据挖掘题库解析

工程地质软件市场：发展现状、趋势与策略建议

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

【git】把本地更改提交远程新分支feature_g

Java毕业设计：WML信息查询与后端信息发布系统开发

MySQL 知识小结（一）

【网络安全】开源系统getshell漏洞挖掘

多模态图像修复系统：基于深度学习的图片修复实现