当前位置：首页 > news >正文

基于Spark对消费者行为数据进行数据分析开发案例

news 2026/5/16 17:04:03

原创/朱季谦

本文适合入门Spark RDD的计算处理。

在日常工作当中，经常遇到基于Spark去读取存储在HDFS中的批量文件数据进行统计分析的案例，这些文件一般以csv或者txt文件格式存在。例如，存在这样一份消费者行为数据，字段包括消费者姓名,年龄,性别,月薪,消费偏好,消费领域,购物平台,支付方式,单次购买商品数量,优惠券获取情况,购物动机。

基于这份消费者行为数据，往往会有以下一些分析目标：

用户统计学分析：针对性别、年龄等属性进行统计分析，了解消费者群体的组成和特征。
收入与购买行为的关系分析：通过比较月薪和单次购买商品数量之间的关系，探索收入水平对消费行为的影响。
消费偏好和消费领域的分析：查看不同消费者的消费偏好（例如性价比、功能性、时尚潮流等）和消费领域（例如家居用品、汽车配件、美妆护肤等），以了解他们的兴趣和偏好。
购物平台和支付方式的分析：研究购物平台（例如天猫、淘宝、拼多多等）和支付方式（例如微信支付、支付宝等）的选择情况，了解消费者在电商平台上的偏好。
优惠券获取情况和购物动机的关系：观察优惠券获取情况和购物动机之间的联系，探索消费者是否更倾向于使用优惠券进行购物。

针对这些需求，就可以使用Spark来读取文件后，进一步分析处理统计。

接下来，就是针对以上分析目标，设计一番Spark代码计算逻辑，由此可入门学习下Spark RDD常用用法。

获取一份具备以下字段的csv随机假样本，总共5246条数据，包括“消费者姓名,年龄,性别,月薪,消费偏好,消费领域,购物平台,支付方式,单次购买商品数量,优惠券获取情况,购物动机”。

Amy Harris,39,男,18561,性价比,家居用品,天猫,微信支付,10,折扣优惠,品牌忠诚
Lori Willis,33,女,14071,功能性,家居用品,苏宁易购,货到付款,1,折扣优惠,日常使用
Jim Williams,61,男,14145,时尚潮流,汽车配件,淘宝,微信支付,3,免费赠品,礼物赠送
Anthony Perez,19,女,11587,时尚潮流,珠宝首饰,拼多多,支付宝,5,免费赠品,商品推荐
......

将样本存放到项目目录为src/main/resources/consumerdata.csv，然后新建一个Scala的object类，创建一个main方法, 模拟从HDSF读取数据，然后通过.map(_.split(","))将csv文件每一行切割成一个数组形式的RDD

  def main(args: Array[String]): Unit = {val conf = new SparkConf().setMaster("local").setAppName("consumer")val ss = SparkSession.builder().config(conf).getOrCreate()val filePath: String = "src/main/resources/consumerdata.csv"val consumerRDD = ss.sparkContext.textFile(filePath).map(_.split(","))

可以写一段代码打印看一下consumerRDD结构——

    consumerRDD.foreach(x => {x.foreach(y => print(y +" "))println()})

打印结果如下——

这个RDD相当于把每一行当作里一个Array[]数组，第一行的Array0是消费者姓名，即Amy Harris，Array1是年龄，即39，以此类推。

消费者姓名	年龄	性别	月薪	消费偏好	消费领域	购物平台	支付方式	单次购买商品数量	优惠券获取情况	购物动机
Amy Harris	39	男	18561	性价比	家居用品	天猫	微信支付	10	折扣优惠	品牌忠诚
Lori Willis	33	女	14071	功能性	家居用品	苏宁易购	货到付款	1	折扣优惠	日常使用
。。。

获取到该RDD后，就可以进行下一步的统计分析了。

一、统计消费者支付方式偏好分布

这行代码意思，x.apply(7)表示取每一行的第八个字段，相当数组Array[7]，第八个字段是【支付方式】。

map(x=>(x.apply(7),1))表示是对RDD里每一行出现过的支付方式字段设置为1个，例如，第一行把原本数组格式Array的RDD做了转换，生成（微信支付，1）格式的新RDD，表示用微信支付的用户出现了1次。
reduceByKey(_ + _)表示按RDD的key进行聚合统计，表示统计微信支付出现的次数，支付宝出现的次数等。最后，通过
sortBy(_._2,false)表示按照key-value当中的value进行倒序排序，false表示倒叙，true表示升序。

因此就可以按照以上格式，对文本数据里的每一个字段做相应分析，后文其他计算逻辑也是类似。

consumerRDD.map(x => (x.apply(7),1)).reduceByKey(_ + _).sortBy(_._2, false).foreach(println)

打印结果如下：

二、统计购物平台偏好分布

x.apply(5)表示取每一行的第六个字段，相当数组Array[5]，第六个字段是【购物平台】。

同前文的【统计消费者支付方式偏好分布】一样，通过map(x=>(x.apply(5),1))生成(购物平台,1)格式的RDD，然后再通过reduceByKey算子针对相同的key做统计，最后倒序排序。

consumerRDD.map(x => (x.apply(5), 1)).reduceByKey(_ + _).sortBy(_._2, false).foreach(println)

打印结果——

三、统计购物偏好方式分布

x.apply(4)表示取每一行的第五个字段，相当数组Array[4]，第五个字段是【消费领域】。

consumerRDD.map(x => (x.apply(4), 1)).reduceByKey(_ + _).sortBy(_._2, false).foreach(println)

打印结果：

四、统计购物动机分布

x.apply(10)表示取每一行的第十个字段，相当数组Array[10]，第10个字段是【购物动机】。

consumerRDD.map(x => (x.apply(10), 1)).reduceByKey(_ + _).sortBy(_._2, false).foreach(println)

打印结果——

五、消费者年龄分布

该需求通过将RDD映射成DataFrame数据集，方便用SQL语法处理，按照年龄区间分区，分别为"0-20"，"21-30"，"31-40"

......这个分区字符串名，就相当key，value表示落在该分区的用户数量。这时，就可以分组做聚合统计了，统计出各个年龄段的消费者数量。

//取出consumerRDD每一行数组需要的字段
val rowRDD = consumerRDD.map{x => Row(x.apply(0),x.apply(1).toInt,x.apply(2),x.apply(3).toInt,x.apply(4),x.apply(5),x.apply(6),x.apply(7),x.apply(8).toInt,x.apply(9),x.apply(10))
}//设置字段映射
val schema = StructType(Seq(StructField("consumerName", StringType),StructField("age", IntegerType),StructField("gender", StringType),StructField("monthlyIncome", IntegerType),StructField("consumptionPreference", StringType),StructField("consumptionArea", StringType),StructField("shoppingPlatform", StringType),StructField("paymentMethod", StringType),StructField("quantityOfItemsPurchased", IntegerType),StructField("couponAcquisitionStatus", StringType),StructField("shoppingMotivation", StringType)))
val df = ss.createDataFrame(rowRDD, schema).toDF()
//按年龄分布计算
val agedf = df.withColumn("age_range",when(col("age").between(0, 20), "0-20").when(col("age").between(21, 30), "21-30").when(col("age").between(31, 40), "31-40").when(col("age").between(41, 50), "41-50").when(col("age").between(51, 60), "51-60").when(col("age").between(61, 70), "61-70").when(col("age").between(81, 90), "81-90").when(col("age").between(91, 100), "91-100").otherwise("Unknow")
)
//分组统计
val result = agedf.groupBy("age_range").agg(count("consumerName").alias("Count")).sort(desc("Count"))
result.show()

打印结果：

六、统计年龄分布

类似年龄分布的操作。

val sexResult = agedf.groupBy("gender").agg(count("consumerName").alias("Count")).sort(desc("Count"))
sexResult.show()

打印结果：

除了以上的统计分析案例之外，还有优惠券获取情况和购物动机的关系、消费领域方式等统计，可以进一步拓展分析。

本文基于分析消费者行为数据，可以入门学习到，Spark如何读取样本文件，通过map(_.split(","))处理样本成一个数组格式的RDD，基于该RDD，可以进一步通过map、reduceByKey、groupBy等算子做处理与统计，最后获取该样本的信息价值。

基于Spark对消费者行为数据进行数据分析开发案例

一、统计消费者支付方式偏好分布

二、统计购物平台偏好分布

三、统计购物偏好方式分布

四、统计购物动机分布

五、消费者年龄分布

六、统计年龄分布

相关文章：

基于Spark对消费者行为数据进行数据分析开发案例

Docker镜像制作与推送

Pandas时序数据分析实践—基础（1）

5.C转python

输出SearchFacesResponse对象的JSON格式字符串回包乱码解决方案

P7 链表链表头前方插入新节点

SCAU:主对角线上的元素之和

c语言——简单客户端demo

日志检索场景ES-＞Doris迁移最佳实践：函数篇

【高效开发工具系列】jackson入门使用

深入理解网络非阻塞 I/O：NIO

Hdoop学习笔记（HDP）-Part.07 安装MySQL

[数据结构]HashSet与LinkedHashSet的底层原理学习心得

使用unity开发Pico程序，场景中锯齿问题

Spring | Spring的基本应用

项目开发维护技术文档（梳理总结中）

【接口测试】Apifox实用技巧干货分享

车联网架构设计(一)_消息平台的搭建

（蓝桥杯）1125 第 4 场算法双周赛题解+AC代码（c++/java）

也可Adobe Animate

极简黑魔法：用 gh gist 搭建我们的私有配置分发 CDN

Live Server深度解析：如何用实时重载技术提升前端开发效率300%

解放CPU！用STM32G4的FMAC硬核加速器做实时滤波，代码实测与性能对比

Transformer在CV领域的新秀：拆解TransWeather如何用‘天气查询’一招解决多任务难题

MySQL复合查询与内外连接

MacType终极指南：彻底解决Windows字体模糊问题的免费神器

合并报表的10个基本逻辑原理，0基础也能看懂

如何用NHSE动物森友会存档编辑器快速打造梦想岛屿：终极完整指南

5个关键场景掌握openpilot：开源自动驾驶系统的实战指南

Midjourney v7艺术风格跃迁路径：从基础写实到超现实叙事的5阶能力模型，含GPT-4o协同提示链模板