当前位置：首页 > news >正文

教你使用三种方式写一个最基本的spark程序

news 2026/5/23 21:53:42

当需要处理大规模数据并且需要进行复杂的数据处理时，通常会使用Hadoop生态系统中的Hive和Spark来完成任务。在下面的例子中，我将说明如何使用Spark编写一个程序来处理Hive中的数据，以满足某个特定需求。

假设我们有一个Hive表，其中包含每个人每天的体重记录，我们需要从中计算出每个人的平均体重。为了完成这个任务，我们可以使用Spark来读取Hive表中的数据，并使用Spark进行计算。

下面是具体的开发过程：

一.第一种方式:Spark DataFrame：

1.首先，我们需要在Spark中创建一个SparkSession对象，并使用它来连接到Hive。

from pyspark.sql import SparkSessionspark = SparkSession.builder.appName("HiveToSpark").config("spark.sql.warehouse.dir", "/user/hive/warehouse").enableHiveSupport().getOrCreate()

然后，我们可以使用Spark进行数据转换和计算。在这个例子中，我们将按人员分组，并计算每个人的平均体重。

from pyspark.sql.functions import avgdf_avg_weight = df.groupBy("person").agg(avg("weight"))

最后，我们可以将结果写回到Hive表中。

df_avg_weight.write.mode("overwrite").saveAsTable("my_hive_table_average_weight")

完整的代码如下：

from pyspark.sql import SparkSession
from pyspark.sql.functions import avgspark = SparkSession.builder.appName("HiveToSpark").config("spark.sql.warehouse.dir", "/user/hive/warehouse").enableHiveSupport().getOrCreate()df = spark.sql("SELECT * FROM my_hive_table")df_avg_weight = df.groupBy("person").agg(avg("weight"))df_avg_weight.write.mode("overwrite").saveAsTable("my_hive_table_average_weight")

二:第二种方式.使用sparkRDD

首先，我们使用SparkContext对象创建一个Spark RDD对象hive_rdd，通过执行SQL查询从Hive表中读取数据。接下来，我们将hive_rdd转换为一个(k, v)对的RDD，其中k是person字段，v是一个元组(weight, 1)，表示每个人的体重和体重数量。然后，我们使用reduceByKey()函数将元组聚合为总体重和总体重数量，然后使用map()函数计算每个人的平均体重。最后，我们将结果保存到HDFS中。

from pyspark import SparkConf, SparkContextconf = SparkConf().setAppName("HiveToRDD")
sc = SparkContext(conf=conf)hive_rdd = sc.sql("SELECT * FROM my_hive_table").rdd
avg_weight_rdd = hive_rdd.map(lambda x: (x[0], (x[1], 1))) \.reduceByKey(lambda x, y: (x[0] + y[0], x[1] + y[1])) \.map(lambda x: (x[0], x[1][0] / x[1][1]))avg_weight_rdd.saveAsTextFile("hdfs://path/to/output")

三:sparksql

直接写入到hive中的表

INSERT OVERWRITE TABLE my_hive_table_average_weight
SELECT person, AVG(weight) as avg_weight 
FROM my_hive_table 
GROUP BY person

如果没有这个表，可以使用以下Spark SQL语法来创建一个新表并将结果写入该表中：

CREATE TABLE my_hive_table_average_weight
AS
SELECT person, AVG(weight) as avg_weight 
FROM my_hive_table 
GROUP BY person

上述SQL查询使用CREATE TABLE AS命令创建一个新的Hive表my_hive_table_average_weight，并将查询结果写入该表中。这个命令将自动创建表的结构和数据类型，因此不需要预先定义表的结构。只需要确保表名和字段名与查询结果一致即可。

但是,这种方法可能会导致性能问题，因为它需要将所有查询结果加载到Spark内存中，然后再将其写入到Hive表中。如果数据量非常大，可能会导致内存不足的问题。因此，如果需要处理大数据集，请考虑使用其他更高效的方式，如Spark RDD或DataFrame API。

教你使用三种方式写一个最基本的spark程序

一.第一种方式:Spark DataFrame：

二:第二种方式.使用sparkRDD

三:sparksql

相关文章：

教你使用三种方式写一个最基本的spark程序

软件设计师错题集

【华为机试真题详解 Python实现】静态扫描最优成本【2023 Q1 | 100分】

算法刷题总结 (四) 动态规划

Grafana 转换数据的工具介绍

Linux 学习笔记

HTML注入专精整理

看完这篇我不信你不会二叉树的层序遍历【C语言】

案例17-环境混用带来的影响

知识蒸馏论文阅读：DKD算法笔记

Sentinel架构篇 - 熔断降级

shell脚本的一些记录与jenkins的介绍

JVM的了解与学习

提升数字品牌的5个技巧

java通过反射获取加了某个注解的所有的类

Warshall算法

vector中迭代器失效的问题及解决办法

【蓝桥杯刷题训练营】day05

线程中断interrupt导致sleep产生的InterruptedException异常

ubuntu的快速安装与配置

Dark Reader终极指南：轻松为任何网站开启完美深色模式

LoRA 部署：微调后的模型怎么上线

解锁Midjourney V6复古风生产力：3步精准控制颗粒度、褪色曲线与时代错位感（附12组实测Prompt参数表）

DiskSpd深度解析：企业级存储性能调优的架构视角与实战指南

linux系统之进程管理详解

为什么你的Gemini总在“浅层回答”？揭秘深度研究模式的3层激活机制与强制触发密钥

【Lindy人力资源自动化方案】：20年HR Tech专家亲授，3大落地陷阱与5步零失败实施路径

3分钟搞定3D视频转2D：终极免费工具让普通设备也能体验VR沉浸感

5分钟掌握Windows字体清晰度优化：Better ClearType Tuner终极指南

SolveSpace参数化CAD设计：5大核心功能深度解析与实战指南