当前位置：首页 > news >正文

PySpark大数据处理详细教程

news 2026/2/10 18:43:39

在这里插入图片描述
欢迎各位数据爱好者！今天，我很高兴与您分享我的最新博客，专注于探索 PySpark DataFrame 的强大功能。无论您是刚入门的数据分析师，还是寻求深入了解大数据技术的专业人士，这里都有丰富的知识和实用的技巧等着您。让我们一起潜入 PySpark 的世界，解锁数据处理和分析的无限可能！

基础操作

基础操作涵盖了数据的创建、加载、查看、选择、过滤、转换、聚合、排序、合并和导出等基本操作。

1.数据创建和加载

# 读取 CSV 文件
df = spark.read.csv("path/to/file.csv", header=True, inferSchema=True)# 读取 HIVE 表
hive_sql = f"select * from {DATABASE}.{TABLE_NAME} {CONDITION}"
df = spark.sql(hive_sql)# 读取 Parquet 文件
parquet_file = "path/to/parquet/file"
df = spark.read.parquet(parquet_file)

2.数据查看和检查

df.show(2,truncate=False)
df.printSchema()

3.查看分位数

quantiles = df.approxQuantile("salary", [0.25, 0.5, 0.75], 0)
# col：要计算分位数的列名，为字符串类型。
# probabilities：一个介于 0 和 1 之间的数字列表，表示要计算的分位数。例如，0.5 表示中位数。
# relativeError：相对误差。这是一个非负浮点数，用于控制计算精度。
# 值为 0 表示计算精确的分位数（可能非常耗时）。
# 随着该值的增加，计算速度会提高，但精度会降低。例如，如果 relativeError 为 0.01，则计算结果与真实分位数的差距在真实分位数的 1% 范围内。

4.数据选择和过滤

df.select("column1").show()
df.filter(df["column1"] > 100).show()# 或者
df.filter(F.col("column1") > 100).show()
5.数据转换和操作
df.withColumn("new_column", F.col("column1").cast("int"))).show()df.withColumn("new_column", df["column1"] + F.lit(100)).show()
df.withColumn("new_column", F.col("column1") + F.lit(100)).show()df.drop("column1").show()

6.数据聚合和分组

df.groupBy("column1").count().show()df.groupBy("column1")agg.(F.count(F.col("id"))).show()

7.排序和排名取TopN

df.orderBy(df["column1"].desc()).show()
df.orderBy(F.col("column1").desc()).show()

8.数据合并和连接

df1.join(df2, df1["column"] == df2["column"]).show()# 或者
from functools import reduce
from pyspark.sql import DataFrame
dataframes = [df1,df2,df3]
union_df = reduce(DataFrame.union, dataframes)

9.缺失值和异常值处理

df.na.fill({"column1": 0}).show()

10.数据转换和类型转换

df.withColumn("column_casted", df["column1"].cast("int")).show()

11.数据导出和写入

# 存储 DataFrame 为CSV
df.write.csv("path/to/output.csv")
# 存储 DataFrame 为HIVE
df.write.format("orc").mode("overwrite").saveAsTable(f"test.sample")
# 存储 DataFrame 为 Parquet 文件
output_path = "path/to/output/directory"
df.write.parquet(output_path)

高级操作

高级操作包括更复杂的数据处理技术、特征工程、文本处理和高级 SQL 查询。

1.数据分区和优化

df.repartition(10).write.parquet("path/to/output")

2.数据探索和分析

df.describe().show()
# 或者
df.summary().show())

3.复杂数据类型处理

from pyspark.sql.functions import explode
df.withColumn("exploded_col", explode(df["array_col"])).show()

4.特征工程

from pyspark.ml.feature import StringIndexer
indexer = StringIndexer(inputCol="category", outputCol="category_index")
df_indexed = indexer.fit(df).transform(df)

5.文本数据处理

from pyspark.ml.feature import Tokenizer
tokenizer = Tokenizer(inputCol="text", outputCol="words")
df_words = tokenizer.transform(df)

6.高级 SQL 查询

df.createOrReplaceTempView("table")
spark.sql("SELECT * FROM table WHERE column1 > 100").show()

进阶操作

进阶操作涵盖了性能调优、与其他数据源的集成和数据流处理，这些通常需要更深入的理解和经验。

1.性能调优和监控

df.explain()

2.与其他数据源集成

df_jdbc = spark.read \.format("jdbc") \.option("url", "jdbc:mysql://your-db-url") \.option("dbtable", "tablename") \.option("user", "username") \.option("password", "password") \.load()

3.数据流处理

df_stream = spark.readStream \.schema(df_schema) \.option("maxFilesPerTrigger", 1) \.json("/path/to/directory/")

4.使用 Structured Streaming

stream_query = df_stream.writeStream \.outputMode("append") \.format("console") \.start()
stream_query.awaitTermination()

这些示例提供了对 PySpark 操作的广泛了解，从基础到进阶，涵盖了数据处理和分析的多个方面。对于更复杂的场景和高级功能，强烈建议查阅 PySpark 的官方文档和相关教程。
在这里插入图片描述

PySpark大数据处理详细教程

欢迎各位数据爱好者！今天，我很高兴与您分享我的最新博客，专注于探索 PySpark DataFrame 的强大功能。无论您是刚入门的数据分析师，还是寻求深入了解大数据技术的专业人士，这里都有丰富的知识和实用的技巧等着您。让我们…...

编程日记 2023/12/12 14:06:36

三（五）ts非基础类型（对象）

在ts里面定义对象的方式也有很多。普通定义 let obj1:{} {} // obj1.name fufu 报错，只能定义为空对象且不能修改 // 但是可以在赋初始值的时候直接添加属性，这是ts在类型推断时，它会宽容地匹配对象的结构。 let obj2:{} {name: fufu}…...

编程日记 2023/12/12 14:03:34

HeartBeat监控Redis状态

目录一、概述二、安装部署三、配置四、启动服务五、查看数据一、概述使用heartbeat可以实现在kibana界面对redis服务存活状态进行观察，如有必要，也可在服务宕机后立即向相关人员发送邮件通知二、安装部署参照文章：HeartBeat监…...

编程日记 2023/12/12 14:02:33

FairGuard无缝兼容小米澎湃OS、ColorOS 14 、鸿蒙4！

随着移动互联网时代的发展，各大手机厂商为打造生态系统、构建自身的技术壁垒，纷纷投身自研操作系统。而对于一款游戏安全产品，在不同操作系统下，是否能够无缝兼容并且提供稳定的、高强度的加密保护，成了行业的一大痛…...

编程日记 2023/12/12 13:58:28

【Copilot】Edge浏览器的copilot消失了怎么办

这种原因，可能是因为你的ip地址的不在这个服务的允许范围内。你需要重新使用之前出现copilot的ip地址，然后退出edge的账号，重新登录一遍，最后重启edge，就能够使得copilot侧边栏重新出现了。...

编程日记 2023/12/12 13:56:26

C++入门【6-C++ 修饰符类型】

C 修饰符类型 C 允许在 char、int 和 double 数据类型前放置修饰符。修饰符是用于改变变量类型的行为的关键字，它更能满足各种情境的需求。下面列出了数据类型修饰符： signed：表示变量可以存储负数。对于整型变量来说，signe…...

编程日记 2023/12/12 13:55:25

STP笔记总结

STP --- 生成树协议 STP（Spanning Tree Protocol，生成树协议）是根据 IEEE802.1D标准建立的，用于在局域网中消除数据链路层环路的协议。运行STP协议的设备通过彼此交互信息发现网络中的环路，并有选择地对某些端口进行阻…...

编程日记 2023/12/12 13:49:20

Qt开发之记一次安装 Qt5.12.12 安卓环境的失败案例

文章目录 1、安装Qt2、安卓开发的组合套件2.1、CSDN地址2.2、官网地址2.3、发现老方法不适用了 3、尝试用新方法解决3.1、先安装JDK，搞定JDK环境变量3.1.1、安装jdk3.1.2、确定jdk安装路径3.1.3、打开系统环境变量配置3.1.4、配置系统环境变量3.1.5、验证JDK环境变量…...

编程日记 2023/12/12 13:47:18

基于SpringBoot的就业信息管理系统设计与实现（源码+数据库+文档）

摘要在新冠肺炎疫情的影响下，大学生的就业问题已经变成了一个引起人们普遍重视的社会焦点问题。在这次疫情的冲击之下，大学生的就业市场的供求双方都受到了不同程度的影响，大学生的就业情况并不十分乐观。目前，各种招聘平台上…...

编程日记 2023/12/12 13:46:17

Java面试整理（四）Java IO流

我记得自己刚开始学Java的时候，都听过师兄的分享，说IO流是很重要，而且很难。自己正式接触之后，其实IO流这块知识并不是特别难，而且随着IT的发展，IO流这块反而用得不是很多。特别是在应用开发这个层面，用得更少。当然，可能会有朋友跳出来说“这怎么可能？你不懂Java吧…...

编程日记 2023/12/12 13:43:14

《安富莱嵌入式周报》第328期：自主微型机器人，火星探测器发射前失误故障分析，微软推出12周24期免费AI课程，炫酷3D LED点阵设计，MDK5.39发布

周报汇总地址：嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 更新一期视频教程： 【实战技能】单步运行源码分析，一期视频整明白FreeRTOS内核源码框架和运行…...

编程日记 2023/12/12 13:41:11

产品经理在项目周期中扮演的角色Axure的安装与基本使用

目录一.项目周期流程二.Axure是什么三.Axure安装 3.1 一键式安装 3.2 汉化 3.3 授权登录四.Axure的界面介绍及基本使用 4.1 菜单栏的使用 4.2 工具栏的使用 4.3 页面概要的使用及组件的使用 4.4 组件的样式设计一.项目周期流程在一般的项目周期中包含的工作内容有&…...

编程日记 2023/12/12 13:40:11

Dockerfile创建镜像介绍

1.介绍 Docker 提供了一种更便捷的方式，叫作 Dockerfile，docker build命令用于根据给定的Dockerfile构建Docker镜像。 docker build语法： # docker build [OPTIONS] <PATH | URL | -> 常用选项说明 --build-arg，设置构建时的…...

编程日记 2023/12/12 13:39:10

Android 滥用 SharedPreference 导致 ANR 问题

SharedPreference 是 Android 平台提供的一种轻量级的数据存储方式，它用于存储应用的配置信息或者一些简单的数据。SharedPreference 基于键值对的存储，并且支持基本的数据类型，如整型、字符串、布尔值等。它的使用非常简单方便，适…...

编程日记 2023/12/12 13:37:08

文章目录载具Vehicle Variety Pack（车辆品种包）Vehicle Variety Pack Volume 2（车辆品种包第 2 卷）家具Free Furniture Pack（免费家具包）Old West - VOL 1 - Interior Furniture（旧西部 - 第1卷 - 家具包）Old West VOL.3 - Travel Supplies and Goods（旧西部 - 第3卷…...

编程日记 2023/12/12 13:34:05

docker: Error response from daemon: failed to create shim task: OCI runtime

1 概述在解决"Docker: Error response from daemon: failed to create shim task: OCI runtime"问题之前，我们先来了解一下Docker和OCI runtime的基本概念。 Docker是一个开源的应用容器引擎，可以帮助开发者将应用程序和其依赖打包到一个可…...

编程日记 2023/12/12 13:31:02

SpringBoot+线程池实现高频调用http接口并多线程解析json数据

场景 SpringbootFastJson实现解析第三方http接口json数据为实体类(时间格式化转换、字段包含中文)： SpringbootFastJson实现解析第三方http接口json数据为实体类(时间格式化转换、字段包含中文)-CSDN博客 Java中ExecutorService线程池的使用(Runnable和Callable多…...

编程日记 2023/12/12 13:29:01

java实现局域网内视频投屏播放（一）背景/需求

一背景我们在用电视上投屏电影或者电视剧时，如果没有vip，用盗版电影网站投屏的话会有两个问题，1:他们网站没有投屏功能。2:卡！！！。还有就是不能随心所欲的设置自己先要自动播放的视频列表（如…...

编程日记 2023/12/12 13:24:56

【Spring】手写一个简易starter

需求： 自定义一个starter，里面包含一个TimeLog注解和一个TimeLogAspect切面类，用于统计接口耗时。要求在其它项目引入starter依赖后，启动springboot项目时能进行自动装配。步骤： （1）引入pom依赖…...

编程日记 2023/12/12 13:21:53

Spring Cloud Alibaba实践 --Sentinel

sentinel介绍 Sentinel的官方标题是：分布式系统的流量防卫兵。从名字上来看，很容易就能猜到它是用来作服务稳定性保障的。对于服务稳定性保障组件，如果熟悉Spring Cloud的用户，第一反应应该就是Hystrix。但是比较可惜的是Netflix…...

编程日记 2023/12/12 13:16:49

龙虎榜——20250610

上证指数放量收阴线，个股多数下跌，盘中受消息影响大幅波动。深证指数放量收阴线形成顶分型，指数短线有调整的需求，大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技代表标的：御银股份、雄帝科技驱动…...

编程新知 2026/2/8 15:03:06

MPNet：旋转机械轻量化故障诊断模型详解python代码复现

目录一、问题背景与挑战二、MPNet核心架构 2.1 多分支特征融合模块（MBFM） 2.2 残差注意力金字塔模块（RAPM） 2.2.1 空间金字塔注意力（SPA） 2.2.2 金字塔残差块（PRBlock） 2.3 分类器设计三、关键技术突破 3.1 多尺度特征融合 3.2 轻量化设计策略 3.3 抗噪声…...

编程新知 2026/2/7 5:16:28

23-Oracle 23 ai 区块链表（Blockchain Table）

小伙伴有没有在金融强合规的领域中遇见，必须要保持数据不可变，管理员都无法修改和留痕的要求。比如医疗的电子病历中，影像检查检验结果不可篡改行的，药品追溯过程中数据只可插入无法删除的特性需求；登录日志、修改日志…...

编程新知 2026/2/10 8:01:46

【Linux】C语言执行shell指令

在C语言中执行Shell指令在C语言中，有几种方法可以执行Shell指令： 1. 使用system()函数这是最简单的方法，包含在stdlib.h头文件中： #include <stdlib.h>int main() {system("ls -l"); // 执行ls -l命令retu…...

编程新知 2025/11/20 18:42:48

ESP32读取DHT11温湿度数据

芯片：ESP32 环境：Arduino 一、安装DHT11传感器库红框的库，别安装错了二、代码注意，DATA口要连接在D15上 #include "DHT.h" // 包含DHT库#define DHTPIN 15 // 定义DHT11数据引脚连接到ESP32的GPIO15 #define D…...

编程新知 2026/1/30 8:46:45

条件运算符

C中的三目运算符（也称条件运算符，英文：ternary operator）是一种简洁的条件选择语句，语法如下： 条件表达式 ? 表达式1 : 表达式2• 如果“条件表达式”为true，则整个表达式的结果为“表达式1”…...

编程新知 2025/12/6 22:50:48

第一篇：Agent2Agent (A2A) 协议——协作式人工智能的黎明

AI 领域的快速发展正在催生一个新时代，智能代理（agents）不再是孤立的个体，而是能够像一个数字团队一样协作。然而，当前 AI 生态系统的碎片化阻碍了这一愿景的实现，导致了“AI 巴别塔问题”——不同代理之间…...

编程新知 2026/1/31 3:30:33

HBuilderX安装（uni-app和小程序开发）

下载HBuilderX 访问官方网站：https://www.dcloud.io/hbuilderx.html 根据您的操作系统选择合适版本： Windows版（推荐下载标准版） Windows系统安装步骤运行安装程序： 双击下载的.exe安装文件如果出现安全提示&…...

编程新知 2026/1/31 12:52:04

leetcodeSQL解题：3564. 季节性销售分析

leetcodeSQL解题：3564. 季节性销售分析题目： 表：sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...

编程新知 2026/2/10 3:44:54

k8s业务程序联调工具-KtConnect

概述原理工具作用是建立了一个从本地到集群的单向VPN，根据VPN原理，打通两个内网必然需要借助一个公共中继节点，ktconnect工具巧妙的利用k8s原生的portforward能力，简化了建立连接的过程，apiserver间接起到了中继节…...

编程新知 2026/2/1 4:14:14