当前位置：首页 > news >正文

Spark教程5-基本结构化操作

news 2026/5/12 21:23:32

加载csv文件

df = spark.read.format("json").load("/data/flight-data/json/2015-summary.json")

Schema

输出Schema

df.printSchema()

使用Schema读取csv文件，以指定数据类型

from pyspark.sql.types import StructField, StructType, StringType, LongTypemySchema = StructType([StructField("DEST_COUNTRY_NAME", StringType(), True),StructField("ORIGIN_COUNTRY_NAME", StringType(), True),StructField("count", LongType(), False)]
)
df = spark.read.format("json").schema(mySchema).load("/Users/yangyong/dev/learn_spark/2015-summary.json")

行

获取第一行

df.first()

创建行

from pyspark.sql import RowmyRow = Row("Hello", None, 1, False)

创建DataFrames

加载csv文件为DataFrames

df = spark.read.format("json").load("/data/flight-data/json/2015-summary.json")

合并Schema和Rows为DataFrames

Schema1 = StructType([StructField("id", StringType(), True),StructField("name", StringType(), True),StructField("country", StringType(), True)]
)row1 = Row('1', 'Oscar', 'United States')
row2 = Row('2', 'China', 'England')
myDF = spark.createDataFrame([row1, row2], schema=Schema1)
myDF.show()"""
+---+-----+-------------+
| id| name|      country|
+---+-----+-------------+
|  1|Oscar|United States|
|  2|China|      England|
+---+-----+-------------+
"""

两种查询：select和selectExpr

select

from  pyspark.sql.functions import expr, col, columndf.select('dest_country_name').show(2)
df.select('dest_country_name', 'origin_country_name').show(2)
df.select(expr('dest_country_name'), col('dest_country_name'), column('dest_country_name')).show(2)"""
+-----------------+
|dest_country_name|
+-----------------+
|    United States|
|    United States|
+-----------------+
only showing top 2 rows+-----------------+-------------------+
|dest_country_name|origin_country_name|
+-----------------+-------------------+
|    United States|            Romania|
|    United States|            Croatia|
+-----------------+-------------------+
only showing top 2 rows+-----------------+-----------------+-----------------+
|dest_country_name|dest_country_name|dest_country_name|
+-----------------+-----------------+-----------------+
|    United States|    United States|    United States|
|    United States|    United States|    United States|
+-----------------+-----------------+-----------------+
only showing top 2 rows
"""

列重命名

df.select(expr('dest_country_name as destination')).show(2)
df.select(col('dest_country_name').alias('destination')).show(2)"""
+-------------+
|  destination|
+-------------+
|United States|
|United States|
+-------------+
only showing top 2 rows+-------------+
|  destination|
+-------------+
|United States|
|United States|
+-------------+
only showing top 2 rows
"""

selectExpr

列重命名

df.selectExpr('dest_country_name as destination', 'dest_country_name').show(2)"""
+-------------+-----------------+
|  destination|dest_country_name|
+-------------+-----------------+
|United States|    United States|
|United States|    United States|
+-------------+-----------------+
only showing top 2 rows
"""

新增列

df.selectExpr('*', '(dest_country_name = origin_country_name) as withinCountry').show(2)"""
+-----------------+-------------------+-----+-------------+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|withinCountry|
+-----------------+-------------------+-----+-------------+
|    United States|            Romania|   15|        false|
|    United States|            Croatia|    1|        false|
+-----------------+-------------------+-----+-------------+
only showing top 2 rows
"""

相当于SQL

SELECT *, (dest_country_name = origin_country_name) as withinCountry 
FROM dfTable limit 2

使用聚合函数

df.selectExpr('avg(count)', 'count(distinct(dest_country_name))').show(2)"""
+-----------+---------------------------------+
| avg(count)|count(DISTINCT dest_country_name)|
+-----------+---------------------------------+
|1770.765625|                              132|
+-----------+---------------------------------+
"""

添加列 withColumn

from pyspark.sql.functions import litdf.withColumn('numberOne', lit(1)).show(2)
df.withColumn('withinCountry', expr('dest_country_name == origin_country_name')).show(2)"""
+-----------------+-------------------+-----+---------+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|numberOne|
+-----------------+-------------------+-----+---------+
|    United States|            Romania|   15|        1|
|    United States|            Croatia|    1|        1|
+-----------------+-------------------+-----+---------+
only showing top 2 rows+-----------------+-------------------+-----+-------------+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|withinCountry|
+-----------------+-------------------+-----+-------------+
|    United States|            Romania|   15|        false|
|    United States|            Croatia|    1|        false|
+-----------------+-------------------+-----+-------------+
only showing top 2 rows
"""

列重命名 withColumnRenamed

df.withColumnRenamed('dest_country_name', 'dest').show(2)"""
+-------------+-------------------+-----+
|         dest|ORIGIN_COUNTRY_NAME|count|
+-------------+-------------------+-----+
|United States|            Romania|   15|
|United States|            Croatia|    1|
+-------------+-------------------+-----+
only showing top 2 rows
"""

去掉列

df.drop('origin_country_name').show(2)
"""
+-----------------+-----+
|DEST_COUNTRY_NAME|count|
+-----------------+-----+
|    United States|   15|
|    United States|    1|
+-----------------+-----+
only showing top 2 rows
"""

修改列类型

df.withColumn('count2', col('count').cast('long'))

行过滤 filter/where

这两者是等价的

df.filter('count < 2').show(2)
df.where('count < 2').show(2)
df.where(col('count') < 2).show(2)"""
+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|    United States|            Croatia|    1|
|    United States|          Singapore|    1|
+-----------------+-------------------+-----+
only showing top 2 rows+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|    United States|            Croatia|    1|
|    United States|          Singapore|    1|
+-----------------+-------------------+-----+
only showing top 2 rows+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|    United States|            Croatia|    1|
|    United States|          Singapore|    1|
+-----------------+-------------------+-----+
only showing top 2 rows
"""

多个条件过滤

df.where('count < 2').where('dest_country_name != "United States"').show(2)"""
+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|          Moldova|      United States|    1|
|            Malta|      United States|    1|
+-----------------+-------------------+-----+
only showing top 2 rows
"""

去重

df.select('dest_country_name', 'origin_country_name').distinct().count()"""
equal to SQL:
SELECT COUNT(DISTINCT(dest_country_name, origin_country_name)) FROM dfTable;
"""

合并DataFrames

拥有同样的Schema以及columns才能合并

from pyspark.sql import Row
schema = df.schema
newRows = [Row("New Country", "Other Country", 5),Row("New Country 2", "Other Country 3", 1)
]
newDF = spark.createDataFrame(newRows, schema)# in Python
df.union(newDF)\.where("count = 1")\.where(col("ORIGIN_COUNTRY_NAME") != "United States")\.show()
"""
+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|    United States|            Croatia|    1|
|    United States|          Singapore|    1|
|    United States|          Gibraltar|    1|
|    United States|             Cyprus|    1|
|    United States|            Estonia|    1|
|    United States|          Lithuania|    1|
|    United States|           Bulgaria|    1|
|    United States|            Georgia|    1|
|    United States|            Bahrain|    1|
|    United States|   Papua New Guinea|    1|
|    United States|         Montenegro|    1|
|    United States|            Namibia|    1|
|    New Country 2|    Other Country 3|    1|
+-----------------+-------------------+-----+
"""

行排序 sort/orderBy

两种方式等价


df.sort("count").show(5)
df.orderBy("count", "DEST_COUNTRY_NAME").show(5)
df.orderBy(col("count"), col("DEST_COUNTRY_NAME")).show(5)from pyspark.sql.functions import desc, ascdf.orderBy(expr("count desc")).show(2)
df.orderBy(col("count").desc(), col("DEST_COUNTRY_NAME").asc()).show(2)

Limit

df.limit(5).show()
df.orderBy(expr("count desc")).limit(6).show()

Spark教程5-基本结构化操作

加载csv文件 df spark.read.format("json").load("/data/flight-data/json/2015-summary.json")Schema 输出Schema df.printSchema()使用Schema读取csv文件，以指定数据类型 from pyspark.sql.types import StructField, StructType, Strin…...

编程日记 2024/10/26 4:58:43

内置数据类型、变量名、字符串、数字及其运算、数字的处理、类型转换

内置数据类型 python中的内置数据类型包括：整数、浮点数、布尔类型（以大写字母开头）、字符串变量名命名变量要见名知意，确保变量名称具有描述性和意义，这样可以使得代码更容易维护，使用_可以使得变量名…...

编程日记 2024/10/26 4:56:41

Win/Mac/Android/iOS怎麼刪除代理設置？

設置代理設置的主要構成 IP 地址和端口這些是代理伺服器配置的最基本組件。代理伺服器的IP地址引導互聯網流量，而端口號指定伺服器上的通信通道。為什麼要刪除代理設置？ 刪除代理設置通常是為了解決網路問題、提高速度、恢復安全性或過渡到新的網路…...

编程日记 2024/10/26 4:55:38

数据结构------手撕顺序表

文章目录线性表顺序表的使用及其内部方法ArrayList 的扩容机制顺序表的几种遍历方式顺序表的优缺点顺序表的模拟实现洗牌算法线性表线性表（linear list）是n个具有相同特性的数据元素的有限序列。线性表是一种在实际中广泛使用的数据结构，…...

编程日记 2024/10/26 4:54:37

UDP(用户数据报协议)端口监控

随着网络的扩展，确保高效的设备通信对于优化网络功能变得越来越重要。在这个过程中，端口发挥着重要作用，它是实现外部设备集成的物理连接器。通过实现数据的无缝传输和交互，端口为网络基础设施的顺畅运行提供了保障。端口使数据通…...

编程日记 2024/10/26 4:53:35

【Java小白图文教程】-05-数组和排序算法详解

精品专题： 01.《C语言从不挂科到高绩点》课程详细笔记 https://blog.csdn.net/yueyehuguang/category_12753294.html?spm1001.2014.3001.5482 02. 《SpringBoot详细教程》课程详细笔记 https://blog.csdn.net/yueyehuguang/category_12789841.html?spm1001.20…...

编程日记 2024/10/26 4:52:34

OpenCV视觉分析之目标跟踪(1)计算密集光流的类DISOpticalFlow的介绍

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述这个类实现了 Dense Inverse Search (DIS) 光流算法。更多关于该算法的细节可以在文献 146中找到。该实现包含了三个预设参数集，以提…...

编程日记 2024/10/26 4:51:31

Lucas带你手撕机器学习——套索回归

好的，下面我将详细介绍套索回归的背景、理论基础、实现细节以及在实践中的应用，同时还会讨论其优缺点和一些常见问题。套索回归（Lasso Regression） 1. 背景与动机在机器学习和统计学中，模型的复杂性通常会影响其在…...

编程日记 2024/10/26 4:50:27

面试中的一个基本问题：如何在数据库中存储密码？

面试中的一个基本问题：如何在数据库中存储密码？ 在安全面试中，“如何在数据库中存储密码？”是一个基础问题，但反映了应聘者对安全最佳实践的理解。以下是安全存储密码的最佳实践概述。了解风险存储密码必须安全&am…...

编程日记 2024/10/26 4:49:27

XML HTTP Request

XML HTTP Request 简介 XMLHttpRequest（XHR）是一个JavaScript对象，它最初由微软设计，并在IE5中引入，用于在后台与服务器交换数据。它允许网页在不重新加载整个页面的情况下更新部分内容，这使得网页能够实现动态更新，大大提高了用户体验。虽然名字中包含“XML”，但XML…...

编程日记 2024/10/26 4:48:26

TLS协议基本原理与Wireshark分析

01背景随着车联网的迅猛发展，汽车已经不再是传统的机械交通工具，而是智能化、互联化的移动终端。然而，随之而来的是对车辆通信安全的日益严峻的威胁。在车联网生态系统中，车辆通过无线网络与其他车辆、基础设施以及云端服务进行…...

编程日记 2024/10/26 4:47:25

当遇到 502 错误（Bad Gateway）怎么办

很多安装雷池社区版的时候，配置完成，访问的时候可能会遇到当前问题，如何解决呢？ 客户端，浏览器排查 1.刷新页面和清除缓存首先尝试刷新页面，因为有时候 502 错误可能是由于网络临时波动导致服务器无法连…...

编程日记 2024/10/26 4:46:24

学习记录：js算法（七十五）：加油站

文章目录加油站思路一思路二思路三思路四思路五加油站在一条环路上有 n 个加油站，其中第 i 个加油站有汽油 gas[i] 升。你有一辆油箱容量无限的的汽车，从第 i 个加油站开往第 i1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加油站出发&#xf…...

编程日记 2024/10/26 4:45:23

强心剂！EEMD-MPE-KPCA-LSTM、EEMD-MPE-LSTM、EEMD-PE-LSTM故障识别、诊断

强心剂！EEMD-MPE-KPCA-LSTM、EEMD-MPE-LSTM、EEMD-PE-LSTM故障识别、诊断目录强心剂！EEMD-MPE-KPCA-LSTM、EEMD-MPE-LSTM、EEMD-PE-LSTM故障识别、诊断效果一览基本介绍程序设计参考资料效果一览基本介绍 EEMD-MPE-KPCA-LSTM(集合经验模态分解-多尺…...

编程日记 2024/10/26 4:44:22

yarn的安装与使用以及与npm的区别（安装过程中可能会遇到的问题）

一、yarn的安装使用npm就可以进行安装但是需要注意的一点是yarn的使用和node版本是有关系的必须是16.0以上的版本。输入以下代码就可以实现yarn的安装 npm install -g yarn 再通过版本号的检查来确定，yarn是否安装成功 yarn -v二、遇到的问题 1、问题描述…...

编程日记 2024/10/26 4:39:15

大数据行业预测

大数据行业预测编译李升伟和所有预测一样，我们必须谨慎对待这些预测，因为其中一些预测可能成不了事实。当然，真正改变游戏规则的创新往往出乎意料，甚至让最警惕的预言家也措手不及。所以，如果在来年发生了一些惊天…...

编程日记 2024/10/26 4:36:09

可能是NextJs(使用ssr、api route)打包成桌面端(nextron、electron、tauri)的最佳解决方式

可能是NextJs(使用ssr、api route)打包成桌面端(nextron、electron、tauri)的最佳解决方式前言在我使用nextron（nextelectron）写了一个项目后打包发现nextron等一系列桌面端框架在生产环境是不支持next的ssr也就是api route功能的这就导致我非常难受&…...

编程日记 2024/10/26 4:32:04

二百七十、Kettle——ClickHouse中增量导入清洗数据错误表

一、目的比如原始数据100条，清洗后，90条正确数据在DWD层清洗表，10条错误数据在DWD层清洗数据错误表，所以清洗数据错误表任务一定要放在清洗表任务之后。更关键的是，Hive中原本的SQL语句，放在ClickHouse…...

编程日记 2024/10/26 4:25:58

CentOS6升级OpenSSH9.2和OpenSSL3

文章目录 1.说明2.下载地址3.升级OpenSSL4.安装telnet 服务4.1.安装 telnet 服务4.2 关闭防火墙4.2.使用 telnet 连接 5.升级OpenSSH5.1.安装相关命令依赖5.2.备份原 ssh 配置5.3.卸载原有的 OpenSSH5.4.安装 OpenSSH5.5.修改 ssh 配置文件5.6关闭 selinux5.7.重启 OpenSSH 1.说…...

编程日记 2024/10/26 4:24:57

2024 年 MathorCup 数学应用挑战赛——大数据竞赛-赛道 A：台风的分类与预测

2024年MathorCup大数据挑战赛-赛道A初赛--思路https://download.csdn.net/download/qq_52590045/89922904↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓…...

编程日记 2024/10/26 4:23:50

终极大脑训练指南：5个简单步骤用BrainWorkshop提升你的认知能力

终极大脑训练指南：5个简单步骤用BrainWorkshop提升你的认知能力【免费下载链接】brainworkshop Continued development of the popular brainworkshop game 项目地址: https://gitcode.com/gh_mirrors/br/brainworkshop BrainWorkshop是一款专业的免费开源大…...

编程新知 2026/5/12 20:48:39

SatGate-Proxy：开源反向代理与隧道工具部署与实战指南

1. 项目概述与核心价值最近在折腾一些需要跨地域、跨网络环境访问的应用时，遇到了一个老生常谈的痛点：如何稳定、高效地访问那些因为网络策略限制而无法直接触达的服务。这不仅仅是个人用户的需求，很多中小团队在部署混合云、进行远程办公或访…...

编程新知 2026/5/12 20:41:29

Vector机器人视觉感知入门：基于OpenCV的目标检测实践

我无法基于您提供的输入内容生成符合要求的博文。原因如下：输入内容严重缺失实质性项目信息：仅有标题“Teaching a Vector Robot to detect Another Vector Robot”，但全文未提供任何技术细节、实现方法、硬件配置、软件环境、算法思路、传感…...

编程新知 2026/5/12 20:26:32

AI赋能医院物流：基于PDCA循环的智能供应链韧性提升实践

1. 项目概述：当医院物流遇上AI与PDCA医院物流，听起来可能有点“幕后”，但它绝对是现代医疗体系顺畅运转的“大动脉”。从高值耗材、药品、检验试剂，到被服布草、医疗废物，甚至是一日三餐，这条链条上任何一个…...

编程新知 2026/5/12 19:39:06

如何评估Diem投资价值：代币经济学与估值模型终极指南

如何评估Diem投资价值：代币经济学与估值模型终极指南【免费下载链接】diem Diem’s mission is to build a trusted and innovative financial network that empowers people and businesses around the world. 项目地址: https://gitcode.com/gh_mirrors/di/die…...

编程新知 2026/5/12 18:56:27

NodeMCU PyFlasher：ESP8266图形化固件烧录终极解决方案

NodeMCU PyFlasher：ESP8266图形化固件烧录终极解决方案【免费下载链接】nodemcu-pyflasher Self-contained NodeMCU flasher with GUI based on esptool.py and wxPython. 项目地址: https://gitcode.com/gh_mirrors/no/nodemcu-pyflasher 对于ESP8266开发者…...

编程新知 2026/5/12 18:52:19

通过 curl 命令在 Ubuntu 终端快速测试 Taotoken 的 API 连通性

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过 curl 命令在 Ubuntu 终端快速测试 Taotoken 的 API 连通性在服务器或容器环境中进行开发或部署时，直接使用 curl…...

编程新知 2026/5/12 18:28:50

Pytorch图像去噪实战（七十四）：Kubernetes部署图像去噪服务，实现容器编排和弹性扩展

Pytorch图像去噪实战（七十四）：Kubernetes部署图像去噪服务，实现容器编排和弹性扩展一、问题场景：Docker Compose够用，但多服务扩展开始吃力前面我们用 Docker Compose 部署了图像去噪服务。 Compose 对单机部署非常好用，但当项目变复杂后，会遇到：多台机器部署困难…...

编程新知 2026/5/12 17:58:51

如何在手机上免费播放任何视频格式？VLC for Android给你答案！

如何在手机上免费播放任何视频格式？VLC for Android给你答案！ 【免费下载链接】vlc-android VLC for Android, Android TV and ChromeOS 项目地址: https://gitcode.com/gh_mirrors/vl/vlc-android 你是否曾经遇到过这样的情况：下载了…...

编程新知 2026/5/12 16:13:18

Java集成OpenAI全攻略：从SDK选型到企业级应用实战

1. 项目概述与核心价值最近在折腾一个内部的知识库问答机器人，后端服务用Java写的，自然就想找个好用的OpenAI SDK来对接。市面上Java的客户端库不少，但要么封装得过于简单，很多高级功能没有，要么就是更新不及时&#x…...

编程新知 2026/5/12 15:41:49