Pyspark学习二:快速入门基本数据结构
写在前面:实际工作中其实不需要自己安装和配置,更重要的是会用。所以就不研究怎么安装配置了。
前面介绍过:简单来说,Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算TB、PB乃至EB级别的海量数据。Spark作为全球顶级的分布式计算框架,支持众多的编程语言进行开发。Python语言,则是Spark重点支持的方向,体现为Python第三方库:PySpark。
一、快速入门
PySpark 应用程序从初始化开始,SparkSession这是 PySpark 的入口点。如下:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
刚接触Pyspark你可能有点懵,为啥你看别的教程可能发现:
使用Pyspark首先需要构建一个执行环境入口对象,PySpark的执行环境入口对象是类SparkContext
1.1. SparkSession 和 SparkContext 的区别
在Apache Spark中,SparkSession和SparkContext是两个核心的概念,他们在不同版本的Spark使用。
SparkContext
SparkContext是老一代API的核心入口点,它代表了一个到Spark集群的连接。通过SparkContext,你可以访问分布式计算的所有功能,比如创建RDD(Resilient Distributed Dataset),执行任务等。它是与集群交互的主要方式,在Spark应用程序中扮演着至关重要的角色。每个JVM中只能有一个活跃的SparkContext。在早期版本的Spark中,开发者直接使用SparkContext来编写程序。
SparkSession
SparkSession是在Spark 2.0中引入的一个新的抽象层,旨在为开发者提供一个统一的切入点来使用Spark的所有功能,包括DataFrame API、SQL查询、流处理等等。SparkSession内部包含了SparkContext,同时也提供了更高级的功能,使得操作更加简便。它允许你无缝地在不同类型的Spark API之间切换,而不需要显式地管理底层的SparkContext。
- 统一性:SparkSession提供了一种统一的方式来访问Spark的各种功能,避免了需要单独初始化SQLContext、HiveContext以及SparkContext的情况。
- 易用性:对于新用户来说,SparkSession更加直观易用,因为它简化了很多配置和初始化过程。
- 功能性:除了包含原有的SparkContext功能外,还增加了对DataFrame和Dataset的支持,可以直接运行SQL查询,支持流处理等更多高级特性。
总结来说,如果你正在使用的是较新版本的Spark,推荐使用SparkSession作为你的主要编程入口,因为它不仅涵盖了SparkContext的所有功能,而且还提供了额外的高级特性,使得开发更加高效便捷。而对于那些仍在维护基于旧版Spark的应用程序的开发者来说,理解并使用SparkContext仍然是必要的。
二、DataFrame 创建
通常, pyspark.sql.SparkSession.createDataFrame 通过传递列表、元组、字典和pyspark.sql.Row 的列表、由此类列表组成的 RDD 来创建 PySpark DataFrame。
pyspark.sql.SparkSession.createDataFrame使用schema参数来指定 DataFrame 的数据类型。当省略时,PySpark 通过从数据中抽取样本来推断相应的数据类型。
- eg1:从行列表中创建一个不指明数据类型的 PySpark DataFrame
from datetime import datetime, date
import pandas as pd
from pyspark.sql import Rowdf = spark.createDataFrame([Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
df
------------------------------------------------------------------------------------------
out:DataFrame[a:bigint,b:double,c:字符串,d:日期,e:时间戳]
- eg2:创建具有明确数据类型的 PySpark DataFrame。
df = spark.createDataFrame([(1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),(2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),(3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))
], schema='a long, b double, c string, d date, e timestamp')
df
------------------------------------------------------------------------------------------
out:DataFrame[a:bigint,b:double,c:字符串,d:日期,e:时间戳]
- eg3:直接用pandas 的 DataFrame 创建 PySpark DataFrame
pandas_df = pd.DataFrame({'a': [1, 2, 3],'b': [2., 3., 4.],'c': ['string1', 'string2', 'string3'],'d': [date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1)],'e': [datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0)]
})
df = spark.createDataFrame(pandas_df)
df
------------------------------------------------------------------------------------------
out:DataFrame[a:bigint,b:double,c:字符串,d:日期,e:时间戳]
- 上面创建的 DataFrames 都具有相同的结果和模式。
# All DataFrames above result same.
df.show()
df.printSchema()------------------------------------out------------------------------------------------------
+---+---+-------+----------+-------------------+
| a| b| c| d| e|
+---+----+----------+----------+-------------------+
| 1|2.0|字符串1|2000-01-01|2000-01-01 12:00:00|
| 2|3.0|字符串2|2000-02-01|2000-01-02 12:00:00|
| 3|4.0|字符串3|2000-03-01|2000-01-03 12:00:00|
+---+---+-------+----------+-------------------+ root |-- a: long(可空 = true)|-- b: double(可空 = true)|-- c: 字符串(可空 = true)|-- d: 日期(可空 = true)|-- e: 时间戳(可空 = true)
- 当创建了一个PySpark DataFrame,你可以通过如下语法查看其基本的数据结构和数据类型。
df.show(1)
df.show(1, vertical=True) # 行也可以垂直显示。当行太长而无法水平显示时,这很有用。
df.columns
df.select("a", "b", "c").describe().show() # 显示 DataFrame 的摘要
DataFrame.collect()将分布式数据作为 Python 中的本地数据收集到驱动程序端。方便进行各种运算操作。
df.collect()[out]:
[行(a=1,b=2.0,c='string1',d=datetime.date(2000, 1, 1),e=datetime.datetime(2000, 1, 1, 12, 0)),行(a=2,b=3.0,c='string2',d=datetime.date(2000, 2, 1),e=datetime.datetime(2000, 1, 2, 12, 0)),行(a=3,b=4.0,c='string3',d=datetime.date(2000, 3, 1),e=datetime.datetime(2000, 1, 3, 12, 0))]
- 为了避免引发内存不足异常,请使用DataFrame.take()或DataFrame.tail()。
df.take(1)
[out]:
[Row(a=1,b=2.0,c='string1',d=datetime.date(2000, 1, 1),e=datetime.datetime(2000, 1, 1, 12, 0))]
- PySpark DataFrame 还提供转换回pandas DataFrame 的功能,以利用 pandas API。
df.toPandas()
相关文章:
Pyspark学习二:快速入门基本数据结构
写在前面:实际工作中其实不需要自己安装和配置,更重要的是会用。所以就不研究怎么安装配置了。 前面介绍过:简单来说,Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算TB、PB乃至EB级别的海…...
Vue中虚拟DOM创建到挂载的过程
Vue中虚拟DOM创建到挂载的过程 流程概括下来基本上就是:模板 → AST → render函数 → 虚拟节点 → 挂载 AST:抽象语法树,它用于记录原始代码中所有的关键信息,根据AST可以将代码从一种语言转化为另一种语言。 虚拟DOM创建到挂载…...
选择网上购物系统要看几方面?
随着电子商务的迅猛发展,选择一个合适的网上购物系统已成为许多企业成功的关键。无论是初创企业还是已经成熟的公司,选择合适的购物系统都能显著提升用户体验、提高销售额和优化运营效率。本文将从几个重要方面探讨选择网上购物系统时需要考虑的关键因素…...
C++进阶知识复习 31~38
目的 写这一系列文章的目的主要是为了秋招时候应对计算机基础问题能够流畅的回答出来 (如果不整理下 磕磕绊绊的回答会被认为是不熟悉) 本文章题目的主要来源来自于 面试鸭 部分面试鸭上没有而牛客网上有的博主会进行查缺补漏 题目编号按照面试鸭官网…...
定制开发开源AI智能名片S2B2C商城小程序:技术赋能商业价值实现路径研究
摘要 在数字经济与社交新零售蓬勃发展的背景下,本研究聚焦"定制开发开源AI智能名片S2B2C商城小程序"这一创新技术解决方案,通过解析其技术架构、功能模块及业务应用场景,探讨其如何支持企业目标达成、补充技术栈短板、实现数据整合…...
美关税加征下,Odoo免费开源ERP如何助企业破局?
近期,美国特朗普政府推行的关税政策对全球供应链和进出口企业造成巨大冲击,尤其是依赖中美贸易的企业面临成本激增、利润压缩和合规风险。在此背景下,如何通过数字化转型优化管理效率、降低运营成本成为企业生存的关键。本文以免费开源ERP系统…...
高级:高并发架构面试题深度解析
一、引言 在现代互联网应用开发中,高并发架构设计是确保系统在高负载下仍能稳定、高效运行的关键。面试官通过相关问题,考察候选人对高并发系统设计的理解、架构模式的掌握以及在实际项目中解决问题的能力。本文将深入剖析高并发系统的设计原则、常见的…...
Unity中 JobSystem使用整理
Unity 的JobSystem允许创建多线程代码,以便应用程序可以使用所有可用的 CPU 内核来执行代码,这提供了更高的性能,因为您的应用程序可以更高效地使用运行它的所有 CPU 内核的容量,而不是在一个 CPU 内核上运行所有代码。 可以单独使…...
洛谷 P1032 [NOIP 2002 提高组] 字串变换
【题目链接】 洛谷 P1032 [NOIP 2002 提高组] 字串变换 【题目考点】 1. 广搜 2. 双向广搜 【解题思路】 解空间树中每个结点包含的状态为一个字符串s,该结点的子结点中的字符串为字符串s通过变换规则可以变化而成的字符串。求从起始字符串变换为最终字符串的…...
Python Websockets库深度解析:构建高效的实时Web应用
引言 在现代Web开发中,实时通信已经成为许多应用的核心需求。无论是聊天应用、在线游戏、金融交易平台还是协作工具,都需要服务器和客户端之间建立持久、双向的通信通道。传统的HTTP协议由于其请求-响应模式,无法有效满足这些实时交互需求。…...
42.C++11-右值引用与移动语义/完美转发
⭐上篇文章:41.C哈希6(哈希切割/分片/位图/布隆过滤器与海量数据处理场景)-CSDN博客 ⭐本篇代码:c学习/22.C11新特性的使用 橘子真甜/c-learning-of-yzc - 码云 - 开源中国 (gitee.com) ⭐标⭐是比较重要的部分 目录 一. 右值引用…...
LeetCode题二:判断回文
查阅资料我得到的结果远没有大佬们的做法更省时间,而且还很麻烦 我的代码(完整): class Solution:def isPalindrome(self, x: int) -> bool:# 若 x 为负数,由于负数不可能是回文数,直接返回 Falseif x < 0:return False# …...
[王阳明代数讲义]琴语言类型系统工程特性
琴语言类型系统工程特性 层展物理学组织实务与艺术与琴生生.物机.械科.技工.业研究.所软凝聚态物理开发工具包社会科学气质砥砺学人生意气场社群成员魅力场与心气微积分社会关系力学 意气实体过程图论信息编码,如来码导引 注意力机制道装Transformer架构的发展标度律…...
问题:tomcat下部署eureka双重路径
开发时在tomcat下启动eureka服务 客户端注册时需要地址需要注意 http://localhost:8761/eureka/eureka 后面一个eureka与tomcat context-path有关系按实际配置替换 如果不想要两个path可将tomcat context-path写为 / 建议使用 / 避免出现其他问题 如图...
JUC系列JMM学习之随笔
JUC: JUC 是 Java 并发编程的核心工具包,全称为 Java Util Concurrent,是 java.util.concurrent 包及其子包的简称。它提供了一套强大且高效的并发编程工具,用于简化多线程开发并提高性能。 CPU核心数和线程数的关系:1核处理1线程(同一时间单次) CPU内核结构: 工作内…...
React(九)React Hooks
初识Hook 我们到底为什么需要hook那? 函数组件类组件存在问题 函数组件存在的问题: import React, { PureComponent } from reactfunction HelloWorld2(props) {let message"Hello world"// 函数式组件存在的缺陷:// 1.修改message之后&a…...
PyTorch嵌入层(nn.Embedding)
在 PyTorch 中,nn.Embedding 层(即 model.user_embedding)除了 .weight 这个核心属性外,还有其他属性和方法。以下是完整的解析: 1. 主要属性 (1) weight(核心参数) 作用:存储所有…...
AIGC7——AIGC驱动的视听内容定制化革命:从Sora到商业化落地
引言:个性化视听时代的到来 2024年,OpenAI发布视频生成模型Sora,可生成60秒高清视频;中国团队推出的Vidu模型实现16秒镜头连贯生成。这些突破标志着AIGC正式进入高质量视听内容定制化阶段。据Gartner预测,到2027年&am…...
接上文,SpringBoot的线程池配置以及JVM监控
接上篇文章, 拿SpringBoot举个例 1.1 默认线程池的隐患 Spring Boot的Async默认使用SimpleAsyncTaskExecutor(无复用线程),频繁创建/销毁线程易引发性能问题。 1.2 自定义线程池配置 Configuration EnableAsync public class A…...
《AI大模型应知应会100篇》加餐篇:LlamaIndex 与 LangChain 的无缝集成
加餐篇:LlamaIndex 与 LangChain 的无缝集成 问题背景:在实际应用中,开发者常常需要结合多个框架的优势。例如,使用 LangChain 管理复杂的业务逻辑链,同时利用 LlamaIndex 的高效索引和检索能力构建知识库。本文在基于…...
部署大模型实战:如何巧妙权衡效果、成本与延迟?
目录 部署大模型实战:如何巧妙权衡效果、成本与延迟? 一、为什么要进行权衡? 二、权衡的三个关键维度 三、如何进行有效权衡?(实操策略) (一)明确需求场景与优先级 (…...
元素三大等待
硬性等待(强制等待) 线程休眠,强制等待 Thread.sleep(long millis);这是最简单的等待方式,使用time.sleep()方法来实现。在代码中强制等待一定的时间,不论元素是否已经加载完成,都会等待指定的时间后才继…...
【DY】信息化集成化信号采集与处理系统;生物信号采集处理系统一体机
MD3000-C信息化一体机生物信号采集处理系统 实验平台技术指标 01、整机外形尺寸:1680mm(L)*750mm(w)*2260mm(H); 02、实验台操作面积:750(w)*1340(L)(长*宽); 03、实验台面离地高度…...
康谋分享 | 仿真驱动、数据自造:巧用合成数据重构智能座舱
随着汽车向智能化、场景化加速演进,智能座舱已成为人车交互的核心承载。从驾驶员注意力监测到儿童遗留检测,从乘员识别到安全带状态判断,座舱内的每一次行为都蕴含着巨大的安全与体验价值。 然而,这些感知系统要在多样驾驶行为、…...
YOLO学习笔记 | 基于YOLOv5的车辆行人重识别算法研究(附matlab代码)
基于YOLOv5的车辆行人重识别算法研究 🥥🥥🥥🥥🥥🥥🥥🥥🥥🥥🥥🥥🥥🥥 摘要 本文提出了一种基于YOLOv5的车辆行人重识别(ReID)算法,结合目标检测与特征匹配技术,实现高效的多目标跟踪与识别。通过引入注意力机制、优化损失函数和轻量化网络结构…...
Vue 数据传递流程图指南
今天,我们探讨一下 Vue 中的组件传值问题。这不仅是我们在日常开发中经常遇到的核心问题,也是面试过程中经常被问到的重要知识点。无论你是初学者还是有一定经验的开发者,掌握这些传值方式都将帮助你更高效地构建和维护 Vue 应用 目录 1. 父…...
Node.js 与 MySQL:深入理解与高效实践
Node.js 与 MySQL:深入理解与高效实践 引言 随着互联网技术的飞速发展,Node.js 作为一种高性能的服务端JavaScript运行环境,因其轻量级、单线程和事件驱动等特点,受到了广大开发者的青睐。MySQL 作为一款开源的关系型数据库管理系统,以其稳定性和可靠性著称。本文将深入…...
鸿蒙NEXT开发缓存工具类(ArkTs)
import { ObjectUtil } from ./ObjectUtil;/*** 缓存工具类** 该类提供了一组静态方法,用于操作缓存数据。* 主要功能包括:获取缓存数据、存储缓存数据、删除缓存数据、检查键是否存在、判断缓存是否为空以及清空缓存。** author CSDN-鸿蒙布道师* since…...
【C语言】strstr查找字符串函数
一、函数介绍 strstr 是 C 语言标准库 <string.h> 中的字符串查找函数,用于在主字符串中查找子字符串的首次出现位置。若找到子串,返回其首次出现的地址;否则返回 NULL。它是处理字符串匹配问题的核心工具之一。 二、函数原型 char …...
使用pkexec 和其策略文件安全提权执行外部程序
一、pkexec 基本机制 pkexec 是 Linux 桌面环境下基于 PolicyKit 的安全提权工具,可通过交互式图形界面获取用户授权后,以 root 权限执行指定程序。其核心特点包括: 图形化密码输入:调用时自动弹出系统认证对话框&a…...
