当前位置：首页 > news >正文

【大数据学习 | Spark-SQL】SparkSQL读写数据

news 2026/5/12 15:29:28

我们使用sparksql进行编程，编程的过程我们需要创建dataframe对象，这个对象的创建方式我们是先创建RDD然后再转换rdd变成为DataFrame对象。

但是sparksql给大家提供了多种便捷读取数据的方式。

//原始读取数据方式
sc.textFile().toRDD
sqlSc.createDataFrame(rdd,schema)
//更便捷的使用方式
sqlSc.read.text|orc|parquet|jdbc|csv|json
df.write.text|orc|parquet|jdbc|csv|json

write写出存储数据的时候也是文件夹的，而且文件夹不能存在。

csv是一个介于文本和excel之间的一种格式，如果是文本打开用逗号分隔的。
text文本普通文本，但是这个文本必须只能保存一列内容。

以上两个文本都是只有内容的，没有列的。

json是一种字符串结构，本质就是字符串，但是存在kv，例子 {"name":"zhangsan","age":20}

多平台解析方便，带有格式信息。

orc格式一个列式存储格式，hive专有的。
parquet列式存储，顶级项目

以上都是列式存储问题，优点(1.列式存储，检索效率高，防止冗余查询 2.带有汇总信息，查询特别快 3.带有轻量级索引，可以跳过大部分数据进行检索)，他们都是二进制文件，带有格式信息。

jdbc 方式，它是一种协议，只要符合jdbc规范的服务都可以连接，mysql,oracle,hive,sparksql

整体代码：

package com.hainiu.sparkimport org.apache.spark.sql.SQLContext
import org.apache.spark.sql.expressions.Window
import org.apache.spark.{SparkConf, SparkContext}import java.util.Propertiesobject TestMovieWithSql {def main(args: Array[String]): Unit = {//??movie???//1.id  middle=name  last=typeval conf = new SparkConf()conf.setAppName("movie")conf.setMaster("local[*]")conf.set("spark.shuffle.partitions","20")val sc = new SparkContext(conf)val sqlSc = new SQLContext(sc)import sqlSc.implicits._//deal dataval df = sc.textFile("data/movies.txt").flatMap(t => {val strs = t.split(",")val mid = strs(0)val types = strs.reverse.headval name = strs.tail.reverse.tail.reverse.mkString(" ")types.split("\\|").map((mid, name, _))}).toDF("mid", "mname", "type")df.limit(1).show()val df1 = sc.textFile("data/ratings.txt").map(t=>{val strs = t.split(",")(strs(0),strs(1),strs(2).toDouble)}).toDF("userid","mid","score")df1.limit(1).show()import org.apache.spark.sql.functions._val df11 = df.join(df1, "mid").groupBy("userid", "type").agg(count("userid").as("cnt")).withColumn("rn", row_number().over(Window.partitionBy("userid").orderBy($"cnt".desc))).where("rn = 1").select("userid", "type")val df22 = df.join(df1, "mid").groupBy("type", "mname").agg(avg("score").as("avg")).withColumn("rn", row_number().over(Window.partitionBy("type").orderBy($"avg".desc))).where("rn<4").select("type", "mname")val df33 = df11.join(df22, "type")//spark3.1.2?? spark2.x//    df33.write.csv()df33.write.format("csv").save("data/csv")//    df33.write.
//      csv("data/csv")
//    df33.write.json("data/json")//    df33.write.parquet("data/parquet")
//    df33.write.orc("data/orc")
//    val pro = new Properties()
//    pro.put("user","root")
//    pro.put("password","hainiu")
//    df33.write.jdbc("jdbc:mysql://11.99.173.24:3306/hainiu","movie",pro)}
}

为了简化存储的计算方式：

package com.hainiu.sparkimport org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}object TestSink {def main(args: Array[String]): Unit = {val conf = new SparkConf()conf.setAppName("test sink")conf.setMaster("local[*]")val sc = new SparkContext(conf)val sqlSc = new SQLContext(sc)import sqlSc.implicits._import org.apache.spark.sql.functions._val df = sc.textFile("data/a.txt").map(t=>{val strs = t.split(" ")(strs(0),strs(1),strs(2),strs(3))}).toDF("id","name","age","gender").withColumn("all",concat_ws(" ",$"id",$"name",$"age",$"gender")).select("all")
//    df.write.csv("data/csv")
//    df.write.format("org.apache.spark.sql.execution.datasources.v2.csv.CSVDataSourceV2")
//      .save("data/csv")
//    df.write.parquet("data/parquet")
//    df.write.format("org.apache.spark.sql.execution.datasources.v2.parquet.ParquetDataSourceV2")
//      .save("data/parquet")
//    df.write.format("org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2")
//      .save("data/json")df.write.format("org.apache.spark.sql.execution.datasources.v2.text.TextDataSourceV2").save("data/text")}
}

读取数据代码：

package com.hainiu.sparkimport org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SQLContextimport java.util.Propertiesobject TestReadData {def main(args: Array[String]): Unit = {val conf = new SparkConf()conf.setAppName("movie")conf.setMaster("local[*]")conf.set("spark.shuffle.partitions", "20")val sc = new SparkContext(conf)val sqlSc = new SQLContext(sc)
//    sqlSc.read.text("data/text").show()
//    sqlSc.read.csv("data/csv").show()
//  
//    sqlSc.read.parquet("data/parquet").show()
//    sqlSc.read.json("data/json").show()sqlSc.read.format("org.apache.spark.sql.execution.datasources.v2.text.TextDataSourceV2").load("data/text").show()sqlSc.read.format("org.apache.spark.sql.execution.datasources.v2.csv.CSVDataSourceV2").load("data/csv").show()sqlSc.read.format("org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2").load("data/json").show()sqlSc.read.format("org.apache.spark.sql.execution.datasources.v2.parquet.ParquetDataSourceV2").load("data/parquet").show()sqlSc.read.orc("data/orc").show()val pro = new Properties()pro.put("user","root")pro.put("password","hainiu")sqlSc.read.jdbc("jdbc:mysql://11.99.173.24:3306/hainiu","movie",pro).show()}
}

【大数据学习 | Spark-SQL】SparkSQL读写数据

我们使用sparksql进行编程，编程的过程我们需要创建dataframe对象，这个对象的创建方式我们是先创建RDD然后再转换rdd变成为DataFrame对象。但是sparksql给大家提供了多种便捷读取数据的方式。 //原始读取数据方式 sc.textFile().toRDD sqlSc.createDat…...

编程日记 2024/11/28 9:33:06

AI赋能公共服务转型升级 | 第十届中国行业互联网大会暨腾讯云TVP行业大使三周年庆典公共服务专场圆满举办！

引言党的二十大报告把“基本公共服务实现均等化”作为 2035 年我国发展的总体目标之一，强调要“健全基本公共服务体系，提高公共服务水平”。AI 作为新质生产力的核心驱动力之一，正在公共服务领域发挥着越来越重要的作用。 2024 年 10 月 2…...

编程日记 2024/11/28 9:30:03

关于按天切割Tomcat的catalina.out日志文件的配置

1、catalina.out 是 Tomcat 的标准输出和标准错误日志，通常输出到 Tomcat 安装目录下的 logs 文件夹中。这个日志文件会记录 Tomcat 启动、停止以及运行过程中产生的所有日志信息。 2、在Apache Tomcat中，日志文件catalina.out默认情况下不会自动按天切割…...

编程日记 2024/11/28 9:29:02

【人工智能】深入解析GPT、BERT与Transformer模型｜从原理到应用的完整教程

在当今人工智能迅猛发展的时代，自然语言处理（NLP）领域涌现出许多强大的模型，其中GPT、BERT与Transformer无疑是最受关注的三大巨头。这些模型不仅在学术界引起了广泛讨论，也在工业界得到了广泛应用。那么，G…...

编程日记 2024/11/28 9:28:01

彻底理解如何保证ElasticSearch和数据库数据一致性问题

一.业务场景举例需求： 一个卖房业务，双十一前一天，维护楼盘的运营人员突然接到合作开发商的通知，需要上线一批热门的楼盘列表，上传完成后，C端小程序支持按楼盘的名称、户型、面积等产品属性全模糊搜索热门…...

编程日记 2024/11/28 9:26:58

2024-2025热门留学趋势

在信息爆炸的时代，留学已成为许多人规划未来、拓宽视野的重要途径。随着全球教育格局的不断变化，留学领域也涌现出一系列新热点和趋势。本文将为您解读2024年最热门的留学话题，并提供实用的准备策略，助您在留学之路上一帆风顺。热…...

编程日记 2024/11/28 9:21:53

寻找视频特效素材的优质网站推荐轻松提升作品魅力

在短视频、影视和广告制作中，视频特效素材已成为提升作品专业感的关键元素。炫酷的光效、震撼的爆炸、动感的粒子效果和流畅的转场特效，都能让作品更具吸引力。那么，视频特效素材去哪里找呢？今天，小编为大家精心挑选了…...

编程日记 2024/11/28 9:18:49

【英特尔IA-32架构软件开发者开发手册第3卷：系统编程指南】2001年版翻译，2-36

文件下载与邀请翻译者学习英特尔开发手册，最好手里这个手册文件。原版是PDF文件。点击下方链接了解下载方法。讲解下载英特尔开发手册的文章翻译英特尔开发手册，会是一件耗时费力的工作。如果有愿意和我一起来做这件事的，那么&#xff…...

编程日记 2024/11/28 9:17:45

信息安全实验--密码学实验工具：CrypTool

1. CrypTool介绍💭 CrypTool 1的开源教育工具，用于密码学研究。通过CrypTool 1，可以实现加密和解密操作，数字签名。CrypTool1和2有很多区别的。 2. CrpyTool下载🔧 在做信息安全实验--密码学相关实验时，发…...

编程日记 2024/11/28 9:16:39

python的class 类创建、方法调用以及属性赋值

题目：购物车系统创建一个简单的购物车系统，要求如下： 定义一个 Product 类，表示商品，包含以下属性和方法： 属性： name：商品名称（字符串） price&#xff1…...

编程日记 2024/11/28 9:15:35

Angular v19 (二)：响应式当红实现signal的详细介绍：它擅长做什么、不能做什么？以及与vue、svelte、react等框架的响应式实现对比

本文紧接着Angular v19 新版本来啦，一起瞧瞧新特性吧！，主要针对它在v18引入了一项全新的响应式技术——Signal，这引起了开发者社区的广泛关注，最新的v19版本推出了更多的signal工具。Signal的加入旨在优化Angular的响应…...

编程日记 2024/11/28 9:14:30

IMX 平台UART驱动情景分析：write篇--从 TTY 层到硬件驱动的写操作流程解析

往期内容本专栏往期内容：Uart子系统 UART串口硬件介绍深入理解TTY体系：设备节点与驱动程序框架详解Linux串口应用编程：从UART到GPS模块及字符设备驱动解UART 子系统：Linux Kernel 4.9.88 中的核心结构体与设计详解IMX 平台UART驱…...

编程日记 2024/11/28 9:13:27

网络安全拟态防御技术

一. 拟态防御拟态现象（Mimic Phenomenon, MP）是指一种生物如果能够在色彩、纹理和形状等特征上模拟另一种生物或环境，从而使一方或双方受益的生态适应现象。按防御行为分类可将其列入基于内生机理的主动防御范畴，又可称之为拟…...

编程日记 2024/11/28 9:11:25

灵活开源低代码平台——Microi吾码（一）

开源低代码平台-Microi吾码-平台简介1. 什么是低代码平台？2. 它能做什么？3. 它的优点是什么？ 平台预览图平台亮点版本区别成功案例源码目录说明Microi吾码 - 系列文档开源低代码平台-Microi吾码-平台简介技术框架：.NET8 Redis …...

编程日记 2024/11/28 9:06:20

一：直接取代码 //frida -U -f com.xingin.xhs -l hook_art.js -o xhsart.log //frida -U -f com.tencent.mobileqq -l hook_art.js -o qqart.logconst STD_STRING_SIZE 3 * Process.pointerSize; class StdString {constructor() {this.handle Memory.alloc(STD_S…...

编程日记 2024/11/28 9:01:15

计算机网络八股整理（二）

计算机网络八股整理（二） 应用层 1：dns的全称了解过吗？ dns全称domain-name-system，翻译过来就是域名系统，是在计算机网络中将域名转换成ip地址的分布式数据库系统； 域名服务器的层级类似一个树…...

编程日记 2024/11/28 9:00:14

强化学习off-policy进化之路(PPO-＞DPO-＞KTO-＞ODPO-＞ORPO-＞simPO)

需要LLM在训练过程中做生成的方法是 On Policy，其余的为Off Policy。 On Policy是包含了反馈机制，Off Policy不包含反馈机制。若进行环境交互的模型与被更新的模型是相同的模型，通常这种更新策略被称为on-policy的策略。on-policy的方法会有…...

编程日记 2024/11/28 8:59:12

Linux 如何创建逻辑卷并使用

一、逻辑卷的介绍生成环境中逻辑卷使用率很高逻辑卷的诞生：如果对磁盘直接使用fdisk分区，那么这中分区，我们叫做Linux的标准分区，Linux的标准分区格式化成文件系统之后，挂载使用，那么一旦文件系统的空间…...

编程日记 2024/11/28 8:57:10

java实现将图片插入word文档

插入图片所用依赖 private static void insertImage(XWPFDocument document, String path) {List<XWPFParagraph> paragraphs document.getParagraphs();for (XWPFParagraph paragraph : paragraphs) {CTP ctp paragraph.getCTP();for (int dwI 0; dwI < ctp.sizeO…...

编程日记 2024/11/28 8:53:06

初识java（3）

大家好，今天我们来讲讲我们的老伙计-变量，在哪一门编程语言中，变量的作用都是不可或缺的，那么下面我们就来详细了解一下java中的变量。一.变量概念在程序中，除了有始终不变的常量外，有些内容可能会经常…...

编程日记 2024/11/28 8:52:05

心灵鸡汤01 - 人生九不争

一、跟父母，不争口舌； 二、跟朋友，不争面子； 三、跟领导，不争高低； 四、跟小人，不争道理； 五、跟伴侣，不争对错； 六、跟亲戚，不争穷富&#xff1b…...

编程新知 2026/5/12 14:40:59

3分钟解锁百度网盘极速下载：BaiduPCS-Web高效解决方案全攻略

3分钟解锁百度网盘极速下载：BaiduPCS-Web高效解决方案全攻略【免费下载链接】baidupcs-web 项目地址: https://gitcode.com/gh_mirrors/ba/baidupcs-web 还在为百度网盘的龟速下载而烦恼吗？今天我要为你介绍一个能够彻底改变下载体验的神器——…...

编程新知 2026/5/12 14:04:49

APK安装器终极指南：在Windows上轻松安装安卓应用的5个简单步骤

APK安装器终极指南：在Windows上轻松安装安卓应用的5个简单步骤【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否想在Windows电脑上直接运行安卓应用&a…...

编程新知 2026/5/12 13:54:46

ppt模板_0013_66tm黑色--运动

PPT模板分享...

编程新知 2026/5/12 13:43:20

用Python+CCA算法搞定SSVEP脑电信号识别：从理论到代码实战（附GitHub源码）

PythonCCA算法实现SSVEP脑电信号识别实战指南在脑机接口研究领域，稳态视觉诱发电位（SSVEP）因其高信噪比和稳定特性成为热门研究方向。典型相关分析（CCA）作为SSVEP信号处理的经典算法，以其数学优雅和实现简…...

编程新知 2026/5/12 13:26:45

R3nzSkin内存换肤技术实现与国服应用实践

R3nzSkin内存换肤技术实现与国服应用实践【免费下载链接】R3nzSkin-For-China-Server Skin changer for League of Legends (LOL) 项目地址: https://gitcode.com/gh_mirrors/r3/R3nzSkin-For-China-Server R3nzSkin是一款专为中国服务器优化的英雄联盟内存换肤工具&am…...

编程新知 2026/5/12 13:24:04