当前位置：首页 > news >正文

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【DataFrame的相关API】的总结分析

news 2026/2/11 2:47:17

操作dataFrame一般有二种操作的方式, 一种为SQL方式, 另一种为DSL方式

SQL方式: 通过编写SQL语句完成统计分析操作DSL方式: 领域特定语言  指的通过DF的特有API完成计算操作(通过代码形式)从使用角度来说: SQL可能更加的方便一些,  当适应了DSL写法后, 你会发现DSL要比SQL更加好用(类似于面向过程编程)Spark的官方角度: 推荐采用DSL方案

关于DSL相关的API:

show(参数1,参数2): 用于展示DF中的数据, 默认仅展示前20行
- 参数1: 设置默认展示多少行, 默认值为20
- 参数2: 是否为阶段列, 默认只输出20个字符的长度, 过长不显示, 要现实的话, 请填入: truncate=True
- 一般这两个参数很少会设置
printSchema(): 用于打印当前这个DF的表结构信息
select(): 类似于SQL语句中select, SQL中select后面可以写啥, 这里也同样可以实现
filter/where: 用于对数据进行过滤操作, 一般在Spark SQL中主要使用where
groupBy() 用于执行分组
orderBy() 用于执行排序
…….

注意:Spark SQL的DSL API 都是非常简单的, 基本都与SQL的关键词保持一致, 一般大家认为DSL比较难的地方: 不知道如何传递参数,因为DSL API的参数变化多样, 每个函数支持的参数方式也不一样DSL主要支持以下几种传递的方式: 列表 | str | columnstr格式:  '字段'column: df对象中包含的字段:  df['字段']执行过程新产生字段:  F.col('字段')列表: ['字段1','字段2','字段3'...][column1,column2,column3...]如何识别函数支持哪几种传递方式呢?

在这里插入图片描述

为了能够支持在编写DSL方案的时候, 支持在DSL中使用SQL函数, 专门提供了一个SQL函数库,直接加载使用即可

导入这个SQL函数库:import pyspark.sql.functions as F后续, 通过F 调用对应的函数即可,  而且Spark SQL所支持的函数, 都可以通过以下地址查询到:
https://spark.apache.org/docs/3.1.2/api/sql/index.html

关于SQL的操作方式:

如何创建一个表(视图):

df.createTempView('视图名称') # 创建一个临时的视图(表名)   常用
df.createOrReplaceTempView('视图名称') # 创建一个临时视图, 如果视图存在, 直接替换
df.createGlobalTempView('视图名称') # 注册一个全局视图, 运行在一个Spark应用中多个spark会话都是可以使用的, 在使用全局的视频的时候, 必须添加:  global_temp.视图名称  才可以加载到临时会话, 仅在当前这个spark session会话中使用上述的创建视图的方式也可以通过SQL形式来创建:create [template] view 视图名称 .....create or replace [template] view 视图名称 ....

如何书写SQL语句:

spark.sql('sql语句')

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【DataFrame的相关API】的总结分析

操作dataFrame一般有二种操作的方式, 一种为SQL方式, 另一种为DSL方式 SQL方式: 通过编写SQL语句完成统计分析操作DSL方式: 领域特定语言指的通过DF的特有API完成计算操作(通过代码形式)从使用角度来说: SQL可能更加的方便一些, 当适应了DSL写法后, 你会发现DSL要比SQL更加…...

编程日记 2023/5/13 2:25:57

粒子群优化最小二乘支持向量机SVM回归分析，pso-lssvm回归预测

目录支持向量机SVM的详细原理 SVM的定义 SVM理论 SVM应用实例，粒子群优化最小二乘支持向量机SVM回归分析代码结果分析展望支持向量机SVM的详细原理 SVM的定义支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大…...

编程日记 2023/5/13 2:25:55

lavis多模态开源框架学习--安装

安装lavis安装lavis测试安装问题过程中的其他操作安装lavis 因为lavis已经发布在pypi中，所以可以直接利用pip安装 pip install salesforce-lavis测试安装 from lavis.models import model_zoo print(model_zoo) # # Architectures Types # # …...

编程日记 2023/5/13 2:25:53

【IDEA】如何在Tomcat上创建部署第一个Web项目？

看了网上很多教程，发现或多或都缺失了一些关键步骤信息，对于新手小白很不友好，那么今天就教大家如何在Tomcat服务器（本地）上部署我们的第一个Web项目： 共分为三个部分： 1. IDEA创建Web项目&am…...

编程日记 2023/5/13 2:25:50

程序员画流程图的工具Draw.io

Draw.io 是一个很好用的免费流程图绘制工具,制图结果本质上是xml文件，web版和桌面版可以支持导出图像（png或者svg矢量图都可以）。你可以利用它绘制一系列的图表、图示或图形，包括流程图、UML类图、组织结构图、泳道图、E-R 图、文…...

编程日记 2023/5/13 2:25:48

CAPL脚本DBLookup函数动态访问CAN 报文的属性

🍅 我是蚂蚁小兵，专注于车载诊断领域，尤其擅长于对CANoe工具的使用🍅 寻找组织 ，答疑解惑，摸鱼聊天，博客源码，点击加入👉【相亲相爱一家人】🍅 玩转CANoe&…...

编程日记 2023/5/13 2:25:46

2022年显卡性能跑分排名表

2022年显卡性能跑分排名表（数据来源于快科技）这个版本的电脑显卡跑分榜第一的是NVIDIA GeForce RTX 3090 Ti显卡。由于显卡跑分受不同的测试环境、不同的显卡驱动版本以及不同散热设计而有所不同，所以显卡跑分会一直变化。前二十名的台式电…...

编程日记 2023/5/13 2:25:43

mx-font

Abstract 短镜头字体生成(FFG)方法必须满足两个目标:生成的图像既要保留目标字符的底层全局结构，又要呈现多样化的局部参考风格。现有的FFG方法旨在通过提取通用表示样式或提取多个组件样式表示来分离内容和样式。然而，以往的方法要么无法捕捉不同的本地风格，要么无法推广到…...

编程日记 2023/5/13 6:33:03

基于S32K148快速调试TJA1101

文章目录1.前言2.TJA1101简介3.TJA1101调试3.1 硬件3.1.1 整体框图3.1.2 评估板3.1.2.1 参考原理图3.1.2.2 引脚说明3.1.3 转接板3.1.3.1 参考原理图3.1.3.2 模式配置3.1.3.3 原理介绍3.2 软件3.2.1 物理层（TJA1101）：3.2.2 数据链路层&#x…...

编程日记 2023/5/13 6:33:01

万字长文详解webpack知识图谱

webpack概念概念 Webpack 是一种用于构建 JavaScript 应用程序的静态模块打包器，它能够以一种相对一致且开放的处理方式，加载应用中的所有资源文件（图片、CSS、视频、字体文件等），并将其合并打包成浏览器兼容的 Web…...

编程日记 2023/5/13 6:32:58

模板测试(Stencil Test)

模板测试可以用来针对特殊的区域进行渲染控制，实现有趣的效果，例如绘制物体轮廓。在使用模板测试的时候，一般的步骤如下：启用模板测试，以便写入数值到模板缓冲中渲染物体，根据渲染的物体将特定的数值写入到模板缓冲中禁用模板缓冲写入设置模板函数，根据于模板缓冲中的…...

编程日记 2023/5/13 6:32:56

【Go语言学习】安装与配置

文章目录前言一、Go语言学习站二、安装与配置1.安装2.环境变量配置3.Gland编辑器安装与配置Hello, World!总结前言 Go语言特性 Go，又称为 Golang，是一门开源的编程语言，由 Google 开发。Go 语言的设计目标是提供一种简单、快速、高效、安全…...

编程日记 2023/5/12 11:38:17

HCIP-5OSPF区域类型学习笔记

1、OSPF区域类型 OSPF提出了区域的概念（AREA），区域是将所有运行OSPF 的路由器人为的分成不同的组，以区域ID来标示。在区域内路由计算的方法不变，由于划分区域之后，每个区域内的路由器不会很多，…...

编程日记 2023/5/13 6:32:54

C语言再学习第三章

例题3-1 编写一个函数，实现华氏度和摄氏度的转化。已知公式：c （5/9)*(f-32) #include <stdio.h>double f_value 0; double c_value 0; int main(void) {printf("请输入华氏温度\n");scanf("%lf",&f_valu…...

编程日记 2023/5/13 6:32:52

【aiy篇】小目标检测综述

小目标检测（Small Object Detection）是指在图像中检测尺寸较小的目标物体，通常是指物体的尺寸小于图像大小的1/10或者更小，COCO为例，面积小于等于1024像素的对象维下目标。小目标检测是计算机视觉领域的一个重要研究方…...

编程日记 2023/5/13 6:32:49

常用Linux命令的基本使用

序号命令对应英文作用 1 ls list 查看当前文件夹下的内容 2 pwd print work directory 查看当前所在文件夹 3 cd[目录名] changge directory 切换文件夹 4 touch[文件名] touch 如果文件不存在，新建文件 5 mkdir[目录名] make directory …...

编程日记 2023/5/13 6:32:47

对跳表的深入理解

一，如何理解跳表简单说跳表（Skip list）就是链表的“二分查找”。redis 的有序集合用的就是跳表算法。跳表是一种各方面性能都比较优秀的动态数据结构，可以支持快速地插入、删除、查找操作，写起来也不复杂&#xff0c…...

编程日记 2023/5/13 6:32:44

C++017-C++冒泡排序与插入排序

文章目录C017-C冒泡排序与插入排序冒泡排序与插入排序目标冒泡排序排序规则冒泡排序优化插入排序题目描述在线练习：总结C017-C冒泡排序与插入排序在线练习： http://noi.openjudge.cn/ https://www.luogu.com.cn/ 冒泡排序与插入排序参考：…...

编程日记 2023/5/13 6:32:42

数据结构基础之链表

目录前言 1、什么是链表 2、添加元素 3、虚拟头结点 4、查询&修改元素 5、删除元素附：完整代码前言又到周末了，修整了一天，继续来写点东西吧，今天，我们来学习数据结构中的另一种基础的数据结构——链表…...

编程日记 2023/5/13 6:32:40

css 的渲染层合成是什么，浏览器如何创建新的渲染层

在 DOM 树中每个节点都会对应一个渲染对象（RenderObject），当它们的渲染对象处于相同的坐标空间（z 轴空间）时，就会形成一个 RenderLayers，也就是渲染层。渲染层将保证页面元素以正确的顺序堆叠&a…...

编程日记 2023/5/13 6:32:38

【杂谈】-递归进化：人工智能的自我改进与监管挑战

递归进化：人工智能的自我改进与监管挑战文章目录递归进化：人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管？3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...

编程新知 2025/12/9 0:22:01

大语言模型如何处理长文本？常用文本分割技术详解

为什么需要文本分割？引言：为什么需要文本分割？一、基础文本分割方法1. 按段落分割（Paragraph Splitting）2. 按句子分割（Sentence Splitting）二、高级文本分割策略3. 重叠分割（Sliding Window）4. 递归分割（Recursive Splitting）三、生产级工具推荐5. 使用LangChain的…...

编程新知 2025/11/18 0:32:13

论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法（ISWC2024）

笔记整理：刘治强，浙江大学硕士生，研究方向为知识图谱表示学习，大语言模型论文链接：http://arxiv.org/abs/2407.16127 发表会议：ISWC 2024 1. 动机传统的知识图谱补全（KGC）模型通过…...

编程新知 2026/2/10 15:49:34

高防服务器能够抵御哪些网络攻击呢？

高防服务器作为一种有着高度防御能力的服务器，可以帮助网站应对分布式拒绝服务攻击，有效识别和清理一些恶意的网络流量，为用户提供安全且稳定的网络环境，那么，高防服务器一般都可以抵御哪些网络攻击呢？下面…...

编程新知 2025/9/3 19:14:38

全志A40i android7.1 调试信息打印串口由uart0改为uart3

一，概述 1. 目的将调试信息打印串口由uart0改为uart3。 2. 版本信息 Uboot版本：2014.07； Kernel版本：Linux-3.10； 二，Uboot 1. sys_config.fex改动使能uart3(TX:PH00 RX:PH01)，并让boo…...

编程新知 2026/2/5 6:28:09

MySQL 知识小结（一）

一、my.cnf配置详解我们知道安装MySQL有两种方式来安装咱们的MySQL数据库，分别是二进制安装编译数据库或者使用三方yum来进行安装,第三方yum的安装相对于二进制压缩包的安装更快捷，但是文件存放起来数据比较冗余，用二进制能够更好管理咱们M…...

编程新知 2026/1/26 13:29:47

实战设计模式之模板方法模式

概述模板方法模式定义了一个操作中的算法骨架，并将某些步骤延迟到子类中实现。模板方法使得子类可以在不改变算法结构的前提下，重新定义算法中的某些步骤。简单来说，就是在一个方法中定义了要执行的步骤顺序或算法框架，但允许子类…...

编程新知 2026/2/9 21:59:15

基于 Xcode 16 新建工程项目，集成 cocoapods 执行 pod init 报错 ### Error RuntimeError - PBXGroup attempted to initialize an object with unknown ISA PBXFileSystemSynchronizedRootGroup from attributes: {"isa">"PBXFileSystemSynchro…...

编程新知 2026/2/1 16:17:30

FOPLP vs CoWoS

以下是 FOPLP（Fan-out panel-level packaging 扇出型面板级封装）与 CoWoS（Chip on Wafer on Substrate）两种先进封装技术的详细对比分析，涵盖技术原理、性能、成本、应用场景及市场趋势等维度： 一、技术原…...

编程新知 2025/10/24 6:08:42

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【DataFrame的相关API】的总结分析

相关文章：

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【DataFrame的相关API】的总结分析

粒子群优化最小二乘支持向量机SVM回归分析，pso-lssvm回归预测

lavis多模态开源框架学习--安装

【IDEA】如何在Tomcat上创建部署第一个Web项目？

程序员画流程图的工具Draw.io

CAPL脚本DBLookup函数动态访问CAN 报文的属性

2022年显卡性能跑分排名表

mx-font

基于S32K148快速调试TJA1101

万字长文详解webpack知识图谱

模板测试(Stencil Test)

【Go语言学习】安装与配置

HCIP-5OSPF区域类型学习笔记

C语言再学习第三章

【aiy篇】小目标检测综述

常用Linux命令的基本使用

对跳表的深入理解

C++017-C++冒泡排序与插入排序

数据结构基础之链表

css 的渲染层合成是什么，浏览器如何创建新的渲染层

【杂谈】-递归进化：人工智能的自我改进与监管挑战

大语言模型如何处理长文本？常用文本分割技术详解

论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法（ISWC2024）

高防服务器能够抵御哪些网络攻击呢？

全志A40i android7.1 调试信息打印串口由uart0改为uart3

MySQL 知识小结（一）

实战设计模式之模板方法模式

负载均衡器》》LVS、Nginx、HAproxy 区别

Xcode 16 集成 cocoapods 报错

FOPLP vs CoWoS