当前位置：首页 > news >正文

spark读取普通文件

news 2026/5/23 20:37:20

spark读取普通文件

txt文件

"""
将一行数据当做一个字段，需要自己切割 字段名称为value
表结构 可以从sql中搞
"""
df = spark.read.text("../../data/wordcount/input/data.txt")
df = spark.read.format("text").load("hdfs://shucang:9820/behavior/ads/ads_visit_type")df.createOrReplaceTempView("wordcount")

json文件

"""
读取json文件
直接就有表结构了
"""df1 = spark.read.format("json").load("../../resources/person.json").show()
df2 = spark.read.json("../../resources/person.json").show()

csv文件（固定分割符的文件）

"""
,分割符的文件 且含有表头
自动获取结构
"""
df = spark.read.format("csv").option("header",True).load("../../resources/homework1/3.txt")
"""
,分割符的文件 没有表头
获取结构的方式
"""
spark.read.csv("../../resources/homework1/3.txt")"""
:: 分隔符的文件
"""
df = spark.read.format("csv").option("sep","::").load("../../resources/input/movies.dat")

总结：
spark.read.format("json").load(path)
spark.read.format("csv").load(path)
spark.read.format("parquet").load(path)spark.read.json(path)
spark.read.csv(path)
spark.read.parquet(path)这都是一样的

创建表结构的方式

"""
按照"，" 自动分割 列名为 _c0 _c1 _c2 
"""# 修改列名# 方式一：withColumnRenamed
df = spark.read.csv("../../resources/homework1/3.txt").withColumnRenamed("_c0","id") .withColumnRenamed("_c1","username").show()# 方式二：toDF（"",""） 和将RDD转为DF有区别 不加[]
df = spark.read.csv("../../resources/homework1/3.txt").toDF("id","username","math","computer","english")# 方式三：toDF的变种tupleA = ("id","username","math","computer","english")
df = spark.read.csv("../../resources/homework1/3.txt").toDF(*tupleA)# 方式四：这种和 rdd转为df的情况比较相似user_schema = StructType([StructField(name="emp_id", dataType=StringType(), nullable=False),StructField(name="emp_name", dataType=StringType(), nullable=True),StructField(name="salary", dataType=DoubleType(), nullable=True),StructField(name="comm", dataType=DoubleType(), nullable=True),StructField(name="dept_id", dataType=LongType(), nullable=True)])# 使用csv 读取了一个 \t 为分隔符的文件，读取的数据字段名很随意，所以可以自定义
df = spark.read.format("csv").option("sep","\t").load("../../datas/emp.tsv",schema=user_schema)# 创建一个表
df.createOrReplaceTempView("t_name")

spark读取普通文件

spark读取普通文件 txt文件 """ 将一行数据当做一个字段，需要自己切割字段名称为value 表结构可以从sql中搞 """ df spark.read.text("../../data/wordcount/input/data.txt") df spark.read.format("text"…...

编程日记 2024/12/15 4:10:41

MySQL SQL语句性能优化

MySQL SQL语句性能优化指南一、查询设计优化1. 避免 SELECT *2. 使用 WHERE 进行条件过滤3. 避免在索引列上使用函数和表达式4. 使用 LIMIT 限制返回行数5. 避免使用子查询6. 优化 JOIN 操作7. 避免全表扫描二、索引优化1. 使用合适的索引2. 覆盖索引3. 索引选择性4. 多列索引…...

编程日记 2024/12/15 4:06:37

【蓝桥杯每日一题】技能升级

技能升级 2024-12-10 蓝桥杯每日一题技能升级二分题目大意一个角色有 N 种可以增加攻击力的技能，对于第 i 个技能首次升级可以提升 A i A_i Ai 点攻击力，随后的每次升级增加的攻击力都会减少 B i B_i Bi 。升级 ⌈ A i B i ⌉ \lceil \frac{A…...

编程日记 2024/12/15 4:03:34

css 实现在一条线上流动小物体（offset-path）

直接贴代码，留几个参考网址给大家【SVG】路径＜Path＞标签详解，一次搞懂所有命令参数探秘神奇的运动路径动画 Motion Path <!DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8"><meta name="viewport&quo…...

编程日记 2024/12/15 4:02:30

探索 Robyn 框架 —— 下一代高性能 Web 框架

技术博客：探索 Robyn 框架 —— 下一代高性能 Web 框架什么是 Robyn？ Robyn 是一个用 Rust 编写的高性能 Web 框架，旨在通过极简设计和高效并发处理，帮助开发者快速构建可扩展的现代 Web 应用。得益于 Rust 的内存安全性和性能…...

编程日记 2024/12/15 4:00:28

STL容器-map P3613【深基15.例2】寄包柜普及-

题目来源：洛谷题库文章目录 map例题map知识点map使用注意：map的常用用法 map例题 P3613【深基15.例2】寄包柜普及- 题意根据数据插入/查询思路 map键值对可以根据柜子编号查找物品，但是柜子又有很多个，考虑数组或者map数组…...

编程日记 2024/12/15 3:55:19

【MySQL 进阶之路】了解性能优化与设计原则

1.B树的优势 “矮胖”结构： 矮：B树的每个节点存储更多的关键字，从而减少了树的层级（最多三层），减少了磁盘I/O操作，提高了查询效率。胖：叶子节点存储实际的数据，并使用双…...

编程日记 2024/12/15 3:54:14

MySQL之数据库三大范式

一、什么是范式？ 范式是数据库遵循设计时遵循的一种规范，不同的规范要求遵循不同的范式。 （范式是具有最小冗余的表结构） 范式可以提高数据的一致性和减少数据冗余和更新异常的问题数据库有六种范式（1NF/2NF/3NF…...

编程日记 2024/12/15 3:52:08

[大数据]Hudi

G:\Bigdata\17.hudi\大数据技术之数据湖Hudi 第1章 Hudi概述 1.1 Hudi简介 Apache Hudi（Hadoop Upserts Delete and Incremental）是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服…...

编程日记 2024/12/15 3:51:07

jenkins harbor安装

Harbor是一个企业级Docker镜像仓库‌。文章目录 1. 什么是Docker私有仓库2. Docker有哪些私有仓库3. Harbor简介4. Harbor安装 1. 什么是Docker私有仓库 Docker私有仓库是用于存储和管理Docker镜像的私有存储库。Docker默认会有一个公共的仓库Docker Hub，而与Dock…...

编程日记 2024/12/15 3:50:05

JavaScript 高级特性与 ES6 新特性：正则表达式的深度探索

在现代 JavaScript 开发中，正则表达式（Regular Expressions）和高级特性、ES6 新特性的结合使用，能够极大地提升代码的简洁性、可读性和功能性。本文将深入探讨 JavaScript 中的正则表达式及其在高级特性和 ES6 新特性中的应用&…...

编程日记 2024/12/15 3:41:58

正则表达式——参考视频B站《奇乐编程学院》

智能指针一、背景🎈1.1. 模式匹配🎈1.2. 文本替换🎈1.3. 数据验证🎈1.4. 信息提取🎈1.5. 拆分字符串🎈1.6. 高级搜索功能二、原料2.1 参考视频2.2 验证网址三、用法3.1 限定符3.1.1 ?3.1.2 *3.1.3 3.1.…...

编程日记 2024/12/15 3:34:53

【FFmpeg】FFmpeg 内存结构 ⑥ ( 搭建开发环境 | AVPacket 创建与释放代码分析 | AVPacket 内存使用注意事项 )

文章目录一、搭建开发环境1、开发环境搭建参考2、项目搭建二、AVPacket 创建与释放代码分析1、AVPacket 创建与释放代码2、Qt 单步调试方法3、单步调试 - 分析 AVPacket 创建与销毁代码三、AVPacket 内存使用注意事项1、谨慎使用 av_init_packet 函数2、av_init_packet 函数…...

编程日记 2024/12/15 3:22:41

【多模态文档智能】OCR-free感知多模态大模型技术链路及训练数据细节

目前的一些多模态大模型的工作倾向于使用MLLM进行推理任务，然而，纯OCR任务偏向于模型的感知能力，对于文档场景，由于文字密度较高，现有方法往往通过增加图像token的数量来提升性能。这种策略在增加新的语言时&#xff0…...

编程日记 2024/12/15 3:17:33

Mybatis动态sql执行过程

动态SQL的执行原理主要涉及到在运行时根据条件动态地生成SQL语句，然后将其发送给数据库执行。以下是动态SQL执行原理的详细解释： 一、接收参数动态SQL首先会根据用户的输入或系统的条件接收参数。这些参数可以是查询条件、更新数据等，它们…...

编程日记 2024/12/15 3:10:27

leetcode 31 Next Permutation

题意找到下一个permutation是什么，对于一个数组[1，2，3]，下一个排列就是[1, 3, 2] 链接 https://leetcode.com/problems/next-permutation/ 思考首先任何一个permutation满足一个性质，从某个位置往后一定是降序。…...

编程日记 2024/12/15 3:09:26

每日一练 | 华为 eSight 创建的缺省角色

01 真题题目下列选项中，不属于华为 eSight 创建的缺省角色的是： A. Administrator B. Monitor C. Operator D. End-User 02 真题答案 D 03 答案解析华为 eSight 是一款综合性的网络管理平台，提供了多种管理和监控功能。为了确保不同用…...

编程日记 2024/12/15 3:05:22

PyTorch基本使用-自动微分模块

学习目的：掌握自动微分模块的使用训练神经网络时，最常用的算法就是反向传播。在该算法中，参数（模型权重）会根据损失函数关于对应参数的梯度进行调整。为了计算这些梯度，PyTorch 内置了名为 torch.autogra…...

编程日记 2024/12/15 2:59:14

libevent-Reactor设计模式【1】

一、Libevent概述 1、简介 Libevent 是一个用C语言编写的、轻量级的开源高性能事件通知库，主要有以下几个亮点：事件驱动（ event-driven），高性能;轻量级，专注于网络，不如 ACE 那么臃肿庞大&#…...

编程日记 2024/12/15 2:56:05

奇奇怪怪的错误-Tag和space不兼容

报错信息如下： TabError: inconsistent use of tabs and spaces in indentation make: *** [Makefile:24: train] Error 1不能按Tab，要老老实实按space 不过可以在编辑器里面改，把它们调整成一致的；...

编程日记 2024/12/15 2:52:00

Lindy流程冷启动死亡陷阱（97%新手踩中的第3个环节）：实时检测+自动回滚机制详解

更多请点击： https://kaifayun.com 第一章：Lindy流程冷启动死亡陷阱的底层认知 Lindy效应在软件工程中并非仅适用于“越老越可靠”的技术寿命预测，它更深层地揭示了一种反直觉的系统演化规律：一个尚未被时间验证的流程&#xff0…...

编程新知 2026/5/23 20:10:48

Postman登录接口响应为空？HTTP响应体未刷出的三层根因分析

1. 这不是Postman的问题，是接口通信链路上某个环节“失语”了你用Postman调后端登录接口，请求发出去了，状态码也回来了（比如200），但响应体里空空如也——没有JSON数据、没有token字段、甚至Response标签页里…...

编程新知 2026/5/23 19:15:38

【VibeCoding系列教程01】2026年最狠的职场外挂：我靠“说话“让AI替我加班，同事以为我开了挂

你们发现没有，现在这个世界越来越离谱了。前两天我朋友问我，说老哥，我想做个网站，得学多久？我说，搁以前，你得先学HTML、CSS、JavaScript，再学框架、学部署，顺利的话&…...

编程新知 2026/5/23 18:04:23

Open Generative AI Workflow Studio深度解析：可视化AI工作流构建教程

Open Generative AI Workflow Studio深度解析：可视化AI工作流构建教程【免费下载链接】Open-Generative-AI Open-source alternative to AI video platforms — Free AI image & video generation studio with 200 models (Flux, Midjourney, Kling, Sora, Veo…...

编程新知 2026/5/23 17:10:36

linux系统之进程管理详解

进程（Process） 是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配和调度的基本单位，是操作系统结构的基础。在当代面向线程设计的计算机结构中，进程是线程的容器。程序是指令、数据及其组织形式的描…...

编程新知 2026/5/23 16:50:32

Infineon C167芯片Flash编程与MEMTOOL使用指南

1. C167系列芯片片上Flash编程方法解析在嵌入式系统开发中，片上Flash编程是每个工程师都需要掌握的核心技能。对于使用Infineon C167系列微控制器的开发者来说，了解如何可靠地编程片上Flash存储器尤为重要。本文将详细介绍使用MEMTOOL工具进行C167芯片Fl…...

编程新知 2026/5/23 16:30:15

AI调用BurpSuite实现可审计漏洞检测闭环

1. 这不是“AI安全工具”的营销话术，而是一套可落地的漏洞发现流水线最近帮一家做金融SaaS的客户做渗透测试流程优化，他们原来的方案是：每周安排2名中级渗透工程师，用BurpSuite手动跑一遍核心业务流，再人工翻看Proxy历…...

编程新知 2026/5/23 16:22:33

TVBoxOSC终极指南：3分钟打造你的智能电视媒体中心

TVBoxOSC终极指南：3分钟打造你的智能电视媒体中心【免费下载链接】TVBoxOSC TVBoxOSC - 一个基于第三方项目的代码库，用于电视盒子的控制和管理。项目地址: https://gitcode.com/GitHub_Trending/tv/TVBoxOSC 还在为电视盒子功能单一、播放格式…...

编程新知 2026/5/23 15:52:48

Windows系统优化完全指南：3个高效管理隐藏功能的专业技巧

Windows系统优化完全指南：3个高效管理隐藏功能的专业技巧【免费下载链接】ViVeTool-GUI Windows Feature Control GUI based on ViVe / ViVeTool 项目地址: https://gitcode.com/gh_mirrors/vi/ViVeTool-GUI 想要安全地探索Windows系统中的隐藏功能吗&#…...

编程新知 2026/5/23 15:26:56

Unity特效优化指南：从ParticleSystem参数调优到性能瓶颈排查

Unity特效优化实战：ParticleSystem深度调优与移动端性能突围记得第一次在低端安卓机上测试火焰特效时，帧率直接从60掉到22的绝望吗？我们团队为此通宵三晚重构了整个粒子系统。本文将分享从血泪教训中总结的ParticleSystem优化方法论&#xf…...

编程新知 2026/5/23 15:17:56

spark读取普通文件

txt文件

json文件

csv文件（固定分割符的文件）

创建表结构的方式

相关文章：