当前位置：首页 > news >正文

【大数据学习 | Spark-Core】spark-shell开发

news 2026/5/25 10:53:22

spark的代码分为两种

本地代码在driver端直接解析执行没有后续
集群代码，会在driver端进行解析，然后让多个机器进行集群形式的执行计算

spark-shell --master spark://nn1:7077 --executor-cores 2 --executor-memory 2G

sc.textFile("/home/hadoop/a.txt")
org.apache.spark.rdd.RDD[String] = /home/hadoop/a.txt MapPartitionsRDD[1] at textFile at

rdd弹性分布式数据集合

如果是sc调用的方法会在集群中执行
rdd调用的方法也会集群执行

sc.textFile("/home/hadoop/a.txt")

不是单机代码，但是文件不能再某一个机器上，因为这个命令所有的机器都会执行。

这个路径一定要放在hdfs中

问题：第一行代码就读取了数据，为什么第一行没有出现错误？

spark中的方法[算子]它是分为两种

转换类算子，定义逻辑，并且调用完毕以后具有返回值的，调用算子以后是不是返回rdd
行动类算子，触发计算，并且没有rdd的返回

代码的整体逻辑是先使用转换类算子定义逻辑，但是不执行，一旦使用action算子就会触发运算，整体才执行，这样的设计能够最大化的减少内存的使用。

所以上传hdfs文件，读取

hdfs dfs -put /home/hadoop/a.txt /

spark-shell整体代码

scala> //在spark-env.sh中配置HADOOP_CONF_DIR,默认会读取hdfs中的文件scala> sc.textFile("/a.txt")
res6: org.apache.spark.rdd.RDD[String] = /a.txt MapPartitionsRDD[5] at textFile at <console>:26
//放入数据到hdfs中
scala> res6.flatMap(_.split(" "))
res7: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[6] at flatMap at <console>:27scala> res7.map((_,1))
res8: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[7] at map at <console>:27scala> res8.groupBy(_._1)
res9: org.apache.spark.rdd.RDD[(String, Iterable[(String, Int)])] = ShuffledRDD[9] at groupBy at <console>:27
//分组完毕的返回值不再是map而是RDD[String,Iterable]
scala> res9.mapValues(_.size)
res10: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[10] at mapValues at <console>:27
//mapValues在scala中只能作用在map集合上，现在可以作用在RDD[k,v]
scala> res10.foreach(println)
//打印数据的时候每个机器都有，因为是分布式执行的

【大数据学习 | Spark-Core】spark-shell开发

spark的代码分为两种本地代码在driver端直接解析执行没有后续集群代码，会在driver端进行解析，然后让多个机器进行集群形式的执行计算 spark-shell --master spark://nn1:7077 --executor-cores 2 --executor-memory 2G sc.textFile("/home/ha…...

编程日记 2024/11/24 21:41:27

Modern Effective C++ Item 14 如果函数不抛出异常请使用noexcept

C11 noexcept关键字用于指定函数不会抛出异常，有助于提高程序的异常安全性，还能够使编译器生成更加高效的代码。 noexcept 是函数接口的一部分函数是否声明为 noexcept 是接口设计的一部分，客户端代码可能会依赖这一点。如果一个函数被声明…...

编程日记 2024/11/24 21:40:26

cudatoolkit安装（nvcc -V错误版本解决）

CudaToolKit安装（nvcc） cudatoolkit 是 CUDA 开发工具包（CUDA Toolkit） 的核心部分，包含了一系列用于开发和运行 CUDA 应用程序的软件组件。nvcc 是 NVIDIA CUDA 编译器驱动，用于将 CUDA C/C 代码编译成可…...

编程日记 2024/11/24 21:39:25

DTO和VO的区别及使用场景详解

随着互联网的发展，前后端分离的开发模式越来越流行。在前后端数据交互过程中，为了保证数据的安全性和效率，通常会采用 DTO 和 VO 来封装数据。本篇博客将详细介绍 DTO 和 VO 的区别以及使用场景。大家可能会有个疑问，既然DTO是展…...

编程日记 2024/11/24 21:38:23

百度在下一盘大棋

这两天世界互联网大会在乌镇又召开了。我看到一条新闻，今年世界互联网大会乌镇峰会发布“2024 年度中国互联网企业创新发展十大典型案例”，百度文心智能体平台入选。这个智能体平台我最近也有所关注，接下来我就来讲讲它。百度在下一盘大棋…...

编程日记 2024/11/24 21:34:19

第十六届蓝桥杯模拟赛第二期题解—Java

第十六届蓝桥杯模拟赛/校赛第二期个人题解，有错误的地方欢迎各位大佬指正问题一(填空题) 【问题描述】如果一个数 p 是个质数，同时又是整数 a 的约数，则 p 称为 a 的一个质因数。请问， 2024 的最大的质因数是多少？ …...

编程日记 2024/11/24 21:30:15

驱动开发笔记：关于3588GPIO

1.概要 2.内容 1.3588GPIO 关于RK3588的GPIO（General-Purpose Input/Output，通用输入输出引脚），以下是一些关键信息和操作指南： 一、GPIO基本概念定义：GPIO是嵌入式系统中常见的通信接口，…...

编程日记 2024/11/24 21:26:06

【RK3588 Linux 5.x 内核编程】-内核线程与Mutex

内核线程与Mutex 文章目录内核线程与Mutex1、Mutex介绍1.1 竞争条件1.2 Mutex特性2、Linux内核中的Mutex2.1 初始化Mutex2.1.1 静态方式初始化2.1.2 动态方式初始化2.2 互斥锁获取2.3 互斥锁释放3、Mutex使用示例4、驱动验证在前面的文章中，介绍了如何Linux内核中的线程，但是…...

编程日记 2024/11/24 21:25:04

【0342】分配并初始化 Proc Signal 共享内存（1）

1. Proc Signal （procsignal）共享内存 Postgres内核在启动postmaster守护进程时候，会通过函数 ProcSignalShmemInit() 去为 Proc Signal 分配并初始化指定大小的共享内存空间。整个调用链路如下。 (gdb) bt #0 ProcSignalShmemInit () at procsignal.c:118 #1 0x000000000…...

编程日记 2024/11/24 21:24:04

管家婆财贸ERP BR035.回款利润明细表

最低适用版本：财贸系列 23.5 插件简要功能说明：报表统计销售单/销售退货单/销售发票回款情况更多细节描述见下方详细文档插件操作视频：进销存类定制插件--回款利润明细表插件详细功能文档： 1. 应用中心增加报表【回款利润明细表】 a. b. 查询条件： ⅰ. 日期区间：…...

编程日记 2024/11/24 21:22:01

数据库MYSQL——表的设计

文章目录前言三大范式：几种实体间的关系：一对一关系：一对多关系：多对多关系： 前言之前的博客中我们讲解的是关于数据库的增删改查与约束的基本操作， 是在已经创建数据库，表之上的操作。在实…...

编程日记 2024/11/24 21:21:00

netstat -tuln | grep 27017（显示所有监听状态的 TCP 和 UDP 端口，并且以数字形式显示地址和端口号）

文章目录 1. 确定占用端口的进程使用 lsof 命令使用 fuser 命令 2. 结束占用端口的进程3. 修改 MongoDB 配置文件4. 检查 MongoDB 日志文件5. 重新启动 MongoDB 服务6. 检查 MongoDB 服务状态总结 [rootlocalhost etc]# netstat -tuln | grep 27017 tcp 0 0 127.0.…...

编程日记 2024/11/24 21:18:58

非线性控制器设计原理

非线性控制器设计原理非线性控制器设计旨在解决非线性系统的控制问题，克服传统线性控制器在处理非线性现象（如饱和、死区、耦合、时变性等）时的不足。其核心在于利用非线性数学工具和设计方法，使控制系统在非线性条件下具备良好…...

编程日记 2024/11/24 21:15:55

MySQL数据库6——SQL优化

一.SQL优化 1.插入优化优化1：批量插入 insert into 表名 values(记录1),(记录2),……;优化2：手动提交事务 start transaction; insert into 表名 values(记录1),(记录2); insert into 表名 values(记录1),(记录2); …… commit;优化3：主键顺…...

编程日记 2024/11/24 21:13:53

IDEA配置本地maven

因为idea和maven是没有直接关系的。所以使用idea创建maven工程之前需要将本地的maven配置到idea环境中，这样才可以在idea中创建maven工程。配置方法如下： 1.1 配置本地maven 第一步：关闭当前工程，回到idea主界面找到customize--…...

编程日记 2024/11/24 21:12:52

学习日记_20241123_聚类方法（高斯混合模型）续

前言提醒： 文章内容为方便作者自己后日复习与查阅而进行的书写与发布，其中引用内容都会使用链接表明出处（如有侵权问题，请及时联系）。其中内容多为一次书写，缺少检查与订正，如有问题或其他拓展…...

编程日记 2024/11/24 21:08:48

SpringMVC——简介及入门

SpringMVC简介看到SpringMVC这个名字，我们会发现其中包含Spring，那么SpringMVC和Spring之间有怎样的关系呢？ SpringMVC隶属于Spring，是Spring技术中的一部分。那么SpringMVC是用来做什么的呢？ 回想web阶段&#x…...

编程日记 2024/11/24 21:05:45

文件操作完成后，为什么要关闭文件

原因包括： 释放系统资源：打开文件时，操作系统会分配资源，如文件描述符或句柄，用于管理文件访问。如果文件保持打开状态，这些资源就不会被释放，可能导致资源耗尽。确保数据完整性：写…...

编程日记 2024/11/24 21:00:38

vue3+echarts+ant design vue实现进度环形图

1、代码 <div> <div id"main" class"chart_box"> </div><div class"text_target">目标</div> </div>// 目标环形图 const onEcharts () > {// 基于准备好的dom，初…...

编程日记 2024/11/24 20:59:36

使用argo workflow 实现springboot 项目的CI、CD

文章目录基础镜像制作基础镜像设置镜像源并安装工具git下载和安装 Maven设置环境变量设置工作目录默认命令最终dockerfile 制作ci argo workflow 模版volumeClaimTemplatestemplatesvolumes完整workflow文件制作cd argo workflow 模版Workflow 结构Templates 定义创建 Kubern…...

编程日记 2024/11/24 20:57:33

美国AI监管令紧急叫停：安全与速度的终极博弈与全球AI治理新格局

一、事件核心：临门一脚的惊天逆转 2026年5月21日，美国华盛顿时间下午2点，原本应该是白宫椭圆形办公室一场万众瞩目的签字仪式。特朗普总统计划签署一项酝酿数月的AI安全行政令，该令要求OpenAI、Anthropic、谷歌等头部AI企业在发布…...

编程新知 2026/5/25 10:19:35

UE5网络请求底层原理与生产级实战指南

1. 这不是“调个API”那么简单：UE5网络请求的真实战场很多人第一次在UE5里尝试发个GET请求，心里想的是：“不就是填个URL，点一下运行？”结果卡在蓝图里半天连不上本地JSON文件，或者Post过去的数据服务器根本…...

编程新知 2026/5/25 10:16:21

JMeter临界部分控制器正确用法与避坑指南

1. 为什么“临界部分控制器”是压测中真正卡住团队的隐形瓶颈很多人第一次在JMeter里看到临界部分控制器（Critical Section Controller），第一反应是：“这不就是个带锁的逻辑块？加个锁而已，能有多复杂&#…...

编程新知 2026/5/25 9:22:44

5G O-RAN网络智能运维：基于随机森林的异常检测与切换优化实战

1. 项目概述：当5G网络学会“未卜先知”在5G乃至未来6G网络的运维战场上，故障处理正经历一场从“事后救火”到“事前预警”的深刻变革。传统基于静态阈值的告警系统，就像在高速公路上设置固定的限速牌，一旦遇到雨雪、拥堵等复杂路况…...

编程新知 2026/5/25 8:54:28

工业控制系统安全：融合网络与过程数据的异常检测实践

1. 项目概述与核心思路在工业控制系统的安全防护领域，我们面临着一个日益严峻的挑战：攻击者不再满足于传统的网络渗透，而是将目标对准了物理过程本身。想象一下，一个水处理厂的阀门被恶意远程关闭，或者一个发电厂的涡轮…...

编程新知 2026/5/25 8:21:42

如何在Blender中实现专业级MMD模型动画制作：5步完整解决方案

如何在Blender中实现专业级MMD模型动画制作：5步完整解决方案【免费下载链接】blender_mmd_tools MMD Tools is a blender addon for importing/exporting Models and Motions of MikuMikuDance. 项目地址: https://gitcode.com/gh_mirrors/bl/blender_mmd_tools …...

编程新知 2026/5/25 8:05:31

vi与vim在openEuler中的差异及应用

openEuler两代系统命令差异与原理对比 1. 核心命令体系差异对比对比维度传统Linux/早期openEuler (Vi模式)现代openEuler (Vim增强模式)核心编辑器vi (Visual Interface) 基础版vim (Vi IMproved) 增强版安装方式通常预装或通过yum install vi需手动安装yum install vim或dn…...

编程新知 2026/5/25 7:53:25

AArch64虚拟内存系统架构与页表转换机制详解

1. AArch64虚拟内存系统架构概述在AArch64架构中，虚拟内存系统是处理器核心功能之一，它通过多级页表机制实现虚拟地址到物理地址的转换。这套系统不仅支持常规的内存管理需求，还针对虚拟化、安全隔离等场景提供了丰富的硬件支持特性。虚拟内存…...

编程新知 2026/5/25 6:57:23

高能物理实时触发系统：HGQ与LGN算法在FPGA上的极致优化实践

1. 项目概述：当粒子对撞遇见实时AI在大型强子对撞机（LHC）每秒数千万次的质子对撞中，CMS探测器会捕获海量的高维数据。第一级触发系统（L1T）的任务，是在3.8微秒的极短时间内，将事件率从…...

编程新知 2026/5/25 6:39:31

机器学习势能面构建实战：从量子化学数据到高精度分子模拟

1. 项目概述：当机器学习“学会”了化学反应的势能面在计算化学的世界里，我们一直面临着一个核心矛盾：精度与效率的权衡。如果你想精确地描述一个化学反应，比如DNA复制过程中碱基对的质子转移，你需要动用量子化学方法&a…...

编程新知 2026/5/25 5:36:15

相关文章：