当前位置：首页 > news >正文

Spark中使用RDD算子GroupBy做词频统计的方法

news 2026/2/11 5:06:27

测试文件及环境

测试文件在本地D://tmp/spark.txt，Spark采用Local模式运行，Spark版本3.2.0，Scala版本2.12，集成idea开发环境。

hello
world
java
world
java
java

实验代码

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object GroupBy {def main(args: Array[String]): Unit = {// 创建Spark执行环境val sparkConf: SparkConf =new SparkConf().setMaster("local").setAppName("GroupBy")// 新建会话val sc = new SparkContext(sparkConf)// 读取本地文件到RDDval rdd: RDD[String] = sc.textFile("D://tmp/spark.txt")// 对rdd做map映射,返回(hello,1)...val rdd2: RDD[(String, Int)] = rdd.map(v => {val arr: Array[String] = v.split("\t")(arr(0), 1)})// 打印map映射结果rdd2.foreach(v=>println(v))// 对rdd2进行groupBy操作val rdd3: RDD[(String, Iterable[(String, Int)])] = rdd2.groupBy(v => v._1)// 遍历打印最终结果rdd3.map(v => (v._1, v._2.size)).foreach(v => println(v))//结束Spark会话sc.stop()}
}

实验结果

打印map映射结果

(hello,1)
(world,1)
(java,1)
(world,1)
(java,1)
(java,1)

(hello,1)
(java,3)
(world,2)

Spark中使用RDD算子GroupBy做词频统计的方法

测试文件及环境测试文件在本地D://tmp/spark.txt，Spark采用Local模式运行，Spark版本3.2.0，Scala版本2.12，集成idea开发环境。 hello world java world java java实验代码 import org.apache.spark.rdd.RDD import org.apache.…...

编程日记 2023/8/8 10:27:29

如何使用Kafka构建事件驱动的架构

事件驱动的架构(EDA)是一种软件设计模式，它关注事件的生成、检测和使用，以支持高效和可扩展的系统。在EDA中，事件是组件之间通信的主要手段，允许它们实时交互和响应更改。这种架构促进了松散耦合、可扩展性和响应性，使…...

编程日记 2023/8/8 10:26:28

ES6 解构赋值

解构赋值解构赋值是一种在编程中常见且方便的语法特性，它可以让你从数组或对象中快速提取数据，并将数据赋值给变量。在许多编程语言中都有类似的特性。在 JavaScript 中，解构赋值使得从数组或对象中提取数据变得简单。它可以用于数组和对…...

编程日记 2023/8/8 10:25:27

HTML5注册页面

分析注册界面实际上是一个表格（对齐），一行有两个单元格。代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevic…...

编程日记 2023/8/8 10:24:26

python中的JSON模块详解

简介 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互网址官方文档 json — JSON encoder and dec…...

编程日记 2023/8/8 10:23:23

Syncfusion Essential Edit for WPF Crack

Syncfusion Essential Edit for WPF Crack 在任何WPF应用程序中启用语法高亮显示。 Syncfusion Essential Edit for WPF是一款具有所有基本功能的编辑器，如文本编辑、剪切、复制和粘贴。它允许用户从各种文件格式打开文件并将其保存为各种文件格式。Syncfusion Esse…...

编程日记 2023/8/8 10:22:22

机器学习深度学习——卷积神经网络（LeNet）

👨‍🎓作者简介：一位即将上大四，正专攻机器学习的保研er 🌌上期文章：机器学习&&深度学习——池化层 📚订阅专栏：机器学习&&深度学习希望文章对你们有所帮助卷积神…...

编程日记 2023/8/8 10:21:22

Pytorch Tutorial【Chapter 2. Autograd】

Pytorch Tutorial 文章目录 Pytorch TutorialChapter 2. Autograd1. Review Matrix Calculus1.1 Definition向量对向量求导1.2 Definition标量对向量求导1.3 Definition标量对矩阵求导 2.关于autograd的说明3. grad的计算3.1 Manual手动计算3.2 backward()自动计算 Reference C…...

编程日记 2023/8/8 10:20:20

Python第三方库国内镜像下载地址

Python第三方库国内镜像下载地址一、清华大学二、中国科技大学三、安装方法一、清华大学 https://pypi.tuna.tsinghua.edu.cn/simple 二、中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple 三、安装方法例如 pyhook3 插件的安装方法，执行下面命令安装…...

编程日记 2023/8/8 10:19:14

从浏览器输入url到页面加载（七）服务端机器一般部署在哪里

前言上一节，我们说到了CDN和路由器的关系，说到了公有地址，说到了通信线路服务，这一节跳过那些看不懂的深层知识，直接开始说web服务器。 1. 服务端机器为什么不部署在公司内部记得在之前的一段时间里，公…...

编程日记 2023/8/8 10:18:13

Pytorch深度学习-----神经网络之Sequential的详细使用及实战详解

系列文章目录 PyTorch深度学习——Anaconda和PyTorch安装 Pytorch深度学习-----数据模块Dataset类 Pytorch深度学习------TensorBoard的使用 Pytorch深度学习------Torchvision中Transforms的使用（ToTensor，Normalize，Resize ，Co…...

编程日记 2023/8/8 10:17:11

安全基础 --- https详解 + 数组（js）

CIA三属性：完整性（Confidentiality）、保密性（Integrity）、可用性（Availability），也称信息安全三要素。 https 核心技术：用非对称加密传输对称加密的密钥，然后…...

编程日记 2023/8/8 10:16:10

vue加载大量数据优化

在Vue中加载大量数据并形成列表时，可以通过以下方法来优化性能： 分页加载：不要一次性加载所有的数据，而是分批加载数据，每次只加载当前页需要显示的数据量。可以使用第三方库如vue-infinite-loading来实现无限滚动加载…...

编程日记 2023/8/8 10:15:09

WebRTC 之音视频同步

在网络视频会议中， 我们常会遇到音视频不同步的问题， 我们有一个专有名词 lip-sync 唇同步来描述这类问题，当我们看到人的嘴唇动作与听到的声音对不上的时候，不同步的问题就出现了而在线会议中， 听见清晰的声音是优先…...

编程日记 2023/8/8 10:14:07

kubernetes基于helm部署gitlab-runner

kubernetes基于helm部署gitlab-runner 这篇博文介绍如何在 Kubernetes 中使用helm部署 GitLab-runner。先决条件： 已运行的 Kubernetes 集群已运行的 gitlab 实例项目地址：https://gitlab.com/gitlab-org/charts/gitlab-runner 官方文档&#xff…...

编程日记 2023/8/8 10:13:02

深度学习和OpenCV的对象检测(MobileNet SSD图像识别)

基于深度学习的对象检测时，我们主要分享以下三种主要的对象检测方法： Faster R-CNN(后期会来学习分享)你只看一次（YOLO，最新版本YOLO3,后期我们会分享）单发探测器（SSD，本节介绍，若你的电脑配置比较低，此方法比较适合R-CNN是使用深度学习进行物体检测的训练模型; 然而，…...

编程日记 2023/8/8 10:12:01

Gitlab CI/CD笔记-第一天-GitOps和以前的和jenkins的集成的区别

一、GitOps-CI/CD的流程图与Jenkins的流程图从上图可以看到： GitOps与基于Jennkins技术栈的CI/CD流程，无法从Jenkins集成其他第三方开源的项目来实现换成了Gitlab来进行集成。好处在于：CI 一个工具Gitlab就行了，但CD部分依旧是…...

编程日记 2023/8/8 10:10:58

有关OpenBSD, NetBSD, FreeBSD -- 与GPT对话

1 介绍一下 - OpenBSD, NetBSD, FreeBSD 当谈论操作系统时，OpenBSD、NetBSD和FreeBSD都是基于BSD（Berkeley Software Distribution）的操作系统，它们各自是独立开发的，并在BSD许可下发布。这些操作系统有很多共同点，但也有一些差异。以下是对它们的简要介绍： OpenBSD： O…...

编程日记 2023/8/8 10:09:57

RabbitMQ 备份交换机和死信交换机

为处理生产者生产者将消息推送到交换机中，交换机按照消息中的路由键即自身策略无法将消息投递到指定队列中造成消息丢失的问题，可以使用备份交换机。为处理在消息队列中到达TTL的过期消息，可采用死信交换机进行消息转存。通过上述描述可知&…...

编程日记 2023/8/8 10:08:56

Linux 中利用设备树学习Ⅳ

系列文章目录第一章 Linux 中内核与驱动程序第二章 Linux 设备驱动编写 （misc） 第三章 Linux 设备驱动编写及设备节点自动生成 （cdev） 第四章 Linux 平台总线platform与设备树第五章 Linux 设备树中pinctrl与gpio（…...

编程日记 2023/8/8 10:07:53

多云管理“拦路虎”：深入解析网络互联、身份同步与成本可视化的技术复杂度

一、引言：多云环境的技术复杂性本质企业采用多云策略已从技术选型升维至生存刚需。当业务系统分散部署在多个云平台时，基础设施的技术债呈现指数级积累。网络连接、身份认证、成本管理这三大核心挑战相互嵌套：跨云网络构建数据…...

编程新知 2026/2/11 0:21:49

遍历 Map 类型集合的方法汇总

1 方法一先用方法 keySet() 获取集合中的所有键。再通过 gey(key) 方法用对应键获取值 import java.util.HashMap; import java.util.Set;public class Test {public static void main(String[] args) {HashMap hashMap new HashMap();hashMap.put("语文",99);has…...

编程新知 2026/1/24 15:08:45

Docker 运行 Kafka 带 SASL 认证教程

Docker 运行 Kafka 带 SASL 认证教程 Docker 运行 Kafka 带 SASL 认证教程一、说明二、环境准备三、编写 Docker Compose 和 jaas文件docker-compose.yml代码说明：server_jaas.conf 四、启动服务五、验证服务六、连接kafka服务七、总结 Docker 运行 Kafka 带 SASL 认…...

编程新知 2026/1/23 4:15:03

JVM垃圾回收机制全解析

Java虚拟机（JVM）中的垃圾收集器（Garbage Collector，简称GC）是用于自动管理内存的机制。它负责识别和清除不再被程序使用的对象，从而释放内存空间，避免内存泄漏和内存溢出等问题。垃圾收集器在Ja…...

编程新知 2026/1/9 14:53:35

渲染学进阶内容——模型

最近在写模组的时候发现渲染器里面离不开模型的定义，在渲染的第二篇文章中简单的讲解了一下关于模型部分的内容，其实不管是方块还是方块实体，都离不开模型的内容 🧱 一、CubeListBuilder 功能解析 CubeListBuilder 是 Minecraft Java 版模型系统的核心构建器，用于动态创…...

编程新知 2025/11/25 22:59:17

el-switch文字内置

el-switch文字内置效果 vue <div style"color:#ffffff;font-size:14px;float:left;margin-bottom:5px;margin-right:5px;">自动加载</div> <el-switch v-model"value" active-color"#3E99FB" inactive-color"#DCDFE6"…...

编程新知 2026/1/26 10:00:16

TRS收益互换：跨境资本流动的金融创新工具与系统化解决方案

一、TRS收益互换的本质与业务逻辑 （一）概念解析 TRS（Total Return Swap）收益互换是一种金融衍生工具，指交易双方约定在未来一定期限内，基于特定资产或指数的表现进行现金流交换的协议。其核心特征包括&am…...

编程新知 2025/11/2 0:31:23

智能仓储的未来：自动化、AI与数据分析如何重塑物流中心

当仓库学会“思考”，物流的终极形态正在诞生想象这样的场景： 凌晨3点，某物流中心灯火通明却空无一人。AGV机器人集群根据实时订单动态规划路径；AI视觉系统在0.1秒内扫描包裹信息；数字孪生平台正模拟次日峰值流量压力…...

编程新知 2026/2/1 2:49:30

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。本弹重点聚焦于服务端的模块划分与架构设计，提升代码结构的可维护性与扩展性。二、服务端模块设计目标高内聚低耦合：各模块职责清晰，便于独立开发…...

编程新知 2025/10/13 4:15:41

mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包

文章目录现象：mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包遇到 rpm 命令找不到已经安装的 MySQL 包时，可能是因为以下几个原因：1.MySQL 不是通过 RPM 包安装的2.RPM 数据库损坏3.使用了不同的包名或路径4.使用其他包…...

编程新知 2026/2/4 16:17:25

测试文件及环境

实验代码

实验结果

相关文章：