当前位置：首页 > article >正文

wordcount程序

article 2026/4/30 22:51:02

### 在 IntelliJ IDEA 中编写和运行 Spark WordCount 程序

要使用 IntelliJ IDEA 编写并运行 Spark 的 WordCount 程序，需按照以下流程逐步完成环境配置、代码编写以及任务提交。

---

#### 1. **安装与配置 IntelliJ IDEA**
确保已正确安装 IntelliJ IDEA，并启用 Scala 插件以支持 Spark 开发。
- 如果尚未安装，请参照官方文档或社区指南完成安装过程。
- 启动 IDEA 后，在设置界面中确认 Scala 插件处于激活状态。

---

#### 2. **创建 Maven 项目**
新建一个 Maven 项目用于管理依赖库。
- 打开 IDEA，选择 `File -> New Project`，接着选中 `Maven` 模板。
- 输入项目的 GroupId 和 ArtifactId（如：GroupId=`com.example`, ArtifactId=`spark-wordcount`），继续下一步直至完成初始化。

---

#### 3. **修改 POM 文件添加依赖**
编辑项目的 `pom.xml` 来引入 Spark 和 Scala 必需的库文件。
```xml
<dependencies>

<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>3.0.1</version>
</dependency>

<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>2.12.10</version>
</dependency>
</dependencies>
```
此处定义了 Spark 和 Scala 的具体版本号，建议依据实际需求调整至最新稳定版。

---

#### 4. **编写 WordCount 程序**
在 src/main/scala 路径下新增名为 `WordCount.scala` 的源码文件，填入如下内容：
```scala
package com.example.wordcount

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
def main(args: Array[String]): Unit = {
if (args.length != 2) {
println("Usage: WordCount <input-file-path> <output-directory>")
System.exit(1)
}

val inputPath = args(0)
val outputPath = args(1)

// 初始化 Spark 配置对象
val conf = new SparkConf()
.setAppName("Word Count Application")
.setMaster("local[*]") // 若部署到集群则改为 spark://master:7077

val sc = new SparkContext(conf)

try {
// 加载文本文件作为 RDD
val linesRDD = sc.textFile(inputPath)

// 对每行拆分单词并映射为(key-value)形式
val wordsRDD = linesRDD.flatMap(_.split("\\s+")).map((_, 1))

// 统计各单词出现次数
val countsRDD = wordsRDD.reduceByKey(_ + _)

// 存储结果到 HDFS 上指定目录
countsRDD.saveAsTextFile(outputPath)

println(s"Results saved to $outputPath successfully.")
} finally {
sc.stop() // 关闭上下文资源释放内存占用
}
}
}
```
该脚本实现了读取输入文件中的每一行字符串分割成单个词语再计算各自频次最后输出存储的功能。

---

#### 5. **构建 JAR 包**
通过 Maven 构建工具生成可执行 jar 文件以便后续提交给 Spark Cluster 处理。
- 移步至工程根目录执行命令：
```bash
mvn clean package -DskipTests=true
```
这一步骤将会清理旧有构件同时重新打包生成新版本jar包位于 target 文件夹内。

---

#### 6. **启动服务与提交任务**
先保证本地已经开启 HDFS 和 Spark Master Slave Services。
- 使用 shell 登录服务器端口分别启动 dfs 和 yarn/yarn-resourcemanager :
```bash
start-dfs.sh && start-yarn.sh || jps # 查看进程列表验证是否正常启动
```

之后采用 spark-submit 方式递交刚才制作好的 jar 至远端节点解析运算得出结论存回分布式文件系统当中去:
```bash
../bin/spark-submit \
--class com.example.wordcount.WordCount \
--master spark://node141:7077 \
--executor-memory 1G \
--total-executor-cores 4 \
./target/spark-wordcount-1.0-SNAPSHOT.jar \
hdfs://node141:9000/input/wordcount.txt \
hdfs://node141:9000/output/
```

---

### 总结
以上步骤详尽描述了从零开始直到成功运行一个简单的大数据分析案例——即统计词频问题的整体解决方案。遵循本文档指示能够帮助初学者迅速掌握如何运用 IntelliJ IDEA 结合 Spark 实现高效的数据处理能力提升工作效率的同时也积累了宝贵经验。

---

wordcount程序

相关文章：

wordcount程序

回溯法理论基础 LeetCode 77. 组合 LeetCode 216.组合总和III LeetCode 17.电话号码的字母组合

【进程控制二】进程替换和bash解释器

线性回归策略

Linux下的c/c++开发之操作Redis数据库

Bitmap、Roaring Bitmap、HyperLogLog对比介绍

JavaScript 的编译与执行原理

fastapi项目中数据流转架构设计规范

NHANES指标推荐：FMI

【JDBC】JDBC常见错误处理方法及驱动的加载

React中useState中更新是同步的还是异步的?

Vim编辑器命令模式操作指南

车载以太网驱动智能化：域控架构设计与开发实践

如何利用技术手段提升小学数学练习效率

C# DataGrid功能总览

BGP路由策略基础实验

第9讲、深入理解Scaled Dot-Product Attention

2025B难题练习

双向长短期记忆网络-BiLSTM

MySQL UPDATE 执行流程全解析

亚马逊云科技：开启数字化转型的无限可能

Gartner《How to Leverage Lakehouse Design in Your DataStrategy》学习心得

【实测有效】Edge浏览器打开部分pdf文件显示空白

RJ连接器的未来：它还会是网络连接的主流标准吗？

Redis持久化机制详解：保障数据安全的关键策略

shell脚本练习（6）：备份MySQL数据库表

深度学习模型基本框架

[Java][Leetcode middle] 134. 加油站

DeepSeek 大模型部署全指南：常见问题、优化策略与实战解决方案

嵌入式培训之数据结构学习（五）栈与队列