当前位置：首页 > news >正文

hadoop 学习：mapreduce 入门案例一：WordCount 统计一个文本中单词的个数

news 2025/11/6 1:31:53

一需求

这个案例的需求很简单

现在这里有一个文本wordcount.txt，内容如下

现要求你使用 mapreduce 框架统计每个单词的出现个数

这样一个案例虽然简单但可以让新学习大数据的同学熟悉 mapreduce 框架

二准备工作

（1）创建一个 maven 工程，maven 工程框架可以选择quickstart

（2）在properties中添加 hadoop.version，导入依赖，pom.xml内容如下

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>org.example</groupId><artifactId>maven_hadoop</artifactId><version>1.0-SNAPSHOT</version><dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version><scope>test</scope></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-common</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency></dependencies><properties><maven.compiler.source>8</maven.compiler.source><maven.compiler.target>8</maven.compiler.target><hadoop.version>3.1.3</hadoop.version></properties></project>

（3）准备数据，创建两个文件夹 in，out（一个是输入文件，一个是输出文件），输入文件放在 in 文件夹中

三编写 WordCountMapper 类

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;//                                              <0,       hello java, hello, 1       >
//                                              <0,       hello java, java, 1       >
//  alt + ins
public class WordCountMapper extends Mapper<LongWritable, Text,Text, IntWritable> {Text text = new Text();IntWritable intWritable =  new IntWritable();@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {System.out.println("WordCountMap stage Key:"+key+"  Value:"+value);String[] words = value.toString().split(" ");  // "hello java"--->[hello,java]for (String word :words) {text.set(word);intWritable.set(1);context.write(text,intWritable);   //<hello,1>,<java,1>}}
}

四编写 WordCountReducer 类

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;public class WordCountReduce extends Reducer<Text, IntWritable, Text, LongWritable> {@Overrideprotected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {System.out.println("Reduce stage Key:" + key + "  Values:" + values.toString());int count = 0;for (IntWritable intWritable :values) {count+=intWritable.get();}LongWritable longWritable = new LongWritable(count);System.out.println("ReduceResult key:"+key+" resultValue:"+longWritable.get());context.write(key,longWritable);}
}

五编写WordCountDriver 类

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;public class WordCountDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(WordCountDriver.class);// 设置job的map阶段 工作任务job.setMapperClass(WordCountMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);// 设置job的reduce阶段 工作任务job.setReducerClass(WordCountReduce.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(LongWritable.class);// 指定job map阶段的输入文件的路径FileInputFormat.setInputPaths(job, new Path("D:\\bigdataworkspace\\kb23\\hadoopstu\\in\\wordcount.txt"));// 指定job reduce阶段的输出文件路径Path path = new Path("D:\\bigdataworkspace\\kb23\\hadoopstu\\out1");FileSystem fileSystem = FileSystem.get(path.toUri(), conf);if (fileSystem.exists(path))fileSystem.delete(path,true);FileOutputFormat.setOutputPath(job, path);// 启动jobjob.waitForCompletion(true);}
}

hadoop 学习：mapreduce 入门案例一：WordCount 统计一个文本中单词的个数

一需求这个案例的需求很简单现在这里有一个文本wordcount.txt，内容如下现要求你使用 mapreduce 框架统计每个单词的出现个数这样一个案例虽然简单但可以让新学习大数据的同学熟悉 mapreduce 框架二准备工作 （1）创建一个 maven 工…...

编程日记 2023/8/30 17:30:15

vue2项目中el-input单独使用max和maxlength不生效问题

vue2项目中el-input单独使用max和maxlength不生效问题今天在vue2的项目中使用element中的<el-input>组件，因为没有使用form所以max和maxlength属性没有生效，下面是解决办法 <el-input placeholder"请输入" v-model"holeDat…...

编程日记 2023/8/30 17:29:14

源码角度看待线程池的执行流程

文章目录前言一、线程池的相关接口和实现类1.Executor接口2.ExecutorService接口3.AbstractExecutorService接口4.ThreadPoolExecutor 实现类二、ThreadPoolExecutor源码解析1.Worker内部类2.execute()方法3.addWorker()方法总结前言线程池内部维护了若干个线程&#xff…...

编程日记 2023/8/30 17:28:13

我们的第一个 Qt 窗口程序

Qt 入门实战教程（目录） Windows Qt 5.12.10下载与安装为何使用Qt Creator开发QT 本文介绍用Qt自带的集成开发工具Qt Creator创建Qt默认的窗口程序。本文不需要你另外安装Visual Studio 2022这样的集成开发环境，也不需要你再在Visual St…...

编程日记 2023/8/30 17:27:11

Linux 8 下的容器引擎Podman概述

一、前言最近在进行OS国产化交流中，了解到部分业务迁移到BClinux 8.2或Anolis 8.2时，原有docker业务需要迁移到新的容器平台：Podman，来完成容器的新的管理。Podman（全称 Pod Manager）是一款用于在 Linux 系…...

编程日记 2023/8/30 17:26:10

PDFWriter是一个易于使用的C创建、修改PDF文档的库 1.创建一个PDF文件 #include #include “PDFWriter.h” int main() { std::cout << “Hello World!\n”; PDFWriter pdfWriter; int retpdfWriter.StartPDF(“D:\mytestwriterpdf.pdf”, ePDFVersion13); if (ret eS…...

编程日记 2023/8/30 17:25:08

数据倾斜优化

数据倾斜发生的原因有哪些？ map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特性、建表时考虑不周等原因造成的reduce 上的数据量差异过大。数据倾斜解决方式有哪些 group by 导致的数据倾斜 1.开启Map-Side聚合后&#x…...

编程日记 2023/8/30 17:24:06

Acwing796.子矩阵的和

理解二维前缀和： #include <iostream>using namespace std;const int N 1010;int a[N][N], s[N][N];int main() {int n, m, q;cin >> n >> m >> q;for (int i 1; i < n; i)for (int j 1; j < m; j) {scanf("%d", &a…...

编程日记 2023/8/30 17:23:05

【ELK日志收集系统】

目录一、概述 1.作用 2.为什么使用？ 二、组件 1.elasticsearch 1.1 作用 1.2 特点 2.logstash 2.1 作用 2.2 工作过程 2.3 INPUT 2.4 FILETER 2.5 OUTPUTS 3.kibana 三、架构类型 1.ELK 2.ELKK 3.ELFK 4.ELFKK 四、案例 - 构建ELK集群 1.环境…...

编程日记 2023/8/30 17:22:04

Java项目中实现信号的连续接收

系列文章目录文章目录系列文章目录前言一、监听信号二、信号处理逻辑三、停止信号监听总结前言在Java项目中，信号的连续接收是一项重要的任务，特别是在处理异步事件或者需要对外部事件做出响应时。本篇博客将介绍如何在Java项目中实现信号的连续接收…...

编程日记 2023/8/30 17:21:02

vue权限管理——按钮控制

1.按钮根据后端返回数据决定展示与否根据right中的数据对应增删改查按钮 const menuList [{id: 1, path:/uploadSpec,authName: "上传spec", icon: User, children:[], rights:[view,add,edit,delete]},{id: 2, path:/showSpec, authName: "Spec预览",…...

编程日记 2023/8/30 17:20:01

jvm的内存区域

JVM 内存分为线程私有区和线程共享区，其中方法区和堆是线程共享区，虚拟机栈、本地方法栈和程序计数器是线程隔离的数据区。 1）程序计数器程序计数器（Program Counter Register）也被称为 PC 寄存器，是一块…...

编程日记 2023/8/30 17:18:59

即时通讯开发中的性能优化技巧

即时通讯开发在如今的数字化社会中扮演着重要角色，然而，随着用户对即时通讯应用的需求不断增长，开发者们面临着使其应用保持高性能和可靠性的挑战。本文将探讨即时通讯开发中关键的性能优化技巧，帮助开发者们提升应用的用户体验和…...

编程日记 2023/8/30 17:17:58

flinkcdc同步完全量数据就不同步增量数据了

flinkcdc同步完全量数据就不同步增量数据了使用flinkcdc同步mysql数据，使用的是全量采集模型 startupOptions(StartupOptions.earliest()) 全量阶段同步完成之后，发现并不开始同步增量数据，原因有以下两个： 原因1： …...

编程日记 2023/8/30 17:16:57

VBA：Application.GetOpenFilename打开指定文件夹里的excel类型文件（xls、xlsx）

GetOpenFilename相当于Excel打开窗口，通过该窗口选择要打开的文件，并可以返回选择的文件完整路径和文件名。 Application.GetOpenFilename(“文件类型筛选规则(就是说明)”,“优先显示第几个类型的文件”,“标题”,“是否允许选择多个文件名”) 打开类型…...

编程日记 2023/8/30 17:15:56

利用R作圆环条形图

从理念上看，本质就是增加了圆环弧度的条形图。如上图2。需要以下步骤： 数据处理，将EXCEL中的数据做成3*N的表格导入系统，代码如下：library(tidyverse) library(stringr)library(ggplot2)library(viridis) stuper &…...

编程日记 2023/8/30 17:14:55

JavaScript（笔记）

目录 Hello World JavaScript 的变量 JavaScript 动态类型隐式类型转换 JavaScript 数组 JavaScript 函数 JavaScript 中变量的作用域对象 DOM 选中页面元素事件获取 / 修改元素内容获取 / 修改元素属性获取 / 修改表单元素属性获取 / 修改样式属性新…...

编程日记 2023/8/30 17:13:53

软件工程(九) UML顺序-活动-状态-通信图

顺序图和后面的一些图，要求没有用例图和类图那么高，但仍然是比较重要的，我们也需要按程度去了解。 1、顺序图顺序图(sequence diagram, 顺序图)，顺序图是一种交互图（interaction diagram），它强调的是对象之间消息发送的顺序，同时显示对象之间的交互。下面以一个简…...

编程日记 2023/8/30 17:12:52

JVM 是怎么设计来保证new对象的线程安全

1、采用 CAS 分配重试的方式来保证更新操作的原子性 2、每个线程在 Java 堆中预先分配一小块内存，也就是本地线程分配缓冲（Thread Local AllocationBuffer，TLAB），要分配内存的线程，先在本地缓冲区中分配&a…...

编程日记 2023/8/30 17:11:50

【JavaEE基础学习打卡00】该专栏知识大纲在这里！

目录前言一、为什么有该教程二、教程内容介绍1.JavaEE2.JDBC3.JSP编程4.JavaBean5.Servlet6.综合案例7.拦截器、过滤器三、学习前置要求四、课程服务总结前言 📜 本系列教程适用于 Java Web 初学者、爱好者，小白白。我们的天赋并不高，可贵…...

编程日记 2023/8/30 17:10:49

day52 ResNet18 CBAM

在深度学习的旅程中，我们不断探索如何提升模型的性能。今天，我将分享我在 ResNet18 模型中插入 CBAM（Convolutional Block Attention Module）模块，并采用分阶段微调策略的实践过程。通过这个过程，我不仅提升…...

编程新知 2025/9/14 16:40:54

大数据零基础学习day1之环境准备和大数据初步理解

学习大数据会使用到多台Linux服务器。一、环境准备 1、VMware 基于VMware构建Linux虚拟机是大数据从业者或者IT从业者的必备技能之一也是成本低廉的方案所以VMware虚拟机方案是必须要学习的。 （1）设置网关打开VMware虚拟机，点击编辑…...

编程新知 2025/11/4 0:36:57

【第二十一章 SDIO接口(SDIO)】

第二十一章 SDIO接口目录第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...

编程新知 2025/11/4 13:37:05

蓝桥杯 2024 15届国赛 A组儿童节快乐

P10576 [蓝桥杯 2024 国 A] 儿童节快乐题目描述五彩斑斓的气球在蓝天下悠然飘荡，轻快的音乐在耳边持续回荡，小朋友们手牵着手一同畅快欢笑。在这样一片安乐祥和的氛围下，六一来了。今天是六一儿童节，小蓝老师为了让大家在节…...

编程新知 2025/11/5 1:22:14

Auto-Coder使用GPT-4o完成：在用TabPFN这个模型构建一个预测未来3天涨跌的分类任务

通过akshare库，获取股票数据，并生成TabPFN这个模型可以识别、处理的格式，写一个完整的预处理示例，并构建一个预测未来 3 天股价涨跌的分类任务用TabPFN这个模型构建一个预测未来 3 天股价涨跌的分类任务，进行预测并输…...

编程新知 2025/9/20 4:34:47

多模态商品数据接口：融合图像、语音与文字的下一代商品详情体验

一、多模态商品数据接口的技术架构 （一）多模态数据融合引擎跨模态语义对齐通过Transformer架构实现图像、语音、文字的语义关联。例如，当用户上传一张“蓝色连衣裙”的图片时，接口可自动提取图像中的颜色（RGB值&…...

编程新知 2025/7/23 3:55:49

高等数学（下）题型笔记（八）空间解析几何与向量代数

目录 0 前言 1 向量的点乘 1.1 基本公式 1.2 例题 2 向量的叉乘 2.1 基础知识 2.2 例题 3 空间平面方程 3.1 基础知识 3.2 例题 4 空间直线方程 4.1 基础知识 4.2 例题 5 旋转曲面及其方程 5.1 基础知识 5.2 例题 6 空间曲面的法线与切平面 6.1 基础知识 6.2…...

编程新知 2025/11/3 17:58:12

HTML前端开发：JavaScript 常用事件详解

作为前端开发的核心，JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例： 1. onclick - 点击事件当元素被单击时触发（左键点击） button.onclick function() {alert("按钮被点击了！&…...

编程新知 2025/10/26 2:03:27

让AI看见世界：MCP协议与服务器的工作原理

让AI看见世界：MCP协议与服务器的工作原理 MCP（Model Context Protocol）是一种创新的通信协议，旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天，MCP正成为连接AI与现实世界的重要桥梁。…...

编程新知 2025/10/30 5:10:41

Unity | AmplifyShaderEditor插件基础（第七集：平面波动shader）

目录一、👋🏻前言二、😈sinx波动的基本原理三、😈波动起来 1.sinx节点介绍 2.vertexPosition 3.集成Vector3 a.节点Append b.连起来 4.波动起来 a.波动的原理 b.时间节点 c.sinx的处理四、🌊波动优化…...

编程新知 2025/11/3 2:08:32

hadoop 学习：mapreduce 入门案例一：WordCount 统计一个文本中单词的个数

一需求

二准备工作

三编写 WordCountMapper 类

四编写 WordCountReducer 类

五编写WordCountDriver 类

相关文章：

hadoop 学习：mapreduce 入门案例一：WordCount 统计一个文本中单词的个数

vue2项目中el-input单独使用max和maxlength不生效问题

源码角度看待线程池的执行流程

我们的第一个 Qt 窗口程序

Linux 8 下的容器引擎Podman概述

C++编辑修改PDF

数据倾斜优化

Acwing796.子矩阵的和

【ELK日志收集系统】

Java项目中实现信号的连续接收

vue权限管理——按钮控制

jvm的内存区域

即时通讯开发中的性能优化技巧

flinkcdc同步完全量数据就不同步增量数据了

VBA：Application.GetOpenFilename打开指定文件夹里的excel类型文件（xls、xlsx）

利用R作圆环条形图

JavaScript（笔记）

软件工程(九) UML顺序-活动-状态-通信图

JVM 是怎么设计来保证new对象的线程安全

【JavaEE基础学习打卡00】该专栏知识大纲在这里！

day52 ResNet18 CBAM

大数据零基础学习day1之环境准备和大数据初步理解

【第二十一章 SDIO接口(SDIO)】

蓝桥杯 2024 15届国赛 A组儿童节快乐

Auto-Coder使用GPT-4o完成：在用TabPFN这个模型构建一个预测未来3天涨跌的分类任务

多模态商品数据接口：融合图像、语音与文字的下一代商品详情体验

高等数学（下）题型笔记（八）空间解析几何与向量代数

HTML前端开发：JavaScript 常用事件详解

让AI看见世界：MCP协议与服务器的工作原理

Unity | AmplifyShaderEditor插件基础（第七集：平面波动shader）

一 需求

二 准备工作

三 编写 WordCountMapper 类

四 编写 WordCountReducer 类

五 编写WordCountDriver 类

相关文章：

一需求

二准备工作

三编写 WordCountMapper 类

四编写 WordCountReducer 类

五编写WordCountDriver 类