当前位置：首页 > news >正文

13. MapReduce自定义OutputFormat

news 2026/5/13 3:50:16

一. OutputFormat简介

OutputFormat是MapReduce输出的基类，所有MapReduce输出都实现了OutputFormat接口，它接收ReduceTask产生的数据，然后将结果按照指定格式输出。

在MapReduce中，如果不指定，默认使用的是TextOutputFormat。但是在一些特定的场景下，默认的TextOutputFormat不一定能满足我们的需求，因此可以自定义OutputFormat来实现个性化需求。

二. 需求

使用MapReduce对输入文件中的单词进行计数，单词"hello"的计数结果输出到hello.log中，非"hello"的单词的计数结果输出到non-hello.log。

要实现上面的输出需求，就需要自定义OutputFormat。

自定义OutputFormat的步骤：

自定义一个类继承FileOutputFormat。
自定义一个类继承RecordWriter，重写方法write()和close()。

代码实现

package mr;import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;class MultiOuputFormat extends FileOutputFormat<Text, IntWritable> {@Overridepublic RecordWriter<Text, IntWritable> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {Configuration configuration = job.getConfiguration();String outputPath = configuration.get(FileOutputFormat.OUTDIR);FileSystem fs = FileSystem.get(configuration);Path path1 = new Path(outputPath + "/hello.log");Path path2 = new Path(outputPath + "/non-hello.log");if (fs.exists(path1)) {fs.delete(path1, true);}if (fs.exists(path2)) {fs.delete(path2, true);}FSDataOutputStream out1 = fs.create(path1);FSDataOutputStream out2 = fs.create(path2);return new MyRecordWriter(out1, out2);}
}class MyRecordWriter extends RecordWriter<Text, IntWritable> {private FSDataOutputStream out1;private FSDataOutputStream out2;public MyRecordWriter(FSDataOutputStream out1, FSDataOutputStream out2) {super();this.out1 = out1;this.out2 = out2;}@Overridepublic void write(Text key, IntWritable value) throws IOException, InterruptedException {String outStr = key.toString() + "," + value.toString() + "\n";if (key.toString().contains("hello")) {out1.write(outStr.getBytes());} else {out2.write(outStr.getBytes());}}@Overridepublic void close(TaskAttemptContext context) throws IOException, InterruptedException {IOUtils.close(out1);IOUtils.close(out2);}
}public class WordCountOutputFormat {static class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {@Overridepublic void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {String[] words = value.toString().split(" ");for (String word: words) {context.write(new Text(word), new IntWritable(1));}}}static class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {@Overridepublic void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {int sum = 0;for (IntWritable val : values) {sum += val.get();}context.write(key, new IntWritable(sum));}}public static void main(String[] args) throws Exception {Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(WordCountOutputFormat.class);job.setJobName("WordCount");// 设置输入,输出路径FileInputFormat.setInputPaths(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));// 设置Mapperjob.setMapperClass(WordCountOutputFormat.WordCountMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);// 设置Reducerjob.setReducerClass(WordCountOutputFormat.WordCountReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);job.setNumReduceTasks(1);job.setOutputFormatClass(MultiOuputFormat.class);boolean waitFor = job.waitForCompletion(true);System.exit(waitFor ? 0 : 1);}
}

运行结果

[root@hadoop1 ~]# yarn jar learn-1.0-SNAPSHOT.jar  mr.WordCountOutputFormat  /test/a.txt  /output# 查看输入文件
[root@hadoop1 ~]# hdfs dfs -text /test/a.txt
hello world
name hello
world# 查看结果文件
[root@hadoop1 ~]# hdfs dfs -ls /output
Found 3 items
-rw-r--r--   3 root supergroup          0 2024-10-29 21:52 /output/_SUCCESS
-rw-r--r--   3 root supergroup          8 2024-10-29 21:52 /output/hello.log
-rw-r--r--   3 root supergroup         15 2024-10-29 21:52 /output/non-hello.log
[root@hadoop1 ~]# hdfs dfs -text /output/hello.log
hello,2
[root@hadoop1 ~]# hdfs dfs -text /output/non-hello.log
name,1
world,2

13. MapReduce自定义OutputFormat

一. OutputFormat简介 OutputFormat是MapReduce输出的基类，所有MapReduce输出都实现了OutputFormat接口，它接收ReduceTask产生的数据，然后将结果按照指定格式输出。在MapReduce中，如果不指定，默认使用的是TextOutpu…...

编程日记 2024/10/31 8:52:48

Javase——正则表达式

正则表达式的相关使用 public static void main(String[] args) {//校验QQ号 System.out.println("3602222222".matches("[1-9][0-9]{4,}"));// 校验18位身份证号 System.out.println("11050220240830901X".matches("^([0-9]){7,18}…...

编程日记 2024/10/31 8:48:43

云原生文件系统之JuiceFS

JuiceFS 是一个分布式文件系统，专门为云原生环境设计，支持大规模数据存储和处理，特别适用于处理对象存储和大数据应用。JuiceFS 将元数据和数据分离，元数据保存在数据库中，而文件数据则存储在对象存储中，提…...

编程日记 2024/10/31 8:47:41

C++：输入和输出

一 . DEV C的下载和安装二 . 第一个C程序三 . 输出流四 . 初始的数据类型 3.1、整型变量 3.2、双精度浮点数变量 3.3、字符型变量 3.4、字符串变量 3.5、无符号整型变量五、输入流...

编程日记 2024/10/31 8:43:36

vue的路由的两种模式 hash与history 详细讲解

文章目录 1. Hash 模式工作原理优点缺点使用示例 2. History 模式工作原理优点缺点服务器配置示例使用示例总结 Vue Router 是 Vue.js 的官方路由管理器，它支持多种路由模式，其中最常用的两种是 hash 模式和 history 模式。下面我们详细讲解这两种模式的…...

编程日记 2024/10/31 8:38:27

【Linux操作系统】进程间通信之匿名管道与命名管道

目录一、进程间通信的目的：二、进程间通信的种类三、什么是管道四、匿名管道（共同祖先的进程之间）1.匿名管道的使用2.匿名管道举例3.匿名管道的原理4.管道特点5.管道的读写规则1. 当管道内没有数据可读时2.当管道满的时候3.管道端被关闭4.数…...

编程日记 2024/10/31 8:37:24

慢sql优化和Explain解析

要想程序跑的快，sql优化不可懈怠！今日来总结一下常用的慢sql的分析和优化的方法。 1、慢sql的执行分析： 大家都知道分析一个sql语句执行效率的方法是用explain关键词： 举例：sql:select * from test where bussiness_…...

编程日记 2024/10/31 8:31:18

ALIGN_ Tuning Multi-mode Token-level Prompt Alignment across Modalities

文章汇总当前的问题目前的工作集中于单模提示发现，即一种模态只有一个提示，这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重，因为视觉和文本概念及其对齐都需要推断。此外，仅用全局特征来表示图像和标记是不…...

编程日记 2024/10/31 8:30:17

【Java SE】代码注释

代码注释注释（comment）是用于说明解释程序的文字，注释的作用在于提高代码的阅读性（可读性）。Java中的注释类型包括3种，分别是： 单行注释多行注释文档注释 ❤️ 单行注释基本格式&#xff…...

编程日记 2024/10/31 8:27:12

如何在算家云搭建Llama3-Factory（智能对话）

一、Llama3-Factory 简介当地时间 4 月 18 日，Meta 在官网上宣布公布了旗下最新大模型 Llama 3。目前，Llama 3 已经开放了 80 亿（8B）和 700 亿（70B）两个小参数版本，上下文窗口为 8k。Llama3 是…...

编程日记 2024/10/31 8:25:10

操作数据表

创建表创建表语法： CREATE TABLE table_name ( field1 datatype [COMMENT 注释内容], field2 datatype [COMMENT 注释内容], field3 datatype ); 注意： 1. 蓝色字体为关键字 2. CREATE TABLE 是创建数据表的固定关键字，表…...

编程日记 2024/10/31 8:23:08

C# 实现进程间通信的几种方式（完善）

目录引言一、基本概念二、常见的IPC方法 1. 管道（Pipes） 2. 共享内存（Shared Memory） 3. 消息队列（Message Queues） 4. 套接字（Sockets） 5. 信号量（Semaphore…...

编程日记 2024/10/31 8:21:05

MySQL Workbench Data Import Wizard:list index out of range

MySQL Workbench的Data Import Wizard功能是用python实现的，MySQL Workbench自带了一个python，数据导入的时候出现错误提示 22:55:51 [ERR][ pymforms]: Unhandled exception in Python code: Traceback (most recent call last): File "D…...

编程日记 2024/10/31 8:19:02

微信支付宝小程序SEO优化的四大策略

在竞争激烈的小程序市场中，高搜索排名意味着更多的曝光机会和潜在用户。SEO即搜索引擎优化，对于小程序而言，主要指的是在微信小程序商店中提高搜索排名，从而增加曝光度和用户访问量。有助于小程序脱颖而出，提升品牌知名…...

编程日记 2024/10/31 8:16:59

AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion论文阅读笔记

AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion 论文阅读笔记这是ECCV2024的论文，作者单位是是港中文和上海AI Lab 文章提出了一个叫AutoDIR的方法，包括两个关键阶段，一个是BIQA，基于vision-language…...

编程日记 2024/10/31 8:14:56

SQLite 数据库设计最佳实践

SQLite特点 SQLite是一款功能强大的轻量级嵌入式数据库，具有以下显著特点：体积小：最低配置仅需几百KB内存，适用于资源受限环境。高性能：访问速度快，运行效率高于许多开源数据库。高度可移植：兼容多种硬件和软件平台。零配置：无需复杂设置，开箱即用。自给自…...

编程日记 2024/10/31 8:13:55

【论文精读】ID-like Prompt Learning for Few-Shot Out-of-Distribution Detection

🌈 个人主页：十二月的猫-CSDN博客 🔥 系列专栏： 🏀论文精读_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光注：下文…...

编程日记 2024/10/31 8:10:52

Android 10.0 根据包名禁用某个app的home事件

1.前言在10.0的系统rom定制化开发中，在某些app中，需要禁用home事件，在普通的app中又无法禁用home事件，所以就需要从系统中来根据包名禁用home事件了，接下来分析下系统中处理home事件的相关流程 2.根据包名禁用某个app的home事件的核心类 frameworks/base/services/c…...

编程日记 2024/10/31 8:08:50

Rust 文档生成与发布

目录第三节文档生成与发布 1. 使用 RustDoc 生成项目文档 1.1 RustDoc 的基本使用 1.2 文档注释的格式与实践 1.3 生成文档的其他选项 1.4 在 CI/CD 中生成文档 2. 发布到 crates.io 的步骤与注意事项 2.1 创建 crates.io 账户 2.2 配置 Cargo.toml 2.3 生成发布版…...

编程日记 2024/10/31 8:07:49

【C++动态规划】有效括号的嵌套深度

本文涉及知识点 C动态规划 LeetCode1111. 有效括号的嵌套深度有效括号字符串定义：对于每个左括号，都能找到与之对应的右括号，反之亦然。详情参见题末「有效括号字符串」部分。嵌套深度 depth 定义：即有效括号字符串嵌套的层…...

编程日记 2024/10/31 8:04:46

LMQL：用编程语言精准控制大语言模型输出，告别提示词玄学

1. 项目概述：当自然语言成为编程语言如果你和我一样，既对大型语言模型（LLM）的能力感到兴奋，又对如何精准、可控地调用它们感到头疼，那么你肯定遇到过这样的场景：你向ChatGPT或Claude提出一个复杂…...

编程新知 2026/5/13 2:36:22

中国半导体产业崛起：资本驱动下的存储器攻坚与全产业链布局

1. 行业格局的十字路口：当西方整合遇上东方崛起最近几年，半导体行业的头条新闻几乎被一系列重磅并购案所占据：恩智浦收购飞思卡尔、安华高并购博通、英特尔鲸吞阿尔特拉。这些动辄数百亿美元的巨无霸交易，背后传递出一个清晰的信号…...

编程新知 2026/5/13 0:49:00

服务器卡死别慌！手把手教你读懂NMI watchdog的soft lockup报错信息（附CentOS 7排查流程）

服务器卡死应急指南：NMI watchdog与soft lockup实战排查手册凌晨三点，机房告警铃声大作，监控大屏上某台核心服务器的CPU使用率突然飙升至100%并持续不降。登录系统后，dmesg中赫然出现NMI watchdog: BUG: soft lockup - CPU#2 stu…...

编程新知 2026/5/13 0:46:49

WindowResizer：轻松掌控Windows窗口的终极解决方案

WindowResizer：轻松掌控Windows窗口的终极解决方案【免费下载链接】WindowResizer 一个可以强制调整应用程序窗口大小的工具项目地址: https://gitcode.com/gh_mirrors/wi/WindowResizer 还在为Windows应用程序窗口尺寸无法调整而烦恼吗？Window…...

编程新知 2026/5/12 23:57:32

在Taotoken模型广场中根据任务与预算选择合适的模型

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Taotoken模型广场中根据任务与预算选择合适的模型当开发者需要将大模型能力集成到自己的应用或工作流中时，面对市场…...

编程新知 2026/5/12 23:13:55

谷歌seo付费外链是什么? 深度拆解5种主流的外链买卖方式

在目前的搜索环境下，想要让网站在没有外部引荐的情况下出现在搜索结果前排，难度不亚于在一座无人的深山里开店却希望客流量爆满。链接建设，或者说大家心照不宣的“外链买卖”，已经变成了提升排名的必经之路。一、揭开付费外链的真…...

编程新知 2026/5/12 22:59:01

嵌入式系统开发实战：从架构设计到量产部署的工程指南

1. 从一场顶级技术盛会看嵌入式开发的演进与实战十多年前，也就是2010年的6月，芝加哥嵌入式系统大会（ESC Chicago）的第一天，被当时的媒体形容为“全明星阵容”的聚会。Dan Saks、Christian Legare、Bill Gatliff、David…...

编程新知 2026/5/12 22:20:29

本地AI任务编排工具AgentForge：从看板管理到多代理协作

1. 项目概述：一个能调度AI编码代理的本地看板工具如果你和我一样，日常开发中经常需要让Claude Code这类AI编码助手去执行一些重复性的代码审查、重构或者生成任务，并且希望这些任务能像CI/CD流水线一样被编排、调度和监控，那么你一…...

编程新知 2026/5/12 22:00:42

2026年搜索引擎大变革：生成式优化服务如何引领未来趋势

随着AI技术的不断进步，搜索引擎领域正在经历一场前所未有的变革。2026年，我们见证了从传统SEO到生成式引擎优化（GEO）的重大转变。这场变革不仅改变了用户获取信息的方式，也为企业带来了全新的营销机遇。本文将深入探讨…...

编程新知 2026/5/12 20:46:38

计算机视觉数据集选型实战指南：从COCO到Roboflow的工程决策框架

1. 这份清单不是“资料库目录”，而是计算机视觉工程师的实战弹药箱如果你正在训练一个能识别工业零件表面微小划痕的模型，却在COCO数据集上反复调参；或者你刚拿到一批医院提供的CT影像，第一反应是去Kaggle搜“medical image datas…...

编程新知 2026/5/12 20:05:28

一. OutputFormat简介

二. 需求

相关文章：