当前位置：首页 > news >正文

Hadoop学习总结（MapReduce的数据去重）

news 2026/2/10 8:37:33

现在假设有两个数据文件

file1.txt	file2.txt
2018-3-1 a 2018-3-2 b 2018-3-3 c 2018-3-4 d 2018-3-5 a 2018-3-6 b 2018-3-7 c 2018-3-3 c	2018-3-1 b 2018-3-2 a 2018-3-3 b 2018-3-4 d 2018-3-5 a 2018-3-6 c 2018-3-7 d 2018-3-3 c

上述文件 file1.txt 本身包含重复数据，并且与 file2.txt 同样出现重复数据，现要求使用 Hadoop 大数据相关技术对这两个文件进行去重操作，并最终将结果汇总到一个文件中。

一、MapReduce 的数据去重

二、案例实现

1、Map 阶段实现

DedupMapper.java

package com.itcast.dedup;//import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class DedupMapper extends Mapper<LongWritable, Text,Text, NullWritable> {//重写Ctrl+o@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//        <0,2018-3-1 a> <11,2018-3-2 b>
//        NullWritable.get() 方法设置空值context.write(value, NullWritable.get());}
}

该代码的作用是为了读取数据集文件将 TextInputFormat 默认组件解析的类似 <0,2018-3-1 a> 键值对修改 <2018-3-1 a,null>

2、Reduce 阶段实现

DedupReducer.java

package com.itcast.dedup;//import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;public class DedupReducer extends Reducer<Text, NullWritable,Text,NullWritable> {@Overrideprotected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {//<2018-3-1 a,null> <11,2018-3-2 b,null> <11,2018-3-3 c,null>context.write(key,NullWritable.get());}
}

该代码的作用仅仅是接受 Map 阶段传递来的数据，根据 Shuffle 工作原理，键值 key 相同的数据就不会被合并，因此输出数据就不会出现重复数据了。

3、Dtuver 程序主类实现

DedupDriver.java

package com.itcast.dedup;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
//import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;public class DedupDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {//通过 Job 来封装本次 MR 的相关信息Configuration conf = new Configuration();//System.setProperty("HADOOP_USER_NAME","root");//配置 MR 运行模式，使用 local 表示本地模式，可以省略
//        conf.set("mapreduce.framework.name","local");Job job = Job.getInstance(conf);//指定 MR Job jar 包运行主类job.setJarByClass(DedupDriver.class);//指定本次 MR 所有的 Mapper Reducer 类job.setMapperClass(DedupMapper.class);job.setReducerClass(DedupReducer.class);//设置业务逻辑 Mapper 类的输出 key 和 value 的数据类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(NullWritable.class);//设置业务逻辑 Reducer 类的输出 key 和 value 的数据类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(NullWritable.class);//使用本地模式指定处理的数据所在的位置//{input2\*} 表示读取该路径下所有的文件FileInputFormat.setInputPaths(job,"D:\\homework2\\Hadoop\\mr\\{input2\\*}");//使用本地模式指定处理完成之后的结果所保存的位置FileOutputFormat.setOutputPath(job, new Path("D:\\homework2\\Hadoop\\mr\\output"));//提交程序并且监控打印程序执行情况boolean res = job.waitForCompletion(true);//执行成功输出 0 ，不成功输出 1System.exit(res ? 0 : 1);}
}

运行结果：

三、拓展

只要日期相同，就判定为相同，最后结果输出日期即可

只需要修改DedupMapper.java文件

package com.itcast.dedup;//import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class DedupMapper extends Mapper<LongWritable, Text,Text, NullWritable> {//重写Ctrl+o@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {//输出日期// 把 hadoop 类型转换为 java 类型(接收传入进来的一行文本，把数据类型转换为 String 类型)String line = value.toString();// 把字符串拆分为单词String[] words = line.split(" ");// 输出前面的内容String wo = words[0];context.write(new Text(wo), NullWritable.get());}
}

运行结果：

Hadoop学习总结（MapReduce的数据去重）

现在假设有两个数据文件 file1.txtfile2.txt2018-3-1 a 2018-3-2 b 2018-3-3 c 2018-3-4 d 2018-3-5 a 2018-3-6 b 2018-3-7 c 2018-3-3 c2018-3-1 b 2018-3-2 a 2018-3-3 b 2018-3-4 d 2018-3-5 a 2018-3-6 c 2018-3-7 d 2018-3-3 c 上述文件 file1.txt 本身包含重复数据&…...

编程日记 2023/11/25 9:23:48

ctfshow sql

180 过滤%23 %23被过滤，没办法注释了，还可以用’1’1来闭合后边。或者使用--%0c-- 1%0corder%0cby%0c3--%0c--1%0cunion%0cselect%0c1,2,database()--%0c--1%0cunion%0cselect%0c1,2,table_name%0cfrom%0cinformation_schema.tables%0cwhere%0ctable_…...

编程日记 2023/11/25 9:22:46

Java实现求最大值

1 问题接收用户输入的3个整数，如何将最大值作为结果输出。 2 方法采用“截图文字代码”的方式描述。引入输入包调用main()函数，提示并接收用户输入的3个整数，并交由变量a b c来保存。对接收的3个数据进行比较，先比较a和b&#…...

编程日记 2023/11/25 9:20:43

NX二次开发UF_CURVE_ask_curve_inflections 函数介绍

文章作者：里海来源网站：https://blog.csdn.net/WangPaiFeiXingYuan UF_CURVE_ask_curve_inflections Defined in: uf_curve.h int UF_CURVE_ask_curve_inflections(tag_t curve_eid, double proj_matrx [ 9 ] , double range [ 2 ] , int * num_infpt…...

编程日记 2023/11/25 9:19:42

一个基于RedisTemplate静态工具类

每次是用RedisTemplate的时候都需要进行自动注入实在是太麻烦了，于是找到一个讨巧的办法。 import org.springframework.beans.factory.annotation.Autowired; import org.springframework.data.redis.core.RedisTemplate; import org.springframework.stereotype.…...

编程日记 2023/11/25 9:17:39

【计算机网络笔记】数据链路层——差错编码

系列文章目录什么是计算机网络？ 什么是网络协议？ 计算机网络的结构数据交换之电路交换数据交换之报文交换和分组交换分组交换 vs 电路交换计算机网络性能（1）——速率、带宽、延迟计算机网络性能（2）…...

编程日记 2023/11/25 9:16:38

js生成pdf并自动上传

1.生成pdf前要让js选中生成pdf部分的dom <div id"printPageFirst"> pdf内容区 </div> 2.使用两个插件，import到项目里，然后是获取dom进行生成pdf操作 import html2canvas from html2canvas import JsPDF from jspdf function cr…...

编程日记 2023/11/25 9:15:37

高品质MP3音频解码语音芯片WT2003Hx的特征优势与应用场景

在现代化科技快速发展的时代，高品质音频语音芯片在各个领域的应用越来越广泛。唯创知音推出的高品质MP3音频语音芯片WT2003Hx，凭借其出色的特性与优势，赢得了市场的广泛认可。本文将详细介绍WT2003Hx的特征优势以及其在各个领域的应用场景。 …...

编程日记 2023/11/25 9:14:36

浅析linux中的信号

人们往往将信号称为“软件中断”，它提供了异步事件的处理机制，这些事件可以来自系统外部（如用户按下ctrlc产生中断符），也可能来自程序或者内核内部的执行动作（如进程除零操作）。进程收到信号&am…...

编程日记 2023/11/25 9:13:35

从0开始学习JavaScript--JavaScript数据类型与数据结构

JavaScript作为一门动态、弱类型的脚本语言，拥有丰富的数据类型和数据结构，这些构建了语言的基础，为开发者提供了灵活性和表达力。本文将深入探讨JavaScript中的各种数据类型，包括基本数据类型和复杂数据类型，并介绍常…...

编程日记 2023/11/25 9:11:34

数据结构与算法编程题20

统计二叉树的叶结点个数。 #define _CRT_SECURE_NO_WARNINGS#include <iostream> using namespace std;typedef char ElemType; #define ERROR 0 #define OK 1 typedef struct BiNode {ElemType data;BiNode* lchild, * rchild; }BiNode,*BiTree;bool Create_tree(BiTre…...

编程日记 2023/11/25 9:10:33

FreeRTOS源码阅读笔记5--mutex

互斥量是一种特殊的二值信号量，拥有优先级继承的机制，所以适合用在临界资源互斥访问。 5.1创建互斥量xSemaphoreCreateMutex() 5.1.1函数原型 5.1.2函数框架 5.2创建递归互斥量xSemaphoreCreateRecursiveMutex() 5.2.1函数原型 5.2.2函数框架 xSemaph…...

编程日记 2023/11/25 9:09:32

STM32_7（ADC）

一、ADC ADC（Analog-Digital Converter）模拟-数字转换器ADC可以将引脚上连续变化的模拟电压转换为内存中存储的数字变量，建立模拟电路到数字电路的桥梁12位逐次逼近型ADC，1us转换时间输入电压范围：0~3.3V，…...

编程日记 2023/11/25 9:08:31

Flink实战(11)-Exactly-Once语义之两阶段提交

0 大纲 [Apache Flink]2017年12月发布的1.4.0版本开始，为流计算引入里程碑特性：TwoPhaseCommitSinkFunction。它提取了两阶段提交协议的通用逻辑，使得通过Flink来构建端到端的Exactly-Once程序成为可能。同时支持： 数据源&#…...

编程日记 2023/11/25 9:07:30

日志技术logback

一，日志概括二，日志技术的特点三，日志技术的体系三，入门四，案例 package XinZheng;import org.slf4j.Logger; import org.slf4j.LoggerFactory;public class Main58 {//1,创建一个Logger日志对象public static fi…...

编程日记 2023/11/25 9:04:27

linux(1)之build构建系统基础(一)

Linux(1)之buildroot构建系统(一) Author：Onceday Date：2023年11月12日漫漫长路，才刚刚开始… 参考文档： The Yocto ProjectBuildroot - Making Embedded Linux Easy 文章目录 Linux(1)之buildroot构建系统(一)1. 概述1.1 如…...

编程日记 2023/11/25 9:03:24

25 Linux I2C 驱动

一、I2C简介 I2C老朋友了，在单片机里面也学过，现在再复习一下。I2C使用两条线在主控制器和从机之间进行数据通信。一条是 SCL(串行时钟线)，另外一条是 SDA(串行数据线)，这两条数据线需要接上拉电阻，总线空闲的时候 SCL…...

编程日记 2023/11/25 9:02:24

API 设计：使用 Node.js 和 Express.js 的综合教程

API（应用程序编程接口）设计涉及创建一个高效而强大的接口，允许不同的软件应用程序相互交互。说明本教程将指导您使用 Node.js 和 Express.js 作为核心技术来规划、设计和构建 API。但是，这些原则可以应用于任何语言或框架。我们…...

编程日记 2023/11/25 9:01:23

vite和webpack的区别和练习

Vite和Webpack都是现代化的前端构建工具，但它们之间存在一些区别： 构建性能：Vite使用ES Modules提高了构建性能，可以在构建时只构建需要的部分，而Webpack则需要在构建时处理整个应用程序。开发体验：Vite具…...

编程日记 2023/11/25 9:00:22

Python与设计模式--装饰器模式

6-Python与设计模式–装饰器模式一、快餐点餐系统又提到了那个快餐点餐系统，不过今天我们只以其中的一个类作为主角：饮料类。首先，回忆下饮料类： class Beverage():name ""price 0.0type "BEVERAGE"…...

编程日记 2023/11/25 8:59:21

2021-03-15 iview一些问题

1.iview 在使用tree组件时，发现没有set类的方法，只有get，那么要改变tree值，只能遍历treeData，递归修改treeData的checked，发现无法更改，原因在于check模式下，子元素的勾选状态跟父节…...

编程新知 2026/2/5 3:29:13

ETLCloud可能遇到的问题有哪些？常见坑位解析

数据集成平台ETLCloud，主要用于支持数据的抽取（Extract）、转换（Transform）和加载（Load）过程。提供了一个简洁直观的界面，以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...

编程新知 2026/2/3 12:56:31

OPenCV CUDA模块图像处理-----对图像执行均值漂移滤波（Mean Shift Filtering）函数meanShiftFiltering()

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述在 GPU 上对图像执行均值漂移滤波（Mean Shift Filtering），用于图像分割或平滑处理。该函数将输入图像中的…...

编程新知 2026/1/20 12:53:30

JAVA后端开发——多租户

数据隔离是多租户系统中的核心概念，确保一个租户（在这个系统中可能是一个公司或一个独立的客户）的数据对其他租户是不可见的。在 RuoYi 框架（您当前项目所使用的基础框架）中，这通常是通过在数据表中增加一个…...

编程新知 2025/12/18 8:35:12

水泥厂自动化升级利器：Devicenet转Modbus rtu协议转换网关

在水泥厂的生产流程中，工业自动化网关起着至关重要的作用，尤其是JH-DVN-RTU疆鸿智能Devicenet转Modbus rtu协议转换网关，为水泥厂实现高效生产与精准控制提供了有力支持。水泥厂设备众多，其中不少设备采用Devicenet协议。Devicen…...

编程新知 2026/2/7 14:33:24

《Docker》架构

文章目录架构模式单机架构应用数据分离架构应用服务器集群架构读写分离/主从分离架构冷热分离架构垂直分库架构微服务架构容器编排架构什么是容器，docker，镜像，k8s 架构模式单机架构单机架构其实就是应用服务器和单机服务器都部署在同一…...

编程新知 2026/2/4 16:31:26

论文阅读：Matting by Generation

今天介绍一篇关于 matting 抠图的文章，抠图也算是计算机视觉里面非常经典的一个任务了。从早期的经典算法到如今的深度学习算法，已经有很多的工作和这个任务相关。这两年 diffusion 模型很火，大家又开始用 diffusion 模型做各种 CV 任务了&am…...

编程新知 2026/2/9 12:41:44

PostgreSQL 与 SQL 基础：为 Fast API 打下数据基础

在构建任何动态、数据驱动的Web API时，一个稳定高效的数据存储方案是不可或缺的。对于使用Python FastAPI的开发者来说，深入理解关系型数据库的工作原理、掌握SQL这门与数据库“对话”的语言，以及学会如何在Python中操作数据库，是…...

编程新知 2025/10/29 9:07:06

基于小程序老人监护管理系统源码数据库文档

摘要近年来，随着我国人口老龄化问题日益严重，独居和居住养老机构的的老年人数量越来越多。而随着老年人数量的逐步增长，随之而来的是日益突出的老年人问题，尤其是老年人的健康问题，尤其是老年人产生健康问题后&…...

编程新知 2026/2/10 3:45:08

window 显示驱动开发-如何查询视频处理功能（三）

D3DDDICAPS_GETPROCAMPRANGE请求类型 UMD 返回指向 DXVADDI_VALUERANGE 结构的指针，该结构包含特定视频流上特定 ProcAmp 控件属性允许的值范围。 Direct3D 运行时在D3DDDIARG_GETCAPS的 pInfo 成员指向的变量中为特定视频流的 ProcAmp 控件属性指定DXVADDI_QUER…...

编程新知 2025/12/8 5:36:33