当前位置：首页 > news >正文

MR实战：网址去重

news 2025/12/18 18:46:42

文章目录

一、实战概述
二、提出任务
三、完成任务
- （一）准备数据
- - 1、在虚拟机上创建文本文件
  - 2、上传文件到HDFS指定目录
- （二）实现步骤
- - 1、创建Maven项目
  - 2、添加相关依赖
  - 3、创建日志属性文件
  - 4、创建网址去重映射器类
  - 5、创建网址去重归并器类
  - 6、创建网址去重统计驱动器类
  - 7、启动应用，查看结果
四、实战总结

一、实战概述

本实战项目主要利用Hadoop MapReduce框架对多个文本文件中的IP地址进行整合并去除重复项。首先，在虚拟机上创建了三个包含IP地址列表的文本文件（ips01.txt、ips02.txt、ips03.txt），并将这些文件上传至HDFS上的/deduplicate/input目录作为原始数据。
接着，通过IntelliJ IDEA创建了一个Maven项目MRDeduplicateIPs，并添加了hadoop-client和junit相关依赖。在项目中定义了三个关键类：DeduplicateIPsMapper、DeduplicateIPsReducer和DeduplicateIPsDriver。
DeduplicateIPsMapper类作为Map阶段的处理单元，读取每行输入文本数据（表示一个IP地址），将IP地址作为新的键输出，并使用NullWritable类型的空值，以准备后续去重操作。
DeduplicateIPsReducer类则负责Reduce阶段的逻辑，它接收Mapper阶段输出的所有具有相同IP地址的键值对，并通过不遍历值迭代器的方式实现键（即IP地址）的去重，确保每个唯一IP地址仅被写入一次。
最后，DeduplicateIPsDriver类作为整个任务的驱动程序，负责配置和启动MapReduce作业。它设置了作业的输入与输出路径、Mapper和Reducer类，以及它们的键值类型。作业完成后，该类会遍历输出目录下的文件，读取并打印去重后的IP地址列表到控制台。
通过运行DeduplicateIPsDriver类启动应用，最终实现了从多个文本文件中提取并整合出一份仅包含唯一IP地址的结果集。

二、提出任务

三个包含IP地址列表的文本文件（ips01.txt、ips02.txt、ips03.txt）
ips01.txt

192.168.1.1
172.16.0.1
10.0.0.1
192.168.1.2
192.168.1.3
172.16.0.2
10.0.0.2
192.168.1.1
172.16.0.1
10.0.0.3

ips02.txt

192.168.1.4
172.16.0.3
10.0.0.4
192.168.1.5
192.168.2.1
172.16.0.4
10.0.1.1
192.168.1.1
172.16.0.1 
10.0.0.1

ips03.txt

192.168.1.6
172.16.1.1
10.0.2.1
192.168.1.7
192.168.3.1
172.16.0.5
10.0.0.5
192.168.1.1
172.16.0.1
10.0.0.3

使用MR框架，实现网址去重

三、完成任务

（一）准备数据

1、在虚拟机上创建文本文件

在master虚拟机上使用文本编辑器创建三个文件：ips01.txt, ips02.txt, ips03.txt，并确保每个文件内存储的是纯文本格式的IP地址列表。

2、上传文件到HDFS指定目录

在master虚拟机上创建HDFS上的/deduplicate/input目录，用于存放待处理的原始数据文件。
执行命令：hdfs dfs -mkdir -p /deduplicate/input

将本地创建的三个文本文件上传至HDFS的/deduplicate/input目录

hdfs dfs -put ips01.txt /deduplicate/input/
hdfs dfs -put ips02.txt /deduplicate/input/
hdfs dfs -put ips03.txt /deduplicate/input/

执行上述命令

（二）实现步骤

说明：集成开发环境IntelliJ IDEA版本 - 2022.3

1、创建Maven项目

Maven项目 - MRDeduplicateIPs，设置了JDK版本 - 1.8，组标识 - net.huawei.mr
单击【Create】按钮，得到初始化项目

2、添加相关依赖

在pom.xml文件里添加hadoop-client和junit依赖

<dependencies>                                   <!--hadoop客户端-->                             <dependency>                                 <groupId>org.apache.hadoop</groupId>     <artifactId>hadoop-client</artifactId>   <version>3.3.4</version>                 </dependency>                                <!--单元测试框架-->                                <dependency>                                 <groupId>junit</groupId>                 <artifactId>junit</artifactId>           <version>4.13.2</version>                </dependency>                                
</dependencies>

刷新项目依赖

3、创建日志属性文件

在resources目录里创建log4j.properties文件

log4j.rootLogger=ERROR, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/deduplicateips.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

4、创建网址去重映射器类

创建net.huawei.mr包，在包里创建DeduplicateIPsMapper类

package net.huawei.mr;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/*** 功能：网址去重映射器类* 作者：华卫* 日期：2024年01月05日*/
public class DeduplicateIPsMapper extends Mapper<LongWritable, Text, Text, NullWritable> {@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {// 获取行内容String ip = value.toString();// 将<ip,null>键值对写入中间结果context.write(new Text(ip), NullWritable.get());}
}

这段代码是Hadoop MapReduce编程框架中的一个Mapper类实现，名为DeduplicateIPsMapper，用于处理URL去重问题。虽然注释中提到的是“网址去重”，但实际代码逻辑仅针对IP地址进行操作。
在Map阶段，该类继承自org.apache.hadoop.mapreduce.Mapper<LongWritable, Text, Text, NullWritable>
输入键类型为LongWritable，通常表示文本行号；
输入值类型为Text，存储一行原始数据（在这里应是IP地址）；
输出键类型为Text，用于输出去重后的IP地址；
输出值类型为NullWritable，由于此处仅需去重并不需要具体值，所以使用空值。
map()方法是Mapper的主体逻辑部分，在每次调用时接收一行输入数据（键和值）。它首先将输入值（即每行文本内容）转换成字符串类型的IP地址，然后将这个IP地址作为新的键输出，并与NullWritable类型的空值一起写入到中间结果中。通过这种方式，Map阶段结束后，相同的IP地址会被归并到一起，以便后续Reducer阶段进一步处理以达到去重的目的。

5、创建网址去重归并器类

在net.huawei.mr包里创建DeduplicateIPsReducer

package net.huawei.mr;import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;/*** 功能：网址去重归并器类* 作者：华卫* 日期：2024年01月05日*/
public class DeduplicateIPsReducer extends Reducer<Text, NullWritable, Text, NullWritable> {@Overrideprotected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {// 不遍历值迭代器，就可以实现键去重context.write(key, NullWritable.get());        }
}

这段代码是Hadoop MapReduce编程框架中的一个Reducer类实现，名为DeduplicateIPsReducer，用于处理URL去重问题。尽管注释中提到的是“网址去重”，但实际代码逻辑只针对IP地址进行操作。
在Reduce阶段，该类继承自org.apache.hadoop.mapreduce.Reducer<Text, NullWritable, Text, NullWritable>
输入键类型为Text，存储Map阶段输出的去重后的IP地址；
输入值类型为Iterable<NullWritable>，由于Mapper阶段输出的值为NullWritable，因此这里接收一组空值；
输出键类型仍为Text，保持与Mapper阶段一致，输出去重后的唯一IP地址；
输出值类型也仍为NullWritable，表示在这个任务中我们仅关注IP地址的去重，不需要额外信息。
reduce()方法是Reducer的核心逻辑部分，在此场景下，当多个相同的IP地址（键）被归并到一起时，无需遍历值迭代器（因为所有值都是NullWritable的空值），只需将接收到的每个唯一的IP地址作为键输出即可，从而达到去除重复IP的目的。通过这种方式，Reduce阶段结束后，输出结果中每个IP地址都只出现一次。

6、创建网址去重统计驱动器类

在net.huawei.mr包里，创建DeduplicateIPsDriver类

package net.huawei.mr;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.net.URI;/*** 功能：网址去重驱动器类* 作者：华卫* 日期：2024年01月05日*/
public class DeduplicateIPsDriver {public static void main(String[] args) throws Exception {// 创建配置对象Configuration conf = new Configuration();// 设置客户端使用数据节点主机名属性conf.set("dfs.client.use.datanode.hostname", "true");// 获取作业实例Job job = Job.getInstance(conf);// 设置作业启动类job.setJarByClass(DeduplicateIPsDriver.class);// 设置Mapper类job.setMapperClass(DeduplicateIPsMapper.class);// 设置map任务输出键类型job.setMapOutputKeyClass(Text.class);// 设置map任务输出值类型job.setMapOutputValueClass(NullWritable.class);// 设置Reducer类job.setReducerClass(DeduplicateIPsReducer.class);// 设置reduce任务输出键类型job.setOutputKeyClass(Text.class);// 设置reduce任务输出值类型job.setOutputValueClass(NullWritable.class);// 定义uri字符串String uri = "hdfs://master:9000";// 创建输入目录Path inputPath = new Path(uri + "/deduplicate/input");// 创建输出目录Path outputPath = new Path(uri + "/deduplicate/output");// 获取文件系统FileSystem fs = FileSystem.get(new URI(uri), conf);// 删除输出目录（第二个参数设置是否递归）fs.delete(outputPath, true);// 给作业添加输入目录（允许多个）FileInputFormat.addInputPath(job, inputPath);// 给作业设置输出目录（只能一个）FileOutputFormat.setOutputPath(job, outputPath);// 等待作业完成job.waitForCompletion(true);// 输出统计结果System.out.println("======统计结果======");FileStatus[] fileStatuses = fs.listStatus(outputPath);for (int i = 1; i < fileStatuses.length; i++) {// 输出结果文件路径System.out.println(fileStatuses[i].getPath());// 获取文件系统数据字节输入流FSDataInputStream in = fs.open(fileStatuses[i].getPath());// 将结果文件显示在控制台IOUtils.copyBytes(in, System.out, 4096, false);}}
}

这段代码是Hadoop MapReduce框架下的一个驱动器类（Driver）实现，名为DeduplicateIPsDriver，用于处理URL去重问题。它主要负责设置MapReduce作业的相关配置信息，并启动整个作业流程。

首先创建一个Hadoop Configuration对象并设置相关属性，如“dfs.client.use.datanode.hostname”，以便正确连接到HDFS数据节点。
初始化Job实例，并通过job.setJarByClass()方法指定作业的主类（即该驱动器类），使得Hadoop能够找到运行作业所需的JAR包。
设置作业的Mapper和Reducer类分别为DeduplicateIPsMapper和DeduplicateIPsReducer，同时设定它们的输入输出键值类型。
定义HDFS上输入与输出目录的URI路径，并使用FileSystem API获取文件系统实例，删除预先存在的输出目录以确保每次运行时结果都是新的。
将输入目录添加到作业中，设置唯一的输出目录。
调用job.waitForCompletion(true)方法启动并等待作业完成。
作业完成后，遍历输出目录下的所有文件（除成功标志文件外），打开每个文件并将其内容读取并打印到控制台，从而展示去重后的结果。

总之，此驱动器类将配置、初始化及执行一个完整的MapReduce作业，该作业的主要功能是对存储在HDFS上的IP地址进行去重处理。

7、启动应用，查看结果

运行DeduplicateIPsDriver类，查看结果

四、实战总结

本实战项目利用Hadoop MapReduce框架，通过自定义的DeduplicateIPsMapper和DeduplicateIPsReducer类处理三个文本文件中的IP地址数据。Mapper阶段读取每行IP并作为键输出，Reducer阶段对相同键（IP）进行归并去重。在DeduplicateIPsDriver驱动类中配置了作业属性、输入输出路径以及Map和Reduce阶段所使用的类，并成功执行了任务。最终，从原始文本数据中提取出一份不重复的IP地址集合。整个过程展示了MapReduce框架高效处理大规模数据集及实现特定业务逻辑的能力。

MR实战：网址去重

文章目录一、实战概述二、提出任务三、完成任务（一）准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录 （二）实现步骤1、创建Maven项目2、添加相关依赖3、创建日志属性文件4、创建网址去重映射器类5、创建网址去重归并…...

编程日记 2024/1/9 5:10:37

一、配置默认配置 make ARCHarm CROSS_COMPILEarm-linux-gnueabihf- omap2plus_defconfig原配置 make ARCHarm CROSS_COMPILEarm-linux-gnueabihf- oldconfig 重新配置 make ARCHarm CROSS_COMPILEarm-linux-gnueabihf- menuconfig二 kernel zImage make ARCHarm CRO…...

编程日记 2024/1/9 5:09:36

hash基础知识（算法村第五关青铜挑战）

一、Hash的概念和基本特征哈希(Hash)也称为散列，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，这个输出值就是散列值。二、碰撞处理方法(2种) 在上面的例子中，我们发现有些在Hsh中很多位置可能要存两个甚…...

编程日记 2024/1/9 5:07:35

Linux第8步_USB设置

学习完设置“虚拟机的电源”后，接着学习通过鼠标点击操作U盘，目的是了解USB设置。 1、在桌面，双击“VMware Workstation Pro”图标，得到下图： 2、点击“编辑虚拟机”，得到下图： 只要点击编辑虚…...

编程日记 2024/1/9 5:05:33

第五节强制规范commit提交 .husky/commit-msg: no-such file or directory问题解决办法

系列文章目录目录系列文章目录前言操作方法总结前言在每次Git提交时，强制严格执行制定的规范。操作方法 npm 安装commitlist 进行校验 npm install --save-dev @commitlint/config-conventional@12.1.4 @commitlint/cli@12...

编程日记 2024/1/9 5:04:32

2024年了，难道还不会使用谷歌DevTools么？

我相信您一定对Chrome浏览器非常熟悉，因为它是前端开发者最亲密的伙伴。我们可以使用它查看网络请求、分析网页性能以及调试最新的JavaScript功能。除此之外，它还提供了许多功能强大但不常见的功能，这些功能可以大大提高我们的开发效率。让我们来看看。 1. 重新发送XHR…...

编程日记 2024/1/9 5:03:31

springboot(ssm生产管理ERP系统 wms出入库管理系统Java系统

springboot(ssm生产管理ERP系统 wms出入库管理系统Java系统开发语言：Java 框架：ssm/springboot vue JDK版本：JDK1.8（或11） 服务器：tomcat 数据库：mysql 5.7（或8.0）…...

编程日记 2024/1/9 5:01:29

通过使用别名让 SQL 更简短-数据库教程shulanxt.com-帆软软件有限公司

MySQL视频教程导航 https://www.shulanxt.com/database/mysqlvideo/p1 SQL 别名 SQL 别名通过使用 SQL，可以为表名称或列名称指定别名。基本上，创建别名是为了让列名称的可读性更强。列的 SQL 别名语法 SELECT column_name AS alias_name FROM …...

编程日记 2024/1/9 5:00:28

最优化理论分析复习--最优性条件（一）

文章目录上一篇无约束问题的极值条件约束极值问题的最优性条件基本概念只有不等式约束时下一篇上一篇最优化理论复习–对偶单纯形方法及灵敏度分析无约束问题的极值条件由于是拓展到向量空间 R n R^n Rn, 所以可由高数中的极值条件进行类比一阶必要条件设函数 f (…...

编程日记 2024/1/9 4:59:27

基于WIFI指纹的室内定位算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1WIFI指纹定位原理 4.2 指纹数据库建立 4.3定位 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 .....................................…...

编程日记 2024/1/9 4:57:25

密码学：一文读懂非对称密码体制

文章目录前言非对称密码体制的保密通信模型私钥加密-公钥解密的保密通信模型公钥加密-私钥解密的保密通信模型复合式的非对称密码系统散列函数数字签名数字签名满足的三个基本要求先加密还是先签名？数字签名成为公钥基础设施以及许多网络安全机制的基础什么是单向…...

编程日记 2024/1/9 4:53:21

2_工厂设计_工厂方法和抽象工厂

工厂设计模式-工厂方法 1.概念工厂方法模式(Fatory Method Pattern ) 是指定义一个创建对象的接口，但让实现这个接口的类来决定实例化哪个类，工厂方法让类的实例化推迟到子类中进行。在工厂方法模式中用户只需要关心所需产品对应的工厂，…...

编程日记 2024/1/9 4:52:20

k8s之pod进阶

1.k8s的pod重启策略 Always ：不论正常退出还是非正常退出都重启deployment的yaml文件只能是always pod的yaml三种模式都可以。 OnFailure：只有状态码非0才会重启，正常退出不重启 Never：正常退出和非正常退出都不重启容器的退…...

编程日记 2024/1/9 4:50:19

RTTI（运行时类型识别）

RTTI（运行时类型识别）实验介绍 RTTI 全称 Run Time Type Identification，中文称为 “运行时类型识别”，在程序中使用 typeid 和 dynamic_cast 实现。RTTI 技术允许程序在运行时识别对象的类型。知识点 typeiddynamic_castRTTI 技术typeid typeid 是 C++ 关键字，用于…...

编程日记 2024/1/9 4:49:18

19.Linux Shell任务控制

文章目录 Linux Shell任务控制1)信号通过键盘生成信号trap 命令捕获信号 2)在后台运行脚本命令后加 & 符使用nohub命令 3)作业控制4)调度优先级nice命令renice 命令 5)定时运行作业at定期执行命令reference 欢迎访问个人网络日志🌹🌹知行空间&#x…...

编程日记 2024/1/9 4:48:17

域名流量被劫持怎么办？如何避免域名流量劫持？

随着互联网不断发展，流量成为线上世界的巨大财富。然而一种叫做域名流量劫持的网络攻击，将会在不经授权的情况下控制或重定向一个域名的DNS记录，导致用户在访问一个网站时，被引导到另一个不相关的网站，从而劫持走原网站…...

编程日记 2024/1/9 4:46:16

java案例知识点

一.会话技术概念技术二.跨域三.过滤器四.拦截器...

编程日记 2024/1/9 4:45:15

Arrays 的使用

Arrays 概述提供了数组操作的相关方法，连接数组和集合 asList 返回指定数组的列表列表和数组的引用位置相同 Integer[] arrs new Integer[] {1,2,3,4,5,6,7,8,9};List<Integer> list Arrays.asList(arrs);System.out.println(list);arrs[5] 100;Syste…...

编程日记 2024/1/9 4:44:14

IDEA中怎么用Postman？这款插件你试试

Postman是大家最常用的API调试工具，那么有没有一种方法可以不用手动写入接口到Postman，即可进行接口调试操作？今天给大家推荐一款IDEA插件：Apipost Helper，写完代码就可以调试接口并一键生成接口文档！而且还…...

编程日记 2024/1/9 4:43:13

基于机器视觉的车牌检测-边缘检测因子的选择

车牌检测概述车牌识别在检测报警、汽车出入登记、交通违法违章以及移动电子警察方面应用广泛。车牌识别过程为：首先通过摄像头获取包含车牌的彩色图像；然后进行车牌边缘检测，先粗略定位到车牌位置，再精细定位；最后根…...

编程日记 2024/1/9 4:40:11

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

ASP.NET Core 是一个跨平台的开源框架，用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录，以帮助监视应用程序行为和诊断问题。可以通过配置不同的记录提供程…...

编程新知 2025/12/17 15:56:12

零门槛NAS搭建：WinNAS如何让普通电脑秒变私有云？

一、核心优势：专为Windows用户设计的极简NAS WinNAS由深圳耘想存储科技开发，是一款收费低廉但功能全面的Windows NAS工具，主打“无学习成本部署” 。与其他NAS软件相比，其优势在于： 无需硬件改造：将任意W…...

编程新知 2025/9/22 15:46:39

（十）学生端搭建

本次旨在将之前的已完成的部分功能进行拼装到学生端，同时完善学生端的构建。本次工作主要包括： 1.学生端整体界面布局 2.模拟考场与部分个人画像流程的串联 3.整体学生端逻辑一、学生端在主界面可以选择自己的用户角色选择学生则进入学生登录界面…...

编程新知 2025/12/14 8:21:29

AtCoder 第409场初级竞赛 A~E题解

A Conflict 【题目链接】原题链接：A - Conflict 【考点】枚举【题目大意】找到是否有两人都想要的物品。【解析】遍历两端字符串，只有在同时为 o 时输出 Yes 并结束程序，否则输出 No。【难度】 GESP三级【代码参考】 #i…...

编程新知 2025/12/16 4:45:38

从零开始打造 OpenSTLinux 6.6 Yocto 系统（基于STM32CubeMX）（九）

设备树移植和uboot设备树修改的内容同步到kernel将设备树stm32mp157d-stm32mp157daa1-mx.dts复制到内核源码目录下源码修改及编译修改arch/arm/boot/dts/st/Makefile，新增设备树编译 stm32mp157f-ev1-m4-examples.dtb \stm32mp157d-stm32mp157daa1-mx.dtb修改…...

编程新知 2025/12/8 23:53:16

C++中string流知识详解和示例

一、概览与类体系 C 提供三种基于内存字符串的流，定义在 <sstream> 中： std::istringstream：输入流，从已有字符串中读取并解析。std::ostringstream：输出流，向内部缓冲区写入内容，最终取…...

编程新知 2025/11/30 11:30:47

unix/linux，sudo，其发展历程详细时间线、由来、历史背景

sudo 的诞生和演化，本身就是一部 Unix/Linux 系统管理哲学变迁的微缩史。来，让我们拨开时间的迷雾，一同探寻 sudo 那波澜壮阔（也颇为实用主义）的发展历程。历史背景：su的时代与困境 ( 20 世纪 70 年代 - 80 年代初) 在 sudo 出现之前，Unix 系统管理员和需要特权操作的…...

编程新知 2025/11/18 21:31:41