当前位置：首页 > news >正文

Hbase整合Mapreduce案例2 hbase数据下载至hdfs中——wordcount

news 2025/7/10 9:01:17

整合结构

和案例1的结构差不多，Hbase移动到开头，后面跟随MR程序。
因此对于输入的K1 V1会进行一定的修改

准备

在HBASE中创建表，并写入数据

create "wunaiieq:sentence","colf"

系统文件上传

datain3.java

package org.wunaiieq.hbase2hdfs;import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Table;
import org.apache.hadoop.hbase.util.Bytes;
import org.wunaiieq.HBaseConnection;
import org.wunaiieq.HbaseDML;import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;public class datain3 {public static Connection connection = HBaseConnection.connection;public static void main(String[] args) throws IOException {BufferedReader bufferedReader =new BufferedReader(new FileReader("/opt/module/jar/data.txt"));String line =null;Table table = connection.getTable(TableName.valueOf("wunaiieq", "sentence"));int rowkey = 1;while ((line=bufferedReader.readLine())!=null){Put put = new Put(Bytes.toBytes(rowkey));put.addColumn(Bytes.toBytes("colf"),Bytes.toBytes("line"),Bytes.toBytes(line));table.put(put);rowkey++;}bufferedReader.close();}
}

在这里插入图片描述

数据下载

pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>org.hbase</groupId><artifactId>hbase2hdfs</artifactId><version>1.0-SNAPSHOT</version><properties><maven.compiler.source>8</maven.compiler.source><maven.compiler.target>8</maven.compiler.target><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><hadoop.version>3.1.3</hadoop.version><hbase.version>2.2.3</hbase.version></properties><dependencies><!-- Hadoop Dependencies --><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-yarn-api</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-streaming</artifactId><version>${hadoop.version}</version></dependency><!-- HBase Dependencies --><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-client</artifactId><version>${hbase.version}</version></dependency><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-server</artifactId><version>${hbase.version}</version></dependency><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-common</artifactId><version>${hbase.version}</version></dependency><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-mapreduce</artifactId><version>${hbase.version}</version></dependency><!-- Other Dependencies --><dependency><groupId>com.google.protobuf</groupId><artifactId>protobuf-java</artifactId><version>3.19.1</version></dependency><dependency><groupId>org.slf4j</groupId><artifactId>slf4j-log4j12</artifactId><version>1.7.25</version></dependency><dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>RELEASE</version><scope>compile</scope></dependency></dependencies><build><plugins><plugin><!--声明--><groupId>org.apache.maven.plugins</groupId><artifactId>maven-assembly-plugin</artifactId><version>3.3.0</version><!--具体配置--><configuration><archive><manifest><!--jar包的执行入口--><mainClass>org.wunaiieq.hbase2hdfs.Main</mainClass></manifest></archive><descriptorRefs><!--描述符，此处为预定义的，表示创建一个包含项目所有依赖的可执行 JAR 文件;允许自定义生成jar文件内容--><descriptorRef>jar-with-dependencies</descriptorRef></descriptorRefs></configuration><!--执行配置--><executions><execution><!--执行配置ID，可修改--><id>make-assembly</id><!--执行的生命周期--><phase>package</phase><goals><!--执行的目标，single表示创建一个分发包--><goal>single</goal></goals></execution></executions></plugin></plugins></build></project>

Main.java

package org.wunaiieq.hbase2hdfs;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class Main {public static void main(String[] args) throws Exception {//配置文件，写在resources目录下Job job =Job.getInstance(new Configuration());//入口类job.setJarByClass(Main.class);Scan scan = new Scan();TableMapReduceUtil.initTableMapperJob("wunaiieq:sentence",//表名scan,//表输入时，可以在此处进行部分设置，如选择查询的列簇，列，过滤行等等org.wunaiieq.hbase2hdfs.Map.class,//指定mapper类Text.class,//k2IntWritable.class,//v2job,false);job.setOutputKeyClass(Text.class);//K3job.setOutputValueClass(IntWritable.class);//V3job.setReducerClass(org.wunaiieq.hbase2hdfs.Reduce.class);//手动输入输出路径FileOutputFormat.setOutputPath(job,new Path(args[0]));job.waitForCompletion(true);}
}

Reduce.java

package org.wunaiieq.hbase2hdfs;import org.apache.hadoop.hbase.client.Mutation;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;//                                        K3    V3     K4     V4
public class Reduce extends Reducer<Text,IntWritable,Text,IntWritable>{private IntWritable v4 =new IntWritable();private Text k4 =new Text();@Overrideprotected void reduce(Text k3, Iterable<IntWritable> v3,Context context) throws IOException, InterruptedException {int sum =0;for (IntWritable v30:v3){sum+=v30.get();}v4.set(sum);k4=k3;context.write(k4,v4);}
}

Map.java

package org.wunaiieq.hbase2hdfs;import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;
//                                      K1   V1
public class Map extends TableMapper<Text,IntWritable> {private Text k2=new Text();private IntWritable v2 =new IntWritable(1);@Overrideprotected void map(ImmutableBytesWritable k1, Result v1,Context context) throws IOException, InterruptedException {System.out.println("k1:"+k1.toString());//读取当前行中的colf:line数据byte[] data =v1.getValue(Bytes.toBytes("colf"),Bytes.toBytes("line"));String line =Bytes.toString(data);String [] words =line.split(" ");for (String word :words){k2.set(word);context.write(k2,v2);}}
}

操作

打包上传至linux系统中

hadoop jar hbase2hdfs-1.0-SNAPSHOT-jar-with-dependencies.jar /output/test

检查文件

hdfs dfs -cat /output/test/part-r-00000

总结

没什么特殊点，记录下这两个案例即可，只需要在MR程序中替换掉对应的Mapper和Reducer即可

Hbase整合Mapreduce案例2 hbase数据下载至hdfs中——wordcount

目录整合结构准备数据下载pom.xmlMain.javaReduce.javaMap.java操作总结整合结构和案例1的结构差不多，Hbase移动到开头，后面跟随MR程序。因此对于输入的K1 V1会进行一定的修改准备在HBASE中创建表，并写入数据 create "wunaii…...

编程日记 2024/12/6 15:59:33

diff算法

vue的diff算法详解 vue： diff 算法是一种通过同层的树节点进行比较的高效算法其有两个特点： 比较只会在同层级进行, 不会跨层级比较在diff比较的过程中，循环从两边向中间比较 diff 算法在很多场景下都有应用，在 vue 中&…...

编程日记 2024/12/6 15:58:31

docker version docker info docker images# 查看主机所以镜像 docker search# 搜索镜像 docker pull# 下载镜像 docker rmi# 删除镜像 docker tag 镜像名:版本新镜像名:版本 # 复制镜像并改名 docker commit # 提交镜像 docker load -i /XXX/XXX.tar # 导入镜像 docker sav…...

编程日记 2024/12/6 15:52:24

COCO数据集理解

COCO（Common Objects in Context）数据集是一个用于计算机视觉研究的广泛使用的数据集，特别是在物体检测、分割和图像标注等任务中。COCO数据集由微软研究院开发，其主要特点包括： 丰富的标签：COCO数据集包含…...

编程日记 2024/12/6 15:50:19

C# 向上取整多种实现方法

1.使用 Math.Ceiling 方法： 在 C# 中，可以利用 System.Math 类下的 Math.Ceiling 方法来实现向上取整。它接受一个 double 或 decimal 类型的参数，并返回大于或等于该参数的最小整数（以 double 或 decimal 类型表示）。…...

编程日记 2024/12/6 15:47:16

Elastic Cloud Serverless：深入探讨大规模自动扩展和性能压力测试

作者：来自 Elastic David Brimley, Jason Bryan, Gareth Ellis 及 Stewart Miles 深入了解 Elasticsearch Cloud Serverless 如何动态扩展以处理海量数据和复杂查询。我们探索其在实际条件下的性能，深入了解其可靠性、效率和可扩展性。简介 Elastic Cl…...

编程日记 2024/12/6 15:41:08

新一代零样本无训练目标检测

🏡作者主页：点击！ 🤖编程探索专栏：点击！ ⏰️创作时间：2024年12月2日21点02分神秘男子影, 秘而不宣藏。泣意深不见, 男子自持重, 子夜独自沉。论文链接点击开启你的论文编程之旅h…...

编程日记 2024/12/6 15:39:07

es 3期第13节-多条件组合查询实战运用

#### 1.Elasticsearch是数据库，不是普通的Java应用程序，传统数据库需要的硬件资源同样需要，提升性能最有效的就是升级硬件。 #### 2.Elasticsearch是文档型数据库，不是关系型数据库，不具备严格的ACID事务特性&#xff…...

编程日记 2024/12/6 15:37:01

全局token验证

全局token验证简介通俗地说，JWT的本质就是一个字符串，它是将用户信息保存到一个Json字符串中，然后进行编码后得到一个JWT token，并且这个JWT token带有签名信息，接收后可以校验是否被篡改，所以可以用…...

编程日记 2024/12/6 15:35:59

实时美颜技术详解：美颜SDK与直播APP开发实践

通过集成美颜SDK（软件开发工具包），开发者能够轻松为直播APP提供实时美颜效果，改善用户的直播体验。本篇文章，小编将深入探讨实时美颜技术，重点分析美颜SDK的核心技术及其在直播APP中的应用实践。一、实时…...

编程日记 2024/12/6 15:32:56

电子应用设计方案-41：智能微波炉系统方案设计

智能微波炉系统方案设计一、引言随着科技的不断进步，人们对于厨房电器的智能化需求日益增长。智能微波炉作为现代厨房中的重要设备，应具备更便捷、高效、个性化的功能，以满足用户多样化的烹饪需求。二、系统概述 1. 系统目标 - 提供精确…...

编程日记 2024/12/6 15:27:50

P5736 【深基7.例2】质数筛

题目描述输入 𝑛个不大于 105 的正整数。要求全部储存在数组中，去除掉不是质数的数字，依次输出剩余的质数。输入格式第一行输入一个正整数 𝑛，表示整数个数。第二行输入 𝑛 个正整数 𝑎…...

编程日记 2024/12/6 15:26:48

数据结构初阶1 时间复杂度和空间复杂度

本章重点算法效率时间复杂度空间复杂度常见时间复杂度以及复杂度OJ练习 1.算法效率 1.1 如何衡量一个算法的好坏如何衡量一个算法的好坏呢？比如对于以下斐波那契数列： long long Fib(int N) { if(N < 3) return 1;return Fib(N-1) Fib(N-2); }斐…...

编程日记 2024/12/6 15:24:46

E130 PHP+MYSQL+动漫门户网站的设计与实现视频网站系统在线点播视频源码配置文档全套资料

动漫门户网站 1.摘要2. 开发背景和意义3.项目功能4.界面展示5.源码获取 1.摘要 21世纪是信息的时代，随着信息技术与网络技术的发展，其已经渗透到人们日常生活的方方面面，与人们是日常生活已经建立密不可分的联系。本网站利用Internet网络, M…...

编程日记 2024/12/6 15:23:45

OSCP - Proving Grounds - Fanatastic

主要知识点 CVE-2021-43798漏洞利用具体步骤执行nmap 扫描，22/3000/9090端口开放，应该是ssh,grafana 和Prometheus Nmap scan report for 192.168.52.181 Host is up (0.00081s latency). Not shown: 65532 closed tcp ports (reset) PORT STA…...

编程日记 2024/12/6 15:21:43

ArcMap 分享统计点要素、路网、降雨量等功能操作

ArcMap 分享统计点要素、路网等功能等功能操作今天进行一、按格网统计点要素 1、创建公里网格统计单元点击确定后展示打开连接点击后展示 2、处理属性 1）查看属性表每个小格都统计出了点的数量 2）查看属性符号系统点击应用后展示结果&#x…...

编程日记 2024/12/6 15:19:41

概率论——假设检验

解题步骤： 1、提出假设H0和H1 2、定类型，摆公式 3、计算统计量和拒绝域 4、定论、总结 Z检验条件： 对μ进行检验，并且总体方差已知道例题： 1、假设H0为可以认为是570N，H1为不可以认为是570N 2、Z…...

编程日记 2024/12/6 15:18:39

爬虫项目练手

python抓取优美图库小姐姐图片整体功能概述这段 Python 代码定义了一个名为 ImageDownloader 的类，其主要目的是从指定网站（https://www.umei.cc）上按照不同的图片分类，爬取图片并保存到本地相应的文件夹中。不过需要注意&…...

编程日记 2024/12/6 15:16:34

C程序设计：解决Fibonacci.数列问题

‘ 斐波那契数列（Fibonacci sequence），又称黄金分割数列，因数学家莱昂纳多斐波那契（Leonardo Fibonacci）以兔子繁殖为例子而引入，故又称“兔子数列”，其数值为：1、1、2、…...

编程日记 2024/12/6 15:15:32

前端倒计时误差!

提示：记录工作中遇到的需求及解决办法文章目录前言一、误差从何而来？二、五大解决方案1. 动态校准法（基础版）2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言前几天听说公司某个项…...

编程新知 2025/7/9 3:43:22

如何在看板中体现优先级变化

在看板中有效体现优先级变化的关键措施包括：采用颜色或标签标识优先级、设置任务排序规则、使用独立的优先级列或泳道、结合自动化规则同步优先级变化、建立定期的优先级审查流程。其中，设置任务排序规则尤其重要，因为它让看板视觉上直观地体…...

编程新知 2025/7/9 15:58:34

蓝桥杯 2024 15届国赛 A组儿童节快乐

P10576 [蓝桥杯 2024 国 A] 儿童节快乐题目描述五彩斑斓的气球在蓝天下悠然飘荡，轻快的音乐在耳边持续回荡，小朋友们手牵着手一同畅快欢笑。在这样一片安乐祥和的氛围下，六一来了。今天是六一儿童节，小蓝老师为了让大家在节…...

编程新知 2025/6/27 7:21:20

条件运算符

C中的三目运算符（也称条件运算符，英文：ternary operator）是一种简洁的条件选择语句，语法如下： 条件表达式 ? 表达式1 : 表达式2• 如果“条件表达式”为true，则整个表达式的结果为“表达式1”…...

编程新知 2025/7/6 13:40:50

江苏艾立泰跨国资源接力：废料变黄金的绿色供应链革命

在华东塑料包装行业面临限塑令深度调整的背景下，江苏艾立泰以一场跨国资源接力的创新实践，重新定义了绿色供应链的边界。跨国回收网络：废料变黄金的全球棋局艾立泰在欧洲、东南亚建立再生塑料回收点，将海外废弃包装箱通过标准…...

编程新知 2025/7/6 1:19:36

【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张（Windows/Linux）

要让本地PC电脑作为服务器运行时出现卡顿和资源紧张的情况，可以通过以下几种方式模拟或触发： 1. 增加CPU负载运行大量计算密集型任务，例如： 使用多线程循环执行复杂计算（如数学运算、加密解密等）。运行图…...

编程新知 2025/6/21 3:16:21

Caliper 配置文件解析：config.yaml

Caliper 是一个区块链性能基准测试工具，用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构，并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件，主要包含以下几个部…...

编程新知 2025/7/7 17:01:50

uniapp手机号一键登录保姆级教程（包含前端和后端）

目录前置条件创建uniapp项目并关联uniClound云空间开启一键登录模块并开通一键登录服务编写云函数并上传部署获取手机号流程(第一种) 前端直接调用云函数获取手机号（第三种）后台调用云函数获取手机号错误码常见问题前置条件手机安装有sim卡手机开启…...

编程新知 2025/7/9 6:58:16

iview框架主题色的应用

1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题，无需引入，直接可…...

编程新知 2025/7/9 20:16:24

Golang——6、指针和结构体

指针和结构体 1、指针1.1、指针地址和指针类型1.2、指针取值1.3、new和make 2、结构体2.1、type关键字的使用2.2、结构体的定义和初始化2.3、结构体方法和接收者2.4、给任意类型添加方法2.5、结构体的匿名字段2.6、嵌套结构体2.7、嵌套匿名结构体2.8、结构体的继承 3、结构体与…...

编程新知 2025/7/9 6:45:43

目录