4.2-7 运行MR应用:词频统计
文章目录
- 1. 准备数据文件
- 2. 文件上传到HDFS指定目录
- 2.1 创建HDFS目录
- 2.2 上传文件到HDFS
- 2.3 查看上传的文件
- 3. 运行词频统计程序的jar包
- 3.1 查看Hadoop自带示例jar包
- 3.2 运行示例jar包里的词频统计
- 4. 查看词频统计结果
- 5. 在HDFS集群UI界面查看结果文件
- 6. 在YARN集群UI界面查看程序运行状态
- 7. 失败状态原因分析与解决
1. 准备数据文件
首先,我们需要在Hadoop集群的主节点上准备数据文件,用于词频统计MapReduce作业。
- 在master云主机上创建一个名为
test.txt的文件。
2. 文件上传到HDFS指定目录
接下来,我们将本地文件系统上的数据文件上传到HDFS的指定目录。
2.1 创建HDFS目录
- 执行命令:
hdfs dfs -mkdir -p /wordcount/input来创建HDFS目录。
2.2 上传文件到HDFS
- 执行命令:
hdfs dfs -put test.txt /wordcount/input来上传文件。
2.3 查看上传的文件
- 执行命令:
hdfs dfs -ls /wordcount/input来查看目录中的文件。 - 执行命令:
hdfs dfs -cat /wordcount/input/test.txt来查看文件内容。 - 也可以通过Hadoop WebUI界面来查看文件。
3. 运行词频统计程序的jar包
我们将使用Hadoop自带的示例jar包来运行词频统计程序。
3.1 查看Hadoop自带示例jar包
- 切换到MR示例目录:执行命令
cd $HADOOP_HOME/share/hadoop/mapreduce。 - 列出目录信息:执行命令
ls。 - 找到示例程序jar包:
hadoop-mapreduce-examples-3.3.4.jar。
3.2 运行示例jar包里的词频统计
- 执行命令:
hadoop jar ./hadoop-mapreduce-examples-3.3.4.jar wordcount /wordcount/input/test.txt /wordcount/output来运行词频统计程序。
4. 查看词频统计结果
- 执行命令:
hdfs dfs -ls /wordcount/output来查看结果文件。 - 执行命令:
hdfs dfs -cat /wordcount/output/*来查看词频统计的结果内容。
5. 在HDFS集群UI界面查看结果文件
- 通过HDFS集群UI界面查看
/wordcount/output目录下的文件。
6. 在YARN集群UI界面查看程序运行状态
- 在浏览器中访问
http://master:8088来查看YARN集群的界面。 - 观察应用程序的运行状态,例如
application_1728606339394_0001。
7. 失败状态原因分析与解决
如果作业失败,可能是因为 mapred-site.xml 文件中没有配置必要的环境变量。
- 配置必要的环境变量:
<configuration><!-- 配置项 --><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop-3.3.4</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop-3.3.4</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop-3.3.4</value></property> </configuration> - 修改配置后,需要将配置分发到所有节点,并重启Hadoop服务。
通过以上步骤,我们完成了一个词频统计的MapReduce作业,从准备数据到运行作业,再到查看结果。这个过程展示了Hadoop MapReduce作业的基本流程和一些常见的配置问题及其解决方法。
相关文章:
4.2-7 运行MR应用:词频统计
文章目录 1. 准备数据文件2. 文件上传到HDFS指定目录2.1 创建HDFS目录2.2 上传文件到HDFS2.3 查看上传的文件 3. 运行词频统计程序的jar包3.1 查看Hadoop自带示例jar包3.2 运行示例jar包里的词频统计 4. 查看词频统计结果5. 在HDFS集群UI界面查看结果文件6. 在YARN集群UI界面查…...
查看Chrome安装路
谷歌Google浏览器查看安装路径,浏览器Google Chrome浏览器查看安装路径 chrome://version/ 来源:笔记云...
深入剖析Canvas的getBoundingClientRect:精准定位与交互事件实现
软考鸭微信小程序 过软考,来软考鸭! 提供软考免费软考讲解视频、题库、软考试题、软考模考、软考查分、软考咨询等服务 在前端开发中,Canvas是一个强大的绘图工具,它允许开发者在网页上动态地绘制图形、图像和动画。然而,仅仅能够绘制图形是不…...
SQL SERVER 2005/2008/2012/2016/2020 数据库状态为“可疑”的解决方法(亲测可用)
当数据库发生这种操作故障时,可以按如下操作步骤可解决此方法,打开数据库里的Sql 查询编辑器窗口,运行以下的命令。 1、修改数据库为紧急模式 ALTER DATABASE demo SET EMERGENCY 2、使数据库变为单用户模式 ALTER DATABASE demo SET SINGL…...
Linux: network: wireshark IO图的一个问题
今天遇到一个问题,发现wireshark画的IO图,前几秒没有数据,但是根据Raw的pcap看,是有包的,这就迷惑了。 经同事提醒,这个IO在设置了多个画图filter的时候,可能导致开始前几秒没有输出。如下图 这…...
TMGM平台可靠么?交易是否安全?
在选择外汇交易平台时,安全性与可靠性是投资者最关注的要素之一。作为全球知名的外汇及差价合约交易平台,TMGM(tmgm-pt.com)的安全性与可靠性可以从多个方面进行评估,包括监管环境、资金安全、客户服务、交易技术与服务…...
软工毕设开题建议
文章目录 🚩 1 前言1.1 选题注意事项1.1.1 难度怎么把控?1.1.2 题目名称怎么取? 1.2 开题选题推荐1.2.1 起因1.2.2 核心- 如何避坑(重中之重)1.2.3 怎么办呢? 🚩2 选题概览🚩 3 项目概览题目1 : 深度学习社…...
Python自动化发票处理:使用Pytesseract和Pandas从图像中提取信息并保存到Excel
1. 引言 在财务部门,处理大量的纸质或扫描版发票是一项既耗时又容易出错的任务。通过使用Python中的pytesseract(一个OCR工具)和pandas库,我们可以自动化这一过程,从而提高工作效率并减少错误。 2. 安装所需库 首先…...
新手直播方案
简介 新手直播方案 ,低成本方案 手机/电脑 直接直播手机软件电脑直播手机采集卡麦电脑直播多摄像机 机位多路采集卡 多路麦加电脑(高成本方案) 直播推流方案 需要摄像头 方案一 :手机 电脑同步下载 网络摄像头 软件(…...
【大模型理论篇】主流大模型的分词器选择及讨论(BPE/BBPE/WordPiece/Unigram)
1. 背景分析 分词是将输入和输出文本拆分成更小单位的过程,使得大模型能够处理。token可以是单词、字符、子词或符号,取决于模型的类型和大小。分词可以帮助模型处理不同的语言、词汇和格式,并降低计算和内存成本。分词还可以通过影响token的…...
入侵检测算法平台部署LiteAIServer视频智能分析平台行人入侵检测算法
在当今科技日新月异的时代,行人入侵检测技术作为安全防护的重要组成部分,正经历着前所未有的发展。入侵检测算法平台部署LiteAIServer作为这一领域的佼佼者,凭借其卓越的技术实力与广泛的应用价值,正逐步成为守护公共安全的新利器…...
000010 - Mapreduce框架原理
Mapreduce框架原理 1. InputFormat 数据输入1.1 切片与 MapTask 并行度决定机制1.2 Job 提交流程源码和切片源码详解1.2.1 Job 提交流程源码详解1.2.2 FileInputFormat 切片源码解析(input.getSplits(job)) 1.3 FileInputFormat 切片机制1.3.1 切片机制1…...
OpenCV未定义标识符CV_XXX
报错“未定义标识符CV_XXX”,即编译器找不到常量CV_XXX,如果代码是基于旧版本的OpenCV编写的,而环境中安装的是一个更新的版本,可能会导致一些标识符被重命名或移除,导致不匹配情况。 经常遇到的包括:CV_R…...
flask服务通过gunicorn启动
使用 Gunicorn 启动 Flask 服务通常可以提升 Flask 应用的性能。以下是通过 Gunicorn 启动 Flask 服务的步骤: 1. 安装依赖 首先,确保已安装 Flask 和 Gunicorn: pip install flask gunicorn2. 创建 Flask 应用 创建一个简单的 Flask 应用…...
用更多的钱买电脑而不是手机
如果,我们对自己的定义是知识工作者,那么在工作、学习相关的电子设备投入上,真的别舍不得花钱。 需要留意的是,手机,对于大部分在电脑前工作的人,不是工作设备。在我看来,每年投入到电脑的钱&…...
10.25学习
1.程序链接库 程序链接库(Library),通常简称为库,是程序设计中一种常用的代码组织方式。它包含了一组预先编写好的代码,这些代码可以被多个不同的程序调用,以实现特定的功能。使用链接库的主要目的包括&am…...
用xshell给服务器上传jar包
首先,用xshell登录并进入到你的jar包目录下 然后使用 sudo rz -be命令,就可以选择本地文件了,选择jar包上传 一般如果提示传输失败,大概率是你的文件夹下有这个jar包了,名字相同冲突了, 那么你需要用这个…...
从零搭建开源陪诊系统:关键技术栈与架构设计
构建一个开源陪诊系统是一个涉及多种技术的复杂工程。为了让这个系统具备高效、可靠和可扩展的特点,我们需要从架构设计、技术栈选择到代码实现等方面进行全面的考量。本文将从零开始,详细介绍搭建开源陪诊系统的关键技术栈和架构设计,并提供…...
java List<Map<String, Object>> 转 List<JSONObject> 的几种方式
目录 方法一:使用传统循环 方法二:使用 Java 8 的流(Stream)API 方法三:使用 Guava 库 总结 将 List<Map<String, Object>> 转换为 List<JSONObject> 有多种方法。以下是几种常见的方法…...
使用Python来下一场深夜雪
效果图:(真实情况是动态的) 完整代码: import turtle import random# 初始化画布 turtle.bgcolor("#001f3f") # 偏深蓝色的背景 turtle.title("下雪的画面") turtle.speed(0) turtle.hideturtle() turtle.t…...
LlamaIndex中文文档全解析:从安装到实战RAG系统的保姆级指南
LlamaIndex中文文档全解析:从安装到实战RAG系统的保姆级指南 在人工智能技术快速迭代的今天,如何让大型语言模型(LLM)真正理解并处理私有数据成为开发者面临的核心挑战。LlamaIndex作为专为上下文增强设计的框架,正在改变我们构建智能应用的方…...
基于carsim Simulink联合仿真和预瞄PID算法的轨迹跟踪模型】车辆路径跟踪包括主车...
基于carsim Simulink联合仿真和预瞄PID算法的轨迹跟踪模型】车辆路径跟踪包括主车的纵向和横向运动控制,纵向控制是通过调整轮毂电机的扭矩,使得车辆以期望的速度行驶;横向控制是通过调整主车的转向,使主车沿预期的轨迹行驶。 本模…...
告别阿里云!用ThingsCloud免费搭建个人智能家居控制中心(附ESP8266配置)
从零构建智能家居控制中心:ThingsCloud与ESP8266实战指南 在智能家居领域,许多技术爱好者常常面临一个两难选择:要么使用功能强大但配置复杂的商业平台,要么选择简单但功能有限的DIY方案。ThingsCloud的出现为这一问题提供了优雅的…...
4步精通Logisim-evolution:面向数字工程师的开源电路设计工具指南
4步精通Logisim-evolution:面向数字工程师的开源电路设计工具指南 【免费下载链接】logisim-evolution Digital logic design tool and simulator 项目地址: https://gitcode.com/gh_mirrors/lo/logisim-evolution Logisim-evolution作为一款开源的数字逻辑设…...
SurfaceView视觉优化实战:圆角与渐变蒙层的完美结合
1. SurfaceView视觉优化的核心价值 在Android开发中,SurfaceView因其独特的双缓冲机制和独立的绘图线程,成为视频播放、游戏渲染等高性能场景的首选组件。但原生SurfaceView的直角边框和单调的呈现方式,常常与现代化UI设计语言格格不入。我在…...
AI Agent岗位需求暴涨986%,年薪达19万美元,新职业“Agent师“横空出世!
Sam Altman和Dario Amodei先后押注同一件事:第一家"一人十亿美元公司"将在2026年出现。与此同时,AI Agent相关岗位需求一年内增长986%,均薪达到19万美元。一个不以编程为门槛的新职业方向,正在打破"做多大的事就需…...
OpenClaw配置备份指南:Qwen3-32B镜像环境迁移无忧方案
OpenClaw配置备份指南:Qwen3-32B镜像环境迁移无忧方案 1. 为什么需要备份OpenClaw环境 上周我的主力开发机RTX4090D突然显卡故障送修,导致所有OpenClaw自动化流程中断。最痛苦的不是硬件问题,而是重新配置Qwen3-32B镜像环境时,发…...
Qwen3-14B私有化部署成本分析:一张显卡就能跑,中小企业也玩得转
Qwen3-14B私有化部署成本分析:一张显卡就能跑,中小企业也玩得转 1. 为什么中小企业需要关注Qwen3-14B 在AI技术快速发展的今天,大型语言模型已成为企业数字化转型的重要工具。然而,高昂的部署成本往往让中小企业望而却步。Qwen3…...
PROJECT MOGFACE技术解析:深入理解LSTM在序列建模中的替代与增强
PROJECT MOGFACE技术解析:深入理解LSTM在序列建模中的替代与增强 1. 引言 如果你在几年前接触过自然语言处理或者语音识别,那么“LSTM”这个词对你来说一定不陌生。它曾经是处理序列数据的黄金标准,从机器翻译到语音合成,几乎无…...
从零开始:Linux系统部署AI视频生成工具Sora.FM的实战指南
从零开始:Linux系统部署AI视频生成工具Sora.FM的实战指南 【免费下载链接】sorafm 项目地址: https://gitcode.com/GitHub_Trending/so/sorafm 在数字化内容创作领域,AI视频生成技术正在引领一场新的革命。Sora.FM作为基于Sora AI技术的创新平台…...
