当前位置: 首页 > article >正文

Hadoop第2课(伪分布式集群的搭建)

jdk和hadoop安装包:

hadoop-2.9.2.t......等2个文件官方版下载丨最新版下载丨绿色版下载丨APP下载-123云盘

1、用XFTP发送hadoop安装包和jdk到/home/hadoop/目录下(hadoop用户的主目录)


2、解压jdk安装包到~目录

卸载jdk的命令:rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps


cd /home/hadoop
tar -zxvf /home/hadoop/jdk-8u311-linux-x64.tar.gz


3、配置bashrc


vim ~/.bashrc


export JAVA_HOME=/home/hadoop/jdk1.8.0_311
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME

保存后输入source ~/.bashrc


4、继续解压hadoop安装包到~目录
tar –zxvf hadoop-2.9.2.tar.gz


5、配置bashrc

vim .bashrc
export HADOOP_HOME=/home/hadoop/hadoop-2.9.2
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

source .bashrc


6、配置Hadoop配置文件,实现伪分布式;

Hadoop 配置文件很多,都位于 $HADOOP_HOME/etc/hadoop 下。

下面简单的描述一下几个重要的配置文件:

hadoop-env.sh:运行 Hadoop 要用的环境变量。

core-site.xml:核心配置项,包括 HDFS、MapReduce 和 YARN 常用的 I/O 设置等。

hdfs-site.xml:HDFS相关进程的配置项,包括 NameNode、SecondaryNameNode、DataNode等。

yarn-site.xml:YARN 相关进程的配置项,包括 ResourceManager、NodeManager 等。

mapred-site.xml:MapReduce 相关进程的配置项。

slaves:从节点配置文件,通常每行 1 个从节点主机名。

log4j.properties:系统日志、NameNode 审计日志、JVM 进程日志的配置项。

Hadoop伪分布式配置:

 所有配置文件都在hadoop安装目录下的/etc/hadoop/里,所以先cd进去:

 cd ~/hadoop-2.9.2/etc/hadoop

1.vim ./hadoop-env.sh

设置一项java安装目录即可:

export JAVA_HOME=/home/hadoop/jdk1.8.0_311

2.vim ./core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name><value>hdfs://master:9000</value>
<!--配置hdfs NameNode的地址,9000是RPC通信的端口-->
</property>
<property><name>hadoop.tmp.dir</name><value>/home/hadoop/data/tmp</value>
<!--hadoop运行时产生的临时文件的存放目录-->
</property>
</configuration>

3.vim hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/data/dfs/name</value>
<!--配置namenode节点存储fsimage的目录位置-->
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/data/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
<!--配置hdfs副本数量-->
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
<!--关闭hdfs的权限检查-->
</property>
<!--配置datanode 节点存储block的目录位置-->
</configuration>

 4. vim mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<!--指定运行mapreduce的环境为YARN-->
</property>
</configuration>

5.vim yarn-site.xml

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
<!--配置NodeManager执行MapReduce任务的方式为Shuffle混洗-->
</property>
</configuration>

6.vim slaves

该文件主要配置datanode角色的主机,目前我们属于伪分布式,因此只填写本机作为从节点即可

改为:master

7.创建三个用来存放文件

mkdir -p /home/hadoop/data/tmp

mkdir -p /home/hadoop/data/dfs/name

mkdir -p /home/hadoop/data/dfs/data

8. 启动Hadoop伪分布式集群并测试:

            (1)格式化NameNode

hdfs namenode -format

(2)启动集群

start-all.sh

查看进程
jps
查看HDFS
浏览器输入网址:http://master:50070/

查看YARN
浏览器输入网址:http://master:8088/

测试集群:见课本

 

相关文章:

Hadoop第2课(伪分布式集群的搭建)

jdk和hadoop安装包&#xff1a; hadoop-2.9.2.t......等2个文件官方版下载丨最新版下载丨绿色版下载丨APP下载-123云盘 1、用XFTP发送hadoop安装包和jdk到/home/hadoop/目录下&#xff08;hadoop用户的主目录&#xff09; 2、解压jdk安装包到~目录 卸载jdk的命令&#xff1a;r…...

DeepSeek开源周第二弹:DeepEP如何用RDMA+FP8让MoE模型飞起来?

一、引言&#xff1a;MoE模型的通信瓶颈与DeepEP的诞生 在混合专家&#xff08;MoE&#xff09;模型训练中&#xff0c;专家间的全对全&#xff08;All-to-All&#xff09;通信成为性能瓶颈。传统方案在跨节点传输时带宽利用率不足50%&#xff0c;延迟高达300μs以上。DeepSee…...

IoT 测试:智能互联时代的质量保障

一、IoT(物联网)概述 物联网(Internet of Things, IoT)指的是将各种设备、传感器和系统连接到互联网&#xff0c;实现数据采集、传输、处理和智能化应用。随着 5G、云计算、人工智能等技术的发展&#xff0c;IoT 在智能家居、工业自动化、医疗健康、智能交通等领域的应用日益广…...

使用Crawlee可破题js渲染采集数据

使用 Crawlee 实现自动化爬虫流程 1. Crawlee 简介 Crawlee 是一个强大的爬虫框架&#xff0c;用于快速构建和维护可靠的爬虫。它支持多种爬虫类型&#xff0c;包括基于 Cheerio 和 Playwright 的爬虫&#xff0c;能够高效处理静态和动态网页。 2. 项目目标 通过自动化脚本实…...

短连接服务器压测-wrk

背景 由于业务需要我们从原来的 长连接 转为 短连接&#xff0c;提高单服同时在线人数。 老压测 在服务器编写机器人&#xff0c;编写一部分客户端逻辑&#xff08;这里如果客户端严格使用mvc 模式&#xff0c;其实可以把 view 层换为 服务器测试代码层&#xff0c;而一般不…...

DAV_postgresql_2-user_role

数据库角色用来管理数据库访问权限&#xff0c;简化权限的管理 用户和角色在整个数据库集簇中是全局性的&#xff0c;不是针对某个单一数据库&#xff0c;只要有足够的权限&#xff0c;用户可以访问所有数据库的对象。 数据库用户可以分为两类 超级用户 -- postgres 普通…...

php 获取head参数

php 获取head参数 在PHP中&#xff0c;获取HTTP头部&#xff08;head&#xff09;参数可以通过不同的方式实现&#xff0c;下面为你详细介绍几种常见的方法。 1. 使用$_SERVER超全局变量 $_SERVER 是PHP中的一个超全局变量&#xff0c;它包含了诸如头信息、路径、脚本位置等…...

Fiddler在Windows下抓包Https

文章目录 1.Fiddler Classic 配置2.配置浏览器代理自动代理手动配置浏览器代理 3.抓取移动端 HTTPS 流量&#xff08;可选&#xff09;解决抓取 HTTPS 失败问题1.Fiddler证书过期了 默认情况下&#xff0c;Fiddler 无法直接解密 HTTPS 流量。需要开启 HTTPS 解密&#xff1a; 1…...

SQLite数据库从0到1

SQLite SQLite基础知识 SQLite数据库功能特性&#xff1a;ACID事务&#xff1b;支持数据库大小至2TB&#xff1b;足够小&#xff0c;大致13万行C代码4MB左右&#xff1b;存储在单一磁盘文件中的完整数据库。独立&#xff0c;无额外依赖。源码完全开源。支持多种编程语言&#…...

PMP项目管理—整合管理篇—7.结束项目或阶段

文章目录 基本信息过程4W1HITTO输入工具与技术输出 收尾过程组项目收尾&#xff08;结束项目或阶段&#xff09;行政收尾/管理收尾 合同收尾&#xff08;结束采购&#xff09; 最终报告 基本信息 项目无论何因何时终止&#xff0c;都必须用结束项目或阶段过程来正式关闭。通过…...

计算机网络基础简答题资料(对口高考)

1、什么是计算机网络&#xff1f;计算机网络的功能有哪些&#xff1f; 答案&#xff1a;计算机网络&#xff0c;是指将分布在不同地理位置、具有独立功能的多台计算机及其外围设备&#xff0c;通过通信设备和通信线路连接起来&#xff0c;在网络操作系统、网络管理软件及网络通…...

Java语法基础知识点1

目录 一、数组 1.1数组的初始化&#xff1a; 1.2数组的遍历方法&#xff1a; 1.3数组的常见使用方法&#xff1a; 二、类和对象 2.1构造方法&#xff1a; 2.2this关键字: 三、封装 3.1访问限定符&#xff1a; 3.2static关键字&#xff1a; 3.3代码块&#xff1a; 一…...

2025年跟上AI新时代:带AI人工智能的蜜罐系统T-Pot

T-Pot是一个集成式、可选分布式的、支持多架构&#xff08;amd64、arm64&#xff09;的蜜罐平台&#xff0c;它支持20多种蜜罐&#xff0c;并提供了使用Elastic Stack的无数可视化选项、动态实时攻击地图以及众多安全工具&#xff0c;以进一步提升蜜罐系统体验。源码地址&#…...

【新手入门】SQL注入之盲注

一、引言 在我们的注入语句被带入数据库查询但却什么都没有返回的情况我们该怎么办? 例如应用程序返回到一个"通用的"的页面&#xff0c;或者重定向一个通用页面(可能为网站首页)。这时&#xff0c;我们之前学习的SQL注入的办法就无法使用了。这种情况我们称之为无…...

python-leetcode-分割等和子集

416. 分割等和子集 - 力扣&#xff08;LeetCode&#xff09; class Solution:def canPartition(self, nums: List[int]) -> bool:total sum(nums)if total % 2 ! 0:return Falsetarget total // 2dp [False] * (target 1)dp[0] Truefor num in nums:for j in range(tar…...

【大模型+知识图谱】大模型与知识图谱融合:技术演进、实践应用与未来挑战

【大模型+知识图谱】大模型与知识图谱融合:技术演进、实践应用与未来挑战 大模型与知识图谱融合:技术演进、实践应用与未来挑战引言:为什么需要融合?一、技术融合的三重路径1.1 知识图谱增强大模型1.2 大模型赋能知识图谱1.3 协同推理框架二、工业级应用场景落地2.1 智能问…...

python 视频网站爬虫教程,爬虫入门教程(付安装包)

文章目录 前言1. 环境准备Python安装选择Python开发环境安装必要库 2. 了解目标网站3. 发送请求获取页面内容4. 解析页面内容&#xff0c;提取视频链接5. 下载视频6. 处理反爬机制7. 完整代码示例注意事项 前言 以下为你生成一份 Python 视频网站爬虫教程&#xff0c;以爬取简…...

趣讲TCP三次握手

一、TCP三次握手简介 TCP&#xff08;Transmission Control Protocol&#xff0c;传输控制协议&#xff09;是一种面向连接的、可靠的、基于字节流的传输层通信协议。在TCP连接中&#xff0c;只有两方进行通信&#xff0c;它使用校验和、确认和重传机制来保证数据的可靠传输。…...

Python 字典与集合:从入门到精通的全面解析

Langchain系列文章目录 01-玩转LangChain&#xff1a;从模型调用到Prompt模板与输出解析的完整指南 02-玩转 LangChain Memory 模块&#xff1a;四种记忆类型详解及应用场景全覆盖 03-全面掌握 LangChain&#xff1a;从核心链条构建到动态任务分配的实战指南 04-玩转 LangChai…...

基于coze+微信小程序实现图片上传并利用大模型解析

项目截图&#xff1a; 实现代码&#xff08;直接搬去可用&#xff09; 前提&#xff1a;需要填写你的oss配置coze的api授权配置&#xff01;&#xff01;&#xff01; <template><view class"container"><!-- 高斯模糊背景 --><view class&qu…...

java——执行linux/cmd命令

在Java中执行命令行命令可以通过Runtime.exec()或ProcessBuilder实现。以下是两种方法的详细说明和示例代码&#xff1a; 1. 使用 Runtime.exec() 适用于简单场景&#xff0c;但需手动处理输入/输出流。 try {// 执行命令&#xff08;参数以数组形式传递&#xff0c;避免空格…...

VMware Fusion 虚拟机Mac版 安装CentOS 7 系统

介绍 CentOS是Community Enterprise Operating System的缩写&#xff0c;也叫做社区企业操作系统。是企业Linux发行版领头羊Red Hat Enterprise Linux的再编译版本&#xff08;是一个再发行版本&#xff09;&#xff0c;而且在RHEL的基础上修正了不少已知的 Bug &#xff0c;相…...

java练习(44)

ps:题目来自力扣 两两交换链表中的节点 给你一个链表&#xff0c;两两交换其中相邻的节点&#xff0c;并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题&#xff08;即&#xff0c;只能进行节点交换&#xff09;。 // 定义链表节点类&#xff0c;每个节…...

Deepseek 开源周第一天:FlashMLA

Deepseek 隆重开启开源周!第一天我们迎来了FlashMLA。我很高兴带大家了解这项创新,揭秘 FlashMLA 为何能成为 AI 和 GPU 优化领域的变革者。 Deepseek 开源周的热门话题有哪些?...

DeepSeek-OpenSourceWeek-第三天-Release of DeepGEMM

DeepGEMM:这是一款专为高效的 FP8(8 位浮点)通用矩阵乘法(GEMMs)而开发的尖端库。GEMMs 是许多 AI 工作负载(尤其是深度学习)中的基本操作。 特点: 支持稠密和 MoE GEMMs:它可以处理标准的稠密矩阵乘法以及混合专家(MoE)模型中使用的矩阵乘法。MoE 是一种神经网络架…...

Bitlocker取证之PXE降级取密钥

支持到微软Surface pro系列。...

【补阙拾遗】排序之冒泡、插入、选择排序

炉烟爇尽寒灰重&#xff0c;剔出真金一寸明 冒泡排序1. 轻量化情境导入 &#x1f30c;2. 边界明确的目标声明 &#x1f3af;3. 模块化知识呈现 &#x1f9e9;&#x1f4ca; 双循环结构对比表★★★⚠️ 代码关键点注释 4. 嵌入式应用示范 &#x1f6e0;️5. 敏捷化巩固反馈 ✅ …...

跨AWS账户共享SQS队列以实现消息传递

在现代分布式系统中,不同的服务和组件通常需要进行通信和协作。Amazon Simple Queue Service (SQS)提供了一种可靠、可扩展且完全托管的消息队列服务,可以帮助您构建分布式应用程序。本文将介绍如何在一个AWS账户(账户A)中创建SQS队列,并授权另一个AWS账户(账户B)中的用户和角色…...

基于Python实现的【机器学习】小项目教程案例

以下是一个基于Python实现的【机器学习】小项目教程案例,结合的经典案例与最佳实践,涵盖数据预处理、模型训练与评估全流程,并附详细代码说明与结果分析: 案例1:鸢尾花分类(SVM算法) 数据集:Iris Dataset(含150个样本,4个特征,3个类别) 目标:根据花瓣与萼片长度…...

TDengine 中的数据库

数据库概念 时序数据库 TDengine 中数据库概念&#xff0c;等同于关系型数据库 MYSQL PostgreSQL 中的数据库&#xff0c;都是对资源进行分割管理的单位。 TDengine 数据库与关系型数据库最大区别是跨库操作&#xff0c;TDengine 数据库跨库操作除了少量几个SQL 能支持外&…...