当前位置: 首页 > news >正文

分布式系统框架hadoop3入门

分布式系统框架hadoop3入门 (qq.com)

Hadoop3作为分布式系统架构的重要基石,为大规模数据存储与处理提供了强大支持

基本信息

hadoop:一个存储和处理大数据的分布式系统框架

组成: HDFS(数据存储)、MapReduce(计算)、Yarn(资源调度)、Common(辅助工具)

HDFS:Hadoop Distributed File System,一个分布式文件系统;组成有NameNode(存储文件的元数据,类似目录索引),DataNode(存储文件块数据),Secondary NameNode(NameNode元数据备份)

YARN:Yet Another Resource Negotiator,另一种资源协调者,Hadoop 的资源管理器,组成有ResourceManager(管理集群资源)、NodeManager(管理单个节点资源)、ApplicationMaster(管理单个任务)、Container(封装任务需要的资源)

MapReduce:将计算过程分为两个阶段Map 和 Reduce,Map 阶段并行处理输入数据,Reduce 阶段对 Map 结果进行汇总

配置环境

三台虚机:安装vmvare,创建模板虚拟机h1,centos7.5,配置完虚机模板后,克隆三个虚机h2-h4,分别修改对应的ip地址和主机名

配置ip地址:vm设置VMnet8的子网ip和网关、内部虚机修改主机名和hosts文件,静态地址、window配置Adapter VMnet8 默认网关,DNS服务器

安装远程终端工具:Xshell,Xftp传输工具

模板虚机配置:

安装epel-release(需更换为阿里源)

关闭防火墙及开机自启、配置常用用户有root权限

/opt目录下创建文件夹module和software,一个安装软件,一个放软件包

卸载虚拟机自带的JDK

在h2安装JDK和hadoop

用XShell传输工具将安装包,导入到opt目录下面的software文件夹下面

解压安装包到/opt/module目录下

配置环境变量

测试是否安装成功

将在h2安装的JDK和hadoop分发到h3,h4

两个命令:scp(secure copy)安全拷贝、rsync远程同步工具,前者可以在虚机之间复制文件,后者增量复制,效率更高

xsync集群分发脚本:基于上述两个命令编写xsync编写集群分发脚本,声明了全局环境变量的路径的bin目录下

SSH无密登录配置:生成公钥和私钥,将公钥拷贝到要免密登录的目标机器上,每台机器都要生成,并拷贝到其他机器上

配置集群并启动

集群规划:h2放NameNode,h3放ResourceManager,h4放SecondaryNameNode

配置-修改配置文件

核心配置文件core-site.xml:指定NameNode的地址、指定hadoop数据的存储目录

HDFS配置文件hdfs-site.xml:指定NameNode(nn)的地址 web端访问地址、SecondaryNameNode(2nn) web端访问地址

YARN配置文件yarn-site.xml:指定MR走shuffle、指定ResourceManager的地址、环境变量的继承

MapReduce配置文件mapred-site.xml:指定MapReduce程序运行在Yarn上

在集群上分发配置好的Hadoop配置文件:xsync

启动

配置workers并同步

集群是第一次启动:在h2节点格式化NameNode

h2机器上启动HDFS:start-dfs.sh

h3机器上启动YARN:start-yarn.sh

Web端查看HDFS的NameNode、YARN的ResourceManager

测试上传文件和执行wordcount程序

配置历史服务器和日志聚集

配置历史服务器

配置mapred-site.xml:配置历史服务器端地址、历史服务器web端地址

分发配置并启动,web查看

配置日志聚集

配置yarn-site.xml:开启日志聚集功能、设置日志聚集服务器地址、设置日志保留时间为7天

分发配置,关闭NodeManager 、ResourceManager和HistoryServer

启动NodeManager 、ResourceManage和HistoryServer

删除HDFS上已经存在的输出文件

执行WordCount程序

查看日志

参考资料

大海哥,hadoop3.x

hadoop+spark生态系统操作与实战指南

相关文章:

分布式系统框架hadoop3入门

分布式系统框架hadoop3入门 (qq.com) Hadoop3作为分布式系统架构的重要基石,为大规模数据存储与处理提供了强大支持 基本信息 hadoop:一个存储和处理大数据的分布式系统框架 组成: HDFS(数据存储)、MapReduce&…...

使用 i3.LayoutCell() 方法绘制版图并输出为 GDS 文件

使用 i3.LayoutCell 方法绘制版图并输出为 GDS 文件 引言正文引言 在 IPKISS i3.SRef() 函数 一文中我们介绍了如何使用 i3.SRef() 函数将 instance 对象添加到 i3.LayoutCell() 创建的 Cell 对象上。但是当我们使用 write_gdsii() 输出版图时代码就会报错。这里我们将介绍如何…...

mariadb容器

下载镜像 $ sudo docker pull mariadb启动容器 $ sudo docker run --name my-mariadb -d -e MARIADB_DATABASEtestdb -e MARIADB_ROOT_PASSWORDLetmein -p 3306:3306 mariadb上面命令会启动一个名为my-mariadb的容器,并初始化一个testdb数据库,同时设置…...

应用层协议Http

Http协议 1.1 什么是http协议 在进行网络通信时,应用层协议一般都是程序员自己写的,但是有一些大佬其实已经定义出了一些现成的应用层协议,例如:HTTP(超文本传输协议)、FTP(文件传输协议&#…...

display flex 的div 被子元素撑开不显示滚动条的一个解决demo

display flex 的div 被子元素撑开,不显示y轴滚动条的 一个解决demo。 注: 不一定适用所有人的的相同问题 less # less .contact {display: flex;flex-grow: 1;overflow: hidden auto;flex-direction: column;.contact-items {flex: 1 1 0;display: flex…...

判断键盘输入是数字、大写字母还是小写字母——C#学习笔记

以下代码将判断键盘输入字符是数字 还是字母: using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;namespace ConsoleApp4 {using System;using System.Threading;public class BoolKeyTest{sta…...

进程控制块PCB的组织方式有哪些?

进程控制块(PCB,Process Control Block)是操作系统用来管理和跟踪进程的一个数据结构,它保存了与进程相关的各种信息。PCB 是操作系统调度进程的核心数据结构,通常通过某种组织方式进行管理。常见的 PCB 组织方式主要有…...

getent passwd 获取linux并显示用户账户信息

getent passwd 命令在Unix和类Unix系统(如Linux)中用于从系统的密码数据库(通常是/etc/passwd文件,但在某些配置中可能是通过网络服务如NIS或LDAP)中获取并显示用户账户信息。这个命令的输出列出了系统上所有用户的详细…...

达梦数据库+JPA+Springboot 报错 :无效的列名

文章目录 0、 开发环境1、需求说明2、适配过程3、问题描述和解决3.1报错问题3.2 问题解决 0、 开发环境 开发环境: idea 2022 SpringBoot版本 :2.7.1 JDK 111、需求说明 适配国产化数据库达梦8 2、适配过程 参考 Springboot jpa 达梦 3、问题描述…...

#单片机基础 笔记一

--单片机概述STM32开发环境搭建创建工程 --STM32-GPIO(重点)编程 --STM32-USART串口应用 --STM32-SPI(液晶屏)中断系统 --STM32-时钟系统(重点中的重点) --STM32-PWMADC --STM32-DMA DHT11 1. 计算机组成原理 1.1 计算机的组成 1…...

echarts多个环形图

echarts图表集 var dataValue [{name:今日待分配方量,value:49}, {name:今日已分配方量,value:602}, {name:今日完成方量,value:1037}]var piedata1 [{name: 1#拌和机,value: 20},{name: 2#拌和机,value: 22},{name: 3#拌和机 ,value: 17},{name: 4#拌和机,value: 18},{name…...

vue 的面试题

一、Html篇 1、常用的块级元素及行内元素有哪些? 块级元素:div、p、h1~h6、ol、ul、li、table、form 行内标签:a、span、img、input、lable、button 行内块元素:img、input、button 2、行内元素和块级元素的区别? 块级…...

MongoDB-部署PSA(一主一从一仲裁)架构复制集群

目录 环境信息环境准备mongoDB配置&部署复制集群搭建 环境信息 IP端口节点10.0.0.127017主10.0.0.227017从10.0.0.327017仲裁 环境准备 1.关闭THP Transparent Huge Pages 简称 THP。透明大页面(THP)是一种Linux内存管理系统,通过使用…...

CSS中 特殊类型的选择器 伪元素如何使用

一、什么是伪元素 在 CSS 中,伪元素是一种特殊类型的选择器,它允许你为元素的特定部分添加样式,而这些部分在 HTML 文档中并不实际存在。伪元素通常用于创建装饰性效果,如添加边框、背景、阴影等,而不需要额外的 HTML…...

科技信贷业务怎么寻找客户?

在科技信贷业务领域,寻找客户的痛点主要集中在以下几个方面: 1.风险评估难题:科技型企业尤其是初创企业,往往缺乏足够的历史数据和抵押物,这使得金融机构在评估其信用风险时面临较大挑战。由于科技企业的研发周期长、…...

VM中创建CentOS 7及VM中如何修改DHCP的IP网段

一、创建虚拟机 1新建Centos虚拟机 2类型选择 3版本兼容性选择 4镜像选择 5安装系统选择 6虚拟机的创建路径(选择C盘以外且不包含中文名称的路径) 7硬件配置选择 网络类型的选择(通常情况下选择NAT模式) 8剩下的全部按推荐走&…...

mybatis#{}与${}的区别,mybatis关联查询,mybatis动态sql

1.#{}与${}的区别 #{}是占位符,是采用预编译的方式向sql中传值,可以防止sql注入如果我们往sql中传值,可以使用这个,例如这个delete语句 ${}将内容直接拼接到sql语句中,一般不用于传值,可以当作列名&#x…...

K8S(Kubernates) 知识目录

1. 一文了解K8S(Kubernates) 2. K8S CNI CRI CSI 3. K8S Helm 4. K8S Harbor 5. K8S Operator 6. K8S 服务网格 7. K8S 存储 8. K8S 容器调度 9. K8S 探针 10. K8S Watch 11. K8S 版本发版 12. K8S 资源管理CPU&内存 13. K8S Flannel 1…...

基于Java+SpringBoot+Vue+MySQL的失物招领管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 基于SpringBootVue的失物招领管理系统【附源码文档】、前后…...

Mybatis链路分析:JDK动态代理和责任链模式的应用

背景 此前写过关于代理模式的文章,参考:代理模式 动态代理功能:生成一个Proxy代理类,Proxy代理类实现了业务接口,而通过调用Proxy代理类实现的业务接口,实际上会触发代理类的invoke增强处理方法。 责任链功…...

AspNet MVC4 教学:AspNet MVC4 页面动态生成演示

HomeControllers.cs文件内容:using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Web.Mvc;namespace MvcDynamicPage.Controllers {public class HomeController : Controller{//// GET: /Home/public ActionResult Index(){…...

Prism框架实战:从零构建模块化WPF应用

1. 为什么选择Prism框架开发WPF应用 第一次接触WPF开发时,我像大多数新手一样直接从Visual Studio新建项目开始写代码。但随着功能增加,MainWindow.xaml.cs文件很快膨胀到上千行,各种控件事件和业务逻辑纠缠在一起。这时候我才意识到需要框架…...

基于扩展卡尔曼滤波算法EKF的锂电池SOC动态估算:考虑充放电倍率与环境温度的综合辨识

扩展卡尔曼滤波soc估算 基于EKF算法的锂电池SOC 卡尔曼滤波估计电池soc ,simulink模型,对电池SOC参数进行辨识,充分考虑充放电倍率和环境温度,结合传统安时积分法和扩展卡尔曼滤波算法EKF对锂电池soc进行动态估算。锂电池的SOC&am…...

Phi-3-mini-4k-instruct-gguf入门指南:中文标点智能补全、引号嵌套处理与段落空行控制

Phi-3-mini-4k-instruct-gguf入门指南:中文标点智能补全、引号嵌套处理与段落空行控制 1. 认识Phi-3-mini-4k-instruct-gguf Phi-3-mini-4k-instruct-gguf是微软Phi-3系列中的轻量级文本生成模型GGUF版本,特别适合中文场景下的问答、文本改写、摘要整理…...

MyBatis-Plus lambdaQuery条件构造器:EQ、NE、GT等操作符实战解析

1. 为什么需要lambdaQuery条件构造器 如果你用过MyBatis,肯定遇到过这样的场景:为了查询某个状态的数据,不得不写一堆if判断来拼接SQL。比如查询用户列表,要根据不同条件筛选,代码里全是"if(name!null){sql"…...

最新版临时文件快传系统源码 全开源附教程

内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示一、详细介绍 9月更新 临时文件快传系统源码 全开源附教程 更新日志: 新增: 独立分享页面新增返回首页按钮 目录分享页面显示统计信息 会员等级中心显示是否默认永久存储 后台会员等级权限…...

深入AUTOSAR CAN-TP状态机:从首帧(FF)、流控帧(FC)到连续帧(CF)的完整数据流拆解

深入AUTOSAR CAN-TP状态机:从首帧(FF)、流控帧(FC)到连续帧(CF)的完整数据流拆解 在汽车电子系统的开发中,诊断通信扮演着至关重要的角色。AUTOSAR CAN-TP(CAN Transport Protocol)作为UDS(Unified Diagnostic Service…...

不满意Oh My Zsh启动卡顿,来试试Starship吧毡

pagehelper整合 引入依赖com.github.pagehelperpagehelper-spring-boot-starter2.1.0compile编写代码 GetMapping("/list/{pageNo}") public PageInfo findAll(PathVariable int pageNo) {// 设置当前页码和每页显示的条数PageHelper.startPage(pageNo, 10);// 查询数…...

如何快速掌握华中科技大学本科毕业论文LaTeX模板:面向新手的完整使用指南

如何快速掌握华中科技大学本科毕业论文LaTeX模板:面向新手的完整使用指南 【免费下载链接】HUSTPaperTemp 华中科技大学本科毕业论文LaTeX模板 2017 项目地址: https://gitcode.com/gh_mirrors/hu/HUSTPaperTemp 华中科技大学本科毕业论文LaTeX模板是专门为华…...

别再纠结了!用Nuitka一键打包你的Python项目(含PyTorch依赖处理)

深度解析Nuitka:Python项目打包与PyTorch依赖处理实战指南 在Python生态中,项目打包一直是个令人头疼的问题——尤其是当你需要处理像PyTorch这样的复杂依赖时。传统的PyInstaller虽然简单易用,但在处理深度学习框架时常常会遇到各种兼容性问…...