分布式系统框架hadoop3入门
分布式系统框架hadoop3入门 (qq.com)
Hadoop3作为分布式系统架构的重要基石,为大规模数据存储与处理提供了强大支持
基本信息
hadoop:一个存储和处理大数据的分布式系统框架
组成: HDFS(数据存储)、MapReduce(计算)、Yarn(资源调度)、Common(辅助工具)
HDFS:Hadoop Distributed File System,一个分布式文件系统;组成有NameNode(存储文件的元数据,类似目录索引),DataNode(存储文件块数据),Secondary NameNode(NameNode元数据备份)
YARN:Yet Another Resource Negotiator,另一种资源协调者,Hadoop 的资源管理器,组成有ResourceManager(管理集群资源)、NodeManager(管理单个节点资源)、ApplicationMaster(管理单个任务)、Container(封装任务需要的资源)
MapReduce:将计算过程分为两个阶段Map 和 Reduce,Map 阶段并行处理输入数据,Reduce 阶段对 Map 结果进行汇总
配置环境
三台虚机:安装vmvare,创建模板虚拟机h1,centos7.5,配置完虚机模板后,克隆三个虚机h2-h4,分别修改对应的ip地址和主机名
配置ip地址:vm设置VMnet8的子网ip和网关、内部虚机修改主机名和hosts文件,静态地址、window配置Adapter VMnet8 默认网关,DNS服务器
安装远程终端工具:Xshell,Xftp传输工具
模板虚机配置:
安装epel-release(需更换为阿里源)
关闭防火墙及开机自启、配置常用用户有root权限
/opt目录下创建文件夹module和software,一个安装软件,一个放软件包
卸载虚拟机自带的JDK
在h2安装JDK和hadoop
用XShell传输工具将安装包,导入到opt目录下面的software文件夹下面
解压安装包到/opt/module目录下
配置环境变量
测试是否安装成功
将在h2安装的JDK和hadoop分发到h3,h4
两个命令:scp(secure copy)安全拷贝、rsync远程同步工具,前者可以在虚机之间复制文件,后者增量复制,效率更高
xsync集群分发脚本:基于上述两个命令编写xsync编写集群分发脚本,声明了全局环境变量的路径的bin目录下
SSH无密登录配置:生成公钥和私钥,将公钥拷贝到要免密登录的目标机器上,每台机器都要生成,并拷贝到其他机器上
配置集群并启动
集群规划:h2放NameNode,h3放ResourceManager,h4放SecondaryNameNode
配置-修改配置文件
核心配置文件core-site.xml:指定NameNode的地址、指定hadoop数据的存储目录
HDFS配置文件hdfs-site.xml:指定NameNode(nn)的地址 web端访问地址、SecondaryNameNode(2nn) web端访问地址
YARN配置文件yarn-site.xml:指定MR走shuffle、指定ResourceManager的地址、环境变量的继承
MapReduce配置文件mapred-site.xml:指定MapReduce程序运行在Yarn上
在集群上分发配置好的Hadoop配置文件:xsync
启动
配置workers并同步
集群是第一次启动:在h2节点格式化NameNode
h2机器上启动HDFS:start-dfs.sh
h3机器上启动YARN:start-yarn.sh
Web端查看HDFS的NameNode、YARN的ResourceManager
测试上传文件和执行wordcount程序
配置历史服务器和日志聚集
配置历史服务器
配置mapred-site.xml:配置历史服务器端地址、历史服务器web端地址
分发配置并启动,web查看
配置日志聚集
配置yarn-site.xml:开启日志聚集功能、设置日志聚集服务器地址、设置日志保留时间为7天
分发配置,关闭NodeManager 、ResourceManager和HistoryServer
启动NodeManager 、ResourceManage和HistoryServer
删除HDFS上已经存在的输出文件
执行WordCount程序
查看日志
参考资料
大海哥,hadoop3.x
hadoop+spark生态系统操作与实战指南
相关文章:
分布式系统框架hadoop3入门
分布式系统框架hadoop3入门 (qq.com) Hadoop3作为分布式系统架构的重要基石,为大规模数据存储与处理提供了强大支持 基本信息 hadoop:一个存储和处理大数据的分布式系统框架 组成: HDFS(数据存储)、MapReduce&…...
使用 i3.LayoutCell() 方法绘制版图并输出为 GDS 文件
使用 i3.LayoutCell 方法绘制版图并输出为 GDS 文件 引言正文引言 在 IPKISS i3.SRef() 函数 一文中我们介绍了如何使用 i3.SRef() 函数将 instance 对象添加到 i3.LayoutCell() 创建的 Cell 对象上。但是当我们使用 write_gdsii() 输出版图时代码就会报错。这里我们将介绍如何…...
mariadb容器
下载镜像 $ sudo docker pull mariadb启动容器 $ sudo docker run --name my-mariadb -d -e MARIADB_DATABASEtestdb -e MARIADB_ROOT_PASSWORDLetmein -p 3306:3306 mariadb上面命令会启动一个名为my-mariadb的容器,并初始化一个testdb数据库,同时设置…...
应用层协议Http
Http协议 1.1 什么是http协议 在进行网络通信时,应用层协议一般都是程序员自己写的,但是有一些大佬其实已经定义出了一些现成的应用层协议,例如:HTTP(超文本传输协议)、FTP(文件传输协议&#…...
display flex 的div 被子元素撑开不显示滚动条的一个解决demo
display flex 的div 被子元素撑开,不显示y轴滚动条的 一个解决demo。 注: 不一定适用所有人的的相同问题 less # less .contact {display: flex;flex-grow: 1;overflow: hidden auto;flex-direction: column;.contact-items {flex: 1 1 0;display: flex…...
判断键盘输入是数字、大写字母还是小写字母——C#学习笔记
以下代码将判断键盘输入字符是数字 还是字母: using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;namespace ConsoleApp4 {using System;using System.Threading;public class BoolKeyTest{sta…...
进程控制块PCB的组织方式有哪些?
进程控制块(PCB,Process Control Block)是操作系统用来管理和跟踪进程的一个数据结构,它保存了与进程相关的各种信息。PCB 是操作系统调度进程的核心数据结构,通常通过某种组织方式进行管理。常见的 PCB 组织方式主要有…...
getent passwd 获取linux并显示用户账户信息
getent passwd 命令在Unix和类Unix系统(如Linux)中用于从系统的密码数据库(通常是/etc/passwd文件,但在某些配置中可能是通过网络服务如NIS或LDAP)中获取并显示用户账户信息。这个命令的输出列出了系统上所有用户的详细…...
达梦数据库+JPA+Springboot 报错 :无效的列名
文章目录 0、 开发环境1、需求说明2、适配过程3、问题描述和解决3.1报错问题3.2 问题解决 0、 开发环境 开发环境: idea 2022 SpringBoot版本 :2.7.1 JDK 111、需求说明 适配国产化数据库达梦8 2、适配过程 参考 Springboot jpa 达梦 3、问题描述…...
#单片机基础 笔记一
--单片机概述STM32开发环境搭建创建工程 --STM32-GPIO(重点)编程 --STM32-USART串口应用 --STM32-SPI(液晶屏)中断系统 --STM32-时钟系统(重点中的重点) --STM32-PWMADC --STM32-DMA DHT11 1. 计算机组成原理 1.1 计算机的组成 1…...
echarts多个环形图
echarts图表集 var dataValue [{name:今日待分配方量,value:49}, {name:今日已分配方量,value:602}, {name:今日完成方量,value:1037}]var piedata1 [{name: 1#拌和机,value: 20},{name: 2#拌和机,value: 22},{name: 3#拌和机 ,value: 17},{name: 4#拌和机,value: 18},{name…...
vue 的面试题
一、Html篇 1、常用的块级元素及行内元素有哪些? 块级元素:div、p、h1~h6、ol、ul、li、table、form 行内标签:a、span、img、input、lable、button 行内块元素:img、input、button 2、行内元素和块级元素的区别? 块级…...
MongoDB-部署PSA(一主一从一仲裁)架构复制集群
目录 环境信息环境准备mongoDB配置&部署复制集群搭建 环境信息 IP端口节点10.0.0.127017主10.0.0.227017从10.0.0.327017仲裁 环境准备 1.关闭THP Transparent Huge Pages 简称 THP。透明大页面(THP)是一种Linux内存管理系统,通过使用…...
CSS中 特殊类型的选择器 伪元素如何使用
一、什么是伪元素 在 CSS 中,伪元素是一种特殊类型的选择器,它允许你为元素的特定部分添加样式,而这些部分在 HTML 文档中并不实际存在。伪元素通常用于创建装饰性效果,如添加边框、背景、阴影等,而不需要额外的 HTML…...
科技信贷业务怎么寻找客户?
在科技信贷业务领域,寻找客户的痛点主要集中在以下几个方面: 1.风险评估难题:科技型企业尤其是初创企业,往往缺乏足够的历史数据和抵押物,这使得金融机构在评估其信用风险时面临较大挑战。由于科技企业的研发周期长、…...
VM中创建CentOS 7及VM中如何修改DHCP的IP网段
一、创建虚拟机 1新建Centos虚拟机 2类型选择 3版本兼容性选择 4镜像选择 5安装系统选择 6虚拟机的创建路径(选择C盘以外且不包含中文名称的路径) 7硬件配置选择 网络类型的选择(通常情况下选择NAT模式) 8剩下的全部按推荐走&…...
mybatis#{}与${}的区别,mybatis关联查询,mybatis动态sql
1.#{}与${}的区别 #{}是占位符,是采用预编译的方式向sql中传值,可以防止sql注入如果我们往sql中传值,可以使用这个,例如这个delete语句 ${}将内容直接拼接到sql语句中,一般不用于传值,可以当作列名&#x…...
K8S(Kubernates) 知识目录
1. 一文了解K8S(Kubernates) 2. K8S CNI CRI CSI 3. K8S Helm 4. K8S Harbor 5. K8S Operator 6. K8S 服务网格 7. K8S 存储 8. K8S 容器调度 9. K8S 探针 10. K8S Watch 11. K8S 版本发版 12. K8S 资源管理CPU&内存 13. K8S Flannel 1…...
基于Java+SpringBoot+Vue+MySQL的失物招领管理系统
作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 基于SpringBootVue的失物招领管理系统【附源码文档】、前后…...
Mybatis链路分析:JDK动态代理和责任链模式的应用
背景 此前写过关于代理模式的文章,参考:代理模式 动态代理功能:生成一个Proxy代理类,Proxy代理类实现了业务接口,而通过调用Proxy代理类实现的业务接口,实际上会触发代理类的invoke增强处理方法。 责任链功…...
Chapter03-Authentication vulnerabilities
文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...
大型活动交通拥堵治理的视觉算法应用
大型活动下智慧交通的视觉分析应用 一、背景与挑战 大型活动(如演唱会、马拉松赛事、高考中考等)期间,城市交通面临瞬时人流车流激增、传统摄像头模糊、交通拥堵识别滞后等问题。以演唱会为例,暖城商圈曾因观众集中离场导致周边…...
相机Camera日志分析之三十一:高通Camx HAL十种流程基础分析关键字汇总(后续持续更新中)
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:有对最普通的场景进行各个日志注释讲解,但相机场景太多,日志差异也巨大。后面将展示各种场景下的日志。 通过notepad++打开场景下的日志,通过下列分类关键字搜索,即可清晰的分析不同场景的相机运行流程差异…...
Rust 异步编程
Rust 异步编程 引言 Rust 是一种系统编程语言,以其高性能、安全性以及零成本抽象而著称。在多核处理器成为主流的今天,异步编程成为了一种提高应用性能、优化资源利用的有效手段。本文将深入探讨 Rust 异步编程的核心概念、常用库以及最佳实践。 异步编程基础 什么是异步…...
python执行测试用例,allure报乱码且未成功生成报告
allure执行测试用例时显示乱码:‘allure’ �����ڲ����ⲿ���Ҳ���ǿ�&am…...
【7色560页】职场可视化逻辑图高级数据分析PPT模版
7种色调职场工作汇报PPT,橙蓝、黑红、红蓝、蓝橙灰、浅蓝、浅绿、深蓝七种色调模版 【7色560页】职场可视化逻辑图高级数据分析PPT模版:职场可视化逻辑图分析PPT模版https://pan.quark.cn/s/78aeabbd92d1...
网站指纹识别
网站指纹识别 网站的最基本组成:服务器(操作系统)、中间件(web容器)、脚本语言、数据厍 为什么要了解这些?举个例子:发现了一个文件读取漏洞,我们需要读/etc/passwd,如…...
Docker 本地安装 mysql 数据库
Docker: Accelerated Container Application Development 下载对应操作系统版本的 docker ;并安装。 基础操作不再赘述。 打开 macOS 终端,开始 docker 安装mysql之旅 第一步 docker search mysql 》〉docker search mysql NAME DE…...
【 java 虚拟机知识 第一篇 】
目录 1.内存模型 1.1.JVM内存模型的介绍 1.2.堆和栈的区别 1.3.栈的存储细节 1.4.堆的部分 1.5.程序计数器的作用 1.6.方法区的内容 1.7.字符串池 1.8.引用类型 1.9.内存泄漏与内存溢出 1.10.会出现内存溢出的结构 1.内存模型 1.1.JVM内存模型的介绍 内存模型主要分…...
BLEU评分:机器翻译质量评估的黄金标准
BLEU评分:机器翻译质量评估的黄金标准 1. 引言 在自然语言处理(NLP)领域,衡量一个机器翻译模型的性能至关重要。BLEU (Bilingual Evaluation Understudy) 作为一种自动化评估指标,自2002年由IBM的Kishore Papineni等人提出以来,…...
