当前位置: 首页 > news >正文

【数仓】Hadoop集群配置常用参数说明

Hadoop集群中,需要配置的文件主要包括四个

  1. 配置核心Hadoop参数

    • 编辑core-site.xml文件,设置Hadoop集群的基本参数,如文件系统、Hadoop临时目录等。
  2. 配置HDFS参数

    • 编辑hdfs-site.xml文件,设置HDFS的相关参数,如数据块大小、副本数等。
  3. 配置MapReduce参数(如果使用):

    • 编辑mapred-site.xml文件,设置MapReduce的相关参数。
  4. 配置YARN参数(如果使用):

    • 编辑yarn-site.xml文件,设置YARN的相关参数。

核心Hadoop参数 core-site.xml

参考官网

Hadoop的core-site.xml文件包含了许多重要的配置参数,这些参数用于定义Hadoop集群的全局设置。以下是一些常见的core-site.xml配置参数:

配置项默认值说明
fs.defaultFSHadoop集群的NameNode的URI。这是HDFS的入口点。
io.file.buffer.size4096SequenceFiles在读写过程中可以使用的缓存大小(以字节为单位)。
hadoop.tmp.dir/tmp/hadoop-${user.name}Hadoop的临时目录,用于存储临时文件和目录。
fs.trash.interval0垃圾箱中文件的保留时间(以分钟为单位)。设置为大于0的值将启用垃圾箱功能。
hadoop.proxyuser.${username}.hosts允许代理用户从哪些主机连接到Hadoop集群。
hadoop.proxyuser.${username}.groups允许代理用户属于哪些用户组连接到Hadoop集群。
fs.trash.checkpoint.interval0检查垃圾箱并删除过期文件的间隔时间(以分钟为单位)。
fs.automatic.closetrue是否在读取文件后自动关闭文件系统。
fs.dummy.implorg.apache.hadoop.fs.DummyFileSystem一个假的文件系统实现,用于测试。

请注意,上述表格中的默认值可能会因Hadoop版本和特定环境而有所不同。此外,还有许多其他可用的配置参数,具体取决于您的Hadoop集群的需求和配置。

在实际配置中,您应该根据您的Hadoop集群的具体要求和网络环境来设置这些参数。一些关键参数(如fs.defaultFS)在集群设置中是必需的,而其他参数则可以根据需要进行调整。在修改core-site.xml文件之前,请确保您已经充分了解每个参数的含义和潜在影响。

HDFS参数 hdfs-site.xml

参考官网

hdfs-site.xml 是 Hadoop 分布式文件系统(HDFS)的配置文件,它包含了许多参数,用于定义 HDFS 的行为和特性。以下是一些常见的 hdfs-site.xml 配置参数:

配置项默认值说明
dfs.namenode.name.dirfile://${hadoop.tmp.dir}/dfs/nameNameNode 存储其持久化元数据的本地文件系统路径。
dfs.datanode.data.dirfile://${hadoop.tmp.dir}/dfs/dataDataNode 存储其块的本地文件系统路径。
dfs.replication3数据的默认副本数。
dfs.permissions.enabledtrue是否启用 HDFS 权限检查。
dfs.block.size134217728 (128 MB)HDFS 块的大小。
dfs.namenode.handler.count10NameNode 服务器可以同时处理的客户端请求数。
dfs.datanode.handler.count10DataNode 服务器可以同时处理的客户端请求数。
dfs.client.read.shortcircuitfalse允许 DFS 客户端绕过 DataNode 直接读取本地文件。
dfs.client.read.shortcircuit.skip.checksumfalse在短路读取时跳过校验和检查。
dfs.https.address0.0.0.0:50470NameNode HTTPS 服务的地址和端口。
dfs.http.address0.0.0.0:50070NameNode HTTP 服务的地址和端口。
dfs.datanode.http.address0.0.0.0:50075DataNode HTTP 服务的地址和端口。
dfs.datanode.ipc.address0.0.0.0:50020DataNode IPC 服务的地址和端口。
dfs.namenode.http-address0.0.0.0:50070NameNode HTTP 服务的地址和端口(用于 Web UI)。
dfs.namenode.secondary.http-address0.0.0.0:50090Secondary NameNode HTTP 服务的地址和端口。

请注意,这些默认值可能会因 Hadoop 的版本和特定环境而有所不同。此外,还有许多其他可用的配置参数,具体取决于您的 HDFS 集群的需求和配置。

在实际配置中,您应该根据您的 HDFS 集群的具体要求和网络环境来设置这些参数。一些关键参数(如 dfs.namenode.name.dirdfs.datanode.data.dir)在集群设置中是必需的,而其他参数则可以根据需要进行调整。在修改 hdfs-site.xml 文件之前,请确保您已经充分了解每个参数的含义和潜在影响。

此外,请注意 hdfs-site.xml 文件通常还包含一些高级参数,用于调优 HDFS 的性能和可靠性,例如设置 NameNode 和 DataNode 的堆大小、调整各种超时设置等。这些参数的具体设置应该基于您的集群规模和工作负载进行调整。

MapReduce参数 mapred-site.xml

参考官网

mapred-site.xml 是 Hadoop MapReduce 的配置文件,它包含了许多参数,用于定义 MapReduce 作业的行为和特性。以下是一些常见的 mapred-site.xml 配置参:

配置项默认值说明
mapreduce.framework.namelocal执行框架设置为本地模式(单机模式),在集群上应设置为 yarn
mapreduce.jobhistory.address0.0.0.0:10020MapReduce JobHistory Server 的地址和端口。
mapreduce.jobhistory.webapp.address0.0.0.0:19888MapReduce JobHistory Server 的 Web UI 地址和端口。
mapreduce.jobtracker.addresslocalMapReduce JobTracker 的地址和端口(旧版 API,YARN 中不再使用)。
mapreduce.tasktracker.address0.0.0.0:50060MapReduce TaskTracker 的地址和端口(旧版 API,YARN 中不再使用)。
mapreduce.map.output.compressfalse是否压缩 Map 任务的输出。
mapreduce.map.output.compress.codecorg.apache.hadoop.io.compress.DefaultCodecMap 任务输出压缩使用的编解码器。
mapreduce.task.io.sort.mb100排序时使用的内存缓冲区大小(以 MB 为单位)。
mapreduce.task.io.sort.factor10合并小文件时一次合并的流的数量。
mapreduce.reduce.shuffle.parallelcopies5从 Map 到 Reduce 拷贝数据的并行度。
mapreduce.reduce.shuffle.fetch.retry.enabledtrue是否启用 shuffle 阶段获取数据的重试机制。
mapreduce.reduce.shuffle.retry-delay.ms1000shuffle 阶段重试之间的延迟时间(以毫秒为单位)。
mapreduce.reduce.shuffle.input.buffer.percent0.7shuffle 阶段用于存储数据的内存比例。
mapreduce.job.reduces1每个作业的默认 Reduce 任务数。
mapreduce.job.maps无默认值每个作业的 Map 任务数(通常由 AM 根据数据自动计算)。
mapreduce.map.speculativetrue是否启用 Map 任务的推测执行。
mapreduce.reduce.speculativetrue是否启用 Reduce 任务的推测执行。

请注意,这些默认值可能会因 Hadoop 的版本和特定环境而有所不同。此外,还有许多其他可用的配置参数,具体取决于您的 MapReduce 作业的需求和配置。

在实际配置中,您应该根据您的 MapReduce 作业的具体要求和网络环境来设置这些参数。一些关键参数(如 mapreduce.framework.name)在集群设置中是必需的,以指定执行框架,而其他参数则可以根据需要进行调整。在修改 mapred-site.xml 文件之前,请确保您已经充分了解每个参数的含义和潜在影响。

另外,值得注意的是,随着 Hadoop 的发展,MapReduce 已经被 YARN 和其他框架(如 Spark、Flink)所取代,因此在新版本的 Hadoop 中,mapred-site.xml 文件可能不再存在,或者其重要性已经降低。在使用新版本的 Hadoop 时,请确保查看相关文档以了解最新的配置方法和最佳实践。

YARN参数 yarn-site.xml

参考官网

yarn-site.xml 是 Apache Hadoop YARN 的配置文件,它包含了许多参数,用于定义 YARN 集群的行为和特性。以下是一些常见的 yarn-site.xml 配置参数:

配置项默认值说明
yarn.resourcemanager.hostnameResourceManager 的主机名。
yarn.resourcemanager.scheduler.address${yarn.resourcemanager.hostname}:8030ResourceManager 调度器服务的地址和端口。
yarn.resourcemanager.resource-tracker.address${yarn.resourcemanager.hostname}:8031ResourceManager 资源追踪服务的地址和端口。
yarn.resourcemanager.address${yarn.resourcemanager.hostname}:8032ResourceManager RPC 服务的地址和端口。
yarn.resourcemanager.webapp.address${yarn.resourcemanager.hostname}:8088ResourceManager Web UI 的地址和端口。
yarn.resourcemanager.admin.address${yarn.resourcemanager.hostname}:8033ResourceManager 管理服务的地址和端口。
yarn.scheduler.minimum-allocation-mb1024单个容器可申请的最小内存(以 MB 为单位)。
yarn.scheduler.maximum-allocation-mb8192单个容器可申请的最大内存(以 MB 为单位)。
yarn.nodemanager.resource.memory-mb8192NodeManager 可用的总物理内存(以 MB 为单位)。
yarn.scheduler.minimum-allocation-vcores1单个容器可申请的最小虚拟 CPU 个数。
yarn.scheduler.maximum-allocation-vcores32单个容器可申请的最大虚拟 CPU 个数。
yarn.nodemanager.vmem-pmem-ratio2.1虚拟内存与物理内存的比例。
yarn.nodemanager.local-dirs${hadoop.tmp.dir}/nm-local-dirNodeManager 存储本地化资源的目录列表。
yarn.nodemanager.log-dirs${yarn.log.dir}/userlogsNodeManager 存储容器日志的目录列表。
yarn.nodemanager.aux-servicesmapreduce_shuffleNodeManager 提供的辅助服务列表。
yarn.nodemanager.remote-app-log-dir/tmp/logs存储应用程序日志的远程目录(通常用于日志聚合)。
yarn.nodemanager.recovery.enabledfalse是否启用 NodeManager 恢复功能。
yarn.nodemanager.recovery.dir用于存储 NodeManager 恢复数据的目录。

请注意,这些默认值可能会因 Hadoop 的版本和特定环境而有所不同。此外,还有许多其他可用的配置参数,具体取决于您的 YARN 集群的需求和配置。在实际配置中,您应该根据您的 YARN 集群的具体要求和网络环境来设置这些参数。在修改 yarn-site.xml 文件之前,请确保您已经充分了解每个参数的含义和潜在影响。

参考

  • https://hadoop.apache.org/docs/r3.3.6/index.html

相关文章:

【数仓】Hadoop集群配置常用参数说明

Hadoop集群中,需要配置的文件主要包括四个 配置核心Hadoop参数: 编辑core-site.xml文件,设置Hadoop集群的基本参数,如文件系统、Hadoop临时目录等。 配置HDFS参数: 编辑hdfs-site.xml文件,设置HDFS的相关参…...

【go从入门到精通】什么是go?为什么要选择go?

go的出生: go语言(或Golang)是Google开发的开源编程语言,诞生于2006年1月2日下午15点4分5秒,于2009年11月开源,2012年发布go稳定版。Go语言在多核并发上拥有原生的设计优势,Go语言从底层原生支持…...

MySQL篇—执行计划介绍(第二篇,总共三篇)

☘️博主介绍☘️: ✨又是一天没白过,我是奈斯,DBA一名✨ ✌✌️擅长Oracle、MySQL、SQLserver、Linux,也在积极的扩展IT方向的其他知识面✌✌️ ❣️❣️❣️大佬们都喜欢静静的看文章,并且也会默默的点赞收藏加关注❣…...

nest.js使用nest-winston日志一

nest-winston文档 nest-winston - npm 参考:nestjs中winston日志模块使用 - 浮的blog - SegmentFault 思否 安装 cnpm install --save nest-winston winstoncnpm install winston-daily-rotate-file 在main.ts中 import { NestFactory } from nestjs/core; im…...

LeetCode刷题笔记之二叉树(四)

一、二叉搜索树的应用 1. 700【二叉搜索树中的搜索】 题目: 给定二叉搜索树(BST)的根节点 root 和一个整数值 val。你需要在 BST 中找到节点值等于 val 的节点。 返回以该节点为根的子树。 如果节点不存在,则返回 null 。代码&a…...

【MATLAB源码-第150期】基于matlab的开普勒优化算法(KOA)机器人栅格路径规划,输出做短路径图和适应度曲线。

操作环境: MATLAB 2022a 1、算法描述 开普勒优化算法(Kepler Optimization Algorithm, KOA)是一个虚构的、灵感来自天文学的优化算法,它借鉴了开普勒行星运动定律的概念来设计。在这个构想中,算法模仿行星围绕太阳的…...

最佳实践:Websocket 长连接状态如何保持

WebSocket 是一种支持通过单个 TCP 连接进行全双工通信的协议,相较于传统的 HTTP 协议,它更适合需要实时交互的应用场景。此协议在现代 Web 应用中扮演着至关重要的角色,尤其是在需要实时更新和通信的场合下维持持久连接。本文将探讨 WebSock…...

Unity AStar寻路算法与导航

在游戏开发中,寻路算法是一个非常重要的部分,它决定了游戏中角色的移动路径。Unity作为一款流行的游戏开发引擎,提供了许多内置的寻路算法,其中最常用的就是AStar算法。AStar算法是一种基于图的搜索算法,通过启发式搜索…...

JavaScript最新实现城市级联操作,json格式的数据

前置知识&#xff1a; <button onclick"doSelect()">操作下拉列表</button><hr>学历&#xff1a;<select id"degree"><option value"0">--请选择学历--</option><option value"1">专科<…...

SD NAND:为车载显示器注入智能与安全的心脏

SD NAND 在车载显示器的应用 在车载显示器上&#xff0c;SD NAND&#xff08;Secure Digital NAND&#xff09;可以有多种应用&#xff0c;其中一些可能包括&#xff1a; 导航数据存储&#xff1a; SD NAND 可以用于存储地图数据、导航软件以及车载系统的相关信息。这有助于提…...

矩阵的对角化

概述 对角化矩阵是线性代数中的一个重要概念&#xff0c;它涉及将一个方阵转换成一个对角阵&#xff0c;这个对角阵与原矩阵相似&#xff0c;其主要对角线上的元素为原矩阵的特征值。这样的转换简化了很多数学问题&#xff0c;特别是线性动力系统的求解和矩阵的幂运算。下面是…...

React编写组件时,如何省略.tsx后缀

省略.tsx后缀 当tsconfig.json配置了&#xff0c;需要重启后才会生效 {"compilerOptions": {"allowJs": true,"jsx": "react-jsx",} }当进行以上配置后&#xff0c;导入组件时添加后缀&#xff0c;Eslint报错如下&#xff1a; An im…...

移动端的React项目中如何配置自适应和px转rem

创建项目 create-react-app project-name 启动项目 npm start 下载自适应和px转rem的插件 自适应的&#xff1a; npm install lib-flexible --save px转rem的&#xff1a;npm install postcss-pxtorem5.1.1 --save-dev 创建craco.config.js配置文件 在package.json中…...

TypeScript 结合 React 开发时候 , React.FunctionComponent 解释

在 TypeScript 结合 React 开发时&#xff0c;React.FC&#xff08;或 React.FunctionComponent&#xff09;是一个泛型类型&#xff0c;它用于定义函数组件的类型。这个类型定义了函数组件的结构和预期行为&#xff0c;并且提供了泛型支持&#xff0c;以便你可以指定组件 prop…...

2280. 最优标号(最小割,位运算)#困难,想不到

活动 - AcWing 给定一个无向图 G(V,E)&#xff0c;每个顶点都有一个标号&#xff0c;它是一个 [0,2^31−1] 内的整数。 不同的顶点可能会有相同的标号。 对每条边 (u,v)&#xff0c;我们定义其费用 cost(u,v) 为 u 的标号与 v 的标号的异或值。 现在我们知道一些顶点的标号…...

RestTemplate启动问题解决

⭐ 作者简介&#xff1a;码上言 ⭐ 代表教程&#xff1a;Spring Boot vue-element 开发个人博客项目实战教程 ⭐专栏内容&#xff1a;个人博客系统 ⭐我的文档网站&#xff1a;http://xyhwh-nav.cn/ RestTemplate启动问题解决 问题&#xff1a;在SpringCloud架构项目中配…...

Docker部署前后端服务示例

使用Docker部署js前端 1.创建Dockerfile 在项目跟目录下创建Dockerfile文件&#xff1a; # 使用nginx作为基础镜像 FROM nginx:1.19.1# 指定工作空间 WORKDIR /data/web# 将 yarn build 打包后的build文件夹添加到工作空间 ADD build build# 将项目必要文件添加到工作空间&a…...

方格分割644--2017蓝桥杯

1.用dfs解决&#xff0c;首先这题的方格图形就很像一个走迷宫的类型&#xff0c;迷宫想到dfs&#xff0c;最中心点视为起点&#xff0c;起点有两个小人在这个方格里面对称行动&#xff0c;直到走出迷宫&#xff08;一个人走出来了另一个人就也走出来了&#xff0c;而走过的点会…...

接口测试用例设计注意点

API接口测试&#xff1a; 1>根据接口文档&#xff0c;检查接口调用方法post/get&#xff0c;状态码、请求值、返回值 2>对请求参数做容错、边界值、等价类校验 3>功能可用&#xff0c;用户友好 4>密码加密&#xff0c;http明文&#xff0c;https协议密文 5>业务…...

学习linux从0到工程师(命令)-4

基本命令 uname -m 显示机器的处理器架构 uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作系统信息 arch 显示机器的处理器架构 uname -m 显示机器…...

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…...

ES6从入门到精通:前言

ES6简介 ES6&#xff08;ECMAScript 2015&#xff09;是JavaScript语言的重大更新&#xff0c;引入了许多新特性&#xff0c;包括语法糖、新数据类型、模块化支持等&#xff0c;显著提升了开发效率和代码可维护性。 核心知识点概览 变量声明 let 和 const 取代 var&#xf…...

云计算——弹性云计算器(ECS)

弹性云服务器&#xff1a;ECS 概述 云计算重构了ICT系统&#xff0c;云计算平台厂商推出使得厂家能够主要关注应用管理而非平台管理的云平台&#xff0c;包含如下主要概念。 ECS&#xff08;Elastic Cloud Server&#xff09;&#xff1a;即弹性云服务器&#xff0c;是云计算…...

React第五十七节 Router中RouterProvider使用详解及注意事项

前言 在 React Router v6.4 中&#xff0c;RouterProvider 是一个核心组件&#xff0c;用于提供基于数据路由&#xff08;data routers&#xff09;的新型路由方案。 它替代了传统的 <BrowserRouter>&#xff0c;支持更强大的数据加载和操作功能&#xff08;如 loader 和…...

SCAU期末笔记 - 数据分析与数据挖掘题库解析

这门怎么题库答案不全啊日 来简单学一下子来 一、选择题&#xff08;可多选&#xff09; 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 A. 频繁模式挖掘&#xff1a;专注于发现数据中…...

【第二十一章 SDIO接口(SDIO)】

第二十一章 SDIO接口 目录 第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...

ESP32 I2S音频总线学习笔记(四): INMP441采集音频并实时播放

简介 前面两期文章我们介绍了I2S的读取和写入&#xff0c;一个是通过INMP441麦克风模块采集音频&#xff0c;一个是通过PCM5102A模块播放音频&#xff0c;那如果我们将两者结合起来&#xff0c;将麦克风采集到的音频通过PCM5102A播放&#xff0c;是不是就可以做一个扩音器了呢…...

微信小程序云开发平台MySQL的连接方式

注&#xff1a;微信小程序云开发平台指的是腾讯云开发 先给结论&#xff1a;微信小程序云开发平台的MySQL&#xff0c;无法通过获取数据库连接信息的方式进行连接&#xff0c;连接只能通过云开发的SDK连接&#xff0c;具体要参考官方文档&#xff1a; 为什么&#xff1f; 因为…...

深入解析C++中的extern关键字:跨文件共享变量与函数的终极指南

&#x1f680; C extern 关键字深度解析&#xff1a;跨文件编程的终极指南 &#x1f4c5; 更新时间&#xff1a;2025年6月5日 &#x1f3f7;️ 标签&#xff1a;C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录 前言&#x1f525;一、extern 是什么&#xff1f;&…...

论文笔记——相干体技术在裂缝预测中的应用研究

目录 相关地震知识补充地震数据的认识地震几何属性 相干体算法定义基本原理第一代相干体技术&#xff1a;基于互相关的相干体技术&#xff08;Correlation&#xff09;第二代相干体技术&#xff1a;基于相似的相干体技术&#xff08;Semblance&#xff09;基于多道相似的相干体…...