当前位置: 首页 > news >正文

MapReduce内存参数自动推断

MapReduce内存参数自动推断。在Hadoop 2.0中,为MapReduce作业设置内存参数非常繁琐,涉及到两个参数:mapreduce.{map,reduce}.memory.mb和mapreduce.{map,reduce}.java.opts,一旦设置不合理,则会使得内存资源浪费严重,比如将前者设置为4096MB,但后者却是“-Xmx2g”,则剩余2g实际上无法让java heap使用到。

对应patch MAPREDUCE-5785

相关知识

mapreduce.map.java.opts和mapreduce.map.memory.mb

mapreduce.map.java.opts和mapreduce.map.memory.mb参数之间,有什么联系呢?

mapreduce.map.memory.mb 是task 所申请container的内存限制。mapreduce.{map|reduce}.java.opts 是在container中运行 jvm的限制。

在yarn container这种模式下,JVM进程跑在container中,mapreduce.{map|reduce}.java.opts能够通过Xmx设置JVM最大的heap的使用,一般设置为0.75倍的memory.mb,因为需要为java code,非JVM内存使用等预留些空间

在这里插入图片描述

具体逻辑

mapreduce.map/reduce.memory.mb键的内存值如果保留为默认值-1,则现在将自动从为mapreduce.map/reduce.java.opts键指定的堆大小值系统属性(-Xmx)推断。
反之亦然,即如果指定了mapreduce.map/reduce.memory.mb值,但没有为 mapreduce.map/reduce.java.opts键提供-Xmx,则-Xmx值将从前者的值派生。

I
如果两者都未指定,mapreduce.map/reduce.memory.mb 则使用默认值1024 MB。

对于这两种转换,使用属性mapreduce.job.heap.memory-mb.ratio(默认是0.8)指定的比例因子,以说明堆使用与实际物理内存使用之间的开销。已显式指定这两组属性的现有任务或作业代码将不受此推断更改的影响。

公式

mapreduce.map/reduce.memory.mb *mapreduce.job.heap.memory-mb.ratio =mapreduce.map/reduce.java.opts

参数

<property><name>mapreduce.job.heap.memory-mb.ratio</name><value>0.8</value><description>The ratio of heap-size to container-size. If no -Xmx isspecified, it is calculated as(mapreduce.{map|reduce}.memory.mb * mapreduce.heap.memory-mb.ratio).If -Xmx is specified but not mapreduce.{map|reduce}.memory.mb, it iscalculated as (heapSize / mapreduce.heap.memory-mb.ratio).</description>
</property>

主要代码

public String getTaskJavaOpts(TaskType taskType) {String javaOpts = getConfiguredTaskJavaOpts(taskType);if (!javaOpts.contains("-Xmx")) {float heapRatio = getFloat(MRJobConfig.HEAP_MEMORY_MB_RATIO,MRJobConfig.DEFAULT_HEAP_MEMORY_MB_RATIO);if (heapRatio > 1.0f || heapRatio < 0) {LOG.warn("Invalid value for " + MRJobConfig.HEAP_MEMORY_MB_RATIO+ ", using the default.");heapRatio = MRJobConfig.DEFAULT_HEAP_MEMORY_MB_RATIO;}int taskContainerMb = getMemoryRequired(taskType);int taskHeapSize = (int)Math.ceil(taskContainerMb * heapRatio);String xmxArg = String.format("-Xmx%dm", taskHeapSize);LOG.info("Task java-opts do not specify heap size. Setting task attempt" +" jvm max heap size to " + xmxArg);javaOpts += " " + xmxArg;}return javaOpts;}@Privatepublic int getMemoryRequired(TaskType taskType) {int memory = 1024;int heapSize = parseMaximumHeapSizeMB(getConfiguredTaskJavaOpts(taskType));float heapRatio = getFloat(MRJobConfig.HEAP_MEMORY_MB_RATIO,MRJobConfig.DEFAULT_HEAP_MEMORY_MB_RATIO);if (taskType == TaskType.MAP)  {if (get(MRJobConfig.MAP_MEMORY_MB) == null && heapSize > 0) {memory = (int) Math.ceil(heapSize / heapRatio);LOG.info(MRJobConfig.MAP_MEMORY_MB +" not specified. Derived from javaOpts = " + memory);} else {memory = getInt(MRJobConfig.MAP_MEMORY_MB,MRJobConfig.DEFAULT_MAP_MEMORY_MB);}} else if (taskType == TaskType.REDUCE) {if (get(MRJobConfig.REDUCE_MEMORY_MB) == null && heapSize > 0) {memory = (int) Math.ceil(heapSize / heapRatio);LOG.info(MRJobConfig.REDUCE_MEMORY_MB +" not specified. Derived from javaOpts = " + memory);} else {memory = getInt(MRJobConfig.REDUCE_MEMORY_MB,MRJobConfig.DEFAULT_REDUCE_MEMORY_MB);}}return memory;}

相关文章:

MapReduce内存参数自动推断

MapReduce内存参数自动推断。在Hadoop 2.0中&#xff0c;为MapReduce作业设置内存参数非常繁琐&#xff0c;涉及到两个参数&#xff1a;mapreduce.{map,reduce}.memory.mb和mapreduce.{map,reduce}.java.opts&#xff0c;一旦设置不合理&#xff0c;则会使得内存资源浪费严重&a…...

pyside6 pytq PyDracula QVideoWidget视频只有画面没有声音

解决方案&#xff1a; 先不使用框架&#xff0c;纯pyside6代码&#xff0c;如果添加视频有画面有声音&#xff0c;那可以排除是硬件问题&#xff0c;如果没有画面只有声音&#xff0c;可能是视频解码器无法解码&#xff0c;换个格式的视频文件如果只有使用PyDracula 出问题&am…...

Axure基础 各元件的作用及介绍

图像热区 增加按钮或者文本的点击区域&#xff0c;他是透明的&#xff0c;在预览时看不见。 动态面板 用来绘制一下带交互效果的元件&#xff0c;他是动态的&#xff0c;如轮播图&#xff0c;一个动态面板里可以有多个子面板&#xff0c;每一个子面板对应着不同的效果。 他…...

学习Java的第六天

目录 一、变量 1、变量的定义 2、变量的声明格式 3、变量的注意事项 4、变量的作用域 二、常量 三、命名规范 Java 语言支持如下运算符&#xff1a; 1、算术运算符 解析图&#xff1a; 示例&#xff1a; 2、赋值运算符 解析图&#xff1a; 示例&#xff1a; 3、关…...

基于Spring Boot+ Vue的房屋租赁系统

末尾获取源码作者介绍&#xff1a;大家好&#xff0c;我是墨韵&#xff0c;本人4年开发经验&#xff0c;专注定制项目开发 更多项目&#xff1a;CSDN主页YAML墨韵 学如逆水行舟&#xff0c;不进则退。学习如赶路&#xff0c;不能慢一步。 目录 一、项目简介 二、开发技术与环…...

多轨迹建模方法的介绍与实操-基于R语言

本文介绍了多轨迹建模方法&#xff08;Group-Based Multivariate Trajectory Modeling&#xff09;&#xff0c;这是一种扩展了单指标组基轨迹建模的技术&#xff0c;用于分析多个疾病生物标志物或临床重要因素的联合轨迹&#xff0c;以更好地理解和追踪疾病进程、行为或健康状…...

【Spring】Spring状态机

1.什么是状态机 (1). 什么是状态 先来解释什么是“状态”&#xff08; State &#xff09;。现实事物是有不同状态的&#xff0c;例如一个自动门&#xff0c;就有 open 和 closed 两种状态。我们通常所说的状态机是有限状态机&#xff0c;也就是被描述的事物的状态的数量是有…...

Node.js基础---使用Express写接口

1. 创建基本的服务器 2. 创建 API 路由模块 // aoiRouter.js 路由模块 const express require(express) const apiRouter express.Router()module.exports apiRouter// ------------------------------------------// app.js 导入并注册路由模块 const apiRouter require(…...

小蓝的钥匙(蓝桥杯错排)

现在有28个小朋友&#xff0c;每个人手上有一把钥匙&#xff0c;每一个钥匙都只能打开自己的房间门&#xff0c;现在将所有钥匙都收上来&#xff0c;然后再随机打乱分给每个小朋友&#xff0c;也就是有28&#xff01;的分法&#xff0c;请问现在其中14个小朋友的钥匙能恰好打开…...

【Python】科研代码学习:八 FineTune PretrainedModel (用 trainer,用 script);LLM文本生成

【Python】科研代码学习&#xff1a;八 FineTune PretrainedModel [用 trainer&#xff0c;用 script] LLM文本生成 自己整理的 HF 库的核心关系图用 trainer 来微调一个预训练模型用 script 来做训练任务使用 LLM 做生成任务可能犯的错误&#xff0c;以及解决措施 自己整理的 …...

SpringBoot RestTemplate远程调用总结

1、get请求 GetMapping("/searchEntryRecordPageList") public JSONObject searchEntryRecordPageList(RequestParam Map<String,Object> params){HttpHeaders requestHeaders new HttpHeaders();requestHeaders.add("Authorization","Bearer…...

Python 强大邮件处理库 Imbox

目录 IMAP Mailbox Imbox 安装 特性 提取邮件内容 处理附件 安全性 示例 1&#xff1a;读取收件箱中的邮件 2&#xff1a;搜索并下载附件 3&#xff1a;连接到IMAP服务器获取所有邮件 结论 IMAP Mailbox IMAP&#xff08;Internet Message Access Protocol&#x…...

ElasticSearch深度分页问题如何解决

文章目录 概述解决方法深度分页方式from size深度分页之scrollsearch_after 三种分页方式比较 概述 Elasticsearch 的深度分页问题是指在大数据集上进行大量分页查询时可能导致的性能下降和资源消耗增加的情况。这种情况通常发生在需要访问大量数据的情形下&#xff0c;比如用…...

景安空间不支持指定运行目录tp5

/WEB/public/.htaccess配置 <IfModule mod_rewrite.c> Options FollowSymlinks -Multiviews RewriteEngine on RewriteCond %{REQUEST_FILENAME} !-d RewriteCond %{REQUEST_FILENAME} !-f RewriteRule ^(.*)$ index.php?s$1 [QSA,PT,L] </IfModule>. 2./WEB/.ht…...

开放式高实时高性能PLC控制器解决方案-基于米尔电子STM32MP135

前言 随着工业数字化进程加速与IT/OT深入融合&#xff0c;不断增加的OT核心数据已经逐步成为工业自动化行业的核心资产&#xff0c;而OT层数据具备高实时、高精度、冗余度高、数据量大等等特点&#xff0c;如何获取更加精准的OT数据对数字化进程起到至关重要的作用&#xff0c;…...

【MySQL】-MVCC多版本并发控制

1、当前读 select 不加锁状态&#xff0c;当前读快照读 2、快照读 在select加锁下&#xff0c;读取数据后&#xff0c;形成快照。每个事务都会形成自己的快照内容 SELECT * FROM xx_table LOCK IN SHARE MODE;SELECT * FROM xx_table FOR UPDATE;INSERT INTO xx_table ...D…...

mangoDB:2024安装

mangoDB:2024安装 mangoDB: 下载链接 取消勾选 配置环境变量 启动服务 同级目录下创建一个db文件夹 然后执行命令&#xff0c;启动服务 mongod --dbpath D:\environment\mango\db访问http://localhost:27017/ 出现下面的就是安装成功 2然后在管理员权限下给mango服务重…...

微服务day06-Docker

Docker 大型项目组件较多&#xff0c;运行环境也较为复杂&#xff0c;部署时会碰到一些问题&#xff1a; 依赖关系复杂&#xff0c;容易出现兼容性问题 开发、测试、生产环境有差异 1.什么是Docker? 大型项目组件很多&#xff0c;运行环境复杂&#xff0c;部署时会遇到各种…...

喜马拉雅后端一面

1.自我介绍 2.项目拷打 2.1 为什么要用分布式锁&#xff1f; 2.2 用唯一索引能不能保证一人一单&#xff0c;和你的分布式锁比起来怎么用&#xff1f; 2.3 分布式锁是在事务开启前加还是事务开始后 2.4 讲讲你的布隆过滤器是怎么自定义实现的 2.5 讲讲你的Redis和数据库的数据一…...

Open3D 生成空间3D椭圆点云

目录 一、算法原理二、代码实现三、结果展示本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT。 一、算法原理 设椭圆在 X O Y XOY XO...

深蓝词库转换:跨平台输入法词库迁移的终极解决方案

深蓝词库转换&#xff1a;跨平台输入法词库迁移的终极解决方案 【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序 项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 你是否曾经因为更换电脑或手机而丢失了精心积累多年的…...

3步搞定Phi-3-mini-4k-instruct-gguf在WSL中的部署与调用

3步搞定Phi-3-mini-4k-instruct-gguf在WSL中的部署与调用 1. 引言 想在Windows系统上快速体验Phi-3-mini模型&#xff1f;通过WSL&#xff08;Windows Subsystem for Linux&#xff09;环境部署是个不错的选择。本文将带你用最简单的方式&#xff0c;在WSL中完成Phi-3-mini-4…...

千问3.5-2B在HR场景:面试者证件照合规性检查+背景信息提取

千问3.5-2B在HR场景&#xff1a;面试者证件照合规性检查背景信息提取 1. 应用场景概述 在人力资源管理中&#xff0c;简历筛选和面试安排是高频重复性工作。传统方式需要HR人工核对每份简历的证件照合规性&#xff0c;并提取关键信息录入系统&#xff0c;效率低下且容易出错。…...

自题库-智能题库管理系统V1.0

自题库V1.0&#xff0c;是我个人根据自己的需求编程的一个款软件。原本打算是用别人既有的软件&#xff0c;总觉得存在问题不符合自己的需求&#xff0c;主要情况如下&#xff1a;1、做题界面不友善&#xff1b;2、不能自己新建题库&#xff1b;3、题目不能加载图片&#xff0c…...

【Unity】Addressables插件实战:从零构建高效资源热更新方案

1. 为什么需要Addressables资源热更新 第一次接触Unity资源管理时&#xff0c;我像大多数新手一样直接使用Resources.Load。直到项目需要热更新时&#xff0c;才发现Resources文件夹下的所有内容都会被打进安装包&#xff0c;而且无法动态更新。后来改用AssetBundle&#xff0c…...

从错误码到精准定位:307系列基站定位实战排障指南

1. 当你的设备突然"失联"&#xff1a;307系列基站定位排障入门 第一次用ML307A模组调试基站定位功能时&#xff0c;我盯着串口助手连续跳出的126错误码整整半小时。就像在玩解谜游戏&#xff0c;设备明明显示网络信号满格&#xff0c;AT指令也返回了OK&#xff0c;但…...

wso~.升级到.需要更新的数据表允

1. 架构背景与演进动力 1.1 从单体到碎片化&#xff1a;.NET 的开源征程 在.NET Framework 时代&#xff0c;构建系统主要围绕 Windows 操作系统紧密集成&#xff0c;采用传统的封闭式开发模式。然而&#xff0c;随着.NET Core 的推出&#xff0c;微软开启了彻底的开源与跨平台…...

收藏!小白程序员必看:轻松入门AI大模型,打造你的智能体(附学习资料)

AI智能体的概念不用多说&#xff0c;简单理解是由“大脑 手”组成&#xff0c;“大脑”不单单指大模型&#xff0c;但核心一定是大模型&#xff0c;可以理解成具备分析思考能力的指挥官&#xff0c;负责掌控全局和发号施令&#xff1b;而“手”好理解一些&#xff0c;就是负责…...

5分钟掌握Windows任务栏美化:TranslucentTB终极透明化指南

5分钟掌握Windows任务栏美化&#xff1a;TranslucentTB终极透明化指南 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 还在为Windows任务…...

利用国内镜像源加速PyTorch2.0(GPU版)命令行安装全攻略

1. 为什么需要国内镜像源安装PyTorch2.0 GPU版 如果你尝试过直接从PyTorch官网安装GPU版本&#xff0c;大概率会遇到下载速度慢如蜗牛的情况。我去年帮实验室配置深度学习环境时&#xff0c;一个简单的torch包下载了整整3小时还没完成&#xff0c;最后发现是因为默认源服务器在…...