当前位置: 首页 > news >正文

HDFS异构存储详解

异构存储

    • HDFS异构存储类型
    • 什么是异构存储
      • 异构存储类型
      • 如何让HDFS知道集群中的数据存储目录是那种类型存储介质
    • 块存储选择策略
      • 选择策略说明
      • 选择策略的命令
    • 案例:冷热温数据异构存储
      • 对应步骤
    • HDFS内存存储策略支持-- LAZY PERSIST
      • 介绍
      • 执行
      • 使用

HDFS异构存储类型

  • 冷,热,温,冻数据
    • 通常,公司或者组织总是有相当多的历史数据占用昂贵的粗处空间。典型的数据使用模式是新传入的数据被应用程序大量使用,从而该数据被标记为“热”数据。随着时间的推移,存储的数据每周被访问几次,而不是一天几次,这是认为其是“暖”数据。在接下来的几周和几个月中,数据使用率下降的更多,成为“冷”数据,。如果很少使用数据,例如每年查询一次或两次,这是甚至可以根据其年龄创建第四个数据风雷,并将这组很少被铲讯的旧数据被称为“冻结数据”
    • Hadoop允许将不是热数据或者活跃数据的数据分配到比较便宜的存储上,用于归档或冷存储。可以设置存储策略,将较旧的数据从昂贵的高性能存储上转移到性价比较低(较便宜)的存储设备上。
    • Hadoop2.5及以上版本都支持存储策略,在该策略下,不仅可以在默认的传统磁盘上存储hdfs数据,还可以在SSD(固态硬盘)上存储数据。

什么是异构存储

异构存储是Hadoop2.6.0版本出现的新特性,可以根据各个存储介质读写特性不同进行选择。
例如冷热数据的存储,对冷数据采取容量大,读写性能不高的存储介质如机械硬盘,对于热数据,可使用SSD硬盘存储。
在这里插入图片描述

异构存储类型

RAM_DISK(内存)
SSD(固态硬盘)
DISK(机械硬盘)默认使用
ARCHIVE(高密度存储介质,存储档案历史数据)
在这里插入图片描述

如何让HDFS知道集群中的数据存储目录是那种类型存储介质

  • 配置属性时主动声明。 HDFS并没有自动检测的能力
  • 配置参数dfs.datanode.data.dir = [SSD] file:///grid/dn/ssd0
  • 如果目录前没有带上[SSD][DISK][ARCHIVE][RAM_DISK]这4种类型中的任何一种,则默认时DISK类型。

块存储选择策略

  • 块存储指的是对HDFS文件的数据块副本存储
  • 对于数据的存储介质,HDFS的BlockStoragePolicySuite类内部定义了6种策略
    HOT(默认策略)
    COLD
    WARM
    ALL_SSD
    ONE_SSE
    LAZY_PERSIST
  • 前三种根据冷热数据区分,后三种根据磁盘性质区分
    在这里插入图片描述

选择策略说明

  • HOT:用于存储和计算。流行且仍用于处理的数据保留在此策略中。所有副本都存储在DISK中。
  • COLD:仅适用于计算量中有限的存储。不再使用的数据或需要归档的数据从热存储移动到冷存储。所有副本都存储在ARCHIVE中。
  • WRAM:部分热和部分冷。热时,其某些副本存储在DISK中。其余副本存储在ARCHIVE中。
  • ALL_SSD:将所有副本存储在SSD中
  • one_SSD:用于将副本之一存储在SSD中。其余副本存储在DISK中。
  • Lazy_Persist:用于在内存中写入具有单个副本的块。首先将副本写入RAM_DISK,然后将其延迟保存到DISK中
    在这里插入图片描述

选择策略的命令

  • 列出所有存储策略
    hdfs storagepolicies -listPolicies

在这里插入图片描述

  • 设置存储策略
    hdfs storagepolicies -setStoragePolicy -path -policy

在这里插入图片描述

  • 取消存储策略
    hdfs storagepolicies -unsetStoragePolicy -Path
    在执行unset命令之后,将应用当前目录最近的祖先存储策略,如果没有任何祖先的策略,则将应用默认的存储策略
  • 获取存储策略
    hdfs storagepolicies -getStoragePolicy -path

案例:冷热温数据异构存储

为了更加充分的利用存储资源,我们可以将数据分为冷,热,温三个阶段来存储。具体规划如下:
在这里插入图片描述

对应步骤

  • step1:配置DataNode存储目录,指定存储介质类型(hdfs-site.xml)
    在这里插入图片描述
  • step2:重启HDFS集群,验证配置

在这里插入图片描述

  • step3:创建测试目录
hdfs dfs -mkdir -p /data/hdfs-test/data_phase/hot
hdfs dfs -mkdir -p /data/hdfs_test/data_phase/warm
hdfs dfs -mkdir -p /data/hdfs_test/data_phase/cold

在这里插入图片描述

  • step4:分别设置三个目录的存储策略
hdfs storagepolicies -setStoragePolicy - path /data/hdfs-test/data_phase/hot -policy HOT
hdfs storagepolicies -setStoragePolicy -path /data/hdfs-test/data_phase/warn -policy WARN
hdfs storagepolicies -setStoragePolicy -path /data/hdfs -test/data_phase/cold -policy COLD
  • step5:查看三个目录的存储策略
hdfs storagepolicies -getStoragePolicy -path /data/hdfs-test/data-phase/hot
hdfs sotragepolicies -getStoragePolicy -path /data/hdfs-test/data-phase/warm
hdfs soragepolicies -getStoragePolidy -path /data/hdfs-test/data-phase/cold
  • step6:上传文件测试异构存储
hdfs dfs -put /etc/profile/data/hdfs-test/data_phase/hot
hdfs dfs -put /etc/profile/data/hdfs-test/data_phase/warm
hdfs dfs -put /etc/profile/data/hdfs-test/data_phase/ cold
  • step7:查看不同存储策略文件的block位置
    hdfs fsck /data/hdfs-test/data_phase/hot/profile -files -blocks -locations

在这里插入图片描述

HDFS内存存储策略支持-- LAZY PERSIST

介绍

  • HDFS支持把数据写入由DataNode管理的对外内存
  • DataNode异步地将内存中数据刷新到磁盘,从而减少代价较高的磁盘IO操作,这种写入被称为Lazy Persist写入
  • 该特性从Apache Hadoop 2.6.0开始支持
    在这里插入图片描述

执行

  • 对目标文件目录设置StoragePolicy为LAZY_PERSIST的内存存储策略
  • 客户端进程向NameNode发起创建/写入文件
  • 客户端请求到具体的DataNode后DataNode会把这些数据块回写入RAM内存中,同时启动异步线程服务将内存数据持久化写到磁盘上。
  • 内部的异步持久化存储是指数据不是马上落盘,而是懒惰的,延时的尽心处理

使用

  • step1:虚拟内存盘配置
mount -t tmpfs -o size=1g tmpfs /mnt/dn-tmpfs/

将tmpfs挂载到目录/mnt/dn-tmpfs/,并且限制内存使用大小为1GB

  • step2:内存存储介质设置
    将机器中已经完成好的虚拟内存盘配置到dfs.datanode.data.dir中,其次还要带上RAM_DISK标签
    在这里插入图片描述

  • step3:参数设置优化
    dfs.storage.policy.enabled
    是否开启异构存储,默认true开启
    dfs.datanode.max. locked.memory
    用于在数据节点上的内存中缓存副本的内存量(以字节为单位)。默认情况下,此参数设置为0,这将禁用内存中缓存。内存值过小会导致内存中的总的可存储的数据块变小,但如果超过DataNode能承受的最大内存大小的话,部分内存块会被直接移出。

  • step4:在目录上设置存储策略

hdfs storagepolicies -setStoragePolicy -path <path> -policy LAZY_PERSIST

相关文章:

HDFS异构存储详解

异构存储 HDFS异构存储类型什么是异构存储异构存储类型如何让HDFS知道集群中的数据存储目录是那种类型存储介质 块存储选择策略选择策略说明选择策略的命令 案例&#xff1a;冷热温数据异构存储对应步骤 HDFS内存存储策略支持-- LAZY PERSIST介绍执行使用 HDFS异构存储类型 冷…...

《面试1v1》Kafka消息是采用Pull还是Push模式

&#x1f345; 作者简介&#xff1a;王哥&#xff0c;CSDN2022博客总榜Top100&#x1f3c6;、博客专家&#x1f4aa; &#x1f345; 技术交流&#xff1a;定期更新Java硬核干货&#xff0c;不定期送书活动 &#x1f345; 王哥多年工作总结&#xff1a;Java学习路线总结&#xf…...

Windows环境Docker安装

目录 安装Docker Desktop的步骤 Docker Desktop 更新WSL WSL 的手动安装步骤 Windows PowerShell 拉取&#xff08;Pull&#xff09;镜像 查看已下载的镜像 输出"Hello Docker!" Docker Desktop是Docker官方提供的用于Windows的图形化桌面应用程序&#xff0c…...

Spring 6.0官方文档示例(23): singleton类型的bean和prototype类型的bean协同工作的方法(二)

使用lookup-method: 一、实体类&#xff1a; package cn.edu.tju.domain2;import java.time.LocalDateTime; import java.util.Map;public class Command {private Map<String, Object> state;public Map<String, Object> getState() {return state;}public void …...

Docker Compose 容器编排

Docker compose Docker compose 实现单机容器集群编排管理&#xff08;使用一个模板文件定义多个应用容器的启动参数和依赖关系&#xff0c;并使用docker compose来根据这个模板文件的配置来启动容器&#xff09; 通俗来说就是把之前的多条docker run启动容器命令 转换为docker…...

while循环

while循环是一种常见的循环结构&#xff0c;它会重复执行一段代码&#xff0c;直到指定的条件不再满足。 基本语法如下&#xff1a; while 条件: # 循环体代码 其中&#xff0c;条件是一个布尔表达式&#xff0c;如果为True&#xff0c;则执行循环体中的代码&#xff1b;如果…...

从JVM指令看String对象的比较

在翻看各类 java 知识中&#xff0c;总会提到如下知识&#xff1a;比较 String 对象&#xff0c;例如&#xff1a; String a1new String("10"); String a2"10"; String a3"1""0";//结果 System.out.println(a1a2); //false System.ou…...

python与深度学习(六):CNN和手写数字识别二

目录 1. 说明2. 手写数字识别的CNN模型测试2.1 导入相关库2.2 加载数据和模型2.3 设置保存图片的路径2.4 加载图片2.5 图片预处理2.6 对图片进行预测2.7 显示图片 3. 完整代码和显示结果4. 多张图片进行测试的完整代码以及结果 1. 说明 本篇文章是对上篇文章训练的模型进行测试…...

Linux使用教程

一、Linux命令基础 1、ls、ll命令——展示数据 ①ls命令——平铺展示数据 其中ls命令以平铺的方式展现数据 ②ll命令——列表展示数据 ll命令以列表的方式展现数据 -a选项&#xff0c;表示&#xff1a;all的意思&#xff0c;即列出全部文件&#xff08;包含隐藏的文件/文件夹…...

项目名称:智能家居边缘网关项目

一&#xff0c;项目介绍 软件环境: C语言 硬件环境: STM32G030C8TX单片机开发板 开发工具: Linux平台GCC交叉编译环境以及ukeil (1)边缘网关概念 边缘网关是部署在网络边缘侧的网关&#xff0c;通过网络联接、协议转换等功能联接物理和数字世界&#xff0c;提供轻量化的联接管…...

SciencePub学术 | 物联网类重点SCIEEI征稿中

SciencePub学术 刊源推荐: 物联网类重点SCIE&EI征稿中&#xff01;信息如下&#xff0c;录满为止&#xff1a; 一、期刊概况&#xff1a; 物联网类重点SCIE&EI 【期刊简介】IF&#xff1a;7.5-8.0&#xff0c;JCR1区&#xff0c;中科院1/2区TOP&#xff1b; 【出版社…...

EtherNet/IP转Modbus网关以连接AB PLC

本案例为西门子S7-1200 PLC通过捷米特Modbus转EtherNet/IP网关捷米特JM-EIP-RTU连接AB PLC的配置案例。 网关分别从ETHERNET/IP一侧和MODBUS一侧读写数据&#xff0c;存入各自的缓冲区&#xff0c;网关内部将缓冲区的数据进行交换&#xff0c;从而实现两边数据的传输。 网关做为…...

mysql用户添加

一、连接mysql服务 mysql -u root -p 二、查询用户表 use mysql &#xff1b; SELECT User, Host FROM mysql.user; 三、新增用户并授权 Create USER dev4rw% IDENTIFIED WITH mysql_native_password BY 新密码; GRANT ALL PRIVILEGES ON *.* TO dev4rw% WITH GRANT OP…...

628. 三个数的最大乘积

628. 三个数的最大乘积 class Solution {public int maximumProduct(int[] nums) {Arrays.sort(nums); return Math.max(nums[nums.length-1]*nums[nums.length-2]*nums[nums.length-3],nums[0]*nums[1]*nums[nums.length-1]);} }...

linux驱动开发入门(学习记录)

2023.7.6及7.7 概述了解 一 1.驱动框架 2. 字符设备 块设备&#xff0c;存储相关 网络设备驱动 不一定属于某一种类型二 1.获取外设或传感器数据&#xff0c;控制外设&#xff0c;数据会提交给应用程序 2.编写一个驱动&#xff0c;及测试应用程序 app。驱动和应用完全分开 3.驱…...

SpringCloud-Alibaba之Sentinel熔断与限流

一、下载安装运行 http://localhost:8080进行访问 登录账号和密码均为sentinel 二、创建工程&#xff0c;并注册到nacos服务中心 依赖spring-cloud-starter-alibaba-nacos-discovery,spring-cloud-starter-alibaba-sentinel sentine-datasource-nacos (持久化)配置文件 se…...

深“扒”云原生高性能分布式文件系统JuiceFS

JuiceFS 是一款面向云原生设计的高性能分布式文件系统&#xff0c;在 Apache 2.0 开源协议下发布。提供完备的 POSIX 兼容性&#xff0c;可将几乎所有对象存储接入本地作为海量本地磁盘使用&#xff0c;亦可同时在跨平台、跨地区的不同主机上挂载读写。 JuiceFS 简介 JuiceFS…...

opencv-18 什么是色彩空间?

1.什么是色彩空间类型&#xff1f; 色彩空间类型&#xff0c;也称为颜色空间类型或色彩模型&#xff0c;是一种表示图像中颜色的方式。在计算机图形学和数字图像处理中&#xff0c;有许多种色彩空间类型&#xff0c;每种类型有不同的表达方式和特点。 常见的色彩空间类型包括&a…...

RedHat离线安装工具yum+gcc+pcre+zlib+openssl+openssh

RedHat离线安装工具yumgccpcrezlibopensslopenssh 【一】安装gcc-c&#xff08;解决yum不可用问题&#xff09;&#xff08;1&#xff09;问题描述&#xff08;2&#xff09;替换安装yum&#xff08;3&#xff09;安装gcc 【二】安装pcre【三】安装zlib【四】安装openssl【五】…...

Redis概述及安装、使用和管理

目录 一、NoSQL非关系型数据库 1.NoSQL概述 2.关系型数据库和非关系型数据库区别 &#xff08;1&#xff09;数据存储方式不同 &#xff08;2&#xff09;扩展方式不同 &#xff08;3&#xff09;对事务性的支持不同 3.非关系型数据库使用场景 二、Redis概述 1.简介 2…...

(97页PPT)DG华为流程管理全景从定位到优化的高效增长策略(附下载方式)

篇幅所限&#xff0c;本文只提供部分资料内容&#xff0c;完整资料请看下面链接 https://download.csdn.net/download/AI_data_cloud/89624196 资料解读&#xff1a;《&#xff08;97页PPT&#xff09;DG华为流程管理全景从定位到优化的高效增长策略》 详细资料请看本解读文章…...

告别繁琐手动配置,用快马ai一键生成keil5安装与stm32工程初始化脚本

作为一名嵌入式开发爱好者&#xff0c;我深知Keil5安装和STM32开发环境配置的繁琐。每次换电脑或重装系统&#xff0c;都要重复一堆步骤&#xff0c;特别浪费时间。最近发现InsCode(快马)平台可以智能生成这类环境配置脚本&#xff0c;简直打开了新世界的大门。 环境检测自动化…...

避坑指南:海康RGBD工业相机Python开发那些事儿——从环境配置到实时显示

避坑指南&#xff1a;海康RGBD工业相机Python开发全流程实战 第一次接触海康RGBD相机时&#xff0c;我被它强大的深度感知能力吸引&#xff0c;但随之而来的是一连串的环境配置和开发难题。记得那个深夜&#xff0c;我对着报错的OpenCV界面发呆&#xff0c;才意识到工业级设备的…...

HunyuanVideo-Foley保姆级教程:Docker Compose编排WebUI+API+Redis缓存

HunyuanVideo-Foley保姆级教程&#xff1a;Docker Compose编排WebUIAPIRedis缓存 1. 环境准备与快速部署 在开始之前&#xff0c;请确保您的硬件配置满足以下要求&#xff1a; 显卡&#xff1a;RTX 4090/4090D 24GB显存内存&#xff1a;≥120GBCPU&#xff1a;10核及以上磁盘…...

别再忍受龟速下载!保姆级教程:Ubuntu 18.04一键更换阿里云/清华源(附SSH无桌面操作)

Ubuntu 18.04国内软件源极速配置指南&#xff1a;告别蜗牛速度的终极方案 每次执行apt update时盯着缓慢爬升的进度条&#xff0c;是否让你产生砸键盘的冲动&#xff1f;作为国内Ubuntu用户&#xff0c;默认国际源的龟速下载堪称开发效率的头号杀手。本文将彻底解决这个痛点——…...

GoWorld网络协议详解:TCP、KCP与WebSocket的多协议支持实现

GoWorld网络协议详解&#xff1a;TCP、KCP与WebSocket的多协议支持实现 【免费下载链接】goworld Scalable Distributed Game Server Engine with Hot Swapping in Golang 项目地址: https://gitcode.com/gh_mirrors/go/goworld GoWorld是一个用Go语言开发的可扩展分布式…...

seo竞价营销推广如何应对行业竞争压力

SEO竞价营销推广如何应对行业竞争压力 在当今的数字化时代&#xff0c;企业为了在激烈的市场竞争中脱颖而出&#xff0c;SEO竞价营销推广已经成为不可或缺的工具。SEO竞价营销推广不仅能够提升网站的可见性&#xff0c;还能带来高质量的流量&#xff0c;这对于企业的发展至关重…...

Scratch Blocks自定义块开发教程:10个实用技巧创建专属编程块

Scratch Blocks自定义块开发教程&#xff1a;10个实用技巧创建专属编程块 【免费下载链接】scratch-blocks Scratch Blocks is a library for building creative computing interfaces. 项目地址: https://gitcode.com/gh_mirrors/sc/scratch-blocks Scratch Blocks是一…...

告别暴力搜索!用DiffDock的扩散模型5分钟搞定分子对接,效率提升12倍

5分钟颠覆传统&#xff1a;DiffDock如何用扩散模型重构分子对接效率天花板 在药物研发的漫长链条中&#xff0c;分子对接就像一把精准的钥匙开锁过程——需要找到小分子配体与靶标蛋白最契合的三维结合方式。传统方法如同盲人摸象&#xff0c;耗费数小时在亿万种可能中暴力搜索…...

保姆级教程:在Ubuntu服务器上用Docker一键部署华为MindIE,快速搭建LLM私有化API服务

保姆级教程&#xff1a;在Ubuntu服务器上用Docker一键部署华为MindIE&#xff0c;快速搭建LLM私有化API服务 当企业需要将大语言模型&#xff08;LLM&#xff09;能力整合到内部系统时&#xff0c;私有化部署成为刚需。华为MindIE作为昇腾AI生态的重要组件&#xff0c;通过容器…...