当前位置：首页 > news >正文

从 HDFS 迁移到 MinIO 企业对象存储

news 2026/5/31 10:10:34

云原生、面向 Kubernetes 、基于微服务的架构推动了对 MinIO 等网络存储的需求。在云原生环境中，对象存储的优势很多 - 它允许独立于存储硬件对计算硬件进行弹性扩展。它使应用程序无状态，因为状态是通过网络存储的，并且通过降低操作复杂性，使应用程序能够实现比以往更高的规模。从网络对象存储系统写入和读取数据的最突出标准是 S3。MinIO 是一种完全符合 S3 标准、高性能、混合和多云就绪的对象存储解决方案。与将数据引入计算的传统方法相比，通过网络存储计算工作负载数据的模式是现代分解架构的缩影。这种方法的好处是多方面的：节省成本、可扩展性和性能。我们的一个客户，一家领先的金融集团，使用 MinIO 而不是 HDFS，节省了 60%+ 的成本性能提升。这种节省绝非非凡。在可扩展性方面，Hadoop 在处理小文件方面的低效率及其对数据局部性的需求限制了其可扩展性，而 MinIO 擅长处理从 KB 到 TB 的各种对象大小。至于性能，大多数老练的 Hadoop 管理员都知道，高性能对象存储后端已成为现代实施的默认存储架构。本文详细介绍了如何通过更改存储协议、数据迁移和性能调整，将对象存储的优势引入 Hadoop。在以下部分中，我们将介绍从 HDFS 迁移到 MinIO E

hdfs:// to s3a://

默认情况下，Hadoop 生态系统中的任何大数据平台都支持与 S3 兼容的对象存储后端。这种支持可以追溯到 2006 年，当时新兴技术嵌入了 S3 客户端实现。所有 Hadoop 相关平台都使用 hadoop-aws 模块和 aws-java-sdk-bundle 来为 S3 API 提供支持。通过指定适当的协议，应用程序可以在 HDFS 和 S3 存储后端之间无缝切换。对于 S3，协议方案为 s3a：//，对于 HDFS，方案为 hdfs://。

Hadoop SDK 中的 S3 客户端实现多年来不断发展，每个协议方案都有不同的协议方案名称，例如 s3：//、s3n：// 和 s3a：//。目前 s3：// 表示 Amazon 的 EMR 客户端。Hadoop 生态系统中可用的最突出的 S3 客户端是 s3a：//，它适用于所有其他 S3 后端。

注意：s3n：// 已失效，不再受任何主要 Hadoop 供应商支持。

迁移的第一步是将 Hadoop 用于与后端存储通信的协议从 hdfs:// 更改为 s3a：//。在平台的 core-site.xml 文件中，更改以下参数 Hadoop.defaultFS 以指向 s3 后端。

<name>fs.default.name</name>

</property>

<name>fs.default.name</name>

<value>s3a://minio:9000/</value>

</property>

有几种方法可以迁移到 MinIOAIstore。您可以将旧数据保留在 HDFS 中供 Hadoop 访问，而新数据保存在 MinIO 中，以供 Apache Spark 等云原生应用程序访问。您可以将所有内容移动到 MinIO，以便 Hadoop 和云原生应用程序访问它。或者，您可以选择执行部分迁移。您必须为您的组织选择最好的。我将在下面介绍如何进行完整迁移，并在以后的博客文章中更深入地了解如何规划迁移。

将数据从 HDFS 迁移到 S3

可以使用名为 distcp 的 Hadoop 原生工具在不同的存储后端之间迁移数据，distcp 代表分布式复制。它需要两个参数：source 和 destination。源和目标可以是 Hadoop 支持的任何存储后端。在此示例中，为了将数据从 HDFS 移动到 s3，必须将源设置为 hdfs://192.168.1.2:9000 ，目标为 s3a：//minio：9000 。

>_ # configure the source and destination
>_ export src=hdfs://192.168.1.2:9000>_ export dest=s3a://minio:9000>_
>_ # perform the copy
>_ Hadoop distcp $src $dest

根据数据的大小和传输速度，distcp 本身可以扩展，并且可以使用大规模并行基础设施迁移数据。映射器的数量，即复制数据的并行任务的数量，可以使用 -m 标志进行配置。一个好的经验法则是将其设置为基础设施中所有节点的可用 CPU 内核数。例如，如果您有 8 个空闲节点，每个节点有 8 个内核，则 CPU 内核的数量将为 64。

>_ # configure the number of mappers
>_ export num_cpu_cores=64>_
>_ # perform the copy with higher parallelism for large datasets
>_ Hadoop distcp -m $num_cpu_cores $src $dest

注意：映射器的数量应对应于基础设施中的可用内核数量，而不是整个集群中的内核总数。这是为了确保其他工作负载具有可用于其操作的资源。

优化性能

Hadoop 和 MinIO 之间的数据访问模式大不相同。根据设计，对象存储系统不支持编辑。这在其实现数 PB 规模的能力中起着关键作用。其次，在对象存储系统中将数据从一个位置复制到另一个位置的成本很高，因为该操作会产生服务器端副本。某些对象存储系统并不严格一致，这可能会使 Hadoop 感到困惑，因为文件可能不会显示，或者如果最终一致，则已删除的文件可能会在列出操作期间显示。

注意：MinIO 没有一致性缺点，因为它是严格一致的。

考虑到这些因素，很容易调整您的应用程序以成为 Object Storage 原生应用程序。为了帮助加快这一旅程，已经付出了巨大的努力，那就是将 S3 提交程序引入 Hadoop。顾名思义，S3 提交程序承诺向 S3 提供一致、可靠和高性能的数据承诺。提交者更改 S3 中数据的读/写访问模式。首先，它们避免了服务器端副本，否则 Hadoop 应用程序会广泛使用服务器端副本，以允许多个 Hadoop 工作线程原子写入数据。一些提交者甚至使用本地驱动器作为缓存，并且只将最终输出写入 MinIO以提高性能。有三个提交程序，每个提交程序都有不同的权衡来处理各种用例。他们是：

目录提交者
分区 Committer
提交者

为了在应用程序中启用 committer，请在 core-site.xml 文件中设置以下配置：


<property><name>mapreduce.outputcommitter.factory.scheme.s3a</name><value>org.apache.Hadoop.fs.s3a.commit.S3ACommitterFactory</value><description>The committer factory to use when writing data to S3A filesystems.</description></property>

目录提交者

此提交程序首先更改访问模式以在本地（缓存驱动器）写入数据，一旦收集到要写入的数据的最终版本，就会执行写入。这种编写风格更适合分布式计算和 MinIO通过快速网络连接，并通过防止服务器端副本大大提高性能。要选择此提交程序，请将以下参数 fs.s3a.committer.name 设置为 directory。


<property><name>fs.s3a.committer.name</name><value>directory</value></property>

分区 Committer

此提交程序类似于目录提交程序，不同之处在于它处理冲突的方式。目录提交程序通过考虑整个目录结构来处理写入同一文件的不同 Hadoop 工作程序的冲突。对于分区的提交程序，冲突是逐个分区处理的。如果目录结构是深度嵌套的或通常非常大，则与目录提交程序相比，此提交程序提供更高的性能。仅建议将其用于 Apache Spark 工作负载。


<property><name>fs.s3a.committer.name</name><value>partitioned</value></property>

Magic 提交者

这个 committer 的内部工作原理不太为人所知，因此命名为 Magic committer。它会自动选择最佳策略以实现尽可能高的性能。它仅适用于严格一致的 S3 存储。由于 MinIO 是严格一致的，因此可以安全地使用 Magic committer。建议在您的工作负载中尝试此提交程序，以将性能与其他提交程序进行比较。

<property><name>fs.s3a.committer.name</name><value>magic</value></property>

选择 Committer 的一个好的经验法则是从最简单且最可预测的目录 Committer 开始，如果您的应用程序需求不能得到满足，请尝试其他两个 Committer（如果适用）。一旦选择了合适的提交者，您的应用程序就可以接受性能和正确性的测试。

从 HDFS 迁移到 MinIO 企业对象存储

hdfs:// to s3a://

将数据从 HDFS 迁移到 S3

优化性能

目录提交者

分区 Committer

Magic 提交者

相关文章：

从 HDFS 迁移到 MinIO 企业对象存储

Rust 常见问题汇总

java泛型类与泛型方法

Android String资源文件中，空格、换行以及特殊字符如何表示

CUDA及GPU学习资源汇总

uniapp vue3 梯形选项卡组件

如何在微信小程序中实现WebSocket连接

二级等保测评中安全物理环境的重要性及高危项分析

C++11——lambda

Dubbo3序列化安全问题

秒懂Linux之共享内存

【计算机网络】网络层协议解析

sqlist void reverse(SqList A)

聊聊Thread Local Storage

WEB攻防-JS项目Node.js框架安全识别审计验证绕过

STM32——SPI

【云安全】云上资产发现与信息收集

flask搭建微服务器并训练CNN水果识别模型应用于网页

数据篇| 关于Selenium反爬杂谈

MySQL高阶1890-2020年最后一次登录

从测速到配置：一套完整的cFosSpeed网络加速保姆级教程（适用于小白）

Shiro RememberMe反序列化漏洞深度解析与实战利用

告别拍脑袋规划！用ArcGIS做绿道选线：如何科学量化坡度、水域、道路成本并加权计算

基于Arduino的模块化DIY智能时钟：从RTC到RGB LED的完整实现

告别手写UI！用NXP GUI Guider拖拽设计LVGL界面，5分钟搞定音乐播放器Demo

荣耀出征官方网站下载正版手游翅膀养成细节玩法全方位讲解

Godot4 2D游戏开发避坑指南：TileMap绘制、节点顺序与相机设置的三个常见问题

别再死磕USB HID了！用ESP32的Arduino框架手把手教你实现蓝牙鼠标键盘（附完整代码）

＜背包问题＞

Performance-Fish：让你的《环世界》后期游戏帧率提升400%的终极优化方案