当前位置：首页 > news >正文

【2023】通过docker安装hadoop以及常见报错

news 2026/5/13 15:01:41

💻目录

- 1、准备
- 2、安装镜像
- - 2.1、创建centos-ssh的镜像
  - 2.2、创建hadoop的镜像
- 3、配置ssh网络
- - 3.1、搭建同一网段的网络
  - 3.2、配置host实现互相之间可以免密登陆
  - 3.3、查看是否成功
- 4、安装配置Hadoop
- - 4.1、添加存储文件夹
  - 4.2、添加指定配置
  - 4.3、同步数据
- 5、测试启动
- - 5.1、启动配置
  - 5.2、启动hadoop

1、准备

准备安装的环境，最好是cenos的环境，相对问题会少一些，我因为是mac的内存比较珍贵，所以嫌麻烦就没安装虚拟机，所以问题非常多（所以还是不要嫌麻烦最好），就使用的是mac。

目的：通过本地docker安装hadoop，实现一主二从的分布式存储集群安装。
准备：
- 准备一个内存还ok，可以安装docker的系统（最好是centos7）的。
- 把相关需要的包传到该容器环境去
- 这个是我的hadoop和jdk的版本
  链接: https://pan.baidu.com/s/1EN9wtLbNv7i6X2bcTh0yhw?pwd=ibum
  提取码: ibum

2、安装镜像

2.1、创建centos-ssh的镜像

下载安装cenos7镜像
docker pull cenos:7

这里贴一下常用指令Dockerfile的常用指令，想详细学习可以了解Dockerfile文件可以看我 🍅docker安装部署容器这一篇文章。

创建一个Dockerfile文件
通过Dockerfile文件创建镜像，通过ssh实现可以共用一个局域网

FROM centos:7
MAINTAINER zfp# 添加EPEL源（如果直接是centos的环境可以不用加）
RUN yum install -y epel-release# 安装 openssh-server 和 sudo
RUN yum install -y openssh-server sudo# 修改 SSH 配置文件，禁用 PAM 认证。
RUN sed -i 's/UsePAM yes/UsePAM no/g' /etc/ssh/sshd_config
#安装 OpenSSH 客户端
RUN yum  install -y openssh-clients
#配置 SSH 服务
RUN echo "root:123456" | chpasswd
RUN echo "root   ALL=(ALL)       ALL" >> /etc/sudoers
RUN ssh-keygen -t dsa -f /etc/ssh/ssh_host_dsa_key
RUN ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key
# 创建运行 SSH 服务所需的目录
RUN mkdir /var/run/sshd# 暴露 SSH 端口
EXPOSE 22# 启动 SSH 服务
CMD ["/usr/sbin/sshd", "-D"]

构建centos7-ssh
docker build -t="centos7-ssh" .

将生成一个名为centos7-ssh的镜像

2.2、创建hadoop的镜像

准备需要的包，包需要和Dockerfile在同一级目录下

hadoop的jdk和hive的，该镜像除了hadoop还需要有jdk，所以需要先把jdk的包先准备好，因为要用到hive，我把hive的包也内嵌进去了，所以需要把包先准备好。

在这里插入图片描述

继续创建一个Dockerfile文件

FROM centos7-sshADD jdk-8u361-linux-x64.tar.gz /usr/local/
#需要确认解压之后的文件名称对不对应得上
RUN mv /usr/local/jdk1.8.0_361 /usr/local/jdk1.8
ENV JAVA_HOME /usr/local/jdk1.8
ENV PATH $JAVA_HOME/bin:$PATHADD hadoop-3.3.4.tar.gz /usr/local
RUN mv /usr/local/hadoop-3.3.4 /usr/local/hadoop
ENV HADOOP_HOME /usr/local/hadoop
ENV PATH $HADOOP_HOME/bin:$PATHADD apache-hive-3.1.3-bin.tar.gz /usr/local
RUN mv /usr/local/apache-hive-3.1.3-bin /usr/local/hive
ENV HIVE_HOME /usr/local/hive
ENV PATH $HIVE_HOME/bin:$PATHRUN yum install -y which sudo

构建镜像
docker build -t="centos7-ssh" .

3、配置ssh网络

3.1、搭建同一网段的网络

创建网络
docker network create --driver bridge hadoop-br
配置三台容器的网络，hadoop1因为是主节点，所以需要把web的页面端口映射出来。

docker run -itd --network hadoop-br --name hadoop1 -p 50070:50070 -p 8088:8088 hadoop
docker run -itd --network hadoop-br --name hadoop2  hadoop
docker run -itd --network hadoop-br --name hadoop3 hadoop

查看网络
docker network inspect hadoop-br
会看到对应的容器的ip

这个是我的，可以看自己的对应的，最后一位会从2开始

172.20.0.2 hadoop1  
172.20.0.3 hadoop2  
172.20.0.4 hadoop3

3.2、配置host实现互相之间可以免密登陆

分别进入不同的容器

docker exec -it hadoop1 bash
docker exec -it hadoop2 bash
docker exec -it hadoop3 bash

编辑文件
vi /etc/hosts

把端口以及名称映射放入该文件内，需要放自己生成的hadoop-br的网络

#这个是我的
172.20.0.2 hadoop1  
172.20.0.3 hadoop2  
172.20.0.4 hadoop3

在这里插入图片描述

配置免密登录
前面镜像中已经安装了ssh服务，所以直接分别在每台机器上执行以下命令：

ssh-keygen
一路回车
ssh-copy-id -i /root/.ssh/id_rsa -p 22 root@hadoop1
输入密码，如果按我的来得话就是123456
ssh-copy-id -i /root/.ssh/id_rsa -p 22 root@hadoop2
输入密码，如果按我的来得话就是123456
ssh-copy-id -i /root/.ssh/id_rsa -p 22 root@hadoop3
输入密码，如果按我的来得话就是123456

3.3、查看是否成功

ping hadoop1 
ping hadoop2
ping hadoop3
ssh hadoop1
ssh hadoop2
ssh hadoop3

如果都可以正常ping通和切换则代表成功
在这里插入图片描述

4、安装配置Hadoop

4.1、添加存储文件夹

进入容器hadoop1
最好重写进入一下,要不然可能会没有hadoop文件
docker exec -it hadoop1 bash
创建一些文件夹，用于存储hadoop运行时时产生文件的存储

mkdir /home/hadoop
mkdir /home/hadoop/tmp /home/hadoop/hdfs_name /home/hadoop/hdfs_data

4.2、添加指定配置

都添加在<configuration></configuration>标签内部，确认自己不要粘贴错误，需要先按i，否则粘贴到时候很容易去除掉一些文字

编辑core-site.xml：
vi core-site.xml

 <!--指定namenode的地址--><property><name>fs.defaultFS</name><value>hdfs://hadoop1:9000</value></property><!--用来指定使用hadoop时产生文件的存放目录--><property><name>hadoop.tmp.dir</name><value>file:/home/hadoop/tmp</value></property><!--用来设置检查点备份日志的最长时间--><property><name>io.file.buffer.size</name><value>131702</value></property>

编辑hdfs-site.xml：
vi hdfs-site.xml

<!--指定hdfs中namenode的存储位置--><property><name>dfs.namenode.name.dir</name><value>file:/home/hadoop/hdfs_name</value></property><!--指定hdfs中namedata的存储位置--><property><name>dfs.datanode.data.dir</name><value>file:/home/hadoop/hdfs_data</value></property><!--指定hdfs保存数据的副本数量--><property><name>dfs.replication</name><value>2</value></property><property><name>dfs.namenode.secondary.http-address</name><value>hadoop1:9001</value></property><property><name>dfs.webhdfs.enabled</name><value>true</value></property>

编辑mapred-site.xml：
该文件部分版本没有，是因为被加了后缀先执行
cp mapred-site.xml.template mapred-site.xml
在去编辑，如果有的就直接编辑就行
vi mapred-site.xml

<!--告诉hadoop以后MR(Map/Reduce)运行在YARN上--><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>hadoop1:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop1:19888</value></property>

编辑yarn-site.xml：
vi yarn-site.xml

 <!--nomenodeManager获取数据的方式是shuffle--><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!--指定Yarn的老大(ResourceManager)的地址-->  <property><name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property><property><name>yarn.resourcemanager.address</name><value>hadoop1:8032</value></property><property><name>yarn.resourcemanager.scheduler.address</name><value>hadoop1:8030</value></property><property><name>yarn.resourcemanager.resource-tracker.address</name><value>hadoop1:8031</value></property><property><name>yarn.resourcemanager.admin.address</name><value>hadoop1:8033</value></property><property><name>yarn.resourcemanager.webapp.address</name><value>hadoop1:8088</value></property>

编辑slaves文件

hadoop1
hadoop2
hadoop3

4.3、同步数据

同步拷贝数据到hadoop2、hadoop3
依次执行以下命令：

scp -r $HADOOP_HOME/ hadoop2:/usr/local/
scp -r $HADOOP_HOME/ hadoop3:/usr/local/scp -r /home/hadoop hadoop2:/
scp -r /home/hadoop hadoop3:/

5、测试启动

5.1、启动配置

分别重新连接每台机器

docker exec -it hadoop1 bash
docker exec -it hadoop2 bash
docker exec -it hadoop3 bash

分别给每台机器配置hadoop sbin目录的环境变量,jdk的也追加一下，要不然可能报错
vi ~/.bashrc或者vi ~/.bash_profile
追加

export PATH=$PATH:$HADOOP_HOME/sbinexport JAVA_HOME=/usr/local/jdk1.8
export PATH=$PATH:$JAVA_HOME/bin

执行 source ~/.bashrc

5.2、启动hadoop

格式化hdfs
hdfs namenode -format

执行一下jps，这个时候应该是只有一个启动的（如果这个命令不行就说明jdk路径压根没配置正确）

一键启动
start-all.sh

在这里插入图片描述
这个时候如果爆上面的错误，原因是 hadoop-env.sh文件,无法通过标签去读取到jdk的地址

修改全部主机的hadoop-env.sh文件
这个时候需要先
cd $HADOOP_HOME/etc/hadoop
去修改
vi hadoop-env.sh文件
找到下面截图的这个位置把地址修改为jdk的实际安装路径，不要是{}的，路径是前面配置的Dockerfile文件时配置的路径

然后在继续执行start-all.sh启动命令，可以通过jps命令看端口是不是变多了，如下应该就是成功啦
最后在到映射出来的web路径去查看

【2023】通过docker安装hadoop以及常见报错

💻目录 1、准备2、安装镜像2.1、创建centos-ssh的镜像2.2、创建hadoop的镜像 3、配置ssh网络3.1、搭建同一网段的网络3.2、配置host实现互相之间可以免密登陆3.3、查看是否成功 4、安装配置Hadoop4.1、添加存储文件夹4.2、添加指定配置4.3、同步数据 5、测试启动5.1…...

编程日记 2023/12/30 23:08:28

Baumer工业相机堡盟工业相机如何通过NEOAPI SDK获取相机当前实时帧率（C++）

Baumer工业相机堡盟工业相机如何通过NEOAPI SDK获取相机当前实时帧率（C） Baumer工业相机Baumer工业相机的帧率的技术背景Baumer工业相机的帧率获取方式CameraExplorer如何查看相机帧率信息在NEOAPI SDK里通过函数获取相机帧率（C） …...

编程日记 2023/12/30 23:07:27

SpringBoot项目部署及多环境

1、多环境 2、项目部署上线原始前端 / 后端项目宝塔Linux容器容器平台 3、前后端联调 4、项目扩展和规划多环境程序员鱼皮-参考文章本地开发：localhost（127.0.0.1） 多环境：指同一套项目代码在把不同的阶段需要根据实际…...

编程日记 2023/12/30 23:05:25

WebGL以及wasm的介绍以及简单应用

简介下面主要介绍了WebGL和wasm,是除了html,css,js以外Web标准所支持的另外两个大件前者实现复杂的图形处理,后者提供高效的代码迁移以及代码执行效率 WebGL 简介首先,浏览器里的游戏是怎么做到这种交互又显示不同的画面的? 试想用我们的前端三件套实现一下.好像可以…...

编程日记 2023/12/30 23:03:23

JS和TS的基础语法学习以及babel的基本使用

简介本文主要介绍了一下js和ts的基础语法,为前端开发zuo JavaScript 更详细的 JavaScript 学习资料：https://developer.mozilla.org/zh-CN/docs/Web/JavaScript 简介定位 : JavaScript 是一种动态语言，它包含类型、运算符、标准内置（ bu…...

编程日记 2023/12/30 22:58:19

今天分享下如何在centos系统里安装composer 一、下载composer curl -sS https://getcomposer.org/installer | php二、移动或复制composer到环境下可执行 cp composer.phar /usr/local/bin/composer三、测试看是否安装成功 composer -V四、全局安装 curl -sS https://getc…...

编程日记 2023/12/30 22:57:18

面试题：从 MySQL 读取 100w 数据进行处理，应该怎么做？

文章目录背景常规查询流式查询MyBatis 流式查询接口为什么要用流式查询？ 游标查询OptionsResultType注意：原因： 非流式查询和流式查询区别： 背景大数据量操作的场景大致如下： 数据迁移数据导出批量处理数据在实际…...

编程日记 2023/12/30 22:54:16

销售转行上位机编程：我的学习与职业经历分享

同学们好，我是杨工，原先是一名销售。通过在华山编程培训中心学习，成功转行上位机编程，对此我想分享学习和职业经历。在职业生涯的早期，我并没有考虑将技术融入到我的工作中。然而，在几次创业的失败后&a…...

编程日记 2023/12/30 22:50:13

分库分表之Mycat应用学习一

1 为什么要分库分表 1.1 数据库性能瓶颈的出现对于应用来说，如果数据库性能出现问题，要么是无法获取连接，是因为在高并发的情况下连接数不够了。要么是操作数据变慢，数据库处理数据的效率除了问题。要么是存储出现问题&#xf…...

编程日记 2023/12/30 22:49:11

Windows下Qt使用MSVC编译出现需要转为unicode的提示

参考 Qt5中文编码问题解决办法_qt5设置编码-CSDN博客致敬提示：warning: C4819: 该文件包含不能在当前代码页(936)中表示的字符。请将该文件保存为 Unicode 格式以防止数据丢失。出现此问题，应该是Unix格式下代码的编码格式是UTF-8，注意不…...

编程日记 2023/12/30 22:47:09

【数值分析】乘幂法，matlab实现

乘幂法一种求实矩阵 A {A} A 的按模最大的特征值，及其对应的特征向量 x i {x_i} xi 的方法，只能求一个。特别适合于大型稀疏矩阵。一个矩阵的特征值和特征向量可以通过矩阵不断乘以一个初始向量得到。每次乘完之后要规范化，防止上溢或…...

编程日记 2023/12/30 22:46:08

视频监控EasyCVR如何通过设置sei接口，实现在webrtc视频流中添加画框和文字？

安防视频监控系统基于视频综合管理平台EasyCVR视频系统，采用了开放式的网络结构，可以提供实时远程视频监控、视频录像、录像回放与存储、告警、语音对讲、云台控制、平台级联、磁盘阵列存储、视频集中存储、云存储等丰富的视频能力，具备权限管…...

编程日记 2023/12/30 22:45:07

智能三维数据虚拟现实电子沙盘

一、概述易图讯科技（www.3dgis.top）以大数据、云计算、虚拟现实、物联网、AI等先进技术为支撑，支持高清卫星影像、DEM高程数据、矢量数据、无人机倾斜摄像、BIM模型、点云、城市白模、等高线、标高点等数据融合和切换，智能三维数…...

编程日记 2023/12/30 22:43:06

【SpringCloud】-GateWay源码解析

GateWay系列【SpringCloud】-GateWay网关一、背景介绍当一个请求来到 Spring Cloud Gateway 之后，会经过一系列的处理流程，其中涉及到路由的匹配、过滤器链的执行等步骤。今天我们来说说请求经过 Gateway 的主要执行流程和原理是什么吧二、正文 …...

编程日记 2023/12/30 22:41:04

华为无线ac双链路冷备和热备配置案例

所谓的冷备和热备，冷备就是不用vrrp和hsb协议同步ap和用户信息，主的断了等七十五秒后，备的capwap和ap连接上去。双链路冷备不用vrrp和hsb 双链路热备份只用hsb同步ap和用户信息，不用vrrp，两个ac可以不用在同一个二层…...

编程日记 2023/12/30 22:37:00

VSCode Python开发环境配置

目录 1 插件安装2 Debug和测试配置常见问题 1 插件安装 1.1 基础编译插件，Python、Pylance 1.2 修改语言服务器类型，进入用户配置页面搜索Python: Language Server，选择Pylance（一定要修改可以提供很多语法提示） 1…...

编程日记 2023/12/30 22:35:59

浅谈【GPU和CPU】

GPU和显卡的区别 GPU（Graphics Processing Unit，图形处理器）通常指的就是显卡。显卡是一种安装在计算机中的扩展卡，主要用于图形和图像处理任务。 GPU作为显卡的核心组件，负责处理图形渲染、图像处理、视频解码和其他…...

编程日记 2023/12/30 22:34:58

啥是构造器？

当我们new一个对象时就是在引用构造器构造器又叫做构造函数构造函数一般分为无参构造函数与有参构造函数假设我们创建一个pet类，这个类里面就会有一个看不见的自动生成的无参构造函数如果pet类里没有这个隐形的无参构造，我们new一个对象时就会报错…...

编程日记 2023/12/30 22:30:55

Linux基础知识学习2

tree命令的使用可以看到dir2目录下的这些文件，要想显示dir2的具体结构，可用tree命令 mv命令它可以实现两个功能 1.将文件移动到另一个目录中 2.对某一个文件进行重命名 1.将文件移动到另一个目录中这里将dir1中的2.txt移动到他的子目录dir3中执行…...

编程日记 2023/12/30 22:27:52

Grafana二进制部署并配置prometheus数据源

1、获取grafna二进制安装包 https://grafana.com/grafana/download?pggraf&plcmtdeploy-box-1 grafana官网下载地址 [rootambari-hadoop1 ~]# cd /opt/module/grafana/ [rootambari-hadoop1 grafana]# pwd /opt/module/grafana2、在安装自己的安装目录执行 wget https:…...

编程日记 2023/12/30 22:22:48

GraphQL在后端开发中的应用与优势

在现代后端开发领域，GraphQL作为一种新兴的API查询语言，正迅速改变着开发者构建和交互数据的方式。与传统的RESTful API相比，GraphQL提供了一种更灵活、高效的数据获取机制，使前端能够精准地请求所需数据，避免了过度获…...

编程新知 2026/5/13 14:12:30

告别笨重模拟器：Windows系统上直接安装APK的终极方案

告别笨重模拟器：Windows系统上直接安装APK的终极方案【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经为了在电脑上运行一个简单的手机应用而不得…...

编程新知 2026/5/13 13:30:44

3个步骤让你在Windows上轻松安装安卓应用：APK安装器完全指南

3个步骤让你在Windows上轻松安装安卓应用：APK安装器完全指南【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经想过，如果能在Windows电…...

编程新知 2026/5/13 12:42:33

数据结构实战：用C语言链表手搓多项式加法，附赠PTA 6-3题全测试点解析

数据结构实战：用C语言链表手搓多项式加法，附赠PTA 6-3题全测试点解析链表操作是数据结构课程的核心技能之一，而多项式加法则是检验这项能力的经典考题。无论是PTA、PAT还是LeetCode，这类题目都频繁出现。本文将带你从零开始&…...

编程新知 2026/5/13 12:35:56

RHClaw红队工具集：模块化CLI框架提升安全研究效率

1. 项目概述与核心价值最近在和一些做安全研究的朋友交流时，发现一个挺有意思的现象：大家手里或多或少都攒了一些自己写的、或者从开源社区淘来的“小工具”。这些工具往往功能单一但极其锋利，比如一个专门用来解析特定协议头的脚本&#xff…...

编程新知 2026/5/13 10:07:20

机器学习在芯片电容提取中的应用与CapBench数据集

1. 电容提取与机器学习结合的背景与挑战在芯片设计流程中，电容提取是决定最终产品性能的关键环节。当设计进入物理实现阶段，工程师需要精确计算互连线之间的寄生电容，这些数据直接影响时序分析和功耗估算的准确性。传统基于场求解器的方法&am…...

编程新知 2026/5/13 9:19:51

告别手动拷贝！用Qt Creator远程调试嵌入式Linux应用（保姆级配置流程）

告别手动拷贝！用Qt Creator远程调试嵌入式Linux应用（保姆级配置流程） 嵌入式开发中，最令人头疼的莫过于反复的"编译-拷贝-运行/调试"循环。每次修改代码后，都需要手动将可执行文件拷贝到开发板，再…...

编程新知 2026/5/13 8:33:23

SolidWorks 2021建模技巧：用‘拉伸切除’和‘多轮廓草图’高效搞定PCB屏蔽腔设计

SolidWorks 2021建模效率革命：多轮廓草图与拉伸切除在PCB屏蔽设计中的高阶应用当你在设计一块需要严格电磁屏蔽的PCB时，那些看似简单的腔体结构往往会成为消耗你大量时间的"黑洞"。传统的单轮廓草图拉伸方式不仅操作繁琐，更会在后…...

编程新知 2026/5/13 7:21:37

Windows右键菜单为何变得臃肿？ContextMenuManager帮你重新掌控

Windows右键菜单为何变得臃肿？ContextMenuManager帮你重新掌控【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾为Windows右键菜单的混乱而烦…...

编程新知 2026/5/13 7:15:19

号卡系统后台一键生图换图添加随心ai密钥教程

号卡产品全新上线随心ai一键生图、智能换图功能，操作极简，秒出优质素材，告别手动作图。 1.登录号卡系统后台首页先更新版本2.到号卡系统设置——系统系统设置——号卡设置——下滑就可以看到随心AI密钥入口需要填写密钥3.随心ai密钥申请入口h…...

编程新知 2026/5/13 7:07:06

💻目录