Hadoop：分布式集群HDFS 、YARN等初次启动！-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读Hadoop：分布式集群HDFS 、YARN等初次启动！

Hadoop：分布式集群HDFS 、YARN等初次启动！

2020-06-03

上篇文章中我们通过克隆已有虚拟机并修改相应的参数配置将hadoop分布式集群搭建完成，接下来我们启动Hadoop 分布式集群。

1、ssh免密登录

首先打开虚拟机软件VMware然后开启master、slave1、slave2三个虚拟机。

一般搭建hadoop分布式集群时需要配置集群中各个节点间的ssh免密登录，然后才可以启动hadoop分布式集群。我们在master虚拟机终端中输入命令ssh slave1 ，此时出现如下提示，然后输入yes

注意输入exit命令退出slave2的登录。接下来我们就可以远程登录到slave2了。在登录的过程中我们也无需输入密码。小伙伴们会不会有疑问，我们什么时候配置过ssh免密登录？

其实我们还真的配置了，由于现在集群中的三个虚拟机最终的源头都是由伪分布集群的虚拟机复制过来的，在这过程中也把.ssh目录下的authorized_keys这个文件复制过来了。

这个文件的作用之前提前过，简单来说就是认证登录ssh服务器的客户机，只要客户机的公钥在这里面就可以不用密码登录ssh服务器了。下图为slave1节点hduser用户主目录下的.ssh目录大家可以看到authorized_keys目录已经存在了。

2、格式化HDFS

由于我们集群中的虚拟机都是由伪分布集群虚拟机克隆出来的所以会有HDFS相关的目录，而且目录中还有数据，为了不影响格式化操作我们需要将这些目录中的数据都删除，然后再执行格式化。

2.1删除master虚拟机 HDFS目录数据

输入命令rm -rf tmp/dfs/ 删除dfs目录

2.2删除slave1虚拟机 HDFS目录数据

首先通过ssh slave1登录slave1然后执行rm -rf tmp/dfs/删除slave1 中的dfs目录。记得exit退出slave1的登录。

2.3删除slave2虚拟机 HDFS目录数据

删除方式与删除slave1虚拟机 HDFS目录的方式一致，这里不再赘述，具体操作可参照下图。一定记得最后执行exit退出slave2的登录，否则极易造成误操作。

2.4格式化HDFS

在删除各个节点HDFS文件后我们开始格式化HDFS。在master终端输入命令 hadoop namenode –format然后回车执行。执行完成后会看到下图标注的那句话，表明格式化成功。

3、启动hadoop

格式化HDFS结束之后我们就可以启动hadoop分布式集群了。启动可以可以分步执行当然hadoop也给我们提供了更简单的脚本通过一个命令自动启动所有模块。这里需要指出的是不管分步执行启动过程还是通过脚本自动启动，模块的启动顺序都是一致的即先启动HDFS模块然后再启动YARN模块，停止的过程则是先停止YARN模块再停HDFS模块。下面我们来分别操作演示一下。

3.1启动HDFS进程

启动HDFS模块使用命令start-dfs.sh，启动过程如下图所示。需要注意的是我们启动或者停止的命令都是只需在master节点终端中操作即可，底层hadoop会自动启动其他节点的相关进程。启动完成后可以通过jps命令查看启动了哪些进程，这在下图也有展示。我们可以看到HDFS模块在master上有NameNode与

SecondaryNameNode进程。

HDFS模块在slave1节点启动进程DataNode

HDFS模块在slave2节点启动进程也是DataNode。

3.2启动YARN进程

启动YARN模块的命令为start-yarn.sh，启动过程如下图所示

master节点启动的进程如下图所示，比启动HDFS时多了ResourceManager进程。

在slave1与slave2节点上多了NodeManager进程

3.2全部启动（包括YARN、HDFS）

hadoop还提供了一个可以自动启动HDFS与YARN的脚本命令start-all.sh和停止HDFS与YARN的命令stop-all.sh。在使用start-all.sh命令前我们需要先停止所有进程否则会报错。在终端输入命令stop-all.sh停止所有进程过程如下图所示。此时通过jps命令查看master所有hadoop相关进程已经关闭