热线电话：13121318867

首页大数据时代大数据分析师教程-1.2Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

大数据分析师教程-1.2Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

2024-10-13

大数据分析师教程-Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

Hadoop安装、配置和启动
- 解压缩 Hadoop安装包及设置环境变量
- 创建数据存放目录
- 配置文件设置、环境变量、主从节点指定
- 复制 Hadoop到其它各个节点
- 推荐学习书籍

Hadoop安装、配置和启动

下载Hadoop，我们使用的版本是Hadoop2.7.3

解压缩 Hadoop安装包及设置环境变量

解压缩 Hadoop安装包，并且对安装目录进行重命名

cd /opt/linuxsir
tar -zxvf hadoop-2.7.3.tar.gz 
 
ls
mv hadoop-2.7.3 /opt/linuxsir/hadoop

在192.168.31.131虚拟机上编辑/root/.bashrc文件，然后复制到192.168.31.132、192.168.31.133

echo "" >> /root/.bashrc
echo "export HADOOP_PREFIX=/opt/linuxsir/hadoop" >> /root/.bashrc
echo "export HADOOP_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_COMMON_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop" >> /root/.bashrc
echo "export HADOOP_HDFS_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_MAPRED_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_YARN_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export PATH=$PATH:$HADOOP_PREFIX/sbin:$HADOOP_PREFIX/bin" >> /root/.bashrc
 
echo "export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"" >> /root/.bashrc
echo "export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native" >> /root/.bashrc
 
echo "export CLASSPATH=$CLASSPATH:/opt/linuxsir/hadoop/lib/*" >> /root/.bashrc
 
cat /root/.bashrc

\在192.168.31.131上，复制/root/.bashrc到132和133
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
 
\在192.168.31.131上，在131/132/133三台机器上运行/root/.bashrc，刷新环境
cd 
source /root/.bashrc
ssh root@192.168.31.132 source /root/.bashrc
ssh root@192.168.31.133 source /root/.bashrc

创建数据存放目录

cd /opt/linuxsir/hadoop                  \进入/opt/linuxsir/hadoop目录
rm -rf /opt/linuxsir/hadoop/tmp
rm -rf /opt/linuxsir/hadoop/hdfs
mkdir /opt/linuxsir/hadoop/tmp           \创建tmp目录
mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name \创建hdfs的data、name子目录
 
\还要针对hd-slave1,hd-slave2等两个节点上执行上述命令，然后再初始化hdfs
ssh root@192.168.31.132 rm -rf /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.132 rm -rf /opt/linuxsir/hadoop/hdfs
ssh root@192.168.31.132 mkdir /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.132 mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name
 
ssh root@192.168.31.133 rm -rf /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.133 rm -rf /opt/linuxsir/hadoop/hdfs
ssh root@192.168.31.133 mkdir /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.133 mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name

配置文件设置、环境变量、主从节点指定

对若干配置文件进行设置，保证Hadoop能够正常启动。

(1) 主要的配置文件包括HADOOP_HOME目录下的

etc/hadoop/core-site.xml
etc/hadoop/hdfs-site.xml
etc/hadoop/yarn-site.xml
etc/hadoop/mapred-site.xml等文件

(2) 并且为如下文件配置环境变量

etc/hadoop/hadoop-env.sh
etc/hadoop/yarn-env.sh
etc/hadoop/mapred-env.sh等

(3)master和slave

masters
slaves

配置文件设置

编辑/opt/linuxsir/hadoop/etc/hadoop目录下的core-site.xml文件

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>hadoop.tmp.dir</name>
    <value>file:///opt/linuxsir/hadoop/tmp</value>
</property>
 
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hd-master:9000</value><!-- NameNode URI -->
</property>
 
<property>
    <name>io.file.buffer.size</name>
    <value>131702</value>
</property>
</configuration>

编辑/opt/linuxsir/hadoop/etc/hadoop目录下的hdfs-site.xml文件，内容如下

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///opt/linuxsir/hadoop/hdfs/name</value> <!-- 本机name目录for NameNode -->
</property>
 
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///opt/linuxsir/hadoop/hdfs/data</value> <!-- 本机data目录for DataNode -->
</property>
 
<property>
    <name>dfs.replication</name> <!-- 数据块副本数量 -->
    <value>2</value>
</property>
 
<property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
</property>
 
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hd-master:9001</value>
</property>
</configuration>

在/opt/linuxsir/hadoop/etc/hadoop目录下，复制mapred-site.xml.template到mapred-site.xml，并且进行编辑

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value> <!--yarn or yarn-tez-->
</property>
 
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hd-master:10020</value>
</property>
 
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hd-master:19888</value>
</property>
<property>
    <name>mapreduce.map.memory.mb</name> <!-- memory for map task -->
    <value>64</value>
</property>
<property>
    <name>mapreduce.reduce.memory.mb</name> <!-- memory for reduce task -->
    <value>128</value>
</property>
<property>
    <name>mapreduce.task.io.sort.mb</name>
    <value>32</value>
</property>
 
<property>
    <name>mapreduce.map.java.opts</name> <!-- settings for JVM map task -->
    <value>-Xms128m -Xmx256m</value>
</property>
<property>
    <name>mapreduce.reduce.java.opts</name> <!-- settings for JVM reduce task -->
    <value>-Xms128m -Xmx256m</value>
</property>
</configuration>

在/opt/linuxsir/hadoop/etc/hadoop编辑yarn-site.xml文件，对YARN资源管理器的ResourceManager和NodeManagers节点、端口、内存分配等进行配置

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hd-master</value>
</property>
 
<property>
    <name>yarn.resourcemanager.address</name>
    <value>hd-master:9032</value>
</property>
<property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>hd-master:9030</value>
</property>
<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>hd-master:9031</value>
</property>
<property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>hd-master:9033</value>
</property>
<property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>hd-master:9099</value>
</property>
<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>2048</value>
</property>
<property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>2048</value>
</property>
<property>
    <name>yarn.scheduler.minimum-allocation-mb</name>
    <value>1024</value>
</property>
<property>
    <name>yarn.app.mapreduce.am.resource.mb</name>
    <value>1024</value>
</property>
<property>
    <name>yarn.app.mapreduce.am.command-opts</name>
    <value>-Xms128m -Xmx256m</value>
</property>

<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-pmem-ratio</name>
    <value>8</value>
</property>
<property>
    <name>yarn.nodemanager.resource.cpu-vcores</name>
    <value>1</value>
</property>
 
 
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

进入hadoop-env.sh脚本文件所在目录/opt/linuxsir/hadoop/etc/Hadoop

设置环境变量

export JAVA_HOME=/opt/linuxsir/java/jdk

接着，设置/opt/linuxsir/hadoop/etc/hadoop目录下yarn-env.sh脚本文件的JAVA_HOME变量，内容如下

export JAVA_HOME=/opt/linuxsir/java/jdk

如果NodeManager因为内存不足，而启动不起来，那么yarn-env.sh文件需要做如下修改，即JAVA_HEAP_MAX改为3G

JAVA_HEAP_MAX=-Xmx3072m

指定主从节点列表

修改/opt/linuxsir/hadoop/etc/hadoop/masters文件和/opt/linuxsir/hadoop/etc/hadoop/slaves文件，目的是指定主节点和从节点列表。

/opt/linuxsir/hadoop/etc/hadoop/masters文件的内容如下，即主节点为hd-master

hd-master

/opt/linuxsir/hadoop/etc/hadoop/slaves文件的内容如下，即从节点为hd-slave1和hd-slave2

hd-slave1
hd-slave2

复制Hadoop到其它各个节点

从192.168.31.131虚拟机复制Hadoop到其它各个节点，包括192.168.31.132、192.168.31.133。在192.168.31.131上运行如下命令

chmod a+rwx -R /opt/linuxsir \设置/opt/linuxsir的存取权限
ssh root@192.168.31.132 chmod a+rwx -R /opt/linuxsir 
ssh root@192.168.31.133 chmod a+rwx -R /opt/linuxsir
 
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc \复制/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
 
scp -r /opt/linuxsir/hadoop hd-slave1:/opt/linuxsir \复制/opt/linuxsir/hadoop
scp -r /opt/linuxsir/hadoop hd-slave2:/opt/linuxsir
 
source ~/.bashrc  \刷新环境变量
ssh root@192.168.31.132 source ~/.bashrc
ssh root@192.168.31.133 source ~/.bashrc

这里分享一个你一定用得到的小程序——CDA数据分析师考试小程序。它是专为CDA数据分析认证考试报考打造的一款小程序。可以帮你快速报名考试、查成绩、查证书、查积分，通过该小程序，考生可以享受更便捷的服务。扫码加入CDA小程序，与圈内考生一同学习、交流、进步！

大数据分析师教程-1.2Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

大数据分析师教程-Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

Hadoop安装、配置和启动

解压缩Hadoop安装包及设置环境变量

创建数据存放目录

配置文件设置、环境变量、主从节点指定

配置文件设置

设置环境变量

指定主从节点列表

复制Hadoop到其它各个节点

推荐学习书籍

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】神经网络最后一层：激活函数加还是不加 ...

【CDA干货】特征相对重要性：解锁模型鲁棒性与可解 ...

CDA数据分析师：指标体系搭建方法论，让数据驱动精 ...

【CDA干货】回归分析中调整后R方为负？本质、成因与 ...

【CDA干货】经纬度热力图：从离散坐标到空间密度的 ...

CDA数据分析师：用通用与场景指标，构建业务洞察双 ...

【CDA干货】季节分解法：解锁时间序列数据的“四季 ...

【CDA干货】大数据存储技术全景解析：从架构到选型 ...

CDA数据分析师：以指标为钥，解锁数据与业务的连接 ...

【CDA干货】神经网络损失函数：没有“最佳值”，但 ...

CDA数据分析师：用参数估计，让样本数据说出总体真 ...

【CDA干货】数据标准化后出现负值？别急！场景化解 ...

【CDA干货】数据驱动增长：三大行业A/B测试落地案例 ...

【CDA干货】解密LSTM预测结果：为何有时相同，有时 ...

描述性统计：CDA数据分析师的“数据透视镜” ...

【CDA干货】从杂乱到清晰：无序数据点的系统分析方 ...

【CDA干货】MySQL查询阻塞在query end状态：排查与 ...

CDA数据分析师：用透视分析方法，让表结构数据秒变 ...

【CDA干货】分布的“性格”：正态与偏态如何左右统 ...

【CDA干货】一次查500条vs5次查100条：数据查询的压 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

解压缩 Hadoop安装包及设置环境变量