其他分享
首页 > 其他分享> > Hadoop完全分布式环境搭建(nat模式)

Hadoop完全分布式环境搭建(nat模式)

作者:互联网

软件准备:VMware、Xshell、Notepad++ 

1、克隆

选中要克隆的虚拟机,在Vmware工具栏上方点击虚拟机——>管理——>克隆。之后进入克隆设置界面,根据向导提示,完成克隆(克隆步骤基本上都是选择系统默认的安装步骤,然后单机下一步。值得注意的是,在克隆类型的时候,需要选择创建完整克隆)

重复以上步骤,克隆出另外两台虚拟机(我将其命名为slave1和slave2,大家可以根据自己命名习惯进行修改)

 此外,还需要将主机的内存设置为1536MB

2、 Linux配置

(1)修改主机名(此步可以不用操作)

使用命令:vim /etc/hostname,将主机名改为data

 (2)IP地址修改

使用命令:vim /etc/sysconfig/network-scripts/ifcfg-ens33。进入页面以后,进行如下红框内容的修改:

其中:

BOTTRPROTO=static    #设置静态IP

ONBOOT=yes   #是指明在系统启动时是否激活网卡,只有在激活状态的网卡才能去连接网络,进行网络通讯

IPADDR=xxx.xxx.xxx.xxx  #主机的IP地址

NETMASK  #子网掩码,通过cmd的ipconfig命令即可查看

GATEWAY   #网关,通过cmd的ipconfig命令即可查看,你使用的是哪个模式,对应的网关就是哪个

 (3)修改主机名和IP的映射关系

使用命令:vim /etc/hosts

修改内容如下:

192.168.49.X(你的主机IP地址)——>data  (此处不做要求) 

(4)重启系统

使用命令:reboot或者init 6

(5)测试(查看主机名是否修改成功、IP地址是否一致)

 (6)关闭防火墙

systemctl disable firewalld.service    #禁止firewall开机启动

systemctl list-unit-files|grep firewalld.service   # 查看firewall状态

至此,已完成linux的配置。

3、SSH免密码登录

主机操作步骤:

slave1操作步骤:

 slave2操作步骤

经过上述步骤,能够成功在data端口,进入slave1、slave2效果如下,已达到预期效果:

4、Hadoop搭建(配置相关文件的时候,根据自己的主机名和其他两台虚拟机的名称进行修改)

Step1  修改 hadoop目录下../etc/hadoop/core-site.xml文件

<configuration>
        <property>
                <name> fs.default.name</ name>
                <value>hdfs: //data: 9000</value>
       </property>
       <property>
                <name>fs.trash.interval</name>
                <value>420</value>
       </property>
</configuration>
 

 Step 2 修改hadoop目录下../etc/hadoop/hdfs-site.xml

<configuration>
        <property>
               <name>dfs.replication</name>
               <value>2</value>
        </property>
        <property>
              <name>dfs.name.dir</name>
              <value>/usr/local/data/namenode</value>
        </property>
        <property>
              <name>dfs.data.dir</name>
              <value>/usr/local/data/datanode</value>
        </property>
        <property>
               <name>dfs.tmp.dir</name>
               <value>/usr/local/data/tmp</value>
         </property>
         <property>
                <name>dfs.namenode.secondary.http- address</name>
                <value>slave2:50090</value>
        </property>
</configuration>
 

 Step 3 修改hadoop目录下../etc/hadoop/mapred-site.xml

<configuration>
        <property>
              <name>mapreduce.framework.name</name>
              <value>yarn</value>
         </property>
         <property>
                <name>mapreduce.jobhistory.address</name>
                <value>data:10020</value>
         </property>
         <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                 <value>data:19888</value>
         </property>
</configuration>
 

 Step 4 修改hadoop目录下../etc/hadoop/yarn-site.xml

<configuration>
          <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>slave1</value>
          </property>
          <property>
                 <name>yarn.nodemanager.aux-services</name>
                 <value>mapreduce_shuffle</value>
          </property>
          <property>
                 <name>yarn.log-aggregation-enable</name>
                 <value>true</value>
           </property>
           <property>
                 <name>yarn.log-aggregation.retain-seconds</name>
                 <value>420</value>
           </property>
</configuration>

 

 Step 5 修改hadoop目录下../etc/hadoop/slaves文件

data
slave1
slave2

 

步骤结果:

data出现的进程 :

DataNode
Jps
JobHistoryServer 
NameNode
NodeManager
 

 slave1出现的进程:

ResourceManager
DataNode
Jps
NodeManager
 

slave2出现的进程:

DataNode
NodeManager
SecondaryNameNode
Jps

5、集群时间同步

(1)使用root用户查询是否已经安装ntp : rpm -qa|grep ntp

(2)修改ntp配置文件

 (3)修改 /etc/sysconfig/ntpd 文件让硬件时间与系统时间一起同步

使用命令:vim /etc/sysconfig/ntpd

增加内容如下(让硬件时间与系统时间一起同步,三台都需要添加)

SYNC_HWCLOCK=yes

 (4)重新启动 ntpd服务:service ntpd restart

设置ntpd服务开机启动:chkconfig ntpd on

配置其他服务器:(三台均需配置) 

crontab -e

0-59/10 * * * * /usr/sbin/ntpdate master

slave01:

crontab -e

0-59/10 * * * * /usr/sbin/ntpdate master

Slave02:

crontab -e

0-59/10 * * * * /usr/sbin/ntpdate master

时间同步结果:

标签:克隆,修改,hadoop,Hadoop,etc,nat,data,ntpd,分布式
来源: https://blog.csdn.net/m0_64658658/article/details/121725518