Hadoop完全分布式环境搭建(nat模式)
作者:互联网
软件准备:VMware、Xshell、Notepad++
1、克隆
选中要克隆的虚拟机,在Vmware工具栏上方点击虚拟机——>管理——>克隆。之后进入克隆设置界面,根据向导提示,完成克隆(克隆步骤基本上都是选择系统默认的安装步骤,然后单机下一步。值得注意的是,在克隆类型的时候,需要选择创建完整克隆)
重复以上步骤,克隆出另外两台虚拟机(我将其命名为slave1和slave2,大家可以根据自己命名习惯进行修改)
此外,还需要将主机的内存设置为1536MB
2、 Linux配置
(1)修改主机名(此步可以不用操作)
使用命令:vim /etc/hostname,将主机名改为data
(2)IP地址修改
使用命令:vim /etc/sysconfig/network-scripts/ifcfg-ens33。进入页面以后,进行如下红框内容的修改:
其中:
BOTTRPROTO=static #设置静态IP
ONBOOT=yes #是指明在系统启动时是否激活网卡,只有在激活状态的网卡才能去连接网络,进行网络通讯
IPADDR=xxx.xxx.xxx.xxx #主机的IP地址
NETMASK #子网掩码,通过cmd的ipconfig命令即可查看
GATEWAY #网关,通过cmd的ipconfig命令即可查看,你使用的是哪个模式,对应的网关就是哪个
(3)修改主机名和IP的映射关系
使用命令:vim /etc/hosts
修改内容如下:
192.168.49.X(你的主机IP地址)——>data (此处不做要求)
(4)重启系统
使用命令:reboot或者init 6
(5)测试(查看主机名是否修改成功、IP地址是否一致)
(6)关闭防火墙
systemctl disable firewalld.service #禁止firewall开机启动
systemctl list-unit-files|grep firewalld.service # 查看firewall状态
至此,已完成linux的配置。
3、SSH免密码登录
主机操作步骤:
slave1操作步骤:
slave2操作步骤
经过上述步骤,能够成功在data端口,进入slave1、slave2效果如下,已达到预期效果:
4、Hadoop搭建(配置相关文件的时候,根据自己的主机名和其他两台虚拟机的名称进行修改)
Step1 修改 hadoop目录下../etc/hadoop/core-site.xml文件
<configuration>
<property>
<name> fs.default.name</ name>
<value>hdfs: //data: 9000</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>420</value>
</property>
</configuration>
Step 2 修改hadoop目录下../etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/local/data/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/data/datanode</value>
</property>
<property>
<name>dfs.tmp.dir</name>
<value>/usr/local/data/tmp</value>
</property>
<property>
<name>dfs.namenode.secondary.http- address</name>
<value>slave2:50090</value>
</property>
</configuration>
Step 3 修改hadoop目录下../etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>data:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>data:19888</value>
</property>
</configuration>
Step 4 修改hadoop目录下../etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>slave1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>420</value>
</property>
</configuration>
Step 5 修改hadoop目录下../etc/hadoop/slaves文件
data
slave1
slave2
步骤结果:
data出现的进程 :
DataNode
Jps
JobHistoryServer
NameNode
NodeManager
slave1出现的进程:
ResourceManager
DataNode
Jps
NodeManager
slave2出现的进程:
DataNode
NodeManager
SecondaryNameNode
Jps
5、集群时间同步
(1)使用root用户查询是否已经安装ntp : rpm -qa|grep ntp
(2)修改ntp配置文件
(3)修改 /etc/sysconfig/ntpd 文件让硬件时间与系统时间一起同步
使用命令:vim /etc/sysconfig/ntpd
增加内容如下(让硬件时间与系统时间一起同步,三台都需要添加)
SYNC_HWCLOCK=yes
(4)重新启动 ntpd服务:service ntpd restart
设置ntpd服务开机启动:chkconfig ntpd on
配置其他服务器:(三台均需配置)
crontab -e
0-59/10 * * * * /usr/sbin/ntpdate master
slave01:
crontab -e
0-59/10 * * * * /usr/sbin/ntpdate master
Slave02:
crontab -e
0-59/10 * * * * /usr/sbin/ntpdate master
时间同步结果:
标签:克隆,修改,hadoop,Hadoop,etc,nat,data,ntpd,分布式 来源: https://blog.csdn.net/m0_64658658/article/details/121725518