打怪升级之小白的大数据之旅(四十二)<Hadoop运行环境搭建>
作者:互联网
打怪升级之小白的大数据之旅(四十二)
Hadoop运行环境搭建
上次回顾
上一章,我们学习了大数据的相关概念以及Hadoop的基础介绍,本章节主要介绍Hadoop的环境搭建;配置的点比较多,当下一章Hadoop集群配置结束后,我专门将可能出错的地方做个总结,方便大家配合使用
Hadoop运行环境搭建
- 环境搭建前,我先列一个Hadoop的整体大纲,方便大家进行理解哈,本章节主要是对Hadoop运行环境搭建进行分享,下一章对Hadoop运行模式搭建进行分享,它们的区别就是,运行环境搭建只是一台的服务器,而下一章是对整个集群进行搭建
- 另外注意一下,在本章结束后,小伙伴可能会问,三台服务器为什么现在就克隆,为什么不等到整个运行环境搭建完成再克隆?这是为了后面集群的分发做铺垫的哈,所以跟着我的步骤操作就好了
环境搭建步骤
- 配置虚拟环境
- 克隆虚拟机
- 修改静态IP
- 安装必要插件
- 修改hostname
- 修改hosts
- 关闭防火墙
- 创建Hadoop的统一用户
- 在opt/目录下创建专门存放jdk与hadoop的目录
- 安装JDK与Hadoop
- 安装jdk
- 配置jdk的环境变量
- 安装hadoop
- 配置hadoop的环境变量
Hadoop运行模式搭建
- 本地运行模式测试
- 完全分布式运行模式搭建
- 虚拟机准备
- 集群分发脚本
- SSH无密登录
- 集群配置
- 群起集群配置
- 集群的启动与停止
- 配置历史服务器
- 配置集群的时间同步
我来总结一下哈,hadoop运行环境搭建总体就两步,第一步是虚拟环境的搭建,第二步就是安装jdk与hadoop,每一步里面都有一些小的配置,知道了整体的步骤后,接下来让我们正式开始
配置虚拟环境
首先我们需要准备三台虚拟机,在介绍Linux时我有说过,让大家提前建立一台无界面的CentOS虚拟机,现在派上用场了,忘了的详见Linux基础知识CentOS安装第十五步,另外,建议单台虚拟机的配置为:内存4G,硬盘50G,安装CentOS7无界面操作系统
第一步:
创建好虚拟机后,接下来我们进行克隆->完整克隆,然后保存在我前面提到的专用虚拟机文件夹中,建议大家跟我配置一样哈,虚拟机名称分别为hadoop102,hadoop103,hadoop104
第二步:修改静态IP,这块详见我们在Linux基础中学习到的网络配置,我就直接上虚拟机的配置了,注意啦,我们刚开始的虚拟机是没有vim的,我先对hdaoop102虚拟机进行配置
- 打开hadoop102虚拟机并进入ip的配置文件
- 查看Linux虚拟机的虚拟网络编辑器,编辑->虚拟网络编辑器->VMnet8
- 查看Windows系统适配器VMware Network Adapter VMnet8的IP地址
- 保证Linux文件中IP地址、Linux虚拟网络编辑器地址和Windows系统VM8网络IP地址相同
# 打开hadoop102虚拟机并进入ip的配置文件
vi /etc/sysconfig/network-scripts/ifcfg-ens33
# 修改hadoop102的ip
ONBOOT=yes
BOOTPROTO=static
IPADDR=192.168.1.102
GATEWAY=192.168.1.2
DNS1=114.114.114.114
第三步:安装必要插件,因为我上一步说了,此时是纯净版的系统,因此我们需要安装必要的插件,直接复制下面的命令就好
yum install -y epel-release
yum install -y psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop git
第四步:修改主机名
vim /etc/hostname
# 将里面的localhost这一行删除掉,然后根据我们虚拟机的名称进行配置
hadoop102
第五步:修改hosts文件,我们前面在网络配置时也讲过哈,它是主机名称的映射,等集群的时候就知道为什么要配置它了
# 进入主机名称映射的配置文件
sudo vim /etc/hosts
# 修改内容如下
192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108
第六步:修改windows中的hosts文件,当然了,除了我们的虚拟机,我们还要在Windows中配置,我们后面的hadoop都是使用xshell进行连接的
1.进入C:\Windows\System32\drivers\etc路径
2.打开hosts文件并添加如下内容
192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108
3. 如果发现我们无法修改保存,那就把整个hosts拖到复制或移动到桌面上再进行修改保存,然后再放回到原位即可
第七步:关闭防火墙,这一步是为了后面集群用的,集群就是很多的服务器,服务器之间要相互连接,所以我们不需要防火墙
# 关闭防火墙
systemctl stop firewalld
# 禁止防火墙开机启动
systemctl disable firewalld
第八步:创建hadoop集群共同的用户,这里的用户是我们以后操作的用户,不论后面什么操作都是它,以后就不会再用root了,因为它是超级管理员,如果误操作不太好…
# 创建用户
useradd hadoopuser
passwd 123456
第九步:配置hadoopuser用户具有root权限,这个知识点在Linux常用命令的用户管理中讲过哈,在91行下面,行号使用vim的:set nu
# 打开用户权限文件
visudo
# 添加hadoopuser拥有root所有权限
root ALL=(ALL) ALL
hadoopuser ALL=(ALL) NOPASSWD:ALL
第十步:在/opt下创建文件夹,用于存放安装jdk与hadoop,记得修改用户的所属主与所属组,因为我们以后的操作都是使用我们刚刚建立的那个用户,module用户安装jdk和Hadoop,software用于存放安装包
# 进入/opt文件夹下
cd /opt
# 创建文件
mkdir module
mkdir software
# 修改权限的所属主与所属组
chown hadoopuser:hadoopuser /opt/module /opt/software
最后一步:好了,我们将基础的虚拟环境配置好了,接下来重启一下我们的虚拟机,让前面的配置生效
reboot
安装JDK与Hadoop
第一步:下载jdk与hadoop的安装包
- 前面的虚拟环境配置完毕之后,我们开始进行jdk与Hadoop的安装
- 因为Hadoop是用Java写的,所以我们需要安装java的jdk,这也是我们为什么开篇就学习java的原因
- jdk与hadoop的安装包可以私信我,也可以自行去官网下载,一定记得下载编译好的软件包,java的选择
- hadoop的选择,Binary的编译好的
jdk的下载地址:https://www.java.com/zh-CN/download/manual.jsp jdklinux的下载地址: https://javadl.oracle.com/webapps/download/AutoDL?BundleId=244575_d7fc238d0cbf4b0dac67be84580cfb4b hadoop下载地址:https://hadoop.apache.org/releases.html
第二步:安装jdk与hadoop,我们下载的是编译好的,直接是无安装版,直接使用tar进行解压即可
- 首先我们使用xftp将安装包放到我们前面建立的/opt下的software文件夹中
- 接下来使用tar命令将jdk解压到module中,记得先解压jdk,然后再解压hadoop
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/
第三步:配置jJDK的环境变量,这里就和Windows中设置系统环境变量一样的,我们也在Linux中设置JDK的环境变量
- 首先我们要进入我们的环境变量配置文件夹下,然后自定义一个配置文件脚本,这样我们以后就可以很方便地管理我们自定义安装的软件了
# 进入环境变量配置文件夹 cd /etc/profile.d # 新建一个环境变量配置文件 vim my_env.sh # 配置JDK的环境变量为全局变量 #JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_212 export PATH=$PATH:$JAVA_HOME/bin
第四步:保存退出后重新加载一下配置的文件,然后测试jdk是否安装成功
# 方法一,使用source进行重新加载配置
source my_env.sh
# 方法二,重启虚拟机,让系统自己重新加载配置
reboot
# 测试java命令是否成功的设置成全局环境变量
java -version
第五步:安装Hadoop,步骤和安装jdk一样
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/
第六步:配置Hadoop的环境变量为全局变量,再次进入我们设置jdk的那个脚本
# 进入环境变量配置文件夹
cd /etc/profile.d
# 新建一个环境变量配置文件
vim my_env.sh
# 配置JDK的环境变量为全局变量
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
第七步:保存退出并测试,这里重复第四步的动作
# 重新加载我们的脚本
source my_env.sh
# 测试是否成功
hadoop version
成功的运行结果
Hadoop的目录结构
到此我们的Hadoop就安装完成了,接下来我来介绍一下Hadoop的目录结构,cd到我们module下的hadoop文件夹下可以看到它们目录结构如下:
咳咳,我习惯性的对我的用户信息进行马赛克,个人习惯哈,这个不是什么重要的东西…
目录结构详解
我因为测试了一下是否安装成功,因此就多了data,logs input ouput这些文件夹下,后面我会介绍它们的,不用担心,现在忽略它们
- bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
- etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
- lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
- sbin目录:存放启动或停止Hadoop相关服务的脚本
- share目录:存放Hadoop的依赖jar包、文档、和官方案例
总结
- 本章对Hadoop的单机环境配置进行了分享,Hadoop最重要的就是集群,多个服务器,因此我专门把它们拆开来讲哈。今天内容就到这里,如果整个过程有问题,欢迎随时后台私信我,
- 对了,配置虚拟环境的第二步到第五步,一定记得在hadoop103和hadoop104服务器上都改一下,我们下一章要用它们,还有第九步,我们在三个服务器上都要建立相同的账号和配合
标签:jdk,虚拟机,配置,hadoop,192.168,Hadoop,之小白,四十二 来源: https://blog.csdn.net/Li_G_yuan/article/details/116615324