其他分享
首页 > 其他分享> > Hadoop

Hadoop

作者:互联网

Hadoop:

下载网址:https://archive.apache.org/dist/hadoop/common

什么是hadoop:用于数据存储和数据分析计算的分布式系统基础架构

创始人:Doug Cutting

组成

Yarn架构

Yarn架构

MapReduce架构

MapReduce将计算过程分为两个阶段:

Map和Reduce

大数据技术生态体系

 

Hadoop安装搭建

准备工作:

1.设值静态IP

1 # 检查网卡配置
2 vim /etc/sysconfig/network-scripts/ifcfg-ens33
3 # 将网卡启动方式设置为none或者static
4 # 如果是dhcp 则每次重启都会重新分配IP
5 BOOTPROTO=none
6 或者
7 BOOTPROTO=STATIC
8 # 修改之后需要重启网络
9 systemctl restart network

2.修改主机名

1 # 查看当前主机名
2 hostname
3 # 修改主机名
4 hostnamectl set-hostname 主机名

3.关闭防火墙

1 # 关闭防火墙
2 systemctl stop firewalld
3 # 禁用防火墙的开机启动
4 systemctl disable firewalld
5 # 查看防火墙服务状态
6 systemctl status firewalldCOPY

4.安装JDK

   压缩包存放路径

/opt/java/tar

   路径

/opt/java/modul

解压指令:

1  tar -zxvf hadoop-2.7.7.tar.gz -C /opt/java/modul
2  # tar命令用来解压tar类型的存档文件
3 # z 进行gzip格式文件的压缩或解压
4 # x 解开压缩包
5 # v 显示解压或压缩细节
6 # f 将文件解压到当前目录
7 # 使用mv将文件夹修改为更简短的名称
8 # 软件名称-软件版本

完全分布式搭建:

1.克隆虚拟机

配置环境变量:

# 可以在三个文件中配置环境变量
# 系统环境变量  /etc/profile
# 当前用户的环境变量  ~/.bashrc  ~/.bash_profile
1 # Linux中使用/etc/hosts文件记录IP和主机名的映射
2 # 配置映射是为了将来访问其他机器时不需要记忆ip地址
3 # 配置映射 可以在所有的软件配置文件中使用主机名代替IP,将来IP改动时,只需要改动hosts文件,不需要改动软件配置文件
4 vim /etc/hosts
5 192.168.222.81  bd01
6 192.168.222.82  bd02
7 192.168.222.83  bd03

 1 # 分布式程序中 集群之间需要进行大量的数据传输和通信,需要使用SSH协议进行远程连接,如果每次都需要验证密码,效率极差
 2 # 可以通过配置免密登录 实现集群内部通畅的通信
 3 # 1.移除之前的残留文件
 4 rm -rf ~/.ssh
 5 # 2.创建密钥文件
 6 ssh-keygen -t rsa
 7 # 3.分发密钥
 8 ssh-copy-id bd0801
 9 yes
10 密码
11 ssh-copy-id bd0802
12 yes
13 密码
14 ssh-copy-id bd0803
15 yes
16 密码

安装完全分布式HDFS服务

http://archive.apache.org/ apache组件下载

修改配置文件

1 [root@bd0801 /]# cd opt/java
2 [root@bd0801 java]# cd modul
3 [root@bd0801 modul]# cd hadoop-2.7.7/
4 [root@bd0801 hadoop-2.7.7]# cd etc/hadoop/
5 [root@bd0801 hadoop]# cat hadoop-env.sh

设值java_home

export JAVA_HOME=/opt/java/modul/jdk1.8.0_291
 1 <configuration>
 2   <property>
 3 <!-- 设置Hadoop用来存储数据的目录,设置到Hadoop安装目
 4 录中 -->
 5  <name>hadoop.tmp.dir</name>
 6  <value>/opt/java/modul/hadoop-2.7.7/data</value>
 7 </property>
 8 <property>
 9 <!-- 设置HDFS使用的默认连接url -->
10  <name>fs.defaultFS</name>     <value>hdfs://bd0801:8020</value>
11 </property>
12 </configuration>
1 <configuration>
2 <property>
3  <!-- 配置SecondaryNameNode启动的机器 -->
4      <name>dfs.namenode.secondary.http-address</name>
5      <value>bd0803:50090</value>
6   </property>
7 
8 </configuration>

设置启动DataNode服务的节点

1 bd0801
2 bd0802
3 bd0803

分发安装包

scp:安全拷贝,可以实现服务器与服务器之间的数据拷贝

-r: 递归

1  cd modul
2 scp -r hadoop-2.7.7/ bd0802:/opt/java/modul/
3 scp -r hadoop-2.7.7/ bd0803:/opt/java/modul/
4 # r 递归发送文件夹
5 # q 静默发送 不显示细节
6 scp -rq 本地文件夹  目标主机:目标路径

配置环境变量

1 echo 'export HADOOP_HOME=/opt/java/modul/hadoop-2.7.7' >> /etc/profile
2 echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> /etc/profile
3 source /etc/profile

对Namenode进行格式化

hdfs namenode -format

注意:如果有修改core hdfs 文件,需要删除data 重新格式化

启动集群尝试操作

1 start-dfs.sh
2 [root@bd01 ~]# jps
3 24952 DataNode
4 24827 NameNode
5 [root@bd02 ~]# jps
6 5124 DataNode
7 [root@bd03 ~]# jps
8 20851 DataNode
9 20924 SecondaryNameNode

192.168.222.81:50070

面试题:

一:常用端口号

hadoop3.x

HDFS NameNode内部通常端口:8020 /9000 /9820

HDFS NameNode对用户的查询端口:9870

Yarn查看任务运行情况的:8088

历史服务器:19888

hadoop2.x

HDFS NameNode内部通常端口:8020 /9000

HDFS NameNode对用户的查询端口:50070

Yarn查看任务运行情况的:8088

历史服务器:19888

二:常用的配置文件

3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers

2.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves

标签:xml,opt,java,modul,Hadoop,site,hadoop
来源: https://www.cnblogs.com/jiaweili/p/15913523.html