其他分享
首页 > 其他分享> > 三台虚拟机spark的配置与安装

三台虚拟机spark的配置与安装

作者:互联网

静态Ip的配置

vim /etc/sysconfig/network-scripts/ifcfg-en33

添加内容
BOOTPROTO='static'
IPADDR=192.168.15.46  
NETMASK=255.255.255.0
GATEWAY=192.168.15.2
DNS1=114.114.114.114

systemctl restart network

修改主机名

vim /etc/hostname(master、slave1、slave2)
reboot

映射

vim /etc/hosts

192.168.15.xx  master
192.168.15.xx  slave1
192.168.15.xx	slave2

免密登陆

ssh-keygen -t rsa
cd .ssh/
ssh-copy-id master
ssh-copy-id slave1
ssh-copy-id slave2

jdk的安装(三台)

vim /etc/profile / source /etc/profile
添加内容:
export JAVA_HOME=/usr/local/jdk1.8.0_121 export PATH=$JAVA_HOME/bin:$PATH

Hadoop的搭建(三台)

配置文件
vim /etc/profile / source /etc/profile
添加内容:
export HADOOP_HOME=/usr/local/hadoop-2.9.2 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

vim core-site.xml

<property>
		<name>fs.defaultFS</name>
      <value>hdfs://master:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
		<value>/usr/local/hadoop-2.9.2/data/tmp</value>
</property>

vim hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_121

vim hdfs-site.xml

<property>
		<name>dfs.replication</name>
		<value>3</value>
</property>

<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>slave2:50090</value>
</property>

vim yarn-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_121

vim yarn-site.xml

<!-- Reducer获取数据的方式 -->
<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>slave1</value>
</property>

vim mapred-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_144

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<!-- 指定MR运行在Yarn上 -->
<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
</property>

配置slaves
vim slaves注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。

master
slave1
slave2

格式化(master)
cd /usr/local/Hadoop-2.7.2/bin
hdfs namenode –format
启动集群(master)
cd /usr/local/Hadoop-2.9.2/sbin
./start-all.sh
Zookeeper
配置myid
cd /usr/local/zookeeper-3.4.10
mkdir –p zkData #创建zkData
cd zkData
touch myid #创建myid文件

2/3/4 #master 2;slave1 3;slave2 4三个myid文件

配置zoo.cfg
cd /usr/local/zookeeper-3.4.10/conf
mv zoo_sample.cfg zoo.cfg
vim zoo.cfg

dataDir=/opt/module/zookeeper-3.4.10/zkData
#######################cluster##########################
server.2=master:2888:3888
server.3=slave1:2888:3888
server.4=slave2:2888:3888

集群启动(三台)
cd /usr/local/zookeeper/bin
./zkServer.sh start
./zkServer.sh status

spark的安装(三台)

解压tar –zxvf
改名mv spark-2.1.1-bin-hadoop2.7 spark
standalone模式
安装使用
进入 spark 安装目录下的 conf 文件夹
cd spark/conf/
修改 slave 文件,添加 work 节点:
mv slaves.template slaves
vim slaves

master
slave1
slave2

修改 spark-env.sh 文件,添加如下配置:
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

添加内容:
SPARK_MASTER_HOST=master 
SPARK_MASTER_PORT=7077 

scp分发到slave1和slave2上

启动(master)
cd /usr/local/spark
./sbin/start-all.sh

HA(高可用)配置
需要zookeeper正常安装和使用
修改配置
cd /usr/local/spark/conf
vim spark-env.sh

注释掉如下内容: 
#SPARK_MASTER_HOST=hadoop102 
#SPARK_MASTER_PORT=7077 
添加上如下内容: 
export SPARK_DAEMON_JAVA_OPTS=" 
-Dspark.deploy.recoveryMode=ZOOKEEPER  
-Dspark.deploy.zookeeper.url=master, slave1,slave2
-Dspark.deploy.zookeeper.dir=/spark"

scp分发

启动进程(必须要先停止上面启用的进程才能再次启动)
master上:
cd /usr/local/spark/sbin
./start-all.sh
slave1上:
cd /usr/local/spark/sbin
./start-master.sh

拓展kafka的安装

Kafka

解压
tar –zxvf /usr/local/ kafka_2.11-1.1.1.tgz
启动zookeeper命令
nohup /usr/local/kafka_2.11-1.1.1/bin/zookeeper-server-start.sh /usr/local/kafka_2.11-1.1.1/config/zookeeper.properties &

启动Kafka服务命令
nohup /usr/local/kafka_2.11-1.1.1/bin/kafka-server-start.sh /usr/local/kafka_2.11-1.1.1/config/server.properties &

创建topic 命令
/usr/local/kafka_2.11-1.1.1/bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic xxx

标签:三台,虚拟机,vim,sh,master,usr,spark,local
来源: https://blog.csdn.net/study_46/article/details/118708519