三台虚拟机spark的配置与安装
作者:互联网
静态Ip的配置
vim /etc/sysconfig/network-scripts/ifcfg-en33
添加内容
BOOTPROTO='static'
IPADDR=192.168.15.46
NETMASK=255.255.255.0
GATEWAY=192.168.15.2
DNS1=114.114.114.114
systemctl restart network
修改主机名
vim /etc/hostname(master、slave1、slave2)
reboot
映射
vim /etc/hosts
192.168.15.xx master
192.168.15.xx slave1
192.168.15.xx slave2
免密登陆
ssh-keygen -t rsa
cd .ssh/
ssh-copy-id master
ssh-copy-id slave1
ssh-copy-id slave2
jdk的安装(三台)
vim /etc/profile / source /etc/profile
添加内容:
export JAVA_HOME=/usr/local/jdk1.8.0_121 export PATH=$JAVA_HOME/bin:$PATH
Hadoop的搭建(三台)
配置文件
vim /etc/profile / source /etc/profile
添加内容:
export HADOOP_HOME=/usr/local/hadoop-2.9.2 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
vim core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-2.9.2/data/tmp</value>
</property>
vim hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_121
vim hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>slave2:50090</value>
</property>
vim yarn-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_121
vim yarn-site.xml
<!-- Reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>slave1</value>
</property>
vim mapred-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_144
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<!-- 指定MR运行在Yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
配置slaves
vim slaves注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。
master
slave1
slave2
格式化(master)
cd /usr/local/Hadoop-2.7.2/bin
hdfs namenode –format
启动集群(master)
cd /usr/local/Hadoop-2.9.2/sbin
./start-all.sh
Zookeeper
配置myid
cd /usr/local/zookeeper-3.4.10
mkdir –p zkData #创建zkData
cd zkData
touch myid #创建myid文件
2/3/4 #master 2;slave1 3;slave2 4三个myid文件
配置zoo.cfg
cd /usr/local/zookeeper-3.4.10/conf
mv zoo_sample.cfg zoo.cfg
vim zoo.cfg
dataDir=/opt/module/zookeeper-3.4.10/zkData
#######################cluster##########################
server.2=master:2888:3888
server.3=slave1:2888:3888
server.4=slave2:2888:3888
集群启动(三台)
cd /usr/local/zookeeper/bin
./zkServer.sh start
./zkServer.sh status
spark的安装(三台)
解压tar –zxvf
改名mv spark-2.1.1-bin-hadoop2.7 spark
standalone模式
安装使用
进入 spark 安装目录下的 conf 文件夹
cd spark/conf/
修改 slave 文件,添加 work 节点:
mv slaves.template slaves
vim slaves
master
slave1
slave2
修改 spark-env.sh 文件,添加如下配置:
mv spark-env.sh.template spark-env.sh
vim spark-env.sh
添加内容:
SPARK_MASTER_HOST=master
SPARK_MASTER_PORT=7077
scp分发到slave1和slave2上
启动(master)
cd /usr/local/spark
./sbin/start-all.sh
HA(高可用)配置
需要zookeeper正常安装和使用
修改配置
cd /usr/local/spark/conf
vim spark-env.sh
注释掉如下内容:
#SPARK_MASTER_HOST=hadoop102
#SPARK_MASTER_PORT=7077
添加上如下内容:
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=master, slave1,slave2
-Dspark.deploy.zookeeper.dir=/spark"
scp分发
启动进程(必须要先停止上面启用的进程才能再次启动)
master上:
cd /usr/local/spark/sbin
./start-all.sh
slave1上:
cd /usr/local/spark/sbin
./start-master.sh
拓展kafka的安装
Kafka
解压
tar –zxvf /usr/local/ kafka_2.11-1.1.1.tgz
启动zookeeper命令
nohup /usr/local/kafka_2.11-1.1.1/bin/zookeeper-server-start.sh /usr/local/kafka_2.11-1.1.1/config/zookeeper.properties &
启动Kafka服务命令
nohup /usr/local/kafka_2.11-1.1.1/bin/kafka-server-start.sh /usr/local/kafka_2.11-1.1.1/config/server.properties &
创建topic 命令
/usr/local/kafka_2.11-1.1.1/bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic xxx
标签:三台,虚拟机,vim,sh,master,usr,spark,local 来源: https://blog.csdn.net/study_46/article/details/118708519