数据库
首页 > 数据库> > zeppelin-0.8.0-bin-all结合spark解释器,使用RDD,spark SQL

zeppelin-0.8.0-bin-all结合spark解释器,使用RDD,spark SQL

作者:互联网

版本

hadoop  2.6,scala2.11.0

spark2.1.1 选择pre-build for hadoop 2.6下载(spark-2.1.1-bin-hadoop2.6)

集群环境

三台主机,安装好hadoop+spark环境,spark standalone模式,自行安装

zeppelin安装(centos6.5)

下载zeppelin-0.8.0-bin-all.tgz,

解压 tar zxvf zeppelin-0.8.0-bin-all.tgz

进入解压后的目录,进入到conf文件夹下

cd zeppelin-0.8.0-bin-all/conf

先复制模板文件shiro.iro.template,zeppelin-env.sh.template,zeppelin-site.xml.template

修改zeppelin-site.xml中的端口号和是否允许匿名登录,我将zeppelin.server.port由8080改为8098,允许匿名登录改为false。

在zeppelin-env.sh配置spark环境等

在shiro.ini中配置用户名,密码,角色,找到[Users]

zeppelin运行注意

运行前替换lib包下的部分包

先看spark 2.11的jars下的包,

未替换前lib下是commons-lang3-3.4.jar,jackson-annotations-2.8.0.jar,jackson-core-2.8.10.jar,jackson-databind-2.8.11.1.jar,netty-all-4.0.23.Final.jar,

将lib下上述的包删除,切记lib包下的guava-20.0.jar不可以删

将spark的jars下如图片紫色所示的包复制到zeppelin-0.8.0-bin-all/lib下

替换后,运行zeppelin

在Interpreter下修改spark解释器设置,将master改为spark://ip:7077

spark RDD没有问题,sql没有问题

sparkSession操作没有问题

很多问题都是jar包的问

hadoop安全模式下,对HDFS进行上传,修改,删除等操作会报错

解决:每台机子执行hdfs dfsadmin -safemode leave

在此之前,遇到多很多错

java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.mapred.FileInputFormat at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:312)

org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 11.0 failed 4 times, most recent failure: Lost task 1.3 in stage 11.0 (TID 639, slave-04, executor 2): java.io.InvalidClassException: org.apache.commons.lang3.time.FastDateParser; local class incompatible: stream classdesc serialVersionUID = 2, local class serialVersionUID 

 

查看日志还有netty IO相关的错,大多数错都是jar包问题

 

标签:bin,0.8,jar,hadoop,zeppelin,spark
来源: https://blog.csdn.net/qq_40315971/article/details/90142657