zeppelin-0.8.0-bin-all结合spark解释器,使用RDD,spark SQL
作者:互联网
版本
hadoop 2.6,scala2.11.0
spark2.1.1 选择pre-build for hadoop 2.6下载(spark-2.1.1-bin-hadoop2.6)
集群环境
三台主机,安装好hadoop+spark环境,spark standalone模式,自行安装
zeppelin安装(centos6.5)
下载zeppelin-0.8.0-bin-all.tgz,
解压 tar zxvf zeppelin-0.8.0-bin-all.tgz
进入解压后的目录,进入到conf文件夹下
cd zeppelin-0.8.0-bin-all/conf
先复制模板文件shiro.iro.template,zeppelin-env.sh.template,zeppelin-site.xml.template
修改zeppelin-site.xml中的端口号和是否允许匿名登录,我将zeppelin.server.port由8080改为8098,允许匿名登录改为false。
在zeppelin-env.sh配置spark环境等
在shiro.ini中配置用户名,密码,角色,找到[Users]
zeppelin运行注意
运行前替换lib包下的部分包
先看spark 2.11的jars下的包,
未替换前lib下是commons-lang3-3.4.jar,jackson-annotations-2.8.0.jar,jackson-core-2.8.10.jar,jackson-databind-2.8.11.1.jar,netty-all-4.0.23.Final.jar,
将lib下上述的包删除,切记lib包下的guava-20.0.jar不可以删
将spark的jars下如图片紫色所示的包复制到zeppelin-0.8.0-bin-all/lib下
替换后,运行zeppelin
在Interpreter下修改spark解释器设置,将master改为spark://ip:7077
spark RDD没有问题,sql没有问题
sparkSession操作没有问题
很多问题都是jar包的问
hadoop安全模式下,对HDFS进行上传,修改,删除等操作会报错
解决:每台机子执行hdfs dfsadmin -safemode leave
在此之前,遇到多很多错
java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.mapred.FileInputFormat at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:312)
org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 11.0 failed 4 times, most recent failure: Lost task 1.3 in stage 11.0 (TID 639, slave-04, executor 2): java.io.InvalidClassException: org.apache.commons.lang3.time.FastDateParser; local class incompatible: stream classdesc serialVersionUID = 2, local class serialVersionUID
查看日志还有netty IO相关的错,大多数错都是jar包问题
标签:bin,0.8,jar,hadoop,zeppelin,spark 来源: https://blog.csdn.net/qq_40315971/article/details/90142657