其他分享
首页 > 其他分享> > 从零开始学Spark(二)--了解Spark

从零开始学Spark(二)--了解Spark

作者:互联网

点击关注强哥,还有100多G的面试资料等你来拿

哈喽,大家好,我是强哥。

不知道大家Scala学得怎么样了?不过不管你们学得怎么样,反正我是简单的过过一遍了。诶~就是这么牛逼。

今天我们就开始正式学Spark了。

Spark是什么?

既然要学Spark,首先就要弄懂Spark是什么?或者说Spark能为我们做什么?

别到处百度。记住,直接看官网是最权威的:

从上图中我们看出几个重点:

Spark能做什么呢?

还是看官网:

从图中可见,Spark主要特点分为四个模块。具体更详细的我们以后慢慢学。现在先有个大概的了解。

而这四个模块又和Spark的4个库有关,在官网的Libraries页签下,我们可以看到有如下4个库(额外的一个第三方项目暂且不管):

在我们之后Spark的学习中,重点也就在这些库上,当然了。现在直接去学还为时过早。先多熟悉下Spark再说,说到要熟悉,自然少不了和其他的项目比较,秉承:“长江后浪推前浪,前浪死在沙滩上”的原则,我们自然是要拿Spark和Hadoop来比较下拉。

Spark or Hadoop

经过上面的比较,我们可以看出在绝大多数的数据计算场景中,Spark 确实会比 MapReduce更有优势。但是 Spark 是基于内存的,所以在实际的生产环境中,由于内存的限制,可能会由于内存资源不够导致 Job 执行失败,此时,MapReduce 其实是一个更好的选择,所以 Spark并不能完全替代Hadoop MR。

下载Spark

Spark了解得差不多了,之后肯定就是开始快速上手了。当然,要耕田首先得有锄头吧,我们先去把Spark下载下来再说。

直接在官网的Download的页签下下载。下什么版本?秉承“喜新厌旧”原则,先下载最新的再说。如果之后的学习有遇到版本问题大不了再换。强哥也知道大家公司里很多用的还是Spark2.x,这个看个人喜好哈,下载2.x的也不是不行。

强哥这里下载当前能下到的最新版本:spark-3.2.1-bin-hadoop3.2.tgz,下载地址如下:

https://dlcdn.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz

下完后,解压。然后进入解压目录输入如下命令:

./bin/spark-shell

效果如下:

这样就说明我们的下载的包是正常能用的了。那么放着就行,我们后面会用到它进行学习。

Before Quick Start

在要进行进一步的学习之前。这里强哥也要提一句,官网有这么一个说明非常重要:

Note that, before Spark 2.0, the main programming interface of Spark was the Resilient Distributed Dataset (RDD). After Spark 2.0, RDDs are replaced by Dataset, which is strongly-typed like an RDD, but with richer optimizations under the hood. The RDD interface is still supported, and you can get a more detailed reference at the RDD programming guide. However, we highly recommend you to switch to use Dataset, which has better performance than RDD. See the SQL programming guide to get more information about Dataset.

在学习Spark之前,我们肯定有听很多人聊过RDD,但是具体是什么却可能不太熟悉。官网这里的说明告诉我们,RDD在Spark2.0之后被Dataset取代了,Dataset比RDD更牛逼,官网推荐我们使用Dataset,而不是RDD。

所以,大家之后的学习重点应该放在哪个应该不用我多说了吧。当然了,现在这俩玩意其实都还不是很懂。没事,跟着强哥一起学,慢慢会懂的。

点击关注强哥,还有100多G的面试资料等你来拿

标签:--,强哥,Hadoop,Dataset,RDD,从零开始,Spark,数据
来源: https://www.cnblogs.com/breakingdawn/p/16144351.html