首页 > 其他分享> > 《Spark -- The Definitive Guide》学习笔记Note.2

《Spark -- The Definitive Guide》学习笔记Note.2

2022-02-23 10:04:40 作者：互联网

上一期中，通过翻译与凝练《Spark – The Definitive Guide》，我们初步解决了Spark是什么的问题，今天我们将继续学习Spark的基本架构，应用程序，结构化API，核心术语与概念，分享过程中若有错谬，欢迎拍砖。

Charpter 2.A Gentle Introduction to Spark

Spark’s Basic Architecture

一般而言，一台计算机就可以完成看电影，发邮件，制作电子表格等功能。但是诸如大数据处理这种富有挑战性的任务，单台机器往往是无法胜任的，因为其不具备强大的计算能力，丰富的计算资源，用户也没有足够的时间等待计算结束。这时候，就需要对一个集群或一组计算机资源进行整合，以便于我们能像使用单台计算机一样，使用这些资源。有了机器还不足以产生强大的算力，还需要一个软件框架来协调它们之间的工作。Spark由此应运而生，它负责管理和协调多台计算机的计算任务。其中，多台计算机先提交Spark应用程序给诸如Spark集群管理器，YARN，Mesos等管理器，而后Spark会根据一个集群管理器跟踪到的可用资源，将计算资源分配给应用程序。

Spark Applications

Spark Applications（应用程序）由一个driver process（驱动器进程）和一组executor process（执行器进程）组成。executor大部分时候都运行Spark代码，但driver可以通过多种不同语言调用Spark API 来进行驱动。
driver是Spark应用程序的核心。driver process负责运行main()函数，位于集群的一个节点上，它负责以下三件事：1、维护Spark应用程序的相关信息；2、响用户的程序或输入；3、分析任务并分发给若干executor process进行处理。
每个executor负责两件事：1、执行由driver分配给它的代码逻辑或计算任务；2、将executor的计算状态上报到运行driver的节点。
下图展示了集群管理器（Spark的独立集群管理器、 YARN或Mesos）如何控制物理机器，并为Spark应用程序分配资源。集群上可以运行多个Spark应用程序，集群有多个节点，用户可以配置每个节点上运行多少个执行器。

除集群模式外， Spark还有本地运行模式。驱动器和执行器只是简单的进程，这意味着它们可以位于同一台或不同的机器上。在本地模式下，驱动器和执行器在PC上运行（此时为线程，而不是进程）。

Spark’s Language APIs

Spark API支持多语言，用户可以使用多种编程语言运行Spark代码（Scala，Java，Python，SQL，R）。大多数时候， Spark在每种语言中都提供了一些“核心概念”，这些概念被转换成在集群上可运行的Spark代码。如果仅使用结构化API，则所有语言都应该具有相似的性能特征。

上图是一个简单的例子，说明了SparkSession与支持Spark API编程语言间的关系。对于每种语言的API，都含有前面描述的“核心概念”， SparkSession对象是Spark代码的入口，如果基于Python或R使用Spark，注意不要显式使用JVM指令，可以编写Python和R代码来调用SparkSession， Spark会将它们转换成可在JVM上运行的代码。

Spark’s APIs

尽管用户可以用各种语言启动Spark任务，但我们还是要知道Spark是如何让这些语言转换为可用的，这归功于 Spark的两套基本API：低级的非结构化 API和高级的结构化API。

Starting Spark

截至目前，已经介绍了Spark应用程序的基本概念，但这些概念还比较抽象，当我们真正开始编写Spark应用程序时，需要一种将用户命令和数据发送给Spark的方法，这就是SparkSession。按上一期博文介绍的方法，我们可以用spark-shell打开Scala控制台来启动一个交互式会话。

之后还会介绍一个向Spark提交独立预编译应用程序的命令spark-submit。

当以交互模式启动Spark时，相当于隐式创建了一个SparkSession来管理Spark应用程序。如果不是通过交互模式，而是通过独立应用程序启动Spark，则必须在程序中显式创建一个SparkSession对象。

SparkSession

用户可以用名为SparkSession的驱动器进程，来控制Spark应用程序。SparkSession实例是Spark通过集群执行用户定义操作的方式，Spark应用程序和SparkSession需要一一对应。当你用Scala或Python启动控制台时，SparkSession会被实例化为一个名为spark对象。

DataFrame

下面执行一个简单的任务。任务的内容为，创建一列包含1000行，值为0~999的分布式集合，在集群上运行此命令时，这个集合的每个部分都会被分配到不同的执行器上，这个集合就是一个Spark DataFrame。

DataFrame是最常见的结构化API，可以将DataFrame想象为具有多个命名列和行的数据表格。定义这些列和类型的规则被称为schema（模式）。和传统的电子数据表格相比，DF最大的特点就是数据非必须保存于一台计算机上，因为数据量太大从存储和计算方面而言的能力都较差。

Partitions

为了让多个executor并行工作， Spark将数据分解成多个数据块，每个数据块叫做一个分区。分区是位于集群中一台物理机上的多行数据集合， DataFrame的分区表示了在执行过程中，数据在集群中的物理分布。如果只有一个分区，即使拥有多个执行器， Spark也只有一个执行器在处理数据。同理，如果有多个分区，但只有一个执行器，Spark同样只有一个执行器在处理数据。当使用DataFrame时，大多数时候不需要手动操作分区，只需指定数据的高级转换操作。Spark会自动决定如何在集群上分配执行资源。低级别API也存在这种机制。

Transformations

Spark的核心数据结构在计算过程中保持不变，也意味着在创建后无法更改。为了“更改”一个DataFrame，你需要告诉Spark你想如何修改它，这个过程被称为转换。下面执行一个简单的转换来查找当前DataFrame中的所有偶数。以前面构建的myRange变量为例。

可以看到，这些转换并没有实际输出，这是因为我们仅指定了一个transformation。在调用action之前（之后会提到）之前， Spark不会真的“更改”DF。转换仅仅是使用Spark表达了业务的逻辑。

转换操作分为两类：窄依赖，宽依赖。
具有窄依赖关系（narrow dependency）的转换操作（窄转换），指的是每个输入分区仅决定一个输出分区的转换。上图的代码中， where语句指定了一个窄依赖关系，其中一个分区最多只会影响一个输出分区。

具有宽依赖关系（wide dependency）的转换操作（宽转换），指的是每个输入分区决定了多个输出分区。这种宽依赖关系的转换经常被称为shuffle（洗牌）操作，它会在整个集群中执行互相交换分区数据的功能。反之如果是窄转换， Spark将自动执行流水线处理，这意味着如果我们在DataFrame上指定了多个过滤操作，它们将全部在内存中执行。而对于宽转换的shuffle， Spark会将结果写入磁盘。

Lazy Evaluation

惰性机制的意思就是等到最后时刻才执行计算。如果用户需要对数据进行操作，Spark会先建立一系列作用到原始数据的转换计划，并将其编译为可以在集群中高效运行的流水线式的物理执行流程，然后等待到action时才开始执行代码。这带来的好处有，Spark可以优化整个从输入到输出端的数据流。比如DataFrame的predicate pushdown（谓词下推），假设我们构建了一个含有多个转换操作的Spark作业，并在最后指定了一个过滤操作，再假设这个过滤操作只需要输入数据的某一行数据，则最有效的方法为，从最开始就仅访问我们需要的那一条记录，Spark通过自动下推这个过滤操作实现了整个物理执行计划的优化。

Actions

转换操作使我们能够建立逻辑转换计划。为了触发计算，我们需要运行一个action操作。该操作指示Spark在一系列转换操作后计算出一个结果。最简单的action是count，用于计算一个DataFrame中的记录总数，仍然以上面的代码变量为例。

aciton有三类：1、在控制台中查看数据；2、根据不同的语言将数据收集并转换为本地对象；3、写入输出数据。

Spark UI

举个实际案例，用户启动了一个Spark作业，首先执行一次filter（窄转换），再执行一次aggregation（宽转换），然后到每个分区上执行count，最后通过collect将所有分区的结果汇集到一起，生成一个结果。你可以通过Spark UI看到所有这些操作。Spark UI是一个包含在Spark软件包中的工具，可以用它监视Spark集群上运行的Spark作业。Spark UI占用的驱动器节点端口是4040。如果是在本地模式运行，可以通过http://localhost:4040访问Spark Web UI。Spark UI上显示了Spark作业的运行状态、作业进度、执行环境和群集状态等信息，这些信息非常有用，可用于性能调优和代码调试。下图展示了一个例子，可以看出该作业包含了两个运行阶段，九个任务。

标签：Note.2,转换,Definitive,--,应用程序,API,集群,DataFrame,Spark
来源： https://blog.csdn.net/weixin_46088252/article/details/123061431