7.Spark SQL

2022-05-10 08:32:29 作者：互联网

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。

因为关系数据库已经很流行，而且关系数据库在大数据时代已经不能满足要求。首先，用户需要从不同数据源执行各种操作，包括结构化、半结构化和非结构化数据。其次，用户需要执行高级分析，比如机器学习和图像处理。在实际大数据应用中，经常需要融合关系查询和复杂分析算法（比如机器学习或图像处理），但是，缺少这样的系统。

Spark SQL填补了这个鸿沟：首先，可以提供DataFrame API，可以对内部和外部各种数据源执行各种关系型操作。其次，可以支持大数据中的大量数据源和数据分析算法Spark SQL可以融合：传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力。

2.简述RDD和DataFrame的联系与区别？

区别：
RDD是分布式的java对象的集合，但是对象内部结构对于RDD而言却是不可知的。
DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息，相当于关系数据库中的一张表。

联系：
1.都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利。
2、都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action才会运算。
3.都会根据spark的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出
4、三者都有partition的概念。
5.三者有许多共同的函数，如filter，排序等。

3.DataFrame的创建

spark.read.text(url)