RDD,DataFrame,DataSet
作者:互联网
- RDD:
以Person为类型参数,但是Spark框架本身不了解Person类的内部结构。 - DataFrame:
DataFrame每一行的类型固定为Row, 每一列的值没法直接访问,只有通过解析才能获取各个字段的值。 - DataSet:
DataFrame也可以叫DataSet[Row],每一行类型是Row,不解析,每一行究竟有哪些字段,各个字段又是什么类型都无从得知,只能用上面的getAs方法拿出特定字段,而DataSet中,每一行是什么类型是不一定的,在自定义case class之后可以很自由的获取每一行的信息。 - 三者关系
RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合,DataFrame=Dataset[Row]。
标签:一行,DataSet,RDD,DataFrame,类型,Row 来源: https://www.cnblogs.com/jsqup/p/16626060.html