从外部存储的结构化文件创建DataFrame---常用的一种方式
作者:互联网
1. 从txt文件中创建DataFrame
从txt文件中创建DataFrame
如果是从普通的文本文件创建DataFrame 文件中的列和列的分隔符不清楚
所以创建的DataFrame只有一列,一列就是一行数据
val sc = new SparkConf().setMaster("local[2]").setAppName("demo")
val session = SparkSession.builder().config(sc).getOrCreate()
val map = Map[String, String]("mode" -> "FAILFAST", "inferSchema" -> "true")
val frame = session.read.options(map).text("hdfs://node1:9000/student.txt")
frame.show()
2. 从json文件中创建DataFrame -- 常用
从json文件中创建DataFrame -- 常用 -- 列名就是json对象的key值
{"name": "zs","age": 20,"sex":"男"}
json文件只能存在json对象,每一个json对象之间以换行符分隔
val map1 = Map[String, String]("mode" -> "FAILFAST", "inferSchema" -> "true")
val dataFrame = session.read.options(map1).json("hdfs://node1:9000/student.json")
dataFrame.show()
3. 从csv文件中创建DataFrame -- 最常用
从csv文件中创建DataFrame -- 最常用 -- 大数据中的很多数据都是以csv文件格式存储的
csv文件--是以,分割的一种文件格式,可以使用execel或者记事本打开的一种特殊的结构化数据我呢见
"header"->"true"把第一列当作表格的列名来处理
val map2 = Map[String, String]("mode" -> "FAILFAST", "inferSchema" -> "true", "header" -> "true")
val dataFrame2 = session.read.options(map2).csv("hdfs://node1:9000/student.csv")
dataFrame2.show()
val dataFrame4 = session.read.options(map2).format("json").load("hdfs://node1:9000/student.json")
dataFrame4.show()
// sparksql将结果输出方式写出
// dataFrame2.write.mode("append").parquet("hdfs://node1:9000/parquet")
4. 从parquet格式创建DataFrame--常用
从parquet格式创建DataFrame--常用
parquet格式文件Hive、SparkSQL、Flink都支持。列式存储文件格式
val dataFrame3 = session.read.options(map2).parquet("hdfs://node1:9000/parquet")
dataFrame3.show()
标签:val,文件创建,DataFrame,---,--,json,session,parquet 来源: https://www.cnblogs.com/jsqup/p/16630333.html