如何将PySpark中的表数据框导出到csv?
作者:互联网
我正在使用Spark 1.3.1(PySpark),我使用SQL查询生成了一个表.我现在有一个DataFrame对象.我想将此DataFrame对象(我称之为“table”)导出到csv文件,以便我可以操作它并绘制列.如何将DataFrame“表”导出到csv文件?
谢谢!
解决方法:
如果数据框适合驱动程序内存并且您想要保存到本地文件系统,则可以使用toPandas
方法将Spark DataFrame转换为本地Pandas DataFrame,然后只需使用to_csv:
df.toPandas().to_csv('mycsv.csv')
否则你可以使用spark-csv:
> Spark 1.3
df.save('mycsv.csv', 'com.databricks.spark.csv')
> Spark 1.4
df.write.format('com.databricks.spark.csv').save('mycsv.csv')
在Spark 2.0中,您可以直接使用csv数据源:
df.write.csv('mycsv.csv')
标签:export-to-csv,python,apache-spark,dataframe,apache-spark-sql 来源: https://codeday.me/bug/20190918/1811725.html