其他分享
首页 > 其他分享> > 如何将PySpark中的表数据框导出到csv?

如何将PySpark中的表数据框导出到csv?

作者:互联网

我正在使用Spark 1.3.1(PySpark),我使用SQL查询生成了一个表.我现在有一个DataFrame对象.我想将此DataFrame对象(我称之为“table”)导出到csv文件,以便我可以操作它并绘制列.如何将DataFrame“表”导出到csv文件?

谢谢!

解决方法:

如果数据框适合驱动程序内存并且您想要保存到本地文件系统,则可以使用toPandas方法将Spark DataFrame转换为本地Pandas DataFrame,然后只需使用to_csv:

df.toPandas().to_csv('mycsv.csv')

否则你可以使用spark-csv

> Spark 1.3

df.save('mycsv.csv', 'com.databricks.spark.csv')

> Spark 1.4

df.write.format('com.databricks.spark.csv').save('mycsv.csv')

在Spark 2.0中,您可以直接使用csv数据源:

df.write.csv('mycsv.csv')

标签:export-to-csv,python,apache-spark,dataframe,apache-spark-sql
来源: https://codeday.me/bug/20190918/1811725.html