其他分享
首页 > 其他分享> > pyspark操作hive分区表以及.gz.parquet和part-00000文件压缩问题

pyspark操作hive分区表以及.gz.parquet和part-00000文件压缩问题

作者:互联网

@

目录

pyspark 操作hive表


pyspark 操作hive表,hive分区表动态写入;最近发现spark动态写入hive分区,和saveAsTable存表方式相比,文件压缩比大约 4:1。针对该问题整理了 spark 操作hive表的几种方式。

1> saveAsTable写入

2> insertInto写入

2.1> 问题说明

两种方式存储数据量一样的数据,磁盘文件占比却相差很大,.gz.parquet 文件 相比 part-00000文件要小很多。想用spark操作分区表,又想让文件压缩,百度了一些方式,都没有解决。
从stackoverflow中有一个类似的问题 Spark compression when writing to external Hive table 。用里面的方法并没有解决。
最终从hive表数据文件压缩角度思考,问题得到解决

2.2> 解决办法

3>saveAsTextFile写入直接操作文件

标签:COMMENT,string,pyspark,写入,gz,hive,分区表,parquet,dt
来源: https://www.cnblogs.com/Sherry-g/p/15184002.html