其他分享
首页 > 其他分享> > MapReduce的shuffle及优化

MapReduce的shuffle及优化

作者:互联网

shuffle发生在map方法之后,reduce方法之前

 

 

 

 

 

优化:由环形缓冲区默认的100m调到200m,将默认的80%的反向溢出调整到90%。  这样就会减少溢写的次数

   对溢写的文件提前进行combiner,保证不影响最终逻辑前提,也可以调高combiner文件个数。可求和不可求均值。

   归并后存储磁盘可以进行压缩。

   reduce拉取map数量可由5个调整为10-20个(考虑内存)。

           namenode由默认的8g调大到100g左右(128g内存)

 

Mapreduce的可压缩的地方

  map输入端:文件比较大,大于128m,考虑切片。  bzip2、lzo

  map输出端:最求效率,spnny、lzo

  reduce输出端:看需求。

  

标签:map,combiner,shuffle,reduce,MapReduce,默认,lzo,优化
来源: https://www.cnblogs.com/chfcareboke/p/15122492.html