首页 > 其他分享> > Hadoop面试题总结（五）- 优化

Hadoop面试题总结（五）- 优化

2021-05-30 11:01:23 作者：互联网

Mapreduce 程序效率的瓶颈在于两点：

1）计算机性能

CPU、内存、磁盘健康、网络

2）I/O 操作优化

（1）数据倾斜

（2）map和reduce数设置不合理

（3）reduce等待过久

（4）小文件过多

（5）大量的不可分块的超大文件

（6）spill次数过多

（7）merge次数过多等

1）数据输入

（1）合并小文件：在执行mr任务前将小文件进行合并，大量的小文件会产生大量的map任务，增大map任务装载次数，而任务的装载比较耗时，从而导致mr运行较慢。

（2）采用ConbinFileInputFormat来作为输入，解决输入端大量小文件场景。

2）map阶段

（1）减少spill次数：通过调整io.sort.mb及sort.spill.percent参数值，增大触发spill的内存上限，减少spill次数，从而减少磁盘 IO。

（2）减少merge次数：通过调整io.sort.factor参数，增大merge的文件数目，减少merge的次数，从而缩短mr处理时间。

（3）在 map 之后先进行combine处理，减少I/O。

标签：sort,map,面试题,spill,Hadoop,次数,文件,merge,优化
来源： https://blog.csdn.net/u013411339/article/details/117395571