其他分享
首页 > 其他分享> > 06 MR执行流程和原理

06 MR执行流程和原理

作者:互联网

一、MR执行流程和原理图

 

1.1、执行流程和原理图

 

 

mapTask的并行机制

默认情况:mapTask 的数量和读取 HDFS 中的数据块 block 的数量相等

block 的数量 和 文件分片的数量一样,大小也是一样。

Mapreduce 中 map 阶段的运行机制

Mapreduce 中 reduce 阶段的运行机制

 

 

环形缓冲区等配置

 

配置                                 默认值                               解释

mapreduce.task.io.sort.mb         100                           设置环型缓冲区的内存值大小

mapreduce.map.sort.spill.percent 0.8                               设置溢写的比例

mapreduce.cluster.local.dir       ${hadoop.tmp.dir}/mapred/local 溢写数据目录

mapreduce.task.io.sort.factor     10                           设置一次合并多少个溢写文件

 

 

 

 

 

 

 

 

 

 

 

 

标签:map,06,流程,mapTask,MR,缓冲区,数据,溢写,分区
来源: https://blog.csdn.net/woshilovetg/article/details/111414081