首页 > 其他分享> > spark比mapreduce快的原因

spark比mapreduce快的原因

2021-12-30 16:59:34 作者：互联网

1、spark基于有向无环图DAG生成执行计划，他属于1个改进版的MapReduce，降低了很多不必要的shuffle次数，减少了节点之间的数据交换和磁盘IO，中间无需落盘。针对反复使用的数据可以进行内存cache提高加载使用效率

2、spark基于内存，窄依赖任务的数据都在内存中进行交换

3、spark任务启动时会把需要的内存一次性申请到位才真正运行，而mr是更细的粒度，每个子任务真正运行时才申请内存如果申请不到会等待，也会造成延时

标签：基于,申请,mapreduce,任务,内存,spark,改进版,原因
来源： https://blog.csdn.net/superhanliu/article/details/122240976