MapReduce和Yarn
作者:互联网
MapReduce的定义:
MapReduce是一个分布式运算程序的编程框架,是用户基于“Hadoop的数据分析应用”的核心框架
MapReduce核心功能是将用户编写的业务逻辑代码和自带的默认组件构成一个完整的分布式运算程序,并运行在Hadoop集群上
MapReduce的缺点:
1.不擅长做实时计算:无法像MySQL一样,在毫秒或者秒级别返回结构
2.不擅长流式计算:流式计算的输入数据是动态的,而MapReduce的输入数据集必须是静态的,不能动态变化 (SparkStreaming、flink擅长流式计算)
3.不擅长DAG(有向无环图)计算:多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常的低下 (Spark擅长DAG中间的计算结果基于内存)
MapReduce的核心思想:
例如:给一个数据集统计其中每一个单词出现的总次数(查询结果:a-p一个文件,q-z一个文件)
MapReduce运算程序一般有两个阶段:Map和Reduce阶段
1.输入数据,按照128M切分数据(128M数据为一片),进入到map阶段
map阶段的MapTask,完全并行处理,互不干涉
2. 1)按照行读取数据,并进行处理 2) 按照空格切分每一行的单词 3)使用KV键值对的方式(k为单词,v定义为1)4)将按照KV键值对中的单词(k),按照首字母的方式,分成两个分区溢写到磁盘
3. Reduce阶段对Map阶段处理后数据进行汇总
Reduce阶段的并发ReduceTask,完全不相干
4.输出结果文件
如果用户的业务逻辑非常复杂,就只能多个MapReduce程序串行运行
标签:流式,Reduce,MapReduce,Yarn,单词,擅长,阶段 来源: https://www.cnblogs.com/hskq/p/16295532.html