其他分享
首页 > 其他分享> > Hadoop3.x

Hadoop3.x

作者:互联网

Hadoop是什么

  1. Hadoop是一个由Apache基金会所开发的分布式系统基础架构
  2. 主要解决,海量数据的存储和海量数据的分析计算问题。
  3. 广义上来说,Hadoop通常是指一个更广泛的概念————Hadoop生态圈。

Hadoop优势(4高)

  1. 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算机元素或存储出现故障,也不会导致数据的丢失。
  2. 高扩展性:在集群间分配任务数据,可方便地扩展数以千计地节点。
  3. 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
  4. 高容错性:能够自动将失败的任务重新分配。

Hadoop1.X 2.X、3.X区别


高内聚和低耦合
MapReduce相当于cpu Yarn 管理cpu和内存

HDFS架构概述

Hadoop Distributed File System 简称 HDFS ,是一个分布式文件系统

YARN架构概述(管理CPU和内存)

Yet Another Resource Negotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器。

MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce

  1. Map阶段并行处理输入数据。
  2. Reduce阶段对Map结果进行汇总。

HDFS、YARN、MapReduce三者关系

大数据技术生态体系

标签:存储,MapReduce,Hadoop,Hadoop3,NameNode,数据,内存
来源: https://www.cnblogs.com/doubleconquer/p/15810462.html