首页 > 其他分享> > Hadoop3.x

Hadoop3.x

2022-03-31 10:32:19 作者：互联网

Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
主要解决，海量数据的存储和海量数据的分析计算问题。
广义上来说，Hadoop通常是指一个更广泛的概念————Hadoop生态圈。

Hadoop优势（4高）

高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算机元素或存储出现故障，也不会导致数据的丢失。
高扩展性：在集群间分配任务数据，可方便地扩展数以千计地节点。
高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
高容错性：能够自动将失败的任务重新分配。

Hadoop1.X 2.X、3.X区别

高内聚和低耦合
MapReduce相当于cpu Yarn 管理cpu和内存

HDFS架构概述

Hadoop Distributed File System 简称 HDFS ,是一个分布式文件系统

NameNode（nn）:存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数、文件权限）以及每个文件的块列表和块所在的DataNode等（NameNode管理数据存的位置，索引）
DataNode(dn):在本地文件系统存储文件块数据，以及块数据的校验和。（具体存储数据的位置）
Secondary NameNode（2nn）：每隔一段时间对NameNode元数据备份。

YARN架构概述（管理CPU和内存）

Yet Another Resource Negotiator简称YARN,另一种资源协调者，是Hadoop的资源管理器。

ResourceManager（RM）:整个集群资源（内存、cpu等）的老大。
NodeManager（NM）:单个节点服务器资源老大。
ApplicationMaster（AM）:单个任务运行的老大。
Container：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、网络等
说明一：客户端可以有多个
说明二：集群上可以运行多个ApplicationMaster
说明三：每个NodeManager上可以有多个Container

MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce

Map阶段并行处理输入数据。
Reduce阶段对Map结果进行汇总。

HDFS、YARN、MapReduce三者关系

大数据技术生态体系

标签：存储,MapReduce,Hadoop,Hadoop3,NameNode,数据,内存
来源： https://www.cnblogs.com/doubleconquer/p/15810462.html