Hadoop3.x
作者:互联网
Hadoop是什么
- Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
- 主要解决,海量数据的存储和海量数据的分析计算问题。
- 广义上来说,Hadoop通常是指一个更广泛的概念————Hadoop生态圈。
Hadoop优势(4高)
- 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算机元素或存储出现故障,也不会导致数据的丢失。
- 高扩展性:在集群间分配任务数据,可方便地扩展数以千计地节点。
- 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
- 高容错性:能够自动将失败的任务重新分配。
Hadoop1.X 2.X、3.X区别
高内聚和低耦合
MapReduce相当于cpu Yarn 管理cpu和内存
HDFS架构概述
Hadoop Distributed File System 简称 HDFS ,是一个分布式文件系统
- NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数、文件权限)以及每个文件的块列表和块所在的DataNode等(NameNode管理数据存的位置,索引)
- DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。(具体存储数据的位置)
- Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
YARN架构概述(管理CPU和内存)
Yet Another Resource Negotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器。
- ResourceManager(RM):整个集群资源(内存、cpu等)的老大。
- NodeManager(NM):单个节点服务器资源老大。
- ApplicationMaster(AM):单个任务运行的老大。
- Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、网络等
说明一:客户端可以有多个
说明二:集群上可以运行多个ApplicationMaster
说明三:每个NodeManager上可以有多个Container
MapReduce架构概述
MapReduce将计算过程分为两个阶段:Map和Reduce
- Map阶段并行处理输入数据。
- Reduce阶段对Map结果进行汇总。
HDFS、YARN、MapReduce三者关系
大数据技术生态体系
标签:存储,MapReduce,Hadoop,Hadoop3,NameNode,数据,内存 来源: https://www.cnblogs.com/doubleconquer/p/15810462.html