04

2021-10-26 13:35:18 作者：互联网

Hadoop是道格·卡丁（Doug Cutting）创建的，Hadoop起源于开源网络搜索引擎Apache Nutch，后者本身也是Lucene项目的一部分。Nutch项目面世后，面对数据量巨大的网页显示出了架构的灵活性不够。当时正好借鉴了谷歌分布式文件系统，做出了自己的开源系统NDFS分布式文件系统。第二年谷歌又发表了论文介绍了MapReduce系统，Nutch开发人员也开发出了MapReduce系统。随后NDFS和MapReduce命名为Hadoop，成为了Apache顶级项目。

1.x版本系列：Hadoop版本当中的第二代开源版本，主要修复0.x版本的一些bug等

2.x版本系列：架构产生重大变化，引入了yarn平台等许多新特性

3.x版本系列：基于JDK1.8开发的，较其他两个版本而言，在功能和优化方面发生了很大的变化，其中包括HDFS 可擦除编码、多Namenode支持、MR Native Task优化等。

在HDFS中，名称节点（NameNode）负责管理分布式文件系统的命名空间（Namespace），保存了两个核心的数据结构，即FsImage和EditLog，FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据，操作日志文件EditLog中记录了所有针对文件的创建、删除、重命名等操作

数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表

名称节点类似于数据目录。其主要有两大构件构成，FsImage和Editlog，FsImage用于存储元数据(长时间不更新、Editlog用于更新数据，但是随着时间推移，Editlog内存储的数据越来越多，导致运行速度越来越慢。所以引入第二名称节点，当第一节点中Editlog到一个临界值时，HDFS会暂停服务，由第二节点将拷贝出Editlog，复制、添加到Fslmage后方并清空原Editlog的内容。这里有一点要注意这种备份是冷备份的形式，即没有实时性，需要停止服务，等数据恢复正常后继续使用。

标签：HDFS,Editlog,04,Hadoop,版本,分布式文件系统,节点
来源： https://www.cnblogs.com/bray2377/p/15465267.html