首页 > 其他分享> > Hadoop入门系列(1)-简介

Hadoop入门系列(1)-简介

2020-12-01 11:02:13 作者：互联网

简介

Apache Hadoop软件库是一个框架，该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。库本身不依赖于硬件来提供高可用性，而是被设计用来检测和处理应用程序层的故障，因此可以在计算机集群的顶部提供高可用性服务，而每台计算机都容易出现故障。

Hadoop主要解决海量数据存储和分析计算问题。

一般说法是指Hadoop生态圈。

在这里插入图片描述

发展历史

1）Lucene框架是Doug Cutting开创的开源软件，用Java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎。
2）2001年年底Lucene成为Apache基金会的一个子项目
3）对于海量数据的场景，Lucene面对与Google同样的困难，存储数据困难，检索速度慢。
4）学习和模仿Google解决这些问题的办法：微型版Nutch。
5）可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文：GFS —>HDFS、Map-Reduce —>MR、BigTable —>HBase)
6）2003-2004年，Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。
7）2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会
8）2006 年 3 月份，Map-Reduce和Nutch Distributed File System (NDFS) 分别被纳入到 Hadoop 项目中，Hadoop就此正式诞生，标志着大数据时代来临。
9）名字来源于Doug Cutting儿子的玩具大象。
在这里插入图片描述

三大发行版本

Hadoop三大发行版本：Apache、Cloudera、Hortonworks。

Apache版本最原始（最基础）的版本，对于入门学习最好。

Cloudera在大型互联网企业中用的较多。

Hortonworks文档较好。

Apache Hadoop
官网地址：http://hadoop.apache.org/releases.html

下载地址：https://archive.apache.org/dist/hadoop/common/

Cloudera Hadoop
官网地址：https://www.cloudera.com/downloads/cdh/5-10-0.html

下载地址：http://archive-primary.cloudera.com/cdh5/cdh/5/

（1）2008年成立的Cloudera是最早将Hadoop商用的公司，为合作伙伴提供Hadoop的商用解决方案，主要是包括支持、咨询服务、培训。

（2）2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH，Cloudera Manager，Cloudera Support

（3）CDH是Cloudera的Hadoop发行版，完全开源，比Apache Hadoop在兼容性，安全性，稳定性上有所增强。

（4）Cloudera Manager是集群的软件分发及管理监控平台，可以在几个小时内部署好一个Hadoop集群，并对集群的节点及服务进行实时监控。Cloudera Support即是对Hadoop的技术支持。

（5）Cloudera的标价为每年每个节点4000美元。Cloudera开发并贡献了可实时处理大数据的Impala项目。

Hortonworks Hadoop

官网地址：https://hortonworks.com/products/data-center/hdp/

下载地址：https://hortonworks.com/downloads/#data-platform

（1）2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。

（2）公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师，上述工程师均在2005年开始协助雅虎开发Hadoop，贡献了Hadoop80%的代码。

（3）雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。

（4）Hortonworks的主打产品是Hortonworks Data Platform（HDP），也同样是100%开源的产品，HDP除常见的项目外还包括了Ambari，一款开源的安装和管理系统。

（5）HCatalog，一个元数据管理系统，HCatalog现已集成到Facebook开源的Hive中。Hortonworks的Stinger开创性的极大的优化了Hive项目。Hortonworks为入门提供了一个非常好的，易于使用的沙盒。

（6）Hortonworks开发了很多增强特性并提交至核心主干，这使得Apache Hadoop能够在包括Window Server和Windows Azure在内的Microsoft Windows平台上本地运行。定价以集群为基础，每10个节点每年为12500美元。

3.0结构

Hadoop Common：支持其他Hadoop模块的通用实用程序。
Hadoop分布式文件系统（HDFS™）：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。
Hadoop YARN：用于作业调度和群集资源管理的框架。
Hadoop MapReduce：基于YARN的系统，用于并行处理大数据集。
Hadoop Ozone： Hadoop的对象存储。

HDFS架构

Hadoop分布式文件系统（HDFS）是一种旨在在商品硬件上运行的分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是，与其他分布式文件系统的区别很明显。HDFS具有高度的容错能力，旨在部署在低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问，并且适用于具有大数据集的应用程序。HDFS放宽了一些POSIX要求，以实现对文件系统数据的流式访问。HDFS最初是作为Apache Nutch Web搜索引擎项目的基础结构而构建的。HDFS是Apache Hadoop Core项目的一部分。

NameNode和DataNodes
HDFS具有主/从体系结构。HDFS群集由单个NameNode和管理文件系统名称空间并控制客户端对文件的访问的主服务器组成。此外，还有许多数据节点，通常是集群中每个节点一个，用于管理与它们所运行的节点相连的存储。HDFS公开了文件系统名称空间，并允许用户数据存储在文件中。在内部，文件被分成一个或多个块，这些块存储在一组DataNode中。NameNode执行文件系统名称空间操作，例如打开，关闭和重命名文件和目录。它还确定块到DataNode的映射。DataNode负责处理来自文件系统客户端的读写请求。DataNode还会执行块创建，删除。
在这里插入图片描述
HDFS是使用Java语言构建的；任何支持Java的机器都可以运行NameNode或DataNode软件。使用高度可移植的Java语言意味着HDFS可以部署在各种各样的机器上。典型的部署有专用的计算机，该计算机仅运行NameNode软件。集群中的每台其他计算机都运行DataNode软件的一个实例。该架构并不排除在同一台机器上运行多个DataNode，而是在实际部署中很少出现这种情况。

群集中单个NameNode的存在极大地简化了系统的体系结构。NameNode是所有HDFS元数据的仲裁器和存储库。该系统的设计方式是，用户数据永远不会流过NameNode。

YARN

YARN的基本思想是将资源管理和作业调度/监视的功能拆分为单独的守护程序。这个想法是拥有一个全局ResourceManager（RM）和每个应用程序ApplicationMaster（AM）。应用程序可以是单个作业，也可以是作业的DAG。

ResourceManager和NodeManager构成数据计算框架。ResourceManager是在系统中所有应用程序之间仲裁资源的最终权限。NodeManager是每台机器的框架代理，负责容器，监视其资源使用情况（cpu，内存，磁盘，网络），并将其报告给ResourceManager / Scheduler。

实际上，每个应用程序的ApplicationMaster是特定于框架的库，其任务是与来自ResourceManager的资源进行协商，并与NodeManager一起执行和监视任务。

在这里插入图片描述
ResourceManager具有两个主要组件：Scheduler和ApplicationsManager。

调度程序负责将资源分配给各种正在运行的应用程序，但要遵循熟悉的容量，队列等约束。调度程序在不对应用程序状态进行监视或跟踪的意义上是纯调度程序。此外，它也不保证由于应用程序故障或硬件故障而重新启动失败的任务。调度程序根据应用程序的资源需求执行调度功能；它基于资源容器的抽象概念来做到这一点，该容器包含诸如内存，cpu，磁盘，网络等元素。

调度程序具有可插拔策略，该策略负责在各种队列，应用程序等之间分配集群资源。当前的调度程序（例如CapacityScheduler和FairScheduler）将是一些插件示例。

ApplicationsManager负责接受作业提交，协商用于执行特定于应用程序的ApplicationMaster的第一个容器，并提供在发生故障时重新启动ApplicationMaster容器的服务。每个应用程序ApplicationMaster负责与调度程序协商适当的资源容器，跟踪其状态并监视进度。

hadoop-2.x中的MapReduce保持与以前的稳定版本（hadoop-1.x）的API兼容性。这意味着仅通过重新编译，所有MapReduce作业仍应在YARN上保持不变。

YARN支持的概念，资源预留通过ReservationSystem，即允许用户指定资源的分布随时间和时间限制（例如，截止日期），以及后备资源，确保重要jobs.The可预见的执行组件ReservationSystem跟踪资源超时，执行保留的准入控制，并动态指示底层调度程序确保保留已满。

为了超越几千个节点规模，纱线支持的概念联合会通过YARN联合会功能。联合允许将多个纱线（子）簇透明地连接在一起，并使它们看起来像一个单一的簇。这可以用于实现更大的规模，和/或允许将多个独立的群集一起用于非常大的工作，或用于具有全部能力的租户。

MapReduce

Hadoop MapReduce是一个软件框架，用于轻松编写应用程序，这些应用程序以可靠，容错的方式并行处理大型硬件集群（数千个节点）上的大量数据（多TB数据集）。

MapReduce作业通常将输入数据集拆分为独立的块，这些任务由地图任务以完全并行的方式进行处理。框架对地图的输出进行排序，然后将其输入到reduce任务。通常，作业的输入和输出都存储在文件系统中。该框架负责安排任务，监视任务并重新执行失败的任务。

通常，计算节点和存储节点是相同的，也就是说，MapReduce框架和Hadoop分布式文件系统（请参阅HDFS体系结构指南）在同一组节点上运行。此配置使框架可以在已经存在数据的节点上有效地调度任务，从而在整个群集中产生很高的聚合带宽。

MapReduce框架由单个主ResourceManager，每个群集节点一个工作程序NodeManager和每个应用程序MRAppMaster组成（请参阅YARN体系结构指南）。

最少地，应用程序通过适当的接口和/或抽象类的实现来指定输入/输出位置和供应图，并减少功能。这些以及其他作业参数构成作业配置。

然后，Hadoop作业客户端将作业（jar /可执行文件等）和配置提交给ResourceManager，然后由ResourceManager负责将软件/配置分发给工作人员，安排任务并对其进行监控，为工作提供状态和诊断信息，客户。

标签：HDFS,Cloudera,入门,简介,Hortonworks,Hadoop,应用程序,Apache
来源： https://blog.csdn.net/qq_43437874/article/details/110355879