首页 > TAG信息列表 > delopy

第二十四章 HDFS—存储优化

注:演示纠删码和异构存储需要一共5台服务器。尽量拿另外一套集群。提前准备5台服务器的集群。 一、纠删码基本概述 1.纠删码原理 HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间

第十九章 Yarn案例实操

一、 Yarn生产环境核心参数配置案例 #1.需求: 从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 #2.需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4 3 3) #3.修改yarn-site.xml配置参数如下: <!-- 选

第十四章 MapReduce概述

一、MapReduce基本含义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 二、MapReduce优缺点 1.优点 #1

第十三章 HDFS各组件机制

一、 NN和2NN工作机制 思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁

第五章 Centos下完全分布式部署Hadoop-3.3.1

一、Hadoop环境准备 1.集群规划 主机名 IP HDFS YARN hadoop102 10.0.0.102 NameNode、DataNode NodeManager hadoop103 10.0.0.103 DataNode、SecondaryNameNode NodeManager、ResourceManager hadoop104 10.0.0.104 DataNode NodeManager #1.注意事项: ps: 1)NameNod