其他分享
首页 > 其他分享> > vSAN支撑大数据应用

vSAN支撑大数据应用

作者:互联网

大数据是客户获取业务洞察力的关键推动因素,在IT,营销,财务,安全性和合规性以及业务运营等关键业务领域发挥重要作用。

 

对于大数据平台,以熟知的Hadoop分布式框架使用并行跨多个服务器和存储实现分布式数据处理,并且形成了工具和应用的生态系统,帮助使用者了解和处理不断增长的海量数据,将多种数据源包含结构化、非结构化数据进行统一的数据展示和管理,但是现在基础设施是否能适用应用的发展?



大数据集群基于物理主机构建,空间占用大,部署速度慢,弹性、可用性和效率低下。Hadoop中的name node和Job Tracker存在单点失效问题,相关非核心Hadoop模块如Hive没有HA保障,Hadoop和非Hadoop负载不能直接共享资源。同时现在硬件服务器,2颗24核CPU,配256G内存,2T的硬盘,这种配置如果简单地放几个web应用,显然是浪费。就算是用来实现单节点的Hadoop,加上业务负载具有波动性,导致物理服务器的资源利用率不高,平均占用10-20%的CPU利用率,对计算资源和机房空间浪费也是非常高的,且物理节点扩容不够快速灵活。对于这么高性能的计算机,如何有效利用计算资源,通过超融合技术将计算、网络和存储资源整合,单个物理服务器上可以部署更多的Hadoop节点,从而提高了业务分析速度和物理服务器资源利用率,采用虚拟机方式扩容节点更加快速和灵活。


 

vSAN在超融合基础设施(HCI)领域发展取得了巨大成功,增长的主要原动力与大数据用户的主要需求大致相似:



 


图片


利用vSAN支持大数据部署,用户可以灵活的选择部署方式,当用户需要最高的可靠性时,可以利用vSAN冗余机制,同时也利用Hadoop的HDFS分布式文件系统,当物理节点宕机时为Hadoop大数据平台提供灵活可靠的基础架构。


其次用户也可以利用vSAN的Host Affinity 特性,确保数据和Hadoop 节点保存在同一节点,数据通过Hadoop HDFS多副本得到冗余保证,这样可以在高可靠和存储空间利用率之间取得一个更好的平衡。


图片

 

vSAN主机关联存储策略使您可以在VMware的本地主机上存储单个数据副本。使用此策略时,vSAN会维护数据的单个副本,该副本存储在运行VMware的本地主机上。此策略作为大数据(Hadoop,Spark),NoSQL和其他此类应用程序的部署选择提供,这些应用程序在应用程序层维护数据冗余。

使用vSAN部署大数据明显带来以下好处:




为进一步提升底层物理资源利用率,保证资源高可用,某客户评测了基于Cloudera Express5.3.3版本构建大数据集群,测试将集群各节点部署在虚拟化平台上的性能表现。通过搭建VMware虚拟化,将底层物理资源池化,按需提供虚拟机资源作为Hadoop集群计算节点,按照裸设备映射(RDM)、VMFS、vSAN三种不同数据存储方式分别进行测试。


图片



评测的模型一共有6种:

图片

 

为验证Hadoop大数据平台的功能、性能,如ETL数据抽取(包括结构化和非结构化数据导入导出)、分布式存储性能(HDFS吞吐能力),分布式计算性能(如MapReduce、Spark计算)。


经过各种模型测试比较分析,vSAN1副本,HDFS 3副本性能表现最好,即上述第三种部署方式。vSAN有SSD作为缓存层,相比RDM和VMFS 的方式能获得更好的读写性能;而随着副本数量增加,虽然有可靠性提升,但同时也带来了性能和容量的损失。所以在部署方案选择上建议兼顾应用的高可用、性能和有效容量,这个客户在评估过后最终通过vSAN构建统一基础架构平台,承载大数据业务,大数据节点部署和扩展效率明显提高80%,服务器的平均利用率提升4倍,构建统一软件架构,简化了管理。最后随着大数据和HCI采用快速发展,VMware将持续创新和优化vSAN,以进一步满足用户对大数据场景的需求。

 

图片


标签:部署,vSAN,Hadoop,基础架构,应用,数据,节点,支撑
来源: https://blog.51cto.com/u_15127585/2726686