浅读Google大数据三篇论文有感
作者:互联网
这是我第一次接触专业的学术论文,对于我来说,未知领域太多。但看完后,还是被如今大数据时代的发展和进步所震撼。因为专业知识的限制,我只细看了关于Gft的那一篇。
Google File System简称GFS,是谷歌为了使存储海量数据所专门设计的文件系统——一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS将有别于传统的文件系统,精心设计的与当下时代相契合的处理系统。众所周知,二十一世纪注定是一个高速化、信息化、大数据时代,过去的那些传统数据处理及存储系统已然不能满足快速发展的社会需求,我们需要更大规模的集群数据处理系统,需要更灵活、更高性能的处理方式。
GFS储存系统由master和chunksrever组成,通过master对数据的对相关数据的分割与连接,大大提高了各单元chunksrever相互之间的信息传递,而这个数据结构最复杂的是master的管理,所以当master出现,GFS就会出现后备系统进行替换,保证管理层master正常运转,而文件的储存是以linux文件系统自己储存。当面对数以TB的数据集时,不再是采用管理数以亿个KB大小的小文件方式;同时将修改数据的方式变为在文件尾部追加数据而不是以往的覆盖原数据;放松对GFS一致性模型的要求,从而降低了文件系统对应用程序的高要求。由此可以看出,GFS无论从实用性、适用性、可操作性还是经济性等角度出发,都是大数据时代的一种进步。
其余的两篇只是大致的看了下,关于MapRedudce和BigTable.
MapRedudce是对GFS是对分割储存的数据进行利用,MapRedudce由Map和redudce组成,Map的功能类似与master是将GFS的进行映射,即是将数据进行连接并使之还原,在这时GFS储存数据的优势就体现出来了,即cpu可以对多个数据的同时处理,这样只要对cpu进行硬件上的优化和数据处理系统的优化,就可以从多方面对数据处理优化达到更好的效果。BigTable是对GFS和MapRedudce进一步分解与细化,即以一个GFS为单位,以GFS的数分解方法进行分解将数据进一步单元化,让数据的处理更加简单,易于计算机处理。
对于我来说,要读懂Google的这三篇论文中任意一篇都还有很远的距离。而大数据对我们的生活有很大的影响,我们应尽力去学习大数据去探索,去发现。
标签:储存,Google,有感,GFS,文件系统,master,浅读,MapRedudce,数据 来源: https://blog.csdn.net/qq_44938403/article/details/89384864