大数据系列之三:大数据体系架构的重要里程碑
作者:互联网
欧凯惯例:引子
世界上唯一不变的就是变化,大数据的架构也不例外。
这次变化的推动者,多是一些大的商业公司!
首发地址
---
Teradata 美国天睿
Teradata
这家公司其实挺陌生的,但这并不能让我们忽视其在大数据方面做出的贡献。简单一句描述这家公司的贡献就是:
2008年之前,这家公司以
关系型
为基础,硬刚大数据,之后意识到数据实在太大大复杂了,终究实现了对非关系型数据的支持。
具体它拿关系型作为对大数据的解决方案硬刚到什么程度呢?拿一个数据说来说明白了,直到2017年,它可以基于其关系型解决方案处理50PB级别的数据。(当然50PB在现在的大数据框架中都是毛毛雨了,不过这也从侧面反应出它对自己产品的自信与不舍)
LexisNexis
2000
年,这家公司用C++开发了一个分布式文件共享及数据存储查询框架,它可以在节点间处理结构化,半结构化和非结构化数据。2004
年,它收购了Seisint
,又在2008
年收购了ChoicePoint
,然后它基于二者的产品在2011
年融合成了HPCC
系统。HPCC是高性能计算集群
的简称。还不错,HPCC是开源的。
其实在这里,我们就可以看到当下主流的大数据处理框架的雏形了,所以这家公司在大数据处理方面的贡献是很大的,这也得意于其管理者的眼光,通过买买买的策略实现技术的融合,推动时代的进步。
不值一提的欧洲核组织
CERN
是欧洲核子研究组织
,这里为什么要提到CERN呢?因为它和其它的一些物理实现组织在几十年内积累了大量的数据,而且这些数据相当的精密,随着计算机的发展,它们自然而然的选择了以超级计算机作为这些数据的处理工具。这里反应了大数据的一个侧面,即,假如数据非常精密且内部关系十分紧密,使用分布式并行处理可能并不方便,那只不能求助于超级计算机了,毕竟超级计算机『一个顶俩』。
牛逼哄哄的Google
曾经丰田的广告那叫一个牛逼啊『车到山前必有路,有路必有丰田车』,现在,谷歌在互联网办就是这般存在,而且是完全有过之。
2004年,谷歌发布了类似于HPCC的MapReduce,它提出了一个并行处理模型并成功发布了基于此的大数据处理工具。MapReduce包含两个阶段:
- Map阶段:将数据的查询进行拆分,然后将子查询分散到各个结点,各个结点并行处理各自的查询。
- Reduce阶段:收集并行结点的相关结果然后再次进行分发。
这种设计相当成功,所以后来Apache基于MapReduce框架创建了Hadoop这个开源项目。
2012年,Apache又创建了Spark项目,该项目旨在解决MapReduce中Map阶段后只能跟随Reduce阶段的局限,即可以按需配置多个操作。
大数据处理平台的6C共识
- Connection(连接:传感器和网络传输)
- Cloud(云:计算和数据点播)
- Cyber(网络:模型与存储)
- Content/Context(内容与背景:意义与内在关系)
- Community(社区:分享与协作)
- Customization(定制:个性化与价值)
欧凯惯例:小结
很明显,大数据技术的革新是需求驱动的,而主力就是当代的有实力的技术公司,这里不得不在点名一个谷歌,是真强啊。
标签:架构,之三,超级计算机,MapReduce,HPCC,数据处理,数据,这家 来源: https://www.cnblogs.com/ok-ai/p/10421288.html