大数据实时计算框架简介
作者:互联网
一、实时计算,流式计算?
实时计算 == 流式计算
自来水厂就是一个典型的实时计算系统:
自来水厂可以简单的理解为由一个水泵(采集水源),多个蓄水池(处理水源:沉淀,过滤,消毒等步骤),管理员构成。
水泵负责不停的抽水(采集数据 Extract)(除非人为停止水泵,否则水泵会一直工作),各个蓄水池负责对水泵抽来的水进行层层处理(加工转换 Transform),最后一个蓄水池负责将干净的水放到指定位置存储(加载 Load),这一整个过程被称为实时计算。
二、离线计算和实时计算的区别?
-
离线计算是基于已经存在的数据进行计算。比如说根据过去一个月一年的订单来计算出哪些商品卖的好,哪些商品卖的不好,来进行商品推荐;根据过去十年的天气情况来进行天气预报。主要是对数据进行批量处理。 MapReduce 和 Spark Core 主要用于这方面。一般的流程:Sqoop 采集数据到 HDFS,MapReduce (Spar
标签:水泵,框架,简介,蓄水池,离线,实时,计算,自来水厂 来源: https://blog.csdn.net/bzxb1188/article/details/111403094