其他分享
首页 > 其他分享> > 大数据批流处理方案分析

大数据批流处理方案分析

作者:互联网

一 Lambda架构与Kappa架构

本章节内容大量摘自:https://docherish.com/post/da-shu-ju-chang-yong-de-jia-gou-lambda-he-kappa/

1.1 Lambda架构

在这里插入图片描述

Lambda架构基本介绍:

Lambda架构的核心思想:

数据从底层的数据源开始,经过各种各样的格式进入大数据平台,在大数据平台中经过Kafka、Flume等数据组件进行收集,然后分成两条线进行计算。一条线是进入流式计算平台(例如 Storm、Flink或者Spark Streaming),去计算实时的一些指标;另一条线进入批量数据处理离线计算平台(例如Mapreduce、Hive,Spark SQL),去计算T+1的相关业务指标,这些指标需要隔日才能看见。

Lambda架构优缺点分分析:

Lambda架构经历多年的发展,其优点是稳定,对于实时计算部分的计算成本可控,批量处理可以用晚上的时间来整体批量计算,这样把实时计算和离线计算高峰分开,这种架构支撑了数据行业的早期发展,但是它也有一些致命缺点,并在大数据3.0时代越来越不适应数据分析业务的需求。

缺点如下:

1.2 Kappa架构

在这里插入图片描述

Kappa架构基本介绍:

二 数据场景特点分析

在目前广告召回的实际场景中,大致可与从两个特征维度来描述一个数据场景:数据总量和更新频率。

在这里插入图片描述

各数据全量更新场景适用技术分析如下

在这里插入图片描述

综上可以得到初步结论:

三 未来技术规划

考虑到在线机器资源利用率和服务稳定性是平台化建设最重要的保障目标,基本确定系统未来以Lambda架构为主体。同时,为了解决在故障止损/恢复和不可拆分的大数据频繁切换场景下系统的稳定性和可靠性,也将提供类Kappa架构的全量更新模式。
在这里插入图片描述

标签:方案,Kappa,批流,离线,处理,计算,架构,数据,Lambda
来源: https://blog.csdn.net/mktyou1/article/details/121013354