首页 > 其他分享> > 7.分布式计算平台Spark：Streaming

7.分布式计算平台Spark：Streaming

2021-03-20 22:32:27 作者：互联网

分布式计算平台Spark：Streaming

一、重点

离线案例
- 工作中开发代码流程或者方式
- SparkCore + SparkSQL：熟悉代码开发
  - DSL：when（条件，成立的返回值）.otherwise（不成立的返回值）
  - SQL：with 别名 as (SQL) select * from 别名
- 工具类补充：配置文件解析、IP解析工具类
流式计算的介绍
- 目的：实现实时数据流的处理，构建实时应用
  - 实时数据分析
  - 实时推荐系统
  - 实时风控系统
  - 实时物联网系统……
- 保证：整个过程都是实时的
  - 数据生成
  - 数据采集：Flume
  - 数据存储：Kafka、HBASE、Redis
  - 数据计算：SparkStreaming、Flink
- 分类
  - 真实时计算：以数据为单位，每产生一条，就实时计算一条数据
    - Spark StructStreaming【实验阶段】、Flink
  - 准实时计算：以微小批处理时间来模拟实时计算，效果类型
    - 每200ms处理一次数据
    - SparkStreaming
问题
- 对封装方法不熟悉：不知道参数、

标签：分布式计算,实时,SparkStreaming,Streaming,计算,Spark,数据
来源： https://blog.csdn.net/qq_33471681/article/details/115036001