其他分享
首页 > 其他分享> > spark大佬总结

spark大佬总结

作者:互联网

Spark概述

Hadoop小剧场

Spark小剧场

什么是Spark

Spark内置模块

Spark与Hadoop比较

Spark运行模式

运行模式

端口号

运行架构

SparkCore

Spark三大数据结构

RDD

累加器

广播变量(调优策略)

Spark SQL

Spark SQL概述

SparkSQL编程

SparkSQL数据源

SparkSQL实战

SparkStreaming

Spark Streaming概述

DStream入门

背压机制

DStream创建

DStream转换

DStream输出

优雅关闭

Spark内核解析

1. Spark应用提交

2. Spark内部组件及通信

3. Spark作业的提交(调度)

4. 任务的执行

内存管理

总结

假如topic数据已经不均匀如何做呢?

周期性清除Spark Streaming流状态的方法 ?

要想进行相同数据归类到相同分区,肯定要有产生shuffle步骤 ==> 自定义分区器

Spark SQL用UDF实现按列特征重分区?

Adaptive Execution如何让Spark SQL更高效更好用?

并不是所有的谓词下推都是好的 也得看下推前 下推后是不是执行逻辑一致 否则结果不一致

spark是粗粒度的资源调用,当前运行的Application已经得到了运行所需要的全部资源 不会被外部影响

cache checkpoint 区别?

Spark 分析ES的数据,生成的RDD分区数跟什么有关系呢?

为啥spark 的broadcast要用单例模式?

WEB UI 页面中 有些现象不一定是数据倾斜 要看是不是一个stage

spark sql 还可读取xml配置文件

双亲委派机制

堆内 堆外的内存如何使用??

cache 指定副本数量的 2个?? 存储在哪?

distinct算子也是基于reducebykey实现的。

除了行动算子之外 还有什么算子能执行job?

算子类注意点

spark streaming+kafka不适合处理顺序性的消息?

Spark 失败重试与黑名单机制

Spark速度比MapReduce快,不仅是内存计算??

Spark shuffle 与 MapReduce shuffle 区别?

SparkSQL的3种Join实现?

共享变量

Spark中的OOM问题

SparkStreaming如何解决小文件问题 ?

谷歌论文 DataFlow

ShuffleManager发展概述

一条 SQL 在 Apache Spark 的执行流程?

Apache Spark 内存管理详解

背压机制

spark 消费Kafka

优化

常规性能调优

算子调优

数据倾斜

shuffle相关参数调优

面试

reducebykey,groupbykey的区别等等类似算子对比,如何高效使用mappartition,然后foreachPartition与foreach之间的区别及底层实现原理

来点猛料,广播变量的原理及演变过程,使用场景,使用广播变量一定划算吗?大变量咋办呢?Spark sreaming定期更新广播变量的实现

累加器的原理及应用场景,累加器使用有陷阱么

序列化,反序列化,闭包,垃圾回收机制(过期rdd的回收,cache的回收,shuffle数据回收等)

内存申请,kafka分区设置的依据是啥?

blockrdd和kafkardd的底层区别

广播变量的使用及释放机制等

动态分区发现和topic发现机制

XMind: ZEN - Trial Version

标签:总结,分区,RDD,内存,spark,大佬,数据,Spark
来源: https://www.cnblogs.com/wh984763176/p/16353402.html