spark学习路线
作者:互联网
尚硅谷大数据Spark教程从入门到精通
001.尚硅谷_Spark框架 - 简介
002.尚硅谷_Spark框架 - Vs Hadoop
003.尚硅谷_Spark框架 - 核心模块 - 介绍
004.尚硅谷_Spark框架 - 快速上手 - 开发环境准备
005.尚硅谷_Spark框架 - 快速上手 - WordCount - 案例分析
006.尚硅谷_Spark框架 - 快速上手 - WordCount - Spark环境
007.尚硅谷_Spark框架 - 快速上手 - WordCount - 功能实现
008.尚硅谷_Spark框架 - 快速上手 - WordCount - 不同的实现
009.尚硅谷_Spark框架 - 快速上手 - WordCount - Spark的实现
010.尚硅谷_Spark框架 - 快速上手 - WordCount - 日志和错误
011.尚硅谷_Spark框架 - 运行环境 - 本地环境 - 基本配置和操作
012.尚硅谷_Spark框架 - 运行环境 - 本地环境 - 提交应用程序
013.尚硅谷_Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作
014.尚硅谷_Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析
015.尚硅谷_Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务
016.尚硅谷_Spark框架 - 运行环境 - 独立部署环境 - 配置高可用
017.尚硅谷_Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务
018.尚硅谷_Spark框架 - 运行环境 - Windows环境 & 总结
019.尚硅谷_Spark框架 - 核心组件 - 介绍
020.尚硅谷_Spark框架 - 核心概念 - Executor & Core & 并行度
021.尚硅谷_Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式
022.尚硅谷_SparkCore - 分布式计算模拟 - 搭建基础的架子
023.尚硅谷_SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务
024.尚硅谷_SparkCore - 分布式计算模拟 - 数据结构和分布式计算
025.尚硅谷_SparkCore - 核心编程 - RDD - 概念介绍
026.尚硅谷_SparkCore - 核心编程 - RDD - IO基本实现原理 - 1
027.尚硅谷_SparkCore - 核心编程 - RDD - IO基本实现原理 - 2
028.尚硅谷_SparkCore - 核心编程 - RDD - RDD和IO之间的关系
029.尚硅谷_SparkCore - 核心编程 - RDD - 特点
030.尚硅谷_SparkCore - 核心编程 - RDD - 五大主要配置
031.尚硅谷_SparkCore - 核心编程 - RDD - 执行原理
032.尚硅谷_SparkCore - 核心编程 - RDD - 创建 - 内存
033.尚硅谷_SparkCore - 核心编程 - RDD - 创建 - 文件
034.尚硅谷_SparkCore - 核心编程 - RDD - 创建 - 文件1
035.尚硅谷_SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定
036.尚硅谷_SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配
037.尚硅谷_SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定
038.尚硅谷_SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配
039.尚硅谷_SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析
040.尚硅谷_SparkCore - 核心编程 - RDD - 算子介绍
041.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - map
042.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能
043.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示
044.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions
045.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习
046.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要
047.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex
048.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - flatMap
049.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习
050.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - glom
051.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义
052.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - groupBy
053.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭
054.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习
055.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜
056.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽
057.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - distinct
058.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - coalesce
059.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - repartition
060.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - sortBy
061.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链
062.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项
063.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - partitionBy(前面有吸气,中间有等待)
064.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题
065.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey
066.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - groupByKey
067.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别
068.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey
069.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解
070.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - foldByKey
071.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习
072.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解
073.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - combineByKey
074.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别
075.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - join
076.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin
077.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - cogroup
078.尚硅谷_SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析
079.尚硅谷_SparkCore - 核心编程 - RDD - 案例实操 - 需求设计
080.尚硅谷_SparkCore - 核心编程 - RDD - 案例实操 - 功能实现
081.尚硅谷_SparkCore - 核心编程 - RDD - 行动算子 - 介绍
082.尚硅谷_SparkCore - 核心编程 - RDD - 行动算子 - 算子演示
083.尚硅谷_SparkCore - 核心编程 - RDD - 行动算子 - aggregate
084.尚硅谷_SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue
085.尚硅谷_SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)
086.尚硅谷_SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)
087.尚硅谷_SparkCore - 核心编程 - RDD - 行动算子 - save的方法
088.尚硅谷_SparkCore - 核心编程 - RDD - 行动算子 - foreach
089.尚硅谷_SparkCore - 核心编程 - RDD - 序列化 - 闭包检测
090.尚硅谷_SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题
091.尚硅谷_SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍
092.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍
093.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示
094.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖
095.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了
096.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读
097.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读
098.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类
099.尚硅谷_SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示
100.尚硅谷_SparkCore - 核心编程 - RDD - 持久化 - 作用
101.尚硅谷_SparkCore - 核心编程 - RDD - 持久化 - 检查点
102.尚硅谷_SparkCore - 核心编程 - RDD - 持久化 - 区别
103.尚硅谷_SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则
104.尚硅谷_SparkCore - 核心编程 - RDD - 文件读取与保存
105.尚硅谷_SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示
106.尚硅谷_SparkCore - 核心编程 - 数据结构 -累加器 - 问题
107.尚硅谷_SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现
108.尚硅谷_SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1
109.尚硅谷_SparkCore - 核心编程 - 数据结构 - 广播变量
110.尚硅谷_SparkCore - 案例实操 - 数据准备 & 数据说明
111.尚硅谷_SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理
112.尚硅谷_SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击,下单,支付的数量
113.尚硅谷_SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击,下单,支付的数量
114.尚硅谷_SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式
115.尚硅谷_SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式
116.尚硅谷_SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式
117.尚硅谷_SparkCore - 案例实操 - 需求二 - 功能实现
118.尚硅谷_SparkCore - 案例实操 - 需求三 - 需求介绍
119.尚硅谷_SparkCore - 案例实操 - 需求三 - 需求分析 - 图解
120.尚硅谷_SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算
121.尚硅谷_SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率
122.尚硅谷_SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求
123.尚硅谷_SparkCore - 工程化代码 - 架构模式 - 三层架构介绍
124.尚硅谷_SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现
125.尚硅谷_SparkCore - 工程化代码 - 架构模式 - 架构代码优化
126.尚硅谷_SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释
127.尚硅谷_SparkCore - 总结 - 课件梳理
128.尚硅谷_Spark内核 & 源码 - 总体介绍
129.尚硅谷_Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点
130.尚硅谷_Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用
131.尚硅谷_Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster
132.尚硅谷_Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程
133.尚硅谷_Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程
134.尚硅谷_Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象
135.尚硅谷_Spark内核 & 源码 - 环境准备 - 流程梳理
136.尚硅谷_Spark内核 & 源码 - 通信环境 - 通信原理
137.尚硅谷_Spark内核 & 源码 - 通信环境 - 通信组件
138.尚硅谷_Spark内核 & 源码 - 通信环境 - 课件梳理
139.尚硅谷_Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext
140.尚硅谷_Spark内核 & 源码 - 应用程序执行 - RDD依赖关系
141.尚硅谷_Spark内核 & 源码 - 应用程序执行 - 阶段的划分
142.尚硅谷_Spark内核 & 源码 - 应用程序执行 - 任务的切分
143.尚硅谷_Spark内核 & 源码 - 应用程序执行 - 任务的调度
144.尚硅谷_Spark内核 & 源码 - 应用程序执行 - 任务的执行
145.尚硅谷_Spark内核 & 源码 - 应用程序执行 - 课件梳理
146.尚硅谷_Spark内核 & 源码 - shuffle - 原理回顾
147.尚硅谷_Spark内核 & 源码 - shuffle - 图解
148.尚硅谷_Spark内核 & 源码 - shuffle - 实现过程
149.尚硅谷_Spark内核 & 源码 - shuffle - 写流程源码解读
150.尚硅谷_Spark内核 & 源码 - shuffle - 归并排序和读流程
151.尚硅谷_Spark内核 & 源码 - shuffle - 课件梳理
152.尚硅谷_Spark内核 & 源码 - 内存管理
153.尚硅谷_SparkSQL - 介绍
154.尚硅谷_SparkSQL - 特点
155.尚硅谷_SparkSQL - 数据模型 - DataFrame & DataSet
156.尚硅谷_SparkSQL - 核心编程 - DataFrame - 简单演示
157.尚硅谷_SparkSQL - 核心编程 - DataFrame - SQL的基本使用
158.尚硅谷_SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用
159.尚硅谷_SparkSQL - 核心编程 - DataFrame - RDD之间的转换
160.尚硅谷_SparkSQL - 核心编程 - DataSet - 介绍
161.尚硅谷_SparkSQL - 核心编程 - DataSet - DataFrame的转换
162.尚硅谷_SparkSQL - 核心编程 - DataSet - RDD的转换
163.尚硅谷_SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系
164.尚硅谷_SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象
165.尚硅谷_SparkSQL - 核心编程 - IDEA - DataFrame基本操作
166.尚硅谷_SparkSQL - 核心编程 - IDEA - DataSet基本操作
167.尚硅谷_SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换
168.尚硅谷_SparkSQL - 核心编程 - IDEA - UDF函数
169.尚硅谷_SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理
170.尚硅谷_SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现
171.尚硅谷_SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现
172.尚硅谷_SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现
173.尚硅谷_SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理
174.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - 通用方法
175.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV
176.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL
177.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive
178.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive
179.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive
180.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive
181.尚硅谷_SparkSQL - 案例实操 - 数据准备
182.尚硅谷_SparkSQL - 案例实操 - 需求部分实现
183.尚硅谷_SparkSQL - 案例实操 - 需求完整实现
184.尚硅谷_SparkSQL - 总结 - 课件梳理
185.尚硅谷_SparkStreaming - 概念 - 介绍
186.尚硅谷_SparkStreaming - 概念 - 原理 & 特点
187.尚硅谷_SparkStreaming - 入门 - WordCount - 实现
188.尚硅谷_SparkStreaming - 入门 - WordCount - 解析
189.尚硅谷_SparkStreaming - DStream创建 - Queue
190.尚硅谷_SparkStreaming - DStream创建 - 自定义数据采集器
191.尚硅谷_SparkStreaming - DStream创建 - Socket数据采集器源码解读
192.尚硅谷_SparkStreaming - DStream创建 - Kafka数据源
193.尚硅谷_SparkStreaming - DStream转换 - 状态操作
194.尚硅谷_SparkStreaming - DStream转换 - 无状态操作 - transform
195.尚硅谷_SparkStreaming - DStream转换 - 无状态操作 - join
196.尚硅谷_SparkStreaming - DStream转换 - 有状态操作 - window
197.尚硅谷_SparkStreaming - DStream转换 - 有状态操作 - window - 补充
198.尚硅谷_SparkStreaming - DStream输出
199.尚硅谷_SparkStreaming - 优雅地关闭
200.尚硅谷_SparkStreaming - 优雅地关闭 - 恢复数据
201.尚硅谷_SparkStreaming - 案例实操 - 环境和数据准备
202.尚硅谷_SparkStreaming - 案例实操 - 需求一 - 分析
203.尚硅谷_SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断
204.尚硅谷_SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新
205.尚硅谷_SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化
206.尚硅谷_SparkStreaming - 案例实操 - 需求二 - 功能实现
207.尚硅谷_SparkStreaming - 案例实操 - 需求二 - 乱码问题
208.尚硅谷_SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现
209.尚硅谷_SparkStreaming - 案例实操 - 需求三 - 效果演示
210.尚硅谷_SparkStreaming - 总结 - 课件梳理
大数据Spark3.0调优,Spark3.x性能优化
包括资源配置调优、SparkSQL语法调优、执行计划解读、数据倾斜问题解决、Job优化、Spark3.0新特性详解。
01-课程简介
02_执行计划_准备测试数据和表
03_执行计划_执行流程&案例实操解读
04-资源规划-资源设定上限估算
05-资源规划-精确内存估算
06-资源规划-精确调整内存各比例
07-缓存调优-RDD-进行cache
08-缓存调优-RDD-cache结合kryo序列化
09-缓存调优-DS-cache和序列化
10-CPU调优-合理利用CPU资源
11-语法优化-RBO-inner join的谓词下推
12-语法优化-RBO-外关联的谓词下推
13-语法优化-RBO-列裁剪&常量替换
14-语法优化-CBO-Statics统计&CBO使用效果
15-语法优化-广播Join
16-语法优化-Join-SMB Join原理
17-语法优化-Join-SMB Join效果演示
18-数据倾斜-现象&原因&抽样定位大key
19-数据倾斜-单表数据倾斜处理
20-数据倾斜-Join-使用广播Join
21-数据倾斜-Join-拆分key 打散大表 扩容小表
22-Map端优化-使用Map端预聚合
23-Map端优化-读取小文件优化
24-Map端优化-调大ShuffleWrite溢写时的输出流缓冲&源码分析
25-Reduce端优化-输出产生小文件优化-调整并行度&缩小分区
26-Reduce端优化-动态分区插入小文件优化
27-Reduce端优化-提高Reduce端缓冲区&重试次数&重试等待间隔
28-Reduce端优化-合理使用bypass
29-Job优化-调节数据本地化等待时间
30-Job优化-堆外内存的版本区别
31-Job优化-使用堆外缓存
32-Job优化-调整连接等待时长
33-Spark3.0-AQE-动态合并分区&动态申请资源
34-Spark3.0-AQE-动态切换Join策略
35-Spark3.0-AQE-自动优化join倾斜
36-Spark3.0-DPP-动态分区裁剪
37-Spark3.0-Hint增强
38-常见故障思路简析
标签:学习,编程,核心,SparkCore,路线,RDD,spark,硅谷,Spark 来源: https://www.cnblogs.com/lsyhahaha/p/16098833.html