spark left join 和 right join 的坑
作者:互联网
前言
本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见 Spark异常问题汇总
问题描述
在开发 Spark SQL 的时候,遇到了一个问题
一个小表 3G 左右, 然后需要 left join 两个大表,一个150G 左右,一个 80G 左右。
- 发现没办法 left join 的时候广播左表;
- 尝试使用 right join ,广播右表,发现物理执行计划没生效。
问题定位
Spark SQL 在进行数据关联的时候,不能广播基表
。
也就是left join 只能广播右表,right join 只能广播左表。
问题解决
先利用广播做 inner join,生成两个小表; 然后在用原始小表 left join 这两个新生成的小表,完成最终结果数据产出。
任务从接近2小时,降低到了1 min 左右。
标签:right,join,小表,广播,spark,Spark,left 来源: https://blog.csdn.net/Shockang/article/details/119063705