背景知识查阅
作者:互联网
PySpark Documentation: https://spark.apache.org/docs/latest/api/python/index.html
Beginner Tutorial: https://www.datacamp.com/community/tutorials/apache-spark-python
Tutorial Example: https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/ml/RandomForestClassifierExample.scala#L47
项目实例:https://zhuanlan.zhihu.com/p/52753778
学习建议:
我会把分布式计算的基础理论知识掌握好,把Java等语言掌握好。对于Hadoop,Spark,Flink等等,我只要知道它的原理(看它诞生的论文),知道它有什么用,适合用在什么场景,有什么优缺点,跑几个类HelloWorld程序等等,而不是花很多时间去学API。还有建立起整个大数据的知识框架(大数据基础理论,系统体系结构,存储,计算处理等等)
作者:Jack
链接:https://www.zhihu.com/question/56855021/answer/153480746
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
标签:www,查阅,背景,知识,python,https,apache,spark,com 来源: https://www.cnblogs.com/yobyob/p/14733635.html