其他分享
首页 > 其他分享> > 大数据初步学习

大数据初步学习

作者:互联网

maven
  先不说maven,也不说java开发,先说做菜,你可能像做个红烧小排(HongshaoxiaopaiApp),你需要的材料是:

小排(xiaopai.jar),要小猪的(version=little pig)。
酱油(jiangyou.jar),要82年的酱油(version=1982)
盐(yan.jar)
糖(tang.jar),糖要广东产的(version=guangdong)
生姜(shengjiang.jar)
茴香(huixiang.jar)

于是,你要去菜场买小排,去门口杂货店买酱油,买盐……可能你家门口的杂货店还没有1982年的酱油,你要去3公里外的农贸市场买……你买原材料的过程估计会很痛苦,可能买到的材料不是1982年的,会影响口感。

在你正式开始做小排前,你会为食材的事情,忙得半死。

现在有个超市出了个盒装版的半成品红烧小排,把生的小排,1982年的酱油,盐,广东产的糖等材料打包成一个盒子里,你回家只要按照说明,就能把红烧小排做出来,不用考虑材料的来源问题。

Maven就是那个超市,红烧小排就是你要开发的软件,酱油、盐什么的就是你开发软件要用到的jar包——我们知道,开发java系统,下载一堆jar包依赖是很正常的事情。有了maven,你不用去各个网站下载各种版本的jar包,也不用考虑这些jar包的依赖关系。Maven会给你搞定,就是超市的配菜师傅会帮你把红烧小排的配料配齐一样。
参考https://blog.csdn.net/qq_34107571/article/details/81907157

kafka架构
producer:生产者,就是生产馒头的
consumer:消费者,就是吃馒头的
broker:篮子
topic:主题,给馒头一个标签,topica的馒头给你吃,topicb的馒头给你弟弟吃
kafka API编程
 idea+maven构建开发环境
 producer API的使用
 consumer API的使用

spark streaming

将不同的数据源的数据经过spark streaming处理之后将结果输出到外部文件系统。
特点:低延时
   能从错误中高效的恢复过来:fault tolerant
   能够运行在成百上千的节点上:high thoughput
   能够将批处理、机器学习、图计算等子框架和spark streaming综合起来使用

spark streaming 是否需要单独安装,不用,只用装到spark就可以了
one stack to rule them all:一站式

标签:馒头,学习,红烧,1982,酱油,jar,初步,数据,小排
来源: https://blog.csdn.net/Ni2cole/article/details/101350869