首页 > 其他分享> > 大数据初步学习

大数据初步学习

2019-09-25 11:00:26 作者：互联网

maven
　　先不说maven，也不说java开发，先说做菜，你可能像做个红烧小排(HongshaoxiaopaiApp)，你需要的材料是：

小排(xiaopai.jar)，要小猪的（version=little pig）。
酱油(jiangyou.jar)，要82年的酱油（version=1982）
盐(yan.jar)
糖(tang.jar)，糖要广东产的（version=guangdong）
生姜(shengjiang.jar)
茴香(huixiang.jar)

于是，你要去菜场买小排，去门口杂货店买酱油，买盐……可能你家门口的杂货店还没有1982年的酱油，你要去3公里外的农贸市场买……你买原材料的过程估计会很痛苦，可能买到的材料不是1982年的，会影响口感。

在你正式开始做小排前，你会为食材的事情，忙得半死。

现在有个超市出了个盒装版的半成品红烧小排，把生的小排，1982年的酱油，盐，广东产的糖等材料打包成一个盒子里，你回家只要按照说明，就能把红烧小排做出来，不用考虑材料的来源问题。

Maven就是那个超市，红烧小排就是你要开发的软件，酱油、盐什么的就是你开发软件要用到的jar包——我们知道，开发java系统，下载一堆jar包依赖是很正常的事情。有了maven，你不用去各个网站下载各种版本的jar包，也不用考虑这些jar包的依赖关系。Maven会给你搞定，就是超市的配菜师傅会帮你把红烧小排的配料配齐一样。
参考https://blog.csdn.net/qq_34107571/article/details/81907157

kafka架构
producer：生产者，就是生产馒头的
consumer：消费者，就是吃馒头的
broker：篮子
topic：主题，给馒头一个标签，topica的馒头给你吃，topicb的馒头给你弟弟吃
kafka API编程
　ｉｄｅａ＋ｍａｖｅｎ构建开发环境
　ｐｒｏｄｕｃｅｒ　ＡＰＩ的使用
　ｃｏｎｓｕｍｅｒ　ＡＰＩ的使用

ｓｐａｒｋ　ｓｔｒｅａｍｉｎｇ

将不同的数据源的数据经过ｓｐａｒｋ　ｓｔｒｅａｍｉｎｇ处理之后将结果输出到外部文件系统。
特点：低延时
　　　能从错误中高效的恢复过来：ｆａｕｌｔ　ｔｏｌｅｒａｎｔ
　　　能够运行在成百上千的节点上：ｈｉｇｈ　ｔｈｏｕｇｈｐｕｔ
　　　能够将批处理、机器学习、图计算等子框架和ｓｐａｒｋ　ｓｔｒｅａｍｉｎｇ综合起来使用

ｓｐａｒｋ　ｓｔｒｅａｍｉｎｇ　是否需要单独安装，不用，只用装到ｓｐａｒｋ就可以了
ｏｎｅ　ｓｔａｃｋ　ｔｏ　ｒｕｌｅ　ｔｈｅｍ　ａｌｌ：一站式

标签：馒头,学习,红烧,1982,酱油,jar,初步,数据,小排
来源： https://blog.csdn.net/Ni2cole/article/details/101350869