大数据初步学习
作者:互联网
maven
先不说maven,也不说java开发,先说做菜,你可能像做个红烧小排(HongshaoxiaopaiApp),你需要的材料是:
小排(xiaopai.jar),要小猪的(version=little pig)。
酱油(jiangyou.jar),要82年的酱油(version=1982)
盐(yan.jar)
糖(tang.jar),糖要广东产的(version=guangdong)
生姜(shengjiang.jar)
茴香(huixiang.jar)
于是,你要去菜场买小排,去门口杂货店买酱油,买盐……可能你家门口的杂货店还没有1982年的酱油,你要去3公里外的农贸市场买……你买原材料的过程估计会很痛苦,可能买到的材料不是1982年的,会影响口感。
在你正式开始做小排前,你会为食材的事情,忙得半死。
现在有个超市出了个盒装版的半成品红烧小排,把生的小排,1982年的酱油,盐,广东产的糖等材料打包成一个盒子里,你回家只要按照说明,就能把红烧小排做出来,不用考虑材料的来源问题。
Maven就是那个超市,红烧小排就是你要开发的软件,酱油、盐什么的就是你开发软件要用到的jar包——我们知道,开发java系统,下载一堆jar包依赖是很正常的事情。有了maven,你不用去各个网站下载各种版本的jar包,也不用考虑这些jar包的依赖关系。Maven会给你搞定,就是超市的配菜师傅会帮你把红烧小排的配料配齐一样。
参考https://blog.csdn.net/qq_34107571/article/details/81907157
kafka架构
producer:生产者,就是生产馒头的
consumer:消费者,就是吃馒头的
broker:篮子
topic:主题,给馒头一个标签,topica的馒头给你吃,topicb的馒头给你弟弟吃
kafka API编程
idea+maven构建开发环境
producer API的使用
consumer API的使用
spark streaming
将不同的数据源的数据经过spark streaming处理之后将结果输出到外部文件系统。
特点:低延时
能从错误中高效的恢复过来:fault tolerant
能够运行在成百上千的节点上:high thoughput
能够将批处理、机器学习、图计算等子框架和spark streaming综合起来使用
spark streaming 是否需要单独安装,不用,只用装到spark就可以了
one stack to rule them all:一站式
标签:馒头,学习,红烧,1982,酱油,jar,初步,数据,小排 来源: https://blog.csdn.net/Ni2cole/article/details/101350869