学习_011_Hive在大数据分析和大数据仓库中应用实战&玩转大数据之Hive应用实战
作者:互联网
课程说明
项 | 内容 |
---|---|
课程类型 | 视屏教程 |
内容类型 | Hive |
课程名称 | Hive在大数据分析和大数据仓库中应用实战 / 玩转大数据之Hive应用实战 |
地址 | https://edu.csdn.net/course/detail/25043 / https://edu.csdn.net/course/detail/8350 |
分钟 | 900 + 600 |
费用 | 199 + 39 |
学习心得
原本要先学习 【Hive在大数据分析和大数据仓库中应用实战】的
但原本60元的课程突然涨到200块,有些犹豫
于是过了一遍目录
主要内容一共六章,其中三张讲的都是部署,是运维的工作,对数据处理任务开发没有多少帮助,略过
一章讲的是Hive的元数据、DML和DDL的内容,没有太多新意,前面已经学过
一章讲的是实战操作,即基于具体项目直播写代码,对我帮助不大
最后一章讲的是数据仓库的内容,还有点意思,但主要讲的还是数仓概念,如是什么,做什么,大概组成等,干货太少
基于价格和内容的考虑,投入产出比太低,所以本课程略过
基于同样的考虑,看下一课【玩转大数据之Hive应用实战】
39元的价格,主要内容有六章,没有配置,上来就将应用
一章概述,一章DDL操作,一章DML操作,都是基本内容
一章hvie的join说明,这个有些特别,因为Hive的数据处理任务join是最耗时的,处理不好测试任务的时间估计都要一天
不过当前有spark,不需要继续使用Hive自带的MapReduce,速度会快很多,别作死不会有太大问题
要点就是减少关联前的数据量,能筛选的先筛选掉,然后再关联,能用中间表尽量用中间表
一章是Hive函数与UDF的使用说明
Hive函数百度即可
UDF函数有java和Python两种,java的麻烦些,可以处理很复杂的问题,Python简单,绝大多数情况下都够用,真到了PythonUDF处理不了的时候,也别写函数了
最后一章是JDBC编程和Hive常用调优
JDBC编程是通过Hive直接连接MYSQL之类的数据库,Hadoop生态圈有太多同步数据的工具,一般情况下用不到
Hive的调优直接百度,有太多资料,如https://www.iteye.com/blog/daizj-2289981
综上所述,以上两个课程不再学习,一是钱的问题,二是内容真的不咋地。虽然知识无价,但钱是有限的
标签:实战,一章,数据仓库,Hive,课程,内容 来源: https://blog.csdn.net/weixin_42258472/article/details/101155047