大数据应用期末总评
作者:互联网
删除首行记录
生成txt文件
上传到hdfs中:
在hive中创建数据表并把hdfs的数据导入表中
使用hive进行数据分析:
查询总记录数(如图)由于以空行作为分隔符,因此实际数据量应当除以2,即16万。
搜索量最高的是?
选取“搜索量”列进行降序排序,并选取排名前十的数据建立数据透视表
从表中可以看出搜索量最高的是“刘恺威杨幂离婚”唯一一个搜索量突破2000万,其次是“鹿晗关晓彤”“李咏去世” “赵丽颖冯绍峰结婚”,有趣的是:微博热搜量排名前十的竟然有九个是明星事件,而且排名前五的事件竟有三条是明星恋情。据此,我们可以发现,微博用户最为关注的事件是“明星恋情”。
微博热搜搜索量和排名有怎样的关系?是否仅根据微博搜索量来决定排名?
从排名来看,十条记录中一条是排名第二,据此可以说明搜索量和排名呈正相关关系,但排名并非是完全由搜索量决定,或许还有其他因素。
查询排名前十记录:
按年份降序查询:
按年份升序查询:
因此该数据集是从2017年10月1日到2019年3月9日的数据,约为500天
查询当天最高排名为1的记录,约为7000条,根据计算
根据计算得出每天约有14条记录能够升到排名第一。
查询排名第一的记录并列出前十条:
查询排名小于3的记录,共1348条:
查询2018年2月5日的记录:
查询微博热搜内容包含春晚的记录:
按最高排名进行分组:
按最高排名进行分组并筛选数量大于4000的记录:
标签:搜索,前十,记录,查询,期末,应用,总评,排名,微博热 来源: https://www.cnblogs.com/huangjianke123/p/11037819.html