其他分享
首页 > 其他分享> > 大数据实战(四十三):电商数仓(三十六)之用户行为数据仓库(二十二)用户行为数仓业务总结

大数据实战(四十三):电商数仓(三十六)之用户行为数据仓库(二十二)用户行为数仓业务总结

作者:互联网

1.1 数仓分几层?每层做什么的?

1)ODS层(原始数据层)

存储原始数据,直接加载原始日志、数据,数据保持原貌不做处理。

2)DWD层(明细层)

对ODS层数据进行清洗(去除空值、脏数据,超过极限范围的数据)

3)DWS层(服务数据层)

以DWD层为基础,进行轻度汇总。比如:用户当日、设备当日、商品当日。

4)ADS层(数据应用层)

1.2 Tez引擎优点

Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少,从而大大提升作业的计算性能。

1.3 项目中是否自定义过UDF、UDTF函数以及用他们处理了什么问题

自定义过。

用UDF函数解析公共字段;用UDTF函数解析事件字段。

1.4 如何分析用户活跃

在启动日志中统计不同设备id 出现次数。

1.5 如何分析用户新增

用活跃用户表 left join 用户新增表,用户新增表中mid为空的即为用户新增。

1.6 如何分析用户1天留存

留存用户=前一天新增 join 今天活跃

用户留存率=留存用户/前一天新增

1.7 如何分析沉默用户?

按照设备id对日活表分组,登录次数为1,且是在一周前登录。

1.8 如何分析本周回流户?

本周活跃left join本周新增 left join上周活跃,且本周新增id和上周活跃id都为null

1.9 如何分析流失用户?

按照设备id对日活表分组,且七天内没有登录过。

1.10 如何分析最近连续3周活跃用户

按照设备id对周活进行分组,统计次数等于3次。

1.11 如何分析最近七天内连续三天活跃用户数

1)查询出最近7天的活跃用户,并对用户活跃日期进行排名

2)计算用户活跃日期及排名之间的差值

3)对同用户及差值分组,统计差值个数

4)将差值相同个数大于等于3的数据取出,然后去重,即为连续3天及以上活跃的用户

1.12 整个文档中涉及的所有层级及表

 

 

标签:商数,数仓,join,新增,用户,活跃,数据,id
来源: https://www.cnblogs.com/qiu-hua/p/13543689.html