其他分享
首页 > 其他分享> > 模型宽表搭建过程中遇到的问题——代码

模型宽表搭建过程中遇到的问题——代码

作者:互联网

进入画像部门之后,我前后为模型组同事拼接了20多张模型宽表,每张宽表的标签数量不等。小的在100个字段左右,取数的表二十个左右;大的超过一千个字段,取数的表超过50个。

业务方一般会提供给我们一个详细开的发文档,说明各个标签的英文名,中文备注,数据类型,和取数表,有时也有可能部分标签提供逻辑需要自己开发。

当我们收到开发文档后,千万不要急着去敲代码,不然你会掉进深渊,我们要做一下的工作。

1.检查各个标签在表中是否存在,检查标签的数据是否有值,和值得分布。具体方法,取一个分区,针对字符型标签group by一下看各个值得分布情况,针对数值型可以用percentile_approx检查一下分位数;

2.完成了上一个步骤的检查后,和业务沟通相关的问题:

3.架构,拆表。为了提供代码的执行效率,便于检查错误,便于修改代码,我们通常的将标签的取数拆分到多个不同的表中,然后再合在一起。

3.我们要开始拼接宽表了,但是这个时候我们还是不会用subline,或者notpad++去敲代码,这个时候最有用的工具是Excel。

标签:标签,代码,id,表中,数表,宽表,搭建
来源: https://blog.csdn.net/qq_41945142/article/details/95007485