2021 泰迪杯 A 题思路
作者:互联网
问题一
筛选重要指标,本质上是一个数据降维问题。首先应该考虑指标与指标间的相关性,据此筛选;其二考虑指标对 FLAG 的决定性,据此筛选。前者本文用了偏相关分析、后者本文结合决策树模型,进行递归删除特征,并比较删除前后模型效果是否降低,来考虑时候确认或回滚删除操作。
问题一需要注意,在使用递归删除特征时,训练决策树时,样本的类别不均衡问题。难点在于对数据的预处理,不单单要宏观地扫一眼,而且要细致去发现。
问题二
求制造业内,第六年(发布数据应是第七年)造假的企业。如何分析呢?机器学习、深度学习皆可。
问题二的难点在于如何写得出彩。神经网络人人会,就看你怎么玩出花样。根据“没有午餐定则”嘛,大家可以在模型的超参数,和模型选择上下功夫,多说多写。本文用的网格寻优+交叉验证,筛选模型、超参数。
不过写太多,好像也有秀技术之嫌。
问题三
这个问题看上去跟问题三很像,但区别在于,制造业的数据量大,可以分析。而问题三行业多、数据却少。对于那些数据量多的行业,大可使用问题二的方法分析。但数据量小的,可以考虑用聚类合并,再用第二问的方法。
这题难点在于编程吧,感觉问题二写得太麻烦,问题三就够你受的。给一点建议就是:照着题目顺序做,先仅对制造业分析,再修改成 for 循环。
其实问题一也一样,最好不要一口吃一个大胖子,我就因为想一锅端,结果把自己给绕进去了。编程写作双输。
另外,聚类如何聚类,也有学问。比如聚类时,要不要考虑那些 FLAG 为 NaN(尚未知晓其造假否)的数据?用什么样的聚类方法?用什么样的超参数?都需要你去回答。
这里基于时间原因,写得比较简。同时,要分析那些数据量较少的行业。因为有些行业数据少到你连决定指标都没办法筛选…
而且,即便聚类了,也会因为聚类后全是没有造假的,导致无法训练机器学习模型了。这时候,不要慌,看那些 FLAG 为 NAN 的,他们的数量其实不多(3个)。再加上聚类本身是物以类聚,聚在一起的那些货都没造假。你都跟他们在一起了,即便不知道你造假了没,也可以认为你大概率没造假的嘛。
文档
https://blog.csdn.net/weixin_42141390/article/details/116545070
标签:泰迪杯,造假,模型,问题,2021,数据量,聚类,思路,筛选 来源: https://blog.csdn.net/weixin_42141390/article/details/116423465