首页 > 其他分享> > 2021 泰迪杯 A 题思路

2021 泰迪杯 A 题思路

2021-05-09 15:34:45 作者：互联网

问题一

筛选重要指标，本质上是一个数据降维问题。首先应该考虑指标与指标间的相关性，据此筛选；其二考虑指标对 FLAG 的决定性，据此筛选。前者本文用了偏相关分析、后者本文结合决策树模型，进行递归删除特征，并比较删除前后模型效果是否降低，来考虑时候确认或回滚删除操作。

问题一需要注意，在使用递归删除特征时，训练决策树时，样本的类别不均衡问题。难点在于对数据的预处理，不单单要宏观地扫一眼，而且要细致去发现。

求制造业内，第六年（发布数据应是第七年）造假的企业。如何分析呢？机器学习、深度学习皆可。

问题二的难点在于如何写得出彩。神经网络人人会，就看你怎么玩出花样。根据“没有午餐定则”嘛，大家可以在模型的超参数，和模型选择上下功夫，多说多写。本文用的网格寻优+交叉验证，筛选模型、超参数。

不过写太多，好像也有秀技术之嫌。

这个问题看上去跟问题三很像，但区别在于，制造业的数据量大，可以分析。而问题三行业多、数据却少。对于那些数据量多的行业，大可使用问题二的方法分析。但数据量小的，可以考虑用聚类合并，再用第二问的方法。

这题难点在于编程吧，感觉问题二写得太麻烦，问题三就够你受的。给一点建议就是：照着题目顺序做，先仅对制造业分析，再修改成 for 循环。

其实问题一也一样，最好不要一口吃一个大胖子，我就因为想一锅端，结果把自己给绕进去了。编程写作双输。

另外，聚类如何聚类，也有学问。比如聚类时，要不要考虑那些 FLAG 为 NaN（尚未知晓其造假否）的数据？用什么样的聚类方法？用什么样的超参数？都需要你去回答。

这里基于时间原因，写得比较简。同时，要分析那些数据量较少的行业。因为有些行业数据少到你连决定指标都没办法筛选…

而且，即便聚类了，也会因为聚类后全是没有造假的，导致无法训练机器学习模型了。这时候，不要慌，看那些 FLAG 为 NAN 的，他们的数量其实不多（3个）。再加上聚类本身是物以类聚，聚在一起的那些货都没造假。你都跟他们在一起了，即便不知道你造假了没，也可以认为你大概率没造假的嘛。

标签：泰迪杯,造假,模型,问题,2021,数据量,聚类,思路,筛选
来源： https://blog.csdn.net/weixin_42141390/article/details/116423465