其他分享
首页 > 其他分享> > 天池 金融风控 Test-1

天池 金融风控 Test-1

作者:互联网

广工大数协-------数据分析及预测大赛

赛题:以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl

比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction

主要知识点:

AUC 和Roc知识点如以下链接  

ROC曲线将真正例率和假正例率作为横纵轴
K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。

一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。

参考链接:如何理解机器学习和统计中的AUC? - 无涯的回答 - 知乎 https://www.zhihu.com/question/39840928/answer/241440370

 

赛题流程:

直接利用pandas读取链接数据

标签:例率,万条,模型,风控,KS,https,Test,天池,com
来源: https://blog.csdn.net/joker__JA/article/details/116033578