天池 金融风控 Test-1
作者:互联网
广工大数协-------数据分析及预测大赛
赛题:以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。
项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl
比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction
主要知识点:
AUC 和Roc知识点如以下链接
ROC曲线将真正例率和假正例率作为横纵轴
K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。
一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。
参考链接:如何理解机器学习和统计中的AUC? - 无涯的回答 - 知乎 https://www.zhihu.com/question/39840928/answer/241440370
赛题流程:
直接利用pandas读取链接数据
标签:例率,万条,模型,风控,KS,https,Test,天池,com 来源: https://blog.csdn.net/joker__JA/article/details/116033578