金融风控训练营训练营之赛题理解学习笔记
作者:互联网
本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampfr?spm=5176.21206736.J_6684360830.26.14d8148cSWgzfo
一、学习知识点概要
1.1 学习目标
理解赛题数据和目标,清楚评分体系。
1.2 了解赛题
- 赛题概况
- 赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。
- 数据概况
- 一般而言,对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征。
- 预测指标
- 竞赛采用AUC作为评价指标。AUC(Area Under Curve)被定义为 ROC曲线 下与坐标轴围成的面积。
- 分析赛题
二、学习内容
- 读取数据有两种方法。
- 第一种通过wget命令从链接直接下载数据到dsw
- 另一种就是可以直接利用pandas读取链接数据
- 评分卡是一张拥有分数刻度会让相应阈值的表。
- 信用评分卡是用于用户信用的一张刻度表。评分卡是金融风控中常用的一种对于用户信用进行刻画的手段哦!
三、学习问题与解答
- KS
四、学习思考与总结
赛题理解是开始比赛的第一步,赛题的理解有助于对竞赛全局的把握。通过赛题理解有助于对赛题的业务逻辑把握,对于后期的特征工程构建和模型选择都尤为重要。
- 在开始比赛之前要对赛题进行充分的了解。
- 比赛什么时候开始,什么时候结束,什么时候换B榜数据。
- 和该比赛有没有类似的比赛可以参考借鉴。
- 线上提交结果的次数往往是有限的,提前了解每日可以提交的次数。
- 比赛使用的是什么评价指标,可以选择相同的评价指标作为线下验证的方式。
标签:比赛,训练营,赛题,卡是,风控,学习,之赛题,数据 来源: https://blog.csdn.net/weixin_43848117/article/details/116127430