广东工业大学 金融风控 task4
作者:互联网
一、学习概要
1、模型
2、模型评估方法
3、建模调参
二、学习内容
模型
1、逻辑回归模型(逻辑回归模型,要对缺失值和异常值预先处理)
-
优点
- 训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;
- 简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;
- 适合二分类问题,不需要缩放输入特征;
- 内存资源占用小,只需要存储各个维度的特征值;
- 缺点
-
不能用Logistic回归去解决非线性问题,因为Logistic的决策面是线性的;
-
对多重共线性数据较为敏感,且很难处理数据不平衡的问题;
-
准确率并不是很高,因为形式非常简单,很难去拟合数据的真实分布;
2、树模型(数据不需要预处理,不需要归一化,不需要处理缺失数据;)
- 优点
- 简单直观,生成的决策树可以可视化展示
- 既可以处理离散值,也可以处理连续值
- 缺点
- 决策树算法非常容易过拟合,导致泛化能力不强(可进行适当的剪枝)
- 采用的是贪心算法,容易得到局部最优解
3、数据划分
对于数据量足够大的时候,通常采用留出法或者k折交叉验证法来进行训练/测试集的划分;
对于数据集小且难以有效划分训练/测试集时使用自助法;
对于数据集小且可有效划分的时候最好使用留一法来进行划分,因为这种方法最为准确;
模型评估方法
可看task1的笔记,有所讲解,即auc
建模调参
此部分为建模调参部分,主要是了解各个模型以及模型的评价和调参策略,要求实现掌握金融风控领域常用的机器学习模型和机器学习模型的建模过程和调参流程。
因此我在csdn上搜索了一下三种常用的调参方法
1、贪心算法(来源:https://blog.csdn.net/zhangxiaolinxin/article/details/105256588)
(1)概念:
所谓贪心算法是指,在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,它所做出的仅仅是在某种意义上的局部最优解。
贪心算法没有固定的算法框架,算法设计的关键是贪心策略的选择。必须注意的是,贪心算法不是对所有问题都能得到整体最优解,选择的贪心策略必须具备无后效性(即某个状态以后的过程不会影响以前的状态,只与当前状态有关。)
所以,对所采用的贪心策略一定要仔细分析其是否满足无后效性。
(2)思路:
建立数学模型来描述问题
把求解的问题分成若干个子问题
对每个子问题求解,得到子问题的局部最优解
把子问题的解局部最优解合成原来问题的一个解
(3)存在的问题:
不能保证求得的最后解是最佳的
不能用来求最大值或最小值的问题
只能求满足某些约束条件的可行解的范围
2.网格调参
(1)概念:
一种调参的方法,当你算法模型效果不是很好时,可以通过该方法来调整参数,通过循环遍历,尝试每一种参数组合,返回最好的得分值的参数组合。每个参数都能组合在一起,循环过程就像是在网格中遍历,所以叫网格搜索。
(2)存在的问题:
原来的数据集分割为训练集和测试集之后,其中测试集起到的作用有两个,一个是用来调整参数,一个是用来评价模型的好坏,这样会导致评分值会比实际效果要好。(因为我们将测试集送到了模型里面去测试模型的好坏,而我们目的是要将训练模型应用在没使用过的数据上。
(3)解决方式:
把数据集划分三份,一份是训练集(训练数据),一份是验证集(调整参数),一份是测试集(测试模型)。
为了防止模型过拟合,我们使用交叉验证的方法。
3.贝叶斯调参
(1)概念
贝叶斯优化通过基于目标函数的过去评估结果建立替代函数(概率模型),来找到最小化目标函数的值。贝叶斯方法与随机或网格搜索的不同之处在于,它在尝试下一组超参数时,会参考之前的评估结果,因此可以省去很多无用功。
超参数的评估代价很大,因为它要求使用待评估的超参数训练一遍模型,而许多深度学习模型动则几个小时几天才能完成训练,并评估模型,因此耗费巨大。贝叶斯调参发使用不断更新的概率模型,通过推断过去的结果来“集中”有希望的超参数。
(2)贝叶斯优化问题有四个部分:
目标函数:我们想要最小化的内容,在这里,目标函数是机器学习模型使用该组超参数在验证集上的损失。
域空间:要搜索的超参数的取值范围
优化算法:构造替代函数并选择下一个超参数值进行评估的方法。
结果历史记录:来自目标函数评估的存储结果,包括超参数和验证集上的损失。
三、学习总结
建模调参是分析的重要步骤,而模型也是我们首先得掌握的知识,对模型熟练的掌握,才能灵活运用,理解各个模型的优缺点,在特定的时候使用特定的模型,可以方便我们的分析。
标签:广东,task4,调参,模型,风控,问题,算法,参数,贪心 来源: https://blog.csdn.net/Loguat_/article/details/116333528