python – cross_val_score和cross_val_predict之间的区别
作者:互联网
我想使用交叉验证来评估使用scikitlearn的回归模型构建并使我感到困惑,我应该使用cross_val_score和cross_val_predict这两个函数中的哪一个.
一种选择是:
cvs = DecisionTreeRegressor(max_depth = depth)
scores = cross_val_score(cvs, predictors, target, cv=cvfolds, scoring='r2')
print("R2-Score: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))
另一个,使用标准r2_score的cv预测:
cvp = DecisionTreeRegressor(max_depth = depth)
predictions = cross_val_predict(cvp, predictors, target, cv=cvfolds)
print ("CV R^2-Score: {}".format(r2_score(df[target], predictions_cv)))
我认为这两种方法都是有效的,并给出类似的结果.但这只是小k倍的情况.虽然r ^ 2对于10倍-cv大致相同,但是对于使用“cross_vall_score”的第一版本的情况,对于更高的k值,它变得越来越低.第二个版本大多不受折叠次数变化的影响.
这种行为是否可以预期,我是否对SKLearn中的CV缺乏了解?
解决方法:
cross_val_score返回测试折叠的得分,其中cross_val_predict返回测试折叠的预测y值.
对于cross_val_score(),您使用的是输出的平均值,这将受到折叠数量的影响,因为它可能会有一些可能具有高误差的折叠(不正确).
然而,对于输入中的每个元素,cross_val_predict()返回该元素在测试集中时获得的预测. [请注意,只能使用将测试集中的所有元素分配一次的交叉验证策略].因此,增加折叠数量只会增加测试元素的训练数据,因此其结果可能不会受到太大影响.
希望这可以帮助.随意提出任何疑问.
编辑:在评论中回答问题
请查看以下关于cross_val_predict如何工作的答案:
> https://stackoverflow.com/a/41524968/3374996
我认为cross_val_predict会过度适应,因为随着折叠的增加,更多的数据将用于火车,更少的数据用于测试.因此,结果标签更依赖于训练数据.同样如上所述,对一个样本的预测仅进行一次,因此可能更容易分裂数据.
这就是为什么大多数地方或教程建议使用cross_val_score进行分析.
标签:cross-validation,python,scikit-learn,regression,machine-learning 来源: https://codeday.me/bug/20190930/1835675.html