首页 > TAG信息列表 > cross-validation

scikit.learn cross_val_score中的错误

请参考以下地址的笔记本 LogisticRegression 这部分代码 scores = cross_val_score(LogisticRegression(), X, y, scoring='accuracy', cv=10) print scores print scores.mean() 在Windows 7 64位计算机上生成以下错误 ------------------------------------------------------

python-RepeatedKFold实际上是什么意思?

假设n_repeats = 5,折叠数为3(n_splits = 3). 这是否意味着验证者正在为我们的估算器/模型创建3折以使用每一折(例如KFold的用途),然后将该过程重复5次? 这意味着我们的模型将总共使用5 x 3 = 15倍?解决方法:是的,您基本上可以通过循环调用KFolds.split()n_repeats次来达到相同的效果

我在参数调整(cv)时的平均测试分数为什么比保持测试集(RandomForestClassifier)低?

我正在使用RandomizedSearchCV(sklearn)进行超参数调整,并在训练集上进行了3倍交叉验证.之后,我要检查测试集的分数(准确性,recall_weighted,cohen_kappa).令人惊讶的是,它总是比我的RandomizedSearchCV的best_score属性高一些. 首先,我要执行分层数据,将其分成70/30个训练和测试集

python-如何访问Scikit学习嵌套的交叉验证得分

我正在使用python,并且希望将嵌套交叉验证与scikit学习一起使用.我发现一个非常好的example: NUM_TRIALS = 30 non_nested_scores = np.zeros(NUM_TRIALS) nested_scores = np.zeros(NUM_TRIALS) # Choose cross-validation techniques for the inner and outer loops, # independe

python-如何在sklearn中的每个交叉验证模型中计算特征重要性

我使用RandomForestClassifier()与10倍交叉验证,如下所示. clf=RandomForestClassifier(random_state = 42, class_weight="balanced") k_fold = StratifiedKFold(n_splits=10, shuffle=True, random_state=42) accuracy = cross_val_score(clf, X, y, cv=k_fold, scoring = �

我为什么要在张量流中构建单独的图形进行训练和验证?

我已经使用了tensorflow一段时间了.一开始我有这样的东西: def myModel(training): with tf.scope_variables('model', reuse=not training): do model return model training_model = myModel(True) validation_model = myModel(False) 主要是因为我从一些M

python – cross_val_score和cross_val_predict之间的区别

我想使用交叉验证来评估使用scikitlearn的回归模型构建并使我感到困惑,我应该使用cross_val_score和cross_val_predict这两个函数中的哪一个. 一种选择是: cvs = DecisionTreeRegressor(max_depth = depth) scores = cross_val_score(cvs, predictors, target, cv=cvfolds, scoring

python – predict_proba用于交叉验证的模型

我想用Logistic回归模型预测交叉验证的概率.我知道您可以获得交叉验证分数,但是可以从predict_proba而不是分数返回值吗? # imports from sklearn.linear_model import LogisticRegression from sklearn.cross_validation import (StratifiedKFold, cross_val_score,

python – GridSearchCV是否执行交叉验证?

我目前正在研究一个问题,该问题比较了同一数据集上三种不同的机器学习算法性能.我将数据集划分为70/30个训练/测试集,然后使用GridSearchCV和X_train,y_train对每个算法的最佳参数进行网格搜索. 第一个问题,我想在训练集上进行网格搜索还是假设在整个数据集上? 第二个问题,我知道Gri

python – TypeError:__ init __()得到一个意外的关键字参数’scoring’

这个演示代码怎么可能(取自这里:http://scikit-learn.org/dev/auto_examples/grid_search_digits.html) TypeError:__ init __()得到一个意外的关键字参数’scoring’,当obviuodly scoring是一个参数(http://scikit-learn.org/dev/modules/generated/sklearn.grid_search.GridSearchC

python – 在Gridline for GridSearchCV中替换不同的模型

我想在sklearn中构建一个Pipeline并使用GridSearchCV测试不同的模型. 举个例子(请不要注意选择的特定型号): reg = LogisticRegression() proj1 = PCA(n_components=2) proj2 = MDS() proj3 = TSNE() pipe = [('proj', proj1), ('reg' , reg)] pipe = Pipeline(pipe) param_gri

python – scikit-learn管道:网格搜索变压器参数以生成数据

我想使用scikit-learn管道的第一步来生成玩具数据集,以评估我的分析性能.我想出的一个简单的示例解决方案如下所示: import numpy as np from sklearn.pipeline import Pipeline from sklearn.grid_search import GridSearchCV from sklearn.base import TransformerMixin from skl

python – 关于k折叠交叉验证的建议

我目前正在使用以下代码执行使用支持向量机分类的dicom图像的交叉验证方法: #Cross Validation using k-folds clf = svm.SVC(kernel='linear') scores = cross_validation.cross_val_score(clf,X,Y,cv=16)) print scores print("Accuracy: %0.2f (+/- %0.2f)"

python – 如何从scikit-learn中的predict_proba中使用cross_val_predict获取类标签

我需要使用3倍交叉验证训练Random Forest classifier.对于每个样本,我需要在它恰好位于测试集中时检索预测概率. 我正在使用scikit-learn版本0.18.dev0. 此新版本添加了使用方法cross_val_predict()和附加参数方法来定义估计器需要哪种预测的功能. 在我的情况下,我想使用predict_pr

xgboost CV与自定义折叠python

我正在处理数据,每个患者都可以有不同数量的训练样例.当运行Xgboost CV时,我想确保同一患者的数据仅限于同一个折叠,因此我需要使用折叠,其中可能有不同数量的索引. 在使用xgb.cv函数中的’fold’参数传递包含索引的numpy数组列表时,我得到: dtrain = dall.slice(np.concatenate([id

python – 将GridSearchCV用于RandomForestRegressor

我正在尝试将GridSearchCV用于RandomForestRegressor,但总是得到ValueError:找到带有暗淡100的数组.预计500.考虑这个玩具示例: import numpy as np from sklearn import ensemble from sklearn.cross_validation import train_test_split from sklearn.grid_search import GridSea

python – 通过使用pandas中groupby()的百分比从Train集中获取验证集

拥有具有多类目标变量类别的训练数据集 train.groupby('category').size() 0 2220 1 4060 2 760 3 1480 4 220 5 440 6 23120 7 1960 8 64840 我想通过获得每个类的百分比(比如说20%)从列车集中获取新的验证数据集,以避免在验证集中丢失类

python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果?

我正在尝试在数据集上创建分类器.我第一次使用XGBoost: import xgboost as xgb import pandas as pd import numpy as np train = pd.read_csv("train_users_processed_onehot.csv") labels = train["Buy"].map({"Y":1, "N":0}) features = train.drop(

python – scikit-learn:cross_val_predict仅适用于分区

我正在努力研究如何在sklearn中实现TimeSeriesSplit. 下面链接中的建议答案产生相同的ValueError. sklearn TimeSeriesSplit cross_val_predict only works for partitions 这里是我代码中的相关位: from sklearn.model_selection import cross_val_predict from sklearn import sv

python – 使用交叉验证评估Logistic回归

我想使用交叉验证来测试/训练我的数据集,并评估逻辑回归模型在整个数据集上的性能,而不仅仅是在测试集上(例如25%). 这些概念对我来说是全新的,我不确定它是否做得对.如果有人能告诉我正确的步骤,我会在错误的地方采取行动,我将不胜感激.我的部分代码如下所示. 另外,如何在当前图形