首页 > TAG信息列表 > random-forest

Python中的随机森林:分类问题的最终概率

在分类问题中,RF分类器根据多数投票(例如,投票结果)给出最终答复.是或否. 另一方面,在Python中,我还可以看到带有事件最终概率的向量,例如0,83.如果我有1000个估计量,每棵树有1000个概率的平均值,那么该概率如何计算? clf = RandomForestClassifier(max_depth = 4, min_samples_spl

与随机森林相比,SVM性能较差

我正在将scikit-learn库用于python以解决分类问题.我使用了RandomForestClassifier和一个SVM(SVC类).但是,尽管RF达到了约66%的精度和68%的召回率,但SVM最多只能达到45%. 我对rbf-SVM的参数C和gamma进行了GridSearch,还预先考虑了缩放和规范化.但是我认为RF和SVM之间的差距仍然太大.

python – 从分类器中检索训练功能名称列表

有没有办法检索用于训练分类器的特征名称列表,一旦用fit方法训练了?我想在申请看不见的数据之前获得这些信息. 用于训练的数据是pandas DataFrame,在我的例子中,分类器是RandomForestClassifier.解决方法:根据文档和以前的经验,无法获得至少在其中一个分割中考虑的特征列表. 您是否

python – 以安全和正确的方式使用RandomForestClassifier的predict_proba()函数

我正在使用Scikit学习在我的数据集上应用机器学习算法.有时我需要设置标签/类本身的标签/类的概率.我没有将垃圾邮件/非垃圾邮件作为电子邮件的标签,而是希望仅举例:0.78概率给定的电子邮件是垃圾邮件. 出于这个目的,我使用带有RandomForestClassifier的predict_proba()如下: clf =

python – 预测类或类概率?

我目前正在使用H2O作为分类问题数据集.我在python 3.6环境中使用H2ORandomForestEstimator测试它.我注意到预测方法的结果给出了0到1之间的值(我假设这是概率). 在我的数据集中,目标属性是数字,即True值是1,False值是0.我确保我将类型转换为目标属性的类别,我仍然得到相同的结果.

如何从scikit-learn决策树中提取决策规则?

我可以从决策树中的受过训练的树中提取基础决策规则(或“决策路径”)作为文本列表吗? 就像是: 如果A> 0.4,那么如果B <0.2那么如果C> 0.8则那么class ='X' 谢谢你的帮助.解决方法:我相信这个答案比其他答案更正确: from sklearn.tree import _tree def tree_to_code(tree, feature_

python – RandomForestRegressor和feature_importances_错误

我正在努力从我的RandomForestRegressor中取出功能重要性,我得到一个: AttributeError: ‘GridSearchCV’ object has no attribute ‘feature_importances_’. 有谁知道为什么没有属性?根据文档应该存在这个属性? 完整代码: from sklearn.ensemble import RandomForestRegresso

用于分类的Python矢量化

参见英文答案 > Scikit learn – fit_transform on the test set                                    1个 我目前正在尝试构建一个大约80个类的文本分类模型(文档分类).当我使用随机森林(在将文本向量化为TF-IDF矩阵之后)构建和训练模型时,模

python – DataConversionWarning在Scikit中拟合RandomForestRegressor

我正在尝试将RandomForestRegressor安装到我的训练集中, rfr.fit(train_X , train_y) 但继续收到以下警告: /usr/local/lib/python2.7/dist-packages/IPython/kernel/main.py:1: DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please cha

python – 将GridSearchCV用于RandomForestRegressor

我正在尝试将GridSearchCV用于RandomForestRegressor,但总是得到ValueError:找到带有暗淡100的数组.预计500.考虑这个玩具示例: import numpy as np from sklearn import ensemble from sklearn.cross_validation import train_test_split from sklearn.grid_search import GridSea

python – 从rpy2 Random Forest对象获取字段值

我正在尝试使用Python运行R Random Forest实现.我正在使用rpy2模块轻松完成这项工作.以下是随机生成数据的简单示例: import numpy as np from rpy2.robjects.numpy2ri import numpy2ri from rpy2.robjects.packages import importr from rpy2 import robjects as ro #create dat

python – Sklearn:如何将数据提供给sklearn RandomForestClassifier

我有这些数据: print training_data print labels # prints [[1, 0, 1, 1], [1, 1, 1, 1], [1, 0, 1, 1], [1, 1, 1, 0], [1, 1, 0, 1], [1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 0,0], [1, 1, 1, 1], [1, 0, 1, 1]] ['a', 'b', 'a', &#

python – xgboost,extratreeclassifier和randomforrestclasiffier有什么区别?

我是所有这些方法的新手,我试图得到一个简单的答案,或者如果有人可以指导我在网上的某个地方进行高级别的解释.我的谷歌搜索只返回了kaggle示例代码. extratree和randomforrest基本相同吗? xgboost在为任何特定树选择特征时使用增强,即对特征进行采样.但那么其他两种算法如何选择这

python – 在sklearn countvectorizer中fit_transform和transform之间有什么区别?

我刚开始学习随机森林,所以如果这听起来很愚蠢我很抱歉 我最近练习bag of words introduction : kaggle,我想澄清一些事情: 使用vectorizer.fit_transform(“清洁评论列表*上的*”) 现在当我们在火车评论上准备一堆单词数组时,我们在火车评论列表中使用了fit_predict,现在我知道fit_

python – 可以在scikit-learn中修改/修剪学过的树吗?

可以在sklearn中访问树参数 tree.tree_.children_left tree.tree_.children_right tree.tree_.threshold tree.tree_.feature 等等 但是,尝试写入这些变量会引发一个不可写的异常 有没有办法修改学习树,或绕过AttributeError不可写?解决方法:属性都是无法覆盖的int数组.您仍然可以