首页 > TAG信息列表 > feature-selection

Python:如何正确处理熊猫DataFrame中的NaN,以在Scikit-learn中进行功能选择

这与我发布的here问题有关,但是这个问题更具体,更简单. 我有一个pandas DataFrame,其索引是唯一的用户标识符,列对应于唯一的事件,并且值1(有人值守),0(未出席)或NaN(未邀请/不相关).相对于NaN,矩阵非常稀疏:有数百个事件,大多数用户最多只被邀请参加几十个事件. 我创建了一些额外的

python – 如何计算XGBoost包中的功能得分(/ important)?

命令xgb.importance返回由f分数测量的特征重要性图. 这个f分数代表什么,如何计算? 输出: Graph of feature importance解决方法:这是一个度量标准,简单地总结了每个要素被拆分的次数.它类似于R版本https://cran.r-project.org/web/packages/xgboost/xgboost.pdf中的频率度量 它是您可

python – 在Scikit Learn中运行SelectKBest后获取功能名称的最简单方法

我想进行有监督的学习. 到现在为止,我知道要对所有功能进行监督学习. 但是,我还想进行K最佳功能的实验. 我阅读了文档,发现在Scikit中学习了SelectKBest方法. 不幸的是,我不确定在找到这些最佳功能后如何创建新的数据帧: 我们假设我想进行5个最佳功能的实验: from sklearn.feature_s

python – PCA分析后的特征/变量重要性

我对原始数据集进行了PCA分析,并且从PCA转换的压缩数据集中,我还选择了我想要保留的PC数量(它们几乎解释了94%的方差).现在,我正在努力识别在简化数据集中重要的原始特征. 在降维后,如何找出哪些特征是重要的,哪些特征不在剩余的主要组件中?这是我的代码: from sklearn.decomposition

如何使用python通过余弦相似性有效地检索顶级K-like文档?

我正在处理十万(100,000)份文件(平均文件长度约为500个术语).对于每个文档,我想通过余弦相似性得到前k(例如k = 5)个相似文档.那么如何通过Python有效地做到这一点. 这是我做的: >为每个文档,进行文本分割,删除停用词,计算术语频率(tf)>所以我们得到tf矩阵,大约100,000个文档* 60000

python – 获取pandas数据帧中最大条目的行和列名称(argmax)

df.idxmax()沿轴(行或列)返回最大值,但我想在整个数据帧上返回arg_max(df),它返回一个元组(行,列). 我想到的用例是特征选择,其中我有一个相关矩阵,并希望“递归地”删除具有最高相关性的特征.我预处理相关矩阵以考虑其绝对值并将对角元素设置为-1.然后我建议使用rec_drop,它递归地

python – 在递归特征消除的每个折叠中对估计器进行超参数估计

我正在使用sklearn使用RFECV模块通过交叉验证执行递归功能消除. RFE涉及在全套特征上重复训练估计器,然后移除信息量最少的特征,直到收敛到最佳数量的特征. 为了通过估算器获得最佳性能,我想为每个特征数量选择最佳超参数(为清晰起见而编辑).估计器是一个线性SVM,所以我只关注C参数