首页 > TAG信息列表 > one-hot-encoding

python – pandas数据帧中的编码/分解列表

我试图通过对它们进行分解来编码数据框中的类别列表.然后,我将从这一系列列表中创建一个矩阵(将它们标准化为设定长度,创建一个多维数组,并对矩阵中的元素进行一次热编码). 但是,这些因素不能保持行之间的一致性. 这可以在这里看到: >>> import pandas as pd >>> df = pd.DataFrame

如何在sklearn中编码分类特征?

我有一个包含41个特征[从0到40列]的数据集,其中7个是绝对的.此分类集分为两个子集: >字符串类型的子集(列 – 功能1,2,3) > int类型的子集,二进制形式0或1(列特征6,11,20,21) 此外,列特征1,2和3(字符串类型)分别具有基数3,66和11.在这种情况下,我必须对它们进行编码以使用支持向量机

Python:大数据的单热编码

尝试将字符串标签编码为单热编码时,我不断遇到内存问题.大约有500万行和大约10000种不同的标签.我尝试过以下内容但仍然遇到内存错误: from sklearn import preprocessing lb = preprocessing.LabelBinarizer() label_fitter = lb.fit(y) y = label_fitter.transform(y) 我也尝试

python – 合并2个数据帧,然后将它们分开

我有2个具有相同列标题的数据帧.我希望对它们进行热编码.我不能一个一个地执行它们.我希望将两个数据帧附加在一起,然后执行热编码,然后将它们拆分为2个数据帧,并在每个数据帧上再次使用标题. 下面的代码逐个执行热编码,而不是合并它们然后热编码. train = pd.get_dummies(train,