首页 > TAG信息列表 > categorical-data

python-使用pandas pd.cut生成带有statsmodels的分类变量

我尝试使用pd.cut从连续变量创建分类变量.我想在随后的statsmodel定义的包括此虚拟变量的回归中使用它.当我创建以这种方式创建的类别变量时,出现错误 TypeError: data type not understood. 下面包括一个测试用例. import numpy as np import pandas as pd import statsmod

将Series转换为DataFrame

我创建了一个数据框“ x” 我想创建另一个数据框y,该数据框y由数据框x的特征’wheat_type’的值组成 所以我执行了代码 y=X.loc[:, 'wheat_type'] 当我运行以下命令时 y['wheat_type'] = y.wheat_type("category").cat.codes 我收到以下错误 ‘Series’ object has no attrib

python-Matplotlib:如何在x轴上绘制带有分类数据的线?

我正在尝试绘制几条线(而不是条形图,如this case).我的y值是浮点数,而x值是分类数据.如何在matplotlib中做到这一点? 我的价值观: data1=[5.65,7.61,8.17,7.60,9.54] data2=[7.61,16.17,16.18,19.54,19.81] data3=[29.55,30.24,31.51,36.40,35.47] 我的类别: x_axis=['A','B','C',

python-如何透视pandas DataFrame列以创建二进制“值表”?

我有以下熊猫数据框: import pandas as pd df = pd.read_csv("filename.csv") df A B C D E 0 a 0.469112 -0.282863 -1.509059 cat 1 c -1.135632 1.212112 -0.173215 dog 2 e 0.119209 -1.044236 -0.861849 dog

python – Tensorflow如何处理一列内多个输入的分类功能?

例如,我有以下csv格式的数据: csv col0 col1 col2 col3 1 A E|A|C 3 0 B D|F 2 2 C | 2 由逗号分隔的每列代表一个功能.通常,一个特征是一热的(例如col0,col1,col3),但在这种情况下,col2的特征有多个输入(由|分隔). 我确信tensorflow可以处理

python – Scikit-learn的LabelBinarizer与OneHotEncoder

两者有什么区别?似乎两者都创建了新列,其数量等于要素中唯一类别的数量.然后,他们根据数据点的类别为数据点分配0和1.解决方法:使用LabelEncoder,OneHotEncoder,LabelBinarizer对数组进行编码的简单示例如下所示. 我看到OneHotEncoder首先需要整数编码形式的数据转换成各自的编码,而

python – 减少大型分类变量的级别数

是否有一些现成的库或包用于python或R,以减少大型分类因素的级别数? 我想实现类似于R: “Binning” categorical variables的东西,但编码成最常见的top-k因子和“other”.解决方法:这是R中使用data.table的一个例子,但是如果没有data.table也应该很容易. # Load data.table require

python – 如何知道由astype(‘category’)指定的标签.cat.codes?

我有以下数据框称为语言 lang level 0 english intermediate 1 spanish intermediate 2 spanish basic 3 english basic 4 english advanced 5 spanish intermediate 6 sp

python – 在有序分类列上使用groupby的奇怪行为

MCVE df = pd.DataFrame({ 'Cat': ['SF', 'W', 'F', 'R64', 'SF', 'F'], 'ID': [1, 1, 1, 2, 2, 2] }) df.Cat = pd.Categorical( df.Cat, categories=['R64', &#

如何在Pandas中对分类值进行分组?

我正在尝试转换为分类值并在熊猫中分组. 例如,我尝试了以下内容: import pandas as pd df = pd.DataFrame() df['A'] = ['C1', 'C1', 'C2', 'C2', 'C3', 'C3'] df['B'] = [1,2,3,4,5,6] df['A'] = df.loc[:

如何在sklearn中编码分类特征?

我有一个包含41个特征[从0到40列]的数据集,其中7个是绝对的.此分类集分为两个子集: >字符串类型的子集(列 – 功能1,2,3) > int类型的子集,二进制形式0或1(列特征6,11,20,21) 此外,列特征1,2和3(字符串类型)分别具有基数3,66和11.在这种情况下,我必须对它们进行编码以使用支持向量机