其他分享
首页 > 其他分享> > sklearn 缺失值填补(总结)

sklearn 缺失值填补(总结)

作者:互联网

首先查看数据形态:

data.shape

再查看数据类型和非空值的个数与比例

data.info()

使用SimpleImputer进行填补

from sklearn.impute import SimpleImputer as si
imp_mean=si()

默认是用均值进行填补,参数如下:

注意,numpy自带的fillna只能填补np.nan,而此处则可以指定空值的类型。比如?N/A

当数据是连续型,一般用均值填补。数据是分类型,用众数填补。

比如当空值是?时,使用0填充:

imp_0=si(missing_values="?",strategy='constant', fill_value=0)
imp_0=imp_0.fit_transform(data_)

注意此处,data是如果是0维,则要先变为一维:

data_=data.列名.values.reshape(-1.1)

除了用均值,0,众数,中位数。还可用:算法、多重差补等。但是如用随机森林进行填补,解释性比较差。

标签:constant,填补,空值,imp,values,data,缺失,sklearn
来源: https://www.cnblogs.com/heenhui2016/p/10987948.html