首页 > 其他分享> > sklearn 缺失值填补（总结）

sklearn 缺失值填补（总结）

2019-06-07 12:39:12 作者：互联网

首先查看数据形态：

data.shape

再查看数据类型和非空值的个数与比例

data.info()

使用SimpleImputer进行填补

from sklearn.impute import SimpleImputer as si
imp_mean=si()

默认是用均值进行填补，参数如下：

注意，numpy自带的fillna只能填补np.nan，而此处则可以指定空值的类型。比如? 或N/A

当数据是连续型，一般用均值填补。数据是分类型，用众数填补。

比如当空值是?时，使用0填充：

imp_0=si(missing_values="?",strategy='constant', fill_value=0)
imp_0=imp_0.fit_transform(data_)

注意此处，data是如果是0维，则要先变为一维：

data_=data.列名.values.reshape(-1.1)

除了用均值，0，众数，中位数。还可用：算法、多重差补等。但是如用随机森林进行填补，解释性比较差。

标签：constant,填补,空值,imp,values,data,缺失,sklearn
来源： https://www.cnblogs.com/heenhui2016/p/10987948.html