其他分享
首页 > 其他分享> > 项目实训写实记录No.3

项目实训写实记录No.3

作者:互联网

数据预处理

一.检测和处理缺失值与重复值

1.概念与机理

(1)完全变量与不完全变量

数据集中不含缺失值的变量(属性)称为完全变量,数据集中含有缺失值的变量称为不完全变量

(2)缺失值产生的原因

缺失值的产生的原因分为机械原因和人为原因。

(3)缺失值产生的三种机制

以教育程度(自变量/特征)和收入水平(因变量/结果)关系的调查数据为例,考察收入水平字段的缺失情况:

2.流程与方法

(1)缺失值的处理方法-删除法

(2)缺失值的处理方法-单变量插补

(3)缺失值的处理方法-多变量插补

(4)缺失值的处理方法-多重插补(Multiple Imputation)

(5)重复值判断和处理的方法

4.技术与实现

(1)判断和检测缺失值

(2)直接删除缺失值

(3)缺失值填充

二.离散化和分箱处理

离散化:把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。它是把连续的数据进行分组,使其变成离散化的区间的过程

离散化处理方法

(1)二值化处理

(2)分箱处理

(3)聚类

三.逻辑回归模型

(1)逻辑回归模型判别式

逻辑回归的模型判别式为:$ h_w(x)=g(w_0 x_0 + w_1 x_1 + \dots + w_d x_d)=g(\sum_{i=0}^{D} w_d x_d)=g(x*w) $
其中:

(2)模型训练原理

(3)决策边界线

决策边界线上所有的点,其预测出来的 y y y值( h w ( x ) h_w(x) hw​(x))正好为0.5,即:
$ \dfrac{1}{1+e^{-z}}=0.5 => z = x * w = 0 $
当 D = 2 D=2 D=2(即包含2个特征)时有: w 0 + w 1 x 1 + w 2 x 2 = 0 w_0 + w_1 x_1 + w_2 x_2=0 w0​+w1​x1​+w2​x2​=0 ,该边界线是一条直线

(4)评价模型的性能指标

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pvEhSbgm-1625395663428)(./images/2.png)]

标签:预测,结果,样本,插补,No.3,实训,写实,缺失,变量
来源: https://blog.csdn.net/qq_44219737/article/details/118390756