二手房估价
作者:互联网
1.缺失值处理
1.1 删除:样本存在大量缺失值,直接删除样本,如物业管理费
1.2 填充:全局常量,统计方法(平均数,中位数,众数),机器学习模型
电梯:六楼及以下的没有电梯,六楼以上的有电梯
修建年份:经纬度相同的数据进行中位数填充
绿化率:众数填充
1.3 不处理
2.异常值处理
简单统计法,箱线图法,模型检测法
删除:面试大于400,修建年限在1990年之前
视为缺失值
平均值修正
不处理
3. 数据变换
3.1 特征量化
类别特征:独热编码,标签编码
时间特征:时间差值法,离散法,权重法
3.2 数据标准化
离差标准化
标准差归一化
4.特征选取
4.1 过滤式
利用统计指标衡量输入特征和预测变量之间的相关性,pearson相关,卡方检验,独立于机器学习模型
4.2 包裹式
使用模型来筛选特征,通过不断增加或者删除特征
4.3嵌入式
将特征选择于机器学习模型融为一体,模型自动完成了特征选择(内置正则化的回归模型,XGBoost,随机森林)
利用嵌入法中的随机森林算法对特征进行重要性评估,利用包裹法对特征进行筛选
随机森林主要通过带外数据(OOB)错误率和基尼指数两种方法来计算特征向量的重要程度
(1)OOB错误率
对某一特征加入噪声数据,观测预测结果是否有显著性变化。如果有显著性变化,则说明特征重要性较高
(2)基尼指数
利用包裹法对特征进行特征筛选并建模分析,分别提取特征评分排序后的前5,前10,前20,前25以及全部特征作为实验,进行6词实验,根据预测结果,选择对应的输入特征作为模型最后的输入。
标签:估价,删除,特征,模型,特征选择,填充,二手房,电梯 来源: https://www.cnblogs.com/hapyygril/p/14070102.html