其他分享
首页 > 其他分享> > 二手房估价

二手房估价

作者:互联网

1.缺失值处理

1.1 删除:样本存在大量缺失值,直接删除样本,如物业管理费

1.2 填充:全局常量,统计方法(平均数,中位数,众数),机器学习模型

电梯:六楼及以下的没有电梯,六楼以上的有电梯

修建年份:经纬度相同的数据进行中位数填充

绿化率:众数填充

1.3 不处理

2.异常值处理

简单统计法,箱线图法,模型检测法

删除:面试大于400,修建年限在1990年之前

视为缺失值

平均值修正

不处理

3. 数据变换

3.1 特征量化

类别特征:独热编码,标签编码

时间特征:时间差值法,离散法,权重法

3.2 数据标准化

离差标准化

标准差归一化

4.特征选取

4.1 过滤式

利用统计指标衡量输入特征和预测变量之间的相关性,pearson相关,卡方检验,独立于机器学习模型

4.2 包裹式

使用模型来筛选特征,通过不断增加或者删除特征

4.3嵌入式

将特征选择于机器学习模型融为一体,模型自动完成了特征选择(内置正则化的回归模型,XGBoost,随机森林)

利用嵌入法中的随机森林算法对特征进行重要性评估,利用包裹法对特征进行筛选

随机森林主要通过带外数据(OOB)错误率和基尼指数两种方法来计算特征向量的重要程度

(1)OOB错误率

对某一特征加入噪声数据,观测预测结果是否有显著性变化。如果有显著性变化,则说明特征重要性较高

(2)基尼指数

利用包裹法对特征进行特征筛选并建模分析,分别提取特征评分排序后的前5,前10,前20,前25以及全部特征作为实验,进行6词实验,根据预测结果,选择对应的输入特征作为模型最后的输入。

 

标签:估价,删除,特征,模型,特征选择,填充,二手房,电梯
来源: https://www.cnblogs.com/hapyygril/p/14070102.html