DW_ensemblelearning_task04
作者:互联网
集成学习案例一 (幸福感预测)
背景介绍
此案例是一个数据挖掘类型的比赛——幸福感预测的baseline。
比赛的数据使用的是官方的《中国综合社会调查(CGSS)》文件中的调查结果中的数据,其共包含有139个维度的特征,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务)等特征。
数据信息
赛题要求使用以上 139 维的特征,使用 8000 余组数据进行对于个人幸福感的预测(预测值为1,2,3,4,5,其中1代表幸福感最低,5代表幸福感最高)。 因为考虑到变量个数较多,部分变量间关系复杂,数据分为完整版和精简版两类。可从精简版入手熟悉赛题后,使用完整版挖掘更多信息。在这里我直接使用了完整版的数据。赛题也给出了index文件中包含每个变量对应的问卷题目,以及变量取值的含义;survey文件中为原版问卷,作为补充以方便理解问题背景。
评价指标
采用的评价指标为MSE:
S
c
o
r
e
=
1
n
∑
1
n
(
y
i
−
y
∗
)
2
Score=\frac{1}{n}\sum_1^n(y_i-y_*)^2
Score=n1∑1n(yi−y∗)2
学习笔记中前面主要是EDA对数据进行处理以及分类,特征处理,而在为了进一步分析每一个特征之间的关系,对数据进行增广。
这里我添加了如下的特征:第一次结婚年龄、最近结婚年龄、是否再婚、配偶年龄、配偶年龄差、各种收入比(与配偶之间的收入比、十年后预期收入与现在收入之比等等)、收入与住房面积比(其中也包括10年后期望收入等等各种情况)、社会阶级(10年后的社会阶级、14年后的社会阶级等等)、悠闲指数、满意指数、信任指数等等。除此之外,我还考虑了对于同一省、市、县进行了归一化。例如同一省市内的收入的平均值等以及一个个体相对于同省、市、县其他人的各个指标的情况。同时也考虑了对于同龄人之间的相互比较,即在同龄人中的收入情况、健康情况等等。具体代码实现见
Datawhale
然后对原始的263维的特征,使用lightGBM进行处理,这里我们使用5折交叉验证方法,调试过程就是debug的过程。。。了解了大致过程,细节和解题思路不是很清楚。。。to do
标签:收入,特征,幸福感,等等,DW,ensemblelearning,数据,task04,变量 来源: https://blog.csdn.net/weixin_46121800/article/details/117002119