其他分享
首页 > 其他分享> > DW_ensemblelearning_task04

DW_ensemblelearning_task04

作者:互联网

集成学习案例一 (幸福感预测)

背景介绍

此案例是一个数据挖掘类型的比赛——幸福感预测的baseline。

比赛的数据使用的是官方的《中国综合社会调查(CGSS)》文件中的调查结果中的数据,其共包含有139个维度的特征,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务)等特征。

数据信息
赛题要求使用以上 139 维的特征,使用 8000 余组数据进行对于个人幸福感的预测(预测值为1,2,3,4,5,其中1代表幸福感最低,5代表幸福感最高)。 因为考虑到变量个数较多,部分变量间关系复杂,数据分为完整版和精简版两类。可从精简版入手熟悉赛题后,使用完整版挖掘更多信息。在这里我直接使用了完整版的数据。赛题也给出了index文件中包含每个变量对应的问卷题目,以及变量取值的含义;survey文件中为原版问卷,作为补充以方便理解问题背景。
评价指标
采用的评价指标为MSE: S c o r e = 1 n ∑ 1 n ( y i − y ∗ ) 2 Score=\frac{1}{n}\sum_1^n(y_i-y_*)^2 Score=n1​∑1n​(yi​−y∗​)2
学习笔记中前面主要是EDA对数据进行处理以及分类,特征处理,而在为了进一步分析每一个特征之间的关系,对数据进行增广。

这里我添加了如下的特征:第一次结婚年龄、最近结婚年龄、是否再婚、配偶年龄、配偶年龄差、各种收入比(与配偶之间的收入比、十年后预期收入与现在收入之比等等)、收入与住房面积比(其中也包括10年后期望收入等等各种情况)、社会阶级(10年后的社会阶级、14年后的社会阶级等等)、悠闲指数、满意指数、信任指数等等。除此之外,我还考虑了对于同一省、市、县进行了归一化。例如同一省市内的收入的平均值等以及一个个体相对于同省、市、县其他人的各个指标的情况。同时也考虑了对于同龄人之间的相互比较,即在同龄人中的收入情况、健康情况等等。具体代码实现见Datawhale

然后对原始的263维的特征,使用lightGBM进行处理,这里我们使用5折交叉验证方法,调试过程就是debug的过程。。。了解了大致过程,细节和解题思路不是很清楚。。。to do

标签:收入,特征,幸福感,等等,DW,ensemblelearning,数据,task04,变量
来源: https://blog.csdn.net/weixin_46121800/article/details/117002119