其他分享
首页 > 其他分享> > 【数据挖掘】数据异质性的理解

【数据挖掘】数据异质性的理解

作者:互联网

异质性(Heteroskedastic)问题的理解


问题:如何准确识别自变量X对因变量Y的作用?

        考虑到影响Y的因素有很多,不仅包括X,也包括其他因素(也即非观测因素)。为逻辑清晰起见,我们简单把非观测因素的作用归结为Z。如果X的值变化了,Z的值也随之变动,此时你观测到的Y的变动,到底是X引起的,还是Z引起的?说不清楚。所以,从逻辑上来讲,只有在Z不变的情况下,X变了,Y也变了,你才可以说,Y的变动确实是X引起的,因为此时其他因素Z是保持不变的,也就是我们通常说的“其他因素不变”。

        那么,其他因素Z不变,如果其作用被吸收进误差项(因为既然Z是非观测因素,缺乏有效测量数据,那么你在计量经济模型中是只考虑X的),其在统计上的表现之一就是误差项的方差应该保持不变(当然还有其他统计上的表现,方差不变只是“其他条件不变”这一前提的统计表现之一)。因为误差项是随机因素成分,其方差不应随X的变化而表现出系统性的差别当把Z的效应纳入误差项后,如果Z是随X变化的(就是不同的X,其他因素Z也不同),那么这样的误差项当然就表现出“异方差”了

        从另一个角度来说,同方差假设给统计推断带来便利,因为你要估计的方差数大大减少了。不管X取何值,误差项的条件方差都是一样的,否则X每取一个值,你都要去估计一个条件方差,重复测量数据还勉强可以做到,一般的横截面数据是不可能估计出这么多的误差方差的

        研究的样本的重要属性上总是存在差异(Heteroskedasticity),比如人和人之间的消费习惯可能大相径庭,这样你记录1000个人10年的月消费数据,即便他们收入流和资产完全相同,消费流也可能截然不同。在统计性质上,这种不同表现为异方差。所以在计量模型上,横截面数据和面板数据经常出现,也可以说总会存在异质性问题。

什么是异质性?

异质性(heterogeneity)其实也就是我们经常所谓的差异、差别。它可以是个体层面上,也可以是群体层面上。前者属于个体异质性,后者属于总体异质性。异质性无处不在,这也是社会科学研究的真正本质。定量的社会科学研究所做的也就是在于理解或认识异质性的主要来源,为此很重要的方式之一就是做社会分组(谢宇,2012)。所以我们总是在研究中运用从最简单的t检验、方差分析到更为复杂点的多元回归分析等统计分析方法来帮助我们做得更合理、更科学。

不过,很多的统计方法都假定总体是同质的。比如,t检验和方差分析中的零假设都是群体之间无差异,而仅含主效应的回归分析也主要是对所有个体拟合一个回归方程。所以,实际研究中,经常看到数据被当作仿佛是从一个单一总体中得到而加以分析,尽管往往样本中所有的个体可能并不具有相同的一套参数值。

实际上,研究者们也经常意识到一个总体可能异质的,是由多个不同的子总体混合而成的,比如男性和女性、城镇居民与农村居民。为此,尝试在模型设定和选择上尽可能地考虑能放宽同质性总体假定,以便得到更合理的认识或对更复杂的理论假说做出实证检验。

最简单的处理就是纳入虚拟变量。比如,在工资收入的Mincer方程中纳入性别虚拟变量female(0=男性,1=女性):

Yi= β0+ β1expi + β2edui+ β3femalei + εi

其中i表示个体,exp为工龄,edu为受教育年限。很明显,上述方程对应着两个方程:

对于男性,Yi =β0 + β1expi +β2edui + εi,

对于女性,Yi =(β0 + β3) + β1expi + β2edui+ εi

表明工龄和受教育年限的收入对男性和女性是一样的,但两者在收入平均水平上具有异质性。更彻底考虑男性和女性两个子总体异质性的做法是进一步纳入exp和edu同female之间的交互项,即:

Yi =β0 + β1expi +β2edui + β3femalei + β4 (femalei×expi) +β5 (femalei×expi) + εi

同样的,

对于男性,Yi =β0 + β1expi +β2edui + εi,

对于女性,Yi =(β0 + β3) + (β1+ β4)expi + (β2+ β5)edui + εi

显然,此模型意味着男性和女性两个子总体不仅收入平均水平不同,同时工龄和受教育程度的收入回报也有差别。注意,这里涉及虚拟变量与其他变量的完全交互,在总体性别参数估计值上与分男性和女性样本分别进行回归是等价的。另外,上一主效应的模型被称作加法模型,后一纳入交互项的模型被称作乘法模型。另外,结构方程建模可以很好地进行多组分析,因此也可以较方便地处理总体异质性。

上述处理的一个明显特征是研究者的知道总体异质性出现在哪个维度上,性别、高低受教育程度、居住地类型等等,换言之,总体异质性是观测到的。但是,情况并非总是如此,一些总体异质性是未被观测到的,或者是不可观测的。比如,初婚研究中,一些人可能具有终身未婚倾向,这种倾向跟家庭背景、受教育程度、个性特征等都可能相关,但很难通过单一的指标进行测量,甚至很多调查中根本没有相关的信息可用来识别个体的终身未婚倾向。类似的情形在生育、就业、消费、药物效果、政策效应评估、市场营销等有关研究中都可能存在。对于这种未观测到的总体异质性的处理,定量社会科学研究中一直较少涉及,但心理测量学领域却在BengtO. Muthén等的努力下得到了很好的发展(如,Muthén,1989,2001),DanielS. Nagin等(2005)近些年来又将该思路引入增长轨迹建模中。

与同质性总体情况下不同,基本的处理思路是这样的:假定数据来自于由具有各自的一套参数值的总体混合而成(如下图1左侧所示),然后应用被称作有限混合分析(finitemixture analysis)的统计建模技术进行(如,Everitt& Hand,1981),识别出不同的子总体,并可以针对不同子总体分别拟合各自模型(如下图1右侧所示)。

 

                                   图1   一个由不同子总体混合而成的总体及其统计处理示意图

统计学文献中,基于数据特征,针对未观测到总体异质性的有限混合分析可被区分成两大类。一类针对横截面数据,被称为因子混合模型(factormixture models),另一类针对追踪调查数据,被称作增长混合模型(growthmixture models)。两者都属于混合建模(mixturemodeling)的范畴。下面提供两个具体例子,以便更好地理解这种统计处理背后的大致思路。

案例

第一个例子类似于因子混合模型,利用“1997年全国人口与生殖健康调查”所得数据讨论初婚初育史对育龄妇女二孩生育间隔的影响(巫锡炜,2010)。因为二孩生育间隔属于事件发生时间变量,故文中选择采用无需假定时间分布形式的Cox回归模型。但是,在经济、社会和政策等多重因素的共同作用下,中国自1980年代以来便开始了全国性的快速生育转变,并在1990年代初开始进入低生育水平状态。因为,有充分地理由怀疑研究总体(即生育过一孩的女性)实际上由两个子总体构成:一个包含那些可能继续生育二孩的妇女,另一个则包含那些不可能继续生育二孩的妇女,即文中所谓的“长期存活者”。但问题是,调查数据中并没有收集妇女是否继续生育二孩的信息,而且即便询问了,那也只是意愿,并不是事实。换言之,这属于未观测到的异质性。实际上,总体未观测到异质性几乎是事件发生时间数据中总也不可忽视的问题。因为这一现象有时会使得子总体与整个总体的风险曲线呈现出极大差异(Vaupel& Yashin,1985)。因此,文中所用建模策略为:首先根据女性的背景特征建立一个logit模型,预测女性个体i继续生育二孩的概率π(zi),据此将妇女区分成继续(c=1)和不继续(c=0)生育二孩的两类妇女,然后在针对继续生育二孩妇女建立Cox回归模型。该文的分析表明,如果忽略未观测到总体异质性,则所得到的参数估计值将是有偏的

第二例子属于增长混合模型(文中沿用Nagin的叫法称其为组基发展轨迹模型),基于北京大学老龄健康与家庭研究中心所做的中国高龄老人健康长寿追踪调查(ChineseLongitudinal Healthy Longevity Survey)项目1998年、2000年、2002年和2005年的四期数据讨论老人残障发展轨迹的类型(巫锡炜,2009)。文中首先针对老年人i拟合残障轨迹并将轨迹类型区分成不同的类别C,当然,C是未被观测到的,每个老年人属于哪个具体类别由数据分析结果来决定;进一步可以纳入老年人背景特征(如性别、退休前职业等取值不随时间变动的变量)来预测老年人个体在轨迹类型C上的归属。下图2直观地展示了上述处理思路。分析结果表明,可以合理地将高龄老人的残障发展轨迹区分为三个明显异质的子类型——“身体健全型”、“低起点快速发展型”和“高起点平稳发展型”(见下图3);同时,老人进入基线调查时的年龄、性别、民族以及60岁之前的职业类别都将显著地影响其残障发展轨迹的类型归属。

                                                  图2   高龄老年人残障发展类型的增长混合模型设定示意图

                                             图3   观测和模型估计的高龄老人残障发展轨迹

目前对未观测到总体异质性的统计处理仍沿用了潜变量建模的框架,不过,这时候的潜变量属于定类变量,即假定总体由有限个不同的子总体混合而成。就模型拟合而言,最佳的软件选择是BengtO. Muthén所发展出的Mplus软件,但如Stata、R、SAS等主要通用软件也有进行混合建模的相应模块。

参考文献:

巫锡炜.2009. 中国高龄老人残障发展轨迹的类型:组基发展建模的一个应用.《人口研究》第6期。

巫锡炜.2010.初婚初育史对育龄妇女二孩生育间隔的影响.《中国人口科学》,第1期。

谢宇.2012. 《社会学方法与定量研究(第二版)》.北京:社会科学文献出版社.

Nagin, DanielS.. 2005. Group-Based Modeling of Development. Cambridge, Massachusetts: Harvard University Press

Everitt, B., andD. J. Hand. 1981. Finite Mixture Distributions. New York: Chapman and Hall.

Muthén, B..1989. Latent Variable Modeling in Heterogeneous Populations. Psychometrika, Vol. 54, No. 4, 557-585.

Muthén, B..2001. Latent Variable Mixture Modeling. In G. A. Marcoulides & R. E.Schumacker (eds.), New Developments and Techniques in Structural Equation Modeling(pp. 1-33). Lawrence Erlbaum Associates.

Popkowski, PeterT. L., and Frank M. Bass. 1998. Determining the Effects of Observed andUnobserved Heterogeneity on Consumer Brand Choice. Applied Stochastic Models and Data Analysis, 14, 95-115.

Vaupel, JamesW., and Anatoli I. Yashin. 1985. Heterogeneity's Ruses: Some Surprising Effectsof Selection on Population Dynamics. The American Statistician, Vol. 39, No. 3, 176-185.

标签:总体,模型,生育,异质性,二孩,理解,数据挖掘,观测
来源: https://blog.csdn.net/ARPOSPF/article/details/87903658