其他分享
首页 > 其他分享> > 什么时候需要标准化回归模型中的变量?

什么时候需要标准化回归模型中的变量?

作者:互联网

什么时候需要标准化回归模型中的变量?

凡是搞计量经济的,都关注这个号了

投稿:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都什么时候需要标准化回归模型中的变量?

关于计量方法合辑,各位学者可以查看如下文章:①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向,⑤2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!,②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授,③Python, Stata, R软件史上最全快捷键合辑!,④关于(模糊)断点回归设计的100篇精选Articles专辑!,⑤关于双重差分法DID的32篇精选Articles专辑!,⑥关于合成控制法SCM的33篇精选Articles专辑!⑦最近80篇关于中国国际贸易领域papers合辑!,⑧最近70篇关于中国环境生态的经济学papers合辑!⑨使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!⑩最近50篇使用系统GMM开展实证研究的papers合辑!这些文章受到了各位学者的欢迎和热议,博士生导师纷纷将其推荐给学生参阅。

最近,我们引荐了①如何选择正确的自变量(控制变量),让你的计量模型不再肮脏,②忽略交互效应后果很严重,审稿人很生气!,③过去三十年, RCT, DID, RDD, LE, ML, DSGE等方法的“高光时刻”路线图,④空间双重差分法(spatial DID)最新实证papers合辑,⑤机器学习方法出现在AER, JPE, QJE等顶刊上了,⑥中介效应检验流程, 示意图公布, 不再畏惧中介分析等,在学者间引起了广泛的讨论。与本文密切相关的内容,面板数据中去中心化的交互项回归什么情况。

正文
什么时候需要标准化回归模型中的变量?
标准化是将不同变量置于同一规格(same scale)的过程。在回归分析中,在某些情况下,标准化你的自变量至关重要,不然可能会产生误导性结果。
在这篇文章中,我们将说明何时以及为什么需要在回归分析中标准化变量。不用担心,此过程很简单,可以帮助确保你信任结果。实际上,标准化变量可以揭示你可能会错过的实质性发现!
为什么要标准化变量
在回归分析中,当模型包含多项式项以建模曲率(model curvature)或交互项时,你需要标准化自变量。这些项提供了有关自变量和因变量之间关系的关键信息,但它们也会产生大量的多重共线性。
多重共线性是指自变量间存在相关性。这个问题会掩盖模型中各项的统计显著性,产生不精确的系数,让选择正确模型的过程变得更加困难。
当包含多项式和交互项时,几乎可以肯定的是,你的模型具有过多的多重共线性。这些高阶项乘以模型中的自变量后,就很容易看出这些项与模型中其他自变量之间的关系。
当你的模型包含这些类型的项时,可能就有产生误导性结果并丢失具有统计显著性项的风险。
幸运的是,因为标准化自变量是一种减少高阶项产生多重共线性的简单方法。虽然,但必须注意,它不适用于有其他原因产生的多重共线性问题。
标准化自变量还可以帮助你确定哪个变量最重要。
如何标准化变
标准化变量是一个简单的过程。大多数统计软件都可以自动为你行此操作。通常,标准化是指减去平均值然后除以标准差的过程。但是,要消除由高阶项引起的多重共线性,我建议仅减去均值,而不要除以标准差。减去均值也称为将变量去中心化。
将变量去中心化并对其进行标准化都会降低多重共线性。但是,标准化会改变系数的解释。因此,在本文中,我将变量去中心化。
解释标准变量的结果
在对自变量进行去中心化后,我们可以用通常的方式解释回归系数。因此,此方法易于使用,并且能产生易于解释的结果。
让我们来看一个示例,该示例说明高阶项的问题以及如何将变量去中心化话解决这些问题。
具有非标准化自变量的回归模型
首先,我们将在不使变量去中心化的情况下拟合模型,输出是因变量,并且我们将在回归模型中包含Input,Condition和交互项Input Condition 。结果如下:
什么时候需要标准化回归模型中的变量?
使用0.05 的显著性水平,“输入”和“输入
条件”在统计上是显著的,而“条件”不是。但是,请注意VIF值。VIF大于5表示有多重共线性度问题。条件(condition)和交互项(input * condition)的VIF都接近5。
具有标准变量的回归模型
现在,让我们再次拟合模型,但是我们将使用去中心化方法对自变量进行标准化。
什么时候需要标准化回归模型中的变量?
标准化变量降低了多重共线性。所有VIF均小于5。此外,条件(condition)在模型中是显著的。而在前面,多重共线性隐藏了该变量的含义。
编码系数表显示了编码(标准化)系数。我的软件将编码后的值转换回以“未编码单位”为单位的回归方程式中的自然单位。以通常的方式解释这些值。
当你的回归模型包含交互项和多项式项时,标准化自变量会有很大好处。当模型具有这些项时,请始终标准化变量。请记住,将变量去中心化足以进行更直接的解释。这是一件容易的事,你也可以对你的结果更有信心。
什么时候需要标准化回归模型中的变量?
读完本文之后,强烈建议各位学者参看今天第二篇文章“回归标准误比R2更好,在拟合优度度量方面”。
拓展性阅读

2月21日,给各位学者引荐了二个数据库的使用指南疫情期Wind资讯金融终端操作指南和CEIC数据库操作指南,参考一下“清华北大经管社科数据库有哪些? 不要羡慕嫉妒恨!”。2月22日,引荐了“估计具有两个高维固定效应的泊松回归模型”,里面包括面板泊松回归、面板负二项回归、控制函数法CF、受限三次样条等等。2月27日,引荐了“哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code!”和“最清晰的内生性问题详解及软件操作方案!实证研究必备工具!”
之前,咱们圈子引荐过一些数据库(当然,社群里的数据库远不止这些),如下:1.这40个微观数据库够你博士毕业了;2.中国工业企业数据库匹配160大步骤的完整程序和相应数据;3.中国省/地级市夜间灯光数据;4.1997-2014中国市场化指数权威版本;5.1998-2016年中国地级市年均PM2.5;6.计量经济圈经济社会等数据库合集;7.中国方言,官员, 行政审批和省长数据库开放;8.2005-2015中国分省分行业CO2数据;9.国际贸易研究中的数据演进与当代问题;10.经济学研究常用中国微观数据手册。
之前,咱们小组引荐了1.DID运用经典文献,强制性许可:来自对敌贸易法的证据,2.连续DID经典文献, 土豆成就了旧世界的文明,3.截面数据DID讲述, 截面做双重差分政策评估的范式,4.RDD经典文献, RDD模型有效性稳健性检验,5.事件研究法用于DID的经典文献"环境规制"论文数据和程序,6.广义DID方法运用得非常经典的JHE文献,7.DID的经典文献"强制许可"论文数据和do程序,8.传销活动对经济发展影响, AER上截面数据分析经典文,9.多期DID的经典文献big bad banks数据和do文件,10.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?,11.AER上因果关系确立, 敏感性检验, 异质性分析和跨数据使用经典文章,12.第二篇因果推断经典,工作中断对工人随后生产效率的影响?,13.密度经济学:来自柏林墙的自然实验, 最佳Econometrica论文,14.AER上以DID, DDD为识别策略的劳动和健康经济学,15.一个使用截面数据的政策评估方法, 也可以发AER,16.多期DID模型的经典文献,big bad banks讲解",",17.多期DID的经典文献big bad banks数据和do文件,18.非线性DID, 双重变换模型CIC, 分位数DID,受到博士生导师普遍欢迎,并分享给其指导的学生学习。

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
2年,计量经济圈公众号近1000篇文章,

Econometrics Circle

标签:共线性,变量,DID,模型,标准化,自变量
来源: https://blog.51cto.com/15057855/2677900