首页 > 其他分享> > 什么时候需要标准化回归模型中的变量？

什么时候需要标准化回归模型中的变量？

2021-03-31 07:55:48 作者：互联网

什么时候需要标准化回归模型中的变量？

凡是搞计量经济的，都关注这个号了

投稿：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都什么时候需要标准化回归模型中的变量？

关于计量方法合辑，各位学者可以查看如下文章：①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向，⑤2020年中文Top期刊重点选题方向, 写论文就写这些。后面，咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑！，②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授，③Python, Stata, R软件史上最全快捷键合辑！，④关于(模糊)断点回归设计的100篇精选Articles专辑！，⑤关于双重差分法DID的32篇精选Articles专辑！，⑥关于合成控制法SCM的33篇精选Articles专辑！⑦最近80篇关于中国国际贸易领域papers合辑！，⑧最近70篇关于中国环境生态的经济学papers合辑！⑨使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑！⑩最近50篇使用系统GMM开展实证研究的papers合辑！这些文章受到了各位学者的欢迎和热议，博士生导师纷纷将其推荐给学生参阅。

最近，我们引荐了①如何选择正确的自变量(控制变量)，让你的计量模型不再肮脏，②忽略交互效应后果很严重，审稿人很生气！，③过去三十年, RCT, DID, RDD, LE, ML, DSGE等方法的“高光时刻”路线图，④空间双重差分法(spatial DID)最新实证papers合辑，⑤机器学习方法出现在AER, JPE, QJE等顶刊上了，⑥中介效应检验流程, 示意图公布, 不再畏惧中介分析等，在学者间引起了广泛的讨论。与本文密切相关的内容，面板数据中去中心化的交互项回归什么情况。

正文
什么时候需要标准化回归模型中的变量？
标准化是将不同变量置于同一规格（same scale）的过程。在回归分析中，在某些情况下，标准化你的自变量至关重要，不然可能会产生误导性结果。
在这篇文章中，我们将说明何时以及为什么需要在回归分析中标准化变量。不用担心，此过程很简单，可以帮助确保你信任结果。实际上，标准化变量可以揭示你可能会错过的实质性发现！
为什么要标准化变量
在回归分析中，当模型包含多项式项以建模曲率(model curvature)或交互项时，你需要标准化自变量。这些项提供了有关自变量和因变量之间关系的关键信息，但它们也会产生大量的多重共线性。
多重共线性是指自变量间存在相关性。这个问题会掩盖模型中各项的统计显著性，产生不精确的系数，让选择正确模型的过程变得更加困难。
当包含多项式和交互项时，几乎可以肯定的是，你的模型具有过多的多重共线性。这些高阶项乘以模型中的自变量后，就很容易看出这些项与模型中其他自变量之间的关系。
当你的模型包含这些类型的项时，可能就有产生误导性结果并丢失具有统计显著性项的风险。
幸运的是，因为标准化自变量是一种减少高阶项产生多重共线性的简单方法。虽然，但必须注意，它不适用于有其他原因产生的多重共线性问题。
标准化自变量还可以帮助你确定哪个变量最重要。
如何标准化变量
标准化变量是一个简单的过程。大多数统计软件都可以自动为你行此操作。通常，标准化是指减去平均值然后除以标准差的过程。但是，要消除由高阶项引起的多重共线性，我建议仅减去均值，而不要除以标准差。减去均值也称为将变量去中心化。
将变量去中心化并对其进行标准化都会降低多重共线性。但是，标准化会改变系数的解释。因此，在本文中，我将变量去中心化。
解释标准变量的结果
在对自变量进行去中心化后，我们可以用通常的方式解释回归系数。因此，此方法易于使用，并且能产生易于解释的结果。
让我们来看一个示例，该示例说明高阶项的问题以及如何将变量去中心化话解决这些问题。
具有非标准化自变量的回归模型
首先，我们将在不使变量去中心化的情况下拟合模型，输出是因变量，并且我们将在回归模型中包含Input，Condition和交互项Input Condition 。结果如下：

使用0.05 的显著性水平，“输入”和“输入条件”在统计上是显著的，而“条件”不是。但是，请注意VIF值。VIF大于5表示有多重共线性度问题。条件(condition)和交互项(input * condition)的VIF都接近5。
具有标准变量的回归模型
现在，让我们再次拟合模型，但是我们将使用去中心化方法对自变量进行标准化。
什么时候需要标准化回归模型中的变量？
标准化变量降低了多重共线性。所有VIF均小于5。此外，条件(condition)在模型中是显著的。而在前面，多重共线性隐藏了该变量的含义。
编码系数表显示了编码（标准化）系数。我的软件将编码后的值转换回以“未编码单位”为单位的回归方程式中的自然单位。以通常的方式解释这些值。
当你的回归模型包含交互项和多项式项时，标准化自变量会有很大好处。当模型具有这些项时，请始终标准化变量。请记住，将变量去中心化足以进行更直接的解释。这是一件容易的事，你也可以对你的结果更有信心。
什么时候需要标准化回归模型中的变量？
读完本文之后，强烈建议各位学者参看今天第二篇文章“回归标准误比R2更好，在拟合优度度量方面”。
拓展性阅读

2月21日，给各位学者引荐了二个数据库的使用指南疫情期Wind资讯金融终端操作指南和CEIC数据库操作指南，参考一下“清华北大经管社科数据库有哪些? 不要羡慕嫉妒恨！”。2月22日，引荐了“估计具有两个高维固定效应的泊松回归模型”，里面包括面板泊松回归、面板负二项回归、控制函数法CF、受限三次样条等等。2月27日，引荐了“哈佛大学新修订完成的因果推断经典大作免费下载！附数据和code！”和“最清晰的内生性问题详解及软件操作方案！实证研究必备工具！”
之前，咱们圈子引荐过一些数据库(当然，社群里的数据库远不止这些)，如下：1.这40个微观数据库够你博士毕业了；2.中国工业企业数据库匹配160大步骤的完整程序和相应数据；3.中国省/地级市夜间灯光数据；4.1997-2014中国市场化指数权威版本；5.1998-2016年中国地级市年均PM2.5；6.计量经济圈经济社会等数据库合集；7.中国方言,官员, 行政审批和省长数据库开放；8.2005-2015中国分省分行业CO2数据；9.国际贸易研究中的数据演进与当代问题；10.经济学研究常用中国微观数据手册。
之前，咱们小组引荐了1.DID运用经典文献，强制性许可:来自对敌贸易法的证据，2.连续DID经典文献, 土豆成就了旧世界的文明，3.截面数据DID讲述, 截面做双重差分政策评估的范式，4.RDD经典文献, RDD模型有效性稳健性检验，5.事件研究法用于DID的经典文献"环境规制"论文数据和程序，6.广义DID方法运用得非常经典的JHE文献，7.DID的经典文献"强制许可"论文数据和do程序，8.传销活动对经济发展影响, AER上截面数据分析经典文，9.多期DID的经典文献big bad banks数据和do文件，10.因果推断IV方法经典文献，究竟是制度还是人力资本促进了经济的发展？，11.AER上因果关系确立, 敏感性检验, 异质性分析和跨数据使用经典文章，12.第二篇因果推断经典，工作中断对工人随后生产效率的影响？，13.密度经济学:来自柏林墙的自然实验, 最佳Econometrica论文，14.AER上以DID, DDD为识别策略的劳动和健康经济学，15.一个使用截面数据的政策评估方法, 也可以发AER，16.多期DID模型的经典文献，big bad banks讲解","，17.多期DID的经典文献big bad banks数据和do文件，18.非线性DID, 双重变换模型CIC, 分位数DID，受到博士生导师普遍欢迎，并分享给其指导的学生学习。

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。
2年，计量经济圈公众号近1000篇文章，

Econometrics Circle

标签：共线性,变量,DID,模型,标准化,自变量
来源： https://blog.51cto.com/15057855/2677900