Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!
作者:互联网
凡是搞计量经济的,都关注这个号了
稿件:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
关于机器学习在计量分析中的应用,各位学者可以参阅如下文章:1.Python中的计量回归模块及所有模块概览,2.空间计量软件代码资源集锦(Matlab/R/Python/SAS/Stata), 不再因空间效应而感到孤独,3.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现),4.机器学习第一书, 数据挖掘, 推理和预测,5.从线性回归到机器学习, 一张图帮你文献综述,6.11种与机器学习相关的多元变量分析方法汇总,7.机器学习和大数据计量经济学, 你必须阅读一下这篇,8.机器学习与Econometrics的书籍推荐, 值得拥有的经典,9.机器学习在微观计量的应用最新趋势: 大数据和因果推断,10.机器学习在微观计量的应用最新趋势: 回归模型,11.机器学习对计量经济学的影响, AEA年会独家报道,12.机器学习,可异于数理统计,13.Python, Stata, R软件史上最全快捷键合辑!,14.Python与Stata, R, SAS, SQL在数据处理上的比较, 含code及细致讲解,15.Python做因果推断的方法示例, 解读与code,16.文本分析的步骤, 工具, 途径和可视化如何做?17.文本大数据分析在经济学和金融学中的应用, 最全文献综述,18.文本函数和正则表达式, 文本分析事无巨细,19.最全: 深度学习在经济金融管理领域的应用现状汇总与前沿瞻望, 中青年学者不能不关注!20.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!
前面,我们引荐了①“机器学习方法出现在AER, JPE, QJE等顶刊上了!”,②前沿: 机器学习在金融和能源经济领域的应用分类总结,③Lasso, 岭回归, 弹性网估计在软件中的实现流程和示例解读”,④回归方法深度剖析(OLS, RIDGE, ENET, LASSO, SCAD, MCP, QR),⑤高维回归方法: Ridge, Lasso, Elastic Net用了吗,⑥Lasso回归操作指南, 数据, 程序和解读都有,⑦七种常用回归技术,如何正确选择回归模型?,⑧共线性、过度/不能识别问题的Solutions,⑨计量经济学与实验经济学的若干新近发展及展望,⑩计量经济学新进展,供参考等,在学术同行间引起巨大反响。
机器学习方法逐渐在经济管理等社科类顶刊,如AER,JPE,QJE,JOF等期刊上出现了。为了进一步了解机器学习在国外最新应用动向,我们为各位学者奉上“机器学习: 一种应用的计量经济学方法”。对机器学习方法感兴趣的学者,建议认真研读这篇非常重要、全面的文章。br/>**正文**
关于下方文字内容,作者:韦梓峄,东北财经大学金融学院,通信邮箱:wzy_dufe@163.com
机器学习: 一种应用的计量经济学方法
Mullainathan, Sendhil, and Jann Spiess. 2017. "Machine Learning: An Applied Econometric Approach."Journal of Economic Perspectives, 31 (2): 87-106.
摘要
Machines are increasingly doing "intelligent" things. Face recognition algorithms use a large dataset of photos labeled as having a face or not to estimate a function that predicts the presence y of a face from pixels x. This similarity to econometrics raises questions: How do these new empirical tools fit with what we know? As empirical economists, how can we use them? We present a way of thinking about machine learning that gives it its own place in the econometric toolbox. Machine learning not only provides new tools, it solves a different problem. Specifically, machine learning revolves around the problem of prediction, while many economic applications revolve around parameter estimation. So applying machine learning to economics requires finding relevant tasks. Machine learning algorithms are now technically easy to use: you can download convenient packages in R or Python. This also raises the risk that the algorithms are applied naively or their output is misinterpreted. We hope to make them conceptually easier to use by providing a crisper understanding of how these algorithms work, where they excel, and where they can stumble—and thus where they can be most usefully applied.
本文献作者将机器学习在计量经济学中的有效运用视角出发,提出机器学习不仅是计量经济学工具箱中的新工具,其中监督学习还解决预测问题:如何从x预测y。机器学习的优点在于它能够从数据中发现一般化的规律,能够发现未预先规定的复杂结构。它可以避免通过简单的过度拟合,从数据中拟合出复杂且灵活的模型,并使模型在样本外运行良好。同时文章还对机器学习的工作原理和与计量经济学的结合应用进行细致总结,两者的整合有利于我们扩大研究范围和深度。
机器学习的工作原理
首先作者通过预测房屋价值的例子对机器学习与计量中熟悉的OLS方法进行比较。选取来自2011年美国住房调查的大都市样本中随机选择的10,000套住房作为训练样本并选取有关房屋及其位置的信息(例如房间数量,基本面积等)作为变量,共选取150个变量。对于不同的预测方法,作者通过评估每种方法对于同一样本中分离的41,808个保留样本的房屋价值预测效果进行分析,结果如下表所示:
注:有关样本实证研究的所有详细信息,可以查阅:http://e-jep.org.
在上表中得到两个发现:
- 强调了选取保留样本进行评估的必要性,对于某些机器学习算法(例如随机森林),这种算法尤其容易出现过度拟合的情况。
- 在对保留样本的评估中,即使在样本量适中且协变量数量有限的情况下,诸如随机森林之类的机器学习算法也可以比普通最小二乘法做得更好。
一. 从线性最小二乘到回归树
在上述问题中,对于普通最小二乘回归,当考虑到变量之间的相互作用时(如壁炉的增加值可能会随客厅数量而有所不同),需要我们手动计算决定哪些交互包括在回归中(因为如果包括所有成对项比数据点更多的回归变量)。而当问题从房屋价值转变为更加复杂的人脸识别问题时,有效组合像素的函数将是高度的非线性和交互性,采用普通最小二乘回归的可行性也大打折扣。
进一步作者以回归树为例叙述机器学习对于交互的自动搜索。如下图所示,回归树将房屋特征的每个向量映射到预测的值。预测功能采用树的形式,该树在每个节点处一分为二。在树的每个节点上,单个变量(如洗手间的数量)的值确定要考虑左边的子节点(少于两个洗手间)或右边的子节点(两个或更多)。当到达最终端即叶子时返回预测值,每片叶子对应于虚拟变量的乘积(如最左侧的图片,系数值为9.2)。
二. 过度拟合及解决办法
考虑一下,如果有一棵足够深的树,那么每个观察结果都将留在自己的叶子中。那么对于给出的样本集,来说这将是完美的拟合。但同时这也是完美的过度拟合。
从上图中我们可以看出对于最左边的图,估计值与真实值之间存在一定的距离,拟合效果并不尽如人意。而对于最右边的图来说,虽然每一个样本点都在曲线上,但是由于函数形式过于复杂,对于样本点之外的点来说,并不能对其有较好的估计,出现过度拟合的情况。
机器学习的最大吸引力在于高维度:灵活的函数形式使我们能够适应数据的各种结构。但是这种灵活性也提供了很多可能性,以至于简单地选择最适合样本中的功能将是一个糟糕的选择。那么机器学习如何进行样本外预测呢?
解决方案的第一部分是正则化。以回归树为例,我们可以选择一定深度的树中的最佳树,而不是选择所有树中“最佳”的树。树越浅,样本内拟合越差:每片叶子上有很多观测值,没有一个观测值能很好地拟合,但这也意味着将其过度拟合程度低。树的深度是正则化器的一个示例,它可以测量功能的复杂性,通过适当选择正则化级别,可以避免过度拟合的发生。
那么如何选择正则化的级别?那就涉及到第二个部分经验调整。过度拟合的本质是我们希望预测函数在样本外与样本内一样表现出色。通过经验调整,在原始样本内创建了样本外实验。通过对一部分数据进行拟合,并查看哪个级别的正则化可以使得另一部分数据获得最佳性能。另外,可以通过交叉检验来提高此过程的效率:将样本分割成K个大小相等的子样本。一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,最后,我们选择具有最佳估计平均性能的参数。
进一步作者对于不同的预测算法的模型类型F及其正则化器R(f)进行总结。
选择预测函数涉及两个步骤:
以复杂度为条件,选择最佳的样本内最小损失函数。
使用经验调整来估计复杂度的最佳级别。
三. 计量经济学的指导作用
因此在使用机器学习方法时如何选用合适的函数以及如何对其进行正则化需要进行考虑选择。最近很多计量经济学理论结果补充了机器学习的理论,揭示了不同正则化工具的比较性能。
比如对于房间的面积是只考虑总面积还是考虑每个房间的面积,对于变量应该使用对数处理,还是归一化等等。这些关于如何呈现要素的选择将使模型类型和正则化器相互影响:线性模型可以轻松地从面积和房间数得到每个房间的面积,而回归树则需要许多次拆分节点。在传统的预测模型中,一组变量单单改变形式并不会更改预测,因为从中选择的模型类型没有更改。但是,在任何给定的正则化级别下,模型类型都可能发生变化从而导致预测值发生变化。比如如果我们认为在定价过程中每间卧室的浴室数量很重要,那么创建该变量将显着降低复杂性成本。
同时,对于预测性能进行可靠的评估是不置可否的,而这也需要计量经济学的强大保证。在房价示例中,将样本分为训练样本和保留样本符合计量经济学原理:拟合预测函数所涉及的所有数据(包括用于验证算法的交叉验证)均不用于评估所产生的预测函数。
因此计量经济学理论在这里起着双重作用。首先,计量经济学可以指导设计选择,例如交叉检验的折数选择及模型类型。这些选择的指导可以帮助提高预测质量和基于此的任何测试功能。其次,对于给定拟合的预测函数,它一定能够让我们推断估计的拟合程度。而保留样本使我们能够针对拟合函数的预测值进行测试。
四.机器学习的缺陷
机器学习的优点在于它们可以拟合出许多不同的模型。但是这也会导致一个致命弱点:更多的模型意味着具有完全不同参数的两个模型可以产生相似的预测结果。从而算法如何在两个截然不同的功能之间进行选择就归结为一个掷硬币的问题。因此,我们如何在两种不同的模型之间进行选择值得研究。
而正则化也加剧了这个问题。首先,我们会选择相对不复杂但错误的模型;其次,它可以引起遗漏变量偏差,当正则化排除一些变量时,可能会导致参数估计偏差。
机器学习如何应用
通过上文,我们可以得知机器学习的优点是它提供了一种强大,灵活高质量的预测方式而它的弱点是很难验证假设,因为机器学习不会产生基本参数的稳定估计。因此,机器学习在图片的改进预测上有较大应用价值。
1. 新数据
现如今“大数据”成为一大热词,一方面它强调数据规模的变化,另一方面这些数据的性质也发生了同样重要的变化。机器学习可以处理对于标准估计方法而言难以处理的高维非常规数据,包括传统上甚至没有将其视为可以使用数据的图像和语言信息。相关文献整理如下:
2. 估计预测
第二类应用是估计预测的任务。比如以线性工具变量的情况理解两阶段回归过程:
首先在工具变量z上进行回归:
- 然后在拟合值图片上进行回归
通常将第一阶段作为估计步骤。但这实际上是一项预测任务:只有预测进入第二阶段。第一阶段的系数仅仅是达到这些拟合值的一种方法。而工具变量中的有限样本偏差是过度拟合的结果。过度拟合意味着样本内拟合值图片不仅拾取图片,而且拾取噪声图片。结果导致图片偏向x,从而使得第二阶段的估计值图片因此偏向x与y的普通最小二乘估计。相关文献整理如下:
3.政策预测
有关文献如下:
4. 测试理论
有关文献如下:
结论
对于经验主义者而言,理论驱动和数据驱动的分析模式总是共存的。理论驱动的评估方法大多基于自上而下的理论演绎推理估计模型。例如,经济学的应用大多围绕参数估计展开:对依赖和解释变量之间关系的参数进行良好估计。而数据驱动的评估方法大多简单地让数据说话。机器学习提供了一个强大的工具,可以更清晰地听到数据所要表达的内容。区别于参数估计,机器学习属于计量经济学中预测工具箱的一部分,更加适用于经济学中的预测任务。这两种方法并不冲突。理论可以指导在实验中要操纵哪些变量;但是在分析结果时,机器学习可以帮助管理多个结果并估计异类处理效果。
从长远来看,新的经验工具有助于扩大我们正在研究的问题的种类。最终,机器学习工具可能扩大我们的工作范围,不仅是通过提供新数据或新方法,而且还要使我们专注于新问题的研究。
长按以上二维码可以阅读Machine Learning: An Applied Econometric Approach原文
关于一些计量方法的合辑,各位学者可以参看如下文章:①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向,⑤2020年中文Top期刊重点选题方向, 写论文就写这些,⑥过去三十年, RCT, DID, RDD, LE, ML, DSGE等方法的“高光时刻”路线图。后面,咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!,②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授,③Python, Stata, R软件史上最全快捷键合辑!,④关于(模糊)断点回归设计的100篇精选Articles专辑!,⑤关于双重差分法DID的32篇精选Articles专辑!,⑥关于合成控制法SCM的33篇精选Articles专辑!⑦最近80篇关于中国国际贸易领域papers合辑!,⑧最近70篇关于中国环境生态的经济学papers合辑!⑨使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!⑩最近50篇使用系统GMM开展实证研究的papers合辑!
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
2.5年,计量经济圈近1000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle
标签:机器,预测,Top,样本,计量经济学,学习,拟合,淘汰 来源: https://blog.51cto.com/15057855/2675646