【干货】吴璟:大数据背景下的住房市场监测分析
作者:互联网
本讲座选自吴璟副教授于2015年4月16日在 RONG 系列论坛之三——大数据与未来人居研讨会上所做的题为《大数据背景下的住房市场监测分析》的演讲。
吴璟:谢谢邓老师的介绍,也谢谢大家,很高兴有机会在这里和大家交流。今天主要是结合我们最近正在开展的一系列工作,包括若干篇论文和一些初步的数据产品,向大家介绍我们在提高中国住房市场监测指标质量方面做的一些努力和尝试,以及其中的一些思考。
过去十年中住房市场一直受到全社会的高度关注。但是在很长一段时间里,在住房市场监测和分析指标方面,我们能够拿到什么样的数据呢?总的来说有以下三个特点:首先,范围上,主要集中在35个或者70个大中城市。其次,频度上,以季度或者月度为主,甚至有时候只有年度数据。最后,主要指标都是以事件为关注重点,比如开发投资、资金来源、建设、开工、施工、竣工、交易量和价格等等。这是传统上我们在住房市场监测分析中所依赖的数据。
但是最近几年,使用者对于住房市场监测质量的要求却在不断提升。这种变化我个人认为主要来源于两个方面。一方面,住房市场也有它的“新常态”。首先,从过去持续了近十年的单边的快速市场扩张,或者单边的房价快速上涨,转为周期性的市场波动,住房价格涨跌互现。这种情况下,监测指标的误差有可能已经足以影响到投资者对盈亏平衡点的判断,或者影响到一些重要的心理底线,比如说房价到底是涨还是跌,这就提高了对指标精度的要求。其次,最近几年里35个城市在全国住房市场中所占份额,按交易金额计算已经从80%下降到了50%,相应的大家对主要城市之外的三、四线城市的关注度在提升,而对于这些城市目前有很多监测指标都是空白的。第三,主要城市中存量住房市场正在逐步取代新房成为市场的主体,由于二手房存在交易分散化程度更高等特点,这也对住房市场的监测提出了更高要求。
另一方面,房地产间接投资方式正在快速发展。这其中包括了传统的房地产企业股票、债券、贷款等,也包括最近大家讨论很多的REITs和MBS,都是以房地产为标的的金融资产。这就形成了一个很有意思的局面,金融市场在倒逼着房地产市场提高监测和分析指标的水平。金融市场对股票、债券等金融资产的交易情况,是通过以分甚至秒为单位的、高度同质化、全面覆盖的精确指标来反映的,相比之下金融市场参与者对传统的住房市场监测就很难满意。这两方面需求要求我们显著提高住房市场监测的水平,与此同时大数据的“大、全、快、真”的特点也为我们提供了这样的机会,特别是提供了一些新的思维和方法。
下面,我想先围绕我们正在开展的工作给大家介绍三个例子,最后从这三个例子里面总结我们的体会和建议。
第一个例子是我们在二手住房领域基于挂牌数据所编制的高频指数。
住房价格可以说是住房市场监测指标里最重要、最受关注的一个。我个人认为,住房价格指标的编制可以说经历了三个阶段。第一个阶段,或者说1.0时代的住房价格指标的特点是基础数据来源于填报或者是调查,并且多数是采用简单平均等方法。目前多数官方指标还采用的是这样的思路。大家对于其中存在的问题已经有很多讨论,这里不再多说。
第二阶段,或者说2.0版本的价格指标,最典型的是我们从06、07年开始在新建商品住房市场中进行的努力。它的关键特点是在基础数据上不再依赖于填报或者是调查,而是直接依托管理环节,在交易备案的时候就会形成相应的微观数据积累。从这个角度讲,已经有一点大数据的雏形。
后来我们将这上面的努力拓展到了土地市场。我们自动采集国土部门发布的居住用地挂牌和成交数据,并采用同质性方法反映居住用地价格变化情况。其中,去年9月开始我们和新加坡国立大学、沃顿商学院一起定期发布35个大中城市居住用地价格指数,免费供全社会使用。目前我们正在尝试把这个指标拓展到全国287个地级及以上城市。
目前我们在做的,我们自己把它称之为3.0版本的住房价格指数,是基于挂牌价格的存量住房价格指数。它的最大特点是数据不再依赖于外界提供,而是我们自动的通过对全国500多家网站的实时监测,采集存量住房挂牌数据。大家知道,全国范围里存在着若干主要的房地产门户网站,此外每个城市也有一些地方性网站,主要经纪机构还有自己的官方网站。从去年开始我们动态监测这些网站发布的挂牌数据,每天大概保持40到60万条数据的积累。
这里面存在一个很主要的问题,这些数据是用户自己生成的,质量上有可能存在缺陷,比如有重复冗余信息,有虚假和无效信息。所以我们最主要的工作不仅仅是抓数据,更是怎么样把这里面真正有价值的真实信息筛选出来。这方面我们独立开发了若干技术来实现。
在数据采集完后,编制过程中仍然要解决住房异质性的问题,为此我们采用特征价格和样本匹配相结合的方法,以更精细化的实现住房价格的同质化度量。
这里给大家举一个例子。如果用传统的计算平均价格的方法,在周或者天这样的高频率上得到的通常是下面红色这条锯齿状的线,无法提供任何有价值的信息。只有在经过我们的技术处理,筛掉噪音以后,得到的蓝色的线才是我们认为有价值的信息。
我们目前已经基本完成了指数编制。全国范围内二手住房挂牌量和价格指数,从去年6月份到现在,以9月30号新政和今年2月的降息为界,经历了很明显的三个阶段。在此基础上,东中西部城市和一二三四线城市反映出了很大的差异。
因为具有高频特点,这个指数在很多方面具有突出优势。比如说3月30号政策出台以后,我们可以在此后一周里进行动态监测,第一时间为政府决策者和投资者提供分析依据。传统的指标则需要在一个多月后才能给出监测结果。
第二个例子,在需求端我们也希望能够对潜在的购买者有一些了解。传统上这是一个难点。
传统的需求端监测主要依赖于调查。最典型的比如,现在每个季度央行开展的全国储户问卷调查中,就包括了对房价上涨预期的问题。可以看到目前市场预期是非常低的。
我们更关注的是一些线上的、基于大数据条件的努力。比如说“百度指数”可以反映特定时间和区域内对特定词语的搜索频率,我们的一个尝试是利用“百度指数”,用“二手房”、“房价”等关键词反映一段时间内特定城市对住房市场的需求强度。类似工作在股票市场里面已经比较成熟。通过股票名称对应的“谷歌指数”来反映投资者对于特定股票的兴趣程度,早已不仅是一个学术研究问题,而且已经成为一种重要的量化投资工具。
这里我们举一个例子。3月30号后的一周内,除了贵州以外,每个省对二手房关键词的搜索比例较前一周显著提升,这在一定程度上反映了新政在需求端的效果。同时我们也看到各个省的差异非常大,尤其是东部的提升幅度整体上大于中部和西部。
我们之前还做过另一项工作,是基于“谷歌指数”来反映全国范围内有哪些城市的互联网用户在查询和关注特定城市——比如说北京——的房价相关信息,由此反映住房市场相关信息在空间上的传递过程。这里大家看到的是全国范围内对北京、上海和深圳住房价格信息的关注情况,总的来说全国范围内的互联网用户都在关注这几个一线城市的住房价格信息。我们对每个城市都可以做出类似分析,这样就可以直观看到各个城市在全国住房市场中处于什么样的位置。
百度指数只是我们能使用到的一个“二手”的大数据资源,我们更希望逐步获取一些“一手”的数据资源。这里是我们利用智能手机用户在使用APP时的数据的一些初步尝试,可以看到3月30日之后二手房APP使用的频率有比较明显的上升。这还是一个起步,未来我们更希望从后台能够拿到每一个用户关注的是哪一套房子,这套房子是什么区位、什么户型的,以此来对市场需求特征和需求特征的变化进行更精细的分析。
最后一个例子,是关于调控。从过去十几年的情况看,政府的调控措施对住房市场的运行能够产生非常重要的影响。
但是政府行为是很复杂的。比如说中央跟地方之间的态度和行为不完全一致,不同城市之间也不完全一致,它在时间维度上的波动性非常大。现在我们更多的是通过行为或者事件本身来进行监测,比如说又降息了、调首付了、五年改两年了、地方政府提供了现金补贴等等,是一个不连续的数据。我们想尝试的是有没有可能以更连续的、一致性、定量化的方式对它进行跟踪,甚至有可能在政策出台之前做出预测。
我们现在从文本挖掘的角度初步做了一些尝试。首先是从政府工作报告开始,每个城市的政府工作报告完整的表征了此后一年的施政方针。在和新加坡国立大学合作完成的工作论文里面,我们搜集了35个城市十年间的工作报告,对用词进行分解和词性判断。在做社交媒体分析时,大家通常是按悲观、乐观、中性进行词性判断,在这个地方我们调整了一下处理的方式,把它改成了发展倾向和抑制倾向,前者是在救市,后者是在打压。这样我们可以计算得到每个城市当年的倾向指数。
而且进一步的分析发现,这个指数对于此后一年里城市住房市场发展情况确实会产生很重要的影响。
我们还可以做各种模型,来分析是什么样的因素来影响了这些干预政策的倾向和力度。这不仅可以帮助我们深度理解地方政府行为,而且能够为我们以后对政府干预行为的预测提供数据依据。
我们现在还在尝试进一步把类似方法推广到每一个城市的党报,这是另外一个比较官方的反映政府倾向的媒介。利用类似方法,可以追踪到每个季度或者月度党报的发展倾向和抑制倾向,比如这里大家看到的是某个一线城市党报的抑制倾向指数。它的优势是频率更高,相应的及时性也更强。
以上跟大家介绍我们目前三方面的努力,还有其他的工作,希望未来有进一步的成果后向大家介绍。
我们作为一个团队的体会是,大数据给住房市场监测分析带来了很大的机遇,甚至可以说是重大变革。首先,在覆盖范围上,大数据的引入可以使覆盖范围从一个城市扩展到所有城市。进一步的,既然有所有城市,就可以根据需要进行灵活的定制化组合。前不久有一个机构提交了一个很奇怪的城市组合给我,问我能不能针对这个组合编制价格指数。后来我才了解到这其实是某个上市房地产企业目前有在建项目的城市组合。基于这个城市组合编制价格指数,就有可能提前预判企业的盈利情况。其次,在更新频率上,从传统的季度、月度可以突破到周度,甚至到天、实时更新。第三,在分析的角度上,传统的都是针对事件的分析,现在我们越来越多的关注买卖双方,包括政府的行为,甚至在他们做出行为之前看他们的心理或者是关注度的变化情况。最后,在分析的精度上,过去有很多分析我们很难量化,只能举例子,比如3月30号之后有很多报纸在说哪套房子一天之内涨了多少,或者说感觉,比如说最近政府对住房市场的态度发生了变化。现在也开始尝试用定量化的方式对这些问题进行描述。更重要的是,实现以上四个方面的变革是基于一种较低成本的方法来实现的,是有可能持续开展的;而不是像问卷调查、普查一样,因为高昂的成本,只有可能短时间或者以很低频率进行。最终的目标,是希望能够实现对住房市场及时、准确、全面的把握。
这个过程里面也有几个问题,第一,这些大数据通常会存在一些不足,尤其是在基础层面会有虚假数据、冗余数据,也就是说是有噪音的。第二,我们仍然需要非常努力的丰富数据来源。例如,目前关于市场参与者行为和心理数据仍然存在很多空缺。再如,现在几乎所有城市对于这个城市有多少套房子,这些房子的空置率是多少都说不清楚,而这些是最基础的数据资源。第三,我们有没有可能把这些局部数据汇总到一起,形成对市场整体情况的判断,甚至满足预测的需要。最后,有了新的数据和产品,我们也希望找到一些新的用户。
以上就是我们在这方面做的尝试。这里面提到的多数工作成果我们都会陆续以免费方式公开对社会发布,希望能够为大家的监测和研究提供更好的数据基础。也非常希望大家可以经常交流,共同提高我们国家住房市场监测数据的质量。
标签:吴璟,城市,住房,干货,监测,数据,我们,市场 来源: https://blog.51cto.com/u_15127682/2828640