当前位置: 首页 > 

嘉宾供稿:“谷歌数据对宏观经济临近预测真的有用吗?”

|
今天我们很高兴请到一位嘉宾劳伦特·费拉拉(生态学教授巴黎Skema商学院经济学硕士,国际经济管理学院主任nal预测研究所)。


最近世界各地一系列经济、金融和流行病危机大大缩短了宏观预测人员的预测时间。在Covid-19危机的核心,人们关注的是周末,而不是两年。这导致从业者专注于新型的高频和替代数据集,这给计量经济学家带来了新的挑战(非结构化数据、非常大的数据集、混合频率、高变异性、短采样……)。

在最近的文献中使用了各种各样的替代数据来源,例如剪贴网页数据、扫描仪数据或卫星数据。一般来说,这些数据集太大了,不能被认为是大数据。替代数据的主要来源之一是谷歌搜索数据,关于使用此类数据进行预测的主要论文是由Hal Varian及其合著者撰写的(参见此处的示例)。在临近预测/预测领域,文献倾向于显示谷歌数据具有一定预测能力的证据,至少对于一些特定的宏观经济变量,如失业率(D'amuri和Marcucci, 2017)就业(Borup和Montes Schütte, 2020),建筑许可(Coble和Pincheira, 2017)或汽车销售(Nymand和Pantelidis, 2018)。然而,当与其他信息来源进行适当的比较时,经济学家可以从使用谷歌数据进行预测和临近预测中获得什么收益,仍然没有定论。一个在《经济学人》上激烈争论的问题是,从业者对这些数据的可重复性(参见这里Hal Varian和Simon van Norden之间的讨论)。

在与Anna Simoni最近在《商业与经济统计杂志》(Journal of Business and Economics Statistics)上发表的一篇论文中,我们问自己,在控制了官方变量(如民意调查或工业生产等预测者通常使用的变量)后,谷歌数据在预测季度GDP增长方面是否仍然有用。如果是这样的话,这些替代数据到底什么时候能提高临近预测的准确性呢?GDP增长的实时预测对于决策者实时评估宏观经济状况非常有用。宏观经济临近预测的概念是由Giannone等人推广的。[2008]它与标准预测方法的不同之处在于,它旨在高频地评估当前的宏观经济状况。这样做的目的是在官方季度国民经济核算报告发布之前,为政策制定者提供有关经济状况的实时评估。例如,可以在这里看到美国经济,也可以在这里看到Econbrowser上最近的一篇文章。

由于谷歌搜索数据是高维的,这意味着变量的数量与时间序列的维数相比很大,因此使用它是要付出代价的:首先,我们需要使用排序过程将其维数从超高降至高,其次,我们需要使用常规估计器来处理之前定义的变量。正则化技术是解释线性回归中几个潜在相关变量的一种方法(参见岭估计)。为此,我们提出了一种结合变量预选和Ridge正则化的大型数据库计算新方法。在本文中,我们给出了一些关于这种估计策略的良好渐近性质的理论结果,我们将其称为模型选择后的Ridge。

除了这些理论结果之外,我们还获得了一组实证结果,这些结果可能会很有趣,可以与那些对使用替代高维数据进行临近预测宏观经济学感兴趣的人分享。我们现在的目标是预测美国、欧元区和德国在3种经济时期的本季度每周的GDP增长:(1)平静期(2014-16年),(2)GDP增长突然向下转移的时期(2017-18年,与美中/欧洲贸易战有关)和(3)经济衰退,增长率显著为负(2008-2009年,受全球金融危机影响)。在这方面,我们使用了经典的宏观数据(调查和制作),以及来自谷歌的替代数据(谷歌搜索数据,已经分为类别和子类别)。我们比较了不同的方法,基于它们的临近预测能力,由均方根预测误差(RMSFE)衡量。从我们的实证分析中可以得出四个显著的事实。

首先,我们将标准回归(Ridge正则化)与选择后回归(我们的模型选择后的Ridge接近)进行比较。图1显示了欧元区经济停滞期间(2014-16年)的结果。我们清楚地看到,在进入模型之前实时数据预选的准确性方面的增益。关键是,有太多的变量就会产生太多的噪音。谷歌搜索数据尤其如此,因为其中一些数据与经济活动没有直接关系。这一发现证实了之前在动态因素模型背景下的发现(见Bai和Ng, 2008或Barhoumi等人,2009)。

图1:欧元区在平静期(2014-16年)的rmsfe由带Ridge正则化的标准回归(蓝条)和模型选择后的Ridge方法引起Tion(橙色条)。rmsfe在当前季度的13周内形成。资料来源:费拉拉和西蒙尼(2023)

其次,我们指出谷歌搜索数据在临近预测季度前四周的GDP增长率方面的有用性,也就是说,当没有有关当前季度状况的官方信息时。在图1中,我们看到在季度初(从第1周到第4周),谷歌数据已经提供了GDP增长率的准确图像,RMSFE相当低(在0.2%到0.3%之间),略高于所有信息可用的季度末(约0.2%)。

图2:欧元区在平静期(2014-16年)的rmsfs是由山脊监管的标准回归(蓝条)引起的,来自模型选择后的山脊(橙色条),从模型选择后的山脊使用o的Tion方法只有谷歌数据(绿柱)和来自模型的初级回归,没有来自谷歌的任何数据(黄柱)。本季度13周内rmsfe的演变来源:Ferrara和Simoni (2023)

第三,一旦官方数据可用,从第5周开始发布季度第一次民意调查(以欧元区为例),谷歌数据的相对临近预测能力正在迅速减弱。我们在图2中看到,对于第五周,包含所有数据的RMSFE(橙色条)与没有来自谷歌的任何数据的RMSFE(黄色条)是等价的,即。本季度第一次调查仅提供汇总信息。我们还注意到,仅使用谷歌数据(绿条)的模型选择方法后脊产生的rmsfe没有随着时间的推移而减少,这表明从第5周开始,橙色条中可见的增益来自宏观变量的集成。

第四,衰退呈现出明确的模式,因为没有任何预选且仅以谷歌数据作为信息集的模型提供了最低的rmsfs(图3中的绿条)。这种模式在德国和美国的数据中普遍可见。这一结果需要通过进一步的研究来进一步理解,但它可能与我们在衰退期间观察到的众所周知的更高程度的不确定性有关,这意味着必须使用更多的数据来计算它。在任何情况下,这都可以被视为在危机期间使用替代数据的理由。

图3:欧元区在衰退(2008-2009年)期间的rmsfs,由Ridge监管的标准回归(蓝条)引起,来自模型选择后的Ridge(橙色条),从模型选择后的山脊使用o的Tion方法只有谷歌数据(绿柱)和来自模型的初级回归,没有来自谷歌的任何数据(黄柱)。本季度13周内rmsfe的演变来源:Ferrara和Simoni (2023)

各种稳健性检验证实,在我们的分析中,这些实证发现对所有国家/地区仍然有效,当我们通过考虑22个习惯性变量(销售、出口、就业……)来增加宏观经济信息集时,这些实证发现仍然有效。对欧元区数据副本的最新实时分析证实了不同方法的顺序。总而言之,所有这些结果表明,谷歌数据可以非常有用的实时预测GDP增长在扩张阶段,当预选步骤后,信息是不可用的。然而,一旦官方宏观经济信息发布,谷歌数据带来的边际收益往往会迅速消退。在经济衰退期间,预测者似乎需要最广泛的可用信息来评估经济活动中正在发生的事情。


本文作者是劳伦·费拉拉

TAG: