论文部分内容阅读
随着互联网的广泛普及和信息技术的迅猛发展,高维数据已经广泛出现在自然科学和社会科学等领域中。在高维数据中,变量之间往往具有一定的相关性,如何刻画这种高维相关性的特征已经成为近年来的热点研究方向。高维因子模型是对高维数据进行建模的一种有效统计工具,它可以刻画多个变量之间的关系并且可以对数据进行降维,在统计学、计量经济学、社会学等诸多领域有着广泛的应用。在高维因子模型中,结构断点探测和因子的聚类成为近几年的热点研究课题,本文主要在这两个方向上进行了理论研究,提出了相应的估计算法,同时证明了估计量的统计性质,并利用实际数据进行实证分析。本文的主要研究内容和研究结论及其创新点概括如下:第一,为了探测高维因子模型中结构断点的位置,本文第三章利用拟最大似然法估计高维因子模型中的结构断点,该方法首次将结构断点与因子个数、伪因子个数建立起直接的联系,有效地解决了Bai et al.(2020)[12]中提出的旋转不可识别性问题,并从理论上证明了拟最大似然估计量相应的统计性质,即在适当的条件下:(1)如果断点使得整个数据中伪因子个数大于断点之前或者断点之后真实的因子个数,抑或同时大于断点之前和断点之后真实的因子个数,则拟最大似然估计量具有一致性;(2)如果整个数据中伪因子个数同时等于断点前和断点后真实的因子个数,也就是只存在因子载荷的旋转变化,则拟最大似然估计量与真实的断点之差是有界的,并推导出该情况下拟最大似然估计量的极限分布。同时,本章通过Monte Carlo模拟验证了相关理论结果,并且和现有的几种估计方法进行了比较分析,结果显示拟最大似然法具有一定的优势。最后,本章用拟最大似然法去探测美国2001年12月到2013年1月的宏观经济数据集,结果显示结构断点为2007年7月,这意味着在次贷危机的早期,模型结构已经发生了变化。事实上,2007年7月美国房价的下跌,直接导致了证券抛售行为,进而降低了证券的价值,因此经济学家Mark Zandi写道,2007年7月的事件“可能是随后发生的金融市场动荡的最直接催化剂”。第二,相比已有算法,拟最大似然法的运算速度有明显提升。Bai et al.(2020)[12]在计算过程中需要对每个可能的断点划分都使用主成分分析法(PCA),这就增加了运算的复杂度,从而导致运算速度下降;而Ma和Su(2018)[55]和Cheng et al.(2016)[34]在计算过程中需要用到Lasso方法,这就导致运算速度更慢。相比而言,由于本章所提出的拟最大似然法在计算过程中对所有的样本只使用一次主成分分析法(PCA)进行估计,因此在计算速度方面具有一定的优势。本章最后还给出多断点逐次估计的具体算法。Monte Carlo模拟结果显示,在多断点情况下,与Baltagi et al.(2020)[22]方法相比,本章提出的拟最大似然估计量依然表现良好。因此,对于时间维度非常大并且存在多个断点的大规模数据集中,拟最大似然法在运算速度和准确率方面都有一定的优势。因此,从这两方面来说,本章所提出的拟最大似然法具有很大的实际应用价值。第三,本文第四章将高维因子模型扩展至具有交互效应的面板数据模型,并且假设交互效应中的因子载荷部分具有子空间结构。在面板数据中,由于个体间存在异质性,因而对异质性进行聚类是一个非常重要的研究课题。本文将K-means聚类扩展至更一般的子空间聚类,提出了最小二乘子空间聚类算法并证明了其估计量的相关统计性质,该算法通过迭代对模型中的未知参数、因子载荷子空间和组函数进行求解。Monte Carlo模拟结果显示,和现有几种估计方法相比,最小二乘子空间聚类算法具有一定优势。本章还利用该方法对世界上90个国家在1970—2000年中的民主与收入之间的关系进行实证分析,结果显示,民主与收入之间存在正相关。最后,本章给出了一个对因子个数、子空间个数和子空间维数的一个可行的模型选择准则。