论文部分内容阅读
多元纵向数据,广泛存在于临床实验,生物医学以及金融等领域中。不同于一元纵向数据,多元纵向数据是对一组研究个体的多个指标,而非单个指标,在不同时刻进行重复观测所得到的数据。如在临床试验中,研究人员在观测研究个体的血压的同时,还需要观测其血脂,血糖,心率等其他指标。因此,分析多元纵向数据时,研究者往往要兼顾其时间维度上的特征以及同一时间点上同一个体不同变量之间的相关性。多元纵向数据分析提供了一个研究多元响应变量的联合性质在时间维度上变化的平台,这对于进一步合理建模以及预测未来趋势有重大意义。
本文主要研究的是高维情形下,多元纵向数据的精度矩阵(协方差矩阵的逆矩阵)的估计及性质。在实际统计推断中(如图模型,判别分析等),研究者通常关注于精度矩阵而非协方差矩阵。然而在高维情形下,样本协方差矩阵往往会出现不可逆的情况,从而使得精度矩阵无法用经验的方法得到。对于多元纵向数据,因其依时间顺序观测的特点,观测变量往往仅依赖于其之前的几次观测(时滞较大的两组响应变量之间相关性为0),此时协方差矩阵和精度矩阵呈现相应的带状稀疏结构。正是基于这种结构,本文创造性的构造了多种带状精度矩阵的估计并探索了估计的性质。
首先,本文提出了高维多元纵向数据的精度矩阵的一个稀疏估计,称之为双凸逐块正则化估计(BCBR)。基于块状修正的Cholesky分解,本文首先假定Cholesky因子呈带块状结构,而新息矩阵呈一般的稀疏结构,然后分别对Cholesky因子施加分层凸惩罚,对新息矩阵加Lasso惩罚。这种逐块的带状结构是一元纵向数据带状结构的一种推广。最后作者应用结合了ADMM算法的交替凸优化方法求解得到相应带块状稀疏估计,并在Frobenius范数下给出了该估计的最优收敛速度及带宽真实覆盖的渐近性质。模拟研究和实际数据分析均表明本文的估计比其他现存方法更合适此类数据。
其次,针对高维多元纵向数据精度矩阵的带块状稀疏结构,本文创新地使用贝叶斯方法进行了带宽选择和假设检验。基于块状修正的Cholesky分解,作者分别对Cholesky因子、新息矩阵以及带宽构造了合适的先验分布。根据该先验算出联合后验分布后,选择使得带宽边际后验概率达到最大的带宽。同时,作者证明了带宽选择和假设检验中贝叶斯因子的相合性。模拟研究和实际数据亦充分表明本文提出的方法能有效地选择出真实的带宽。
最后,为了更好的适应数据,更加灵活的刻画精度矩阵的带状结构,本文提出了一个更有创新性的自适应带状正则化估计,称之为自适应带状正则化估计(ABR)。类似BCBR,ABR亦基于块状修正的Cholesky分解,但不同的是,此时假定Cholesky因子呈自适应带块状结构,新息矩阵仍呈一般的稀疏结构。之后作者逐行块的分解似然函数,且对每行块加以不同的分层凸惩罚以及Lasso惩罚,并类似的应用了结合ADMM的双凸函数的交替凸优化方法得到相应自适应带块状稀疏估计。自适应带块状结构相较于严格带块状结构有更强的数据自适应性且更加灵活。本文亦给出了其在Frobenius范数下逐行块估计的渐近性质及整体的收敛速度。模拟研究和实际数据分析均证明了该估计的优越性。
本文主要研究的是高维情形下,多元纵向数据的精度矩阵(协方差矩阵的逆矩阵)的估计及性质。在实际统计推断中(如图模型,判别分析等),研究者通常关注于精度矩阵而非协方差矩阵。然而在高维情形下,样本协方差矩阵往往会出现不可逆的情况,从而使得精度矩阵无法用经验的方法得到。对于多元纵向数据,因其依时间顺序观测的特点,观测变量往往仅依赖于其之前的几次观测(时滞较大的两组响应变量之间相关性为0),此时协方差矩阵和精度矩阵呈现相应的带状稀疏结构。正是基于这种结构,本文创造性的构造了多种带状精度矩阵的估计并探索了估计的性质。
首先,本文提出了高维多元纵向数据的精度矩阵的一个稀疏估计,称之为双凸逐块正则化估计(BCBR)。基于块状修正的Cholesky分解,本文首先假定Cholesky因子呈带块状结构,而新息矩阵呈一般的稀疏结构,然后分别对Cholesky因子施加分层凸惩罚,对新息矩阵加Lasso惩罚。这种逐块的带状结构是一元纵向数据带状结构的一种推广。最后作者应用结合了ADMM算法的交替凸优化方法求解得到相应带块状稀疏估计,并在Frobenius范数下给出了该估计的最优收敛速度及带宽真实覆盖的渐近性质。模拟研究和实际数据分析均表明本文的估计比其他现存方法更合适此类数据。
其次,针对高维多元纵向数据精度矩阵的带块状稀疏结构,本文创新地使用贝叶斯方法进行了带宽选择和假设检验。基于块状修正的Cholesky分解,作者分别对Cholesky因子、新息矩阵以及带宽构造了合适的先验分布。根据该先验算出联合后验分布后,选择使得带宽边际后验概率达到最大的带宽。同时,作者证明了带宽选择和假设检验中贝叶斯因子的相合性。模拟研究和实际数据亦充分表明本文提出的方法能有效地选择出真实的带宽。
最后,为了更好的适应数据,更加灵活的刻画精度矩阵的带状结构,本文提出了一个更有创新性的自适应带状正则化估计,称之为自适应带状正则化估计(ABR)。类似BCBR,ABR亦基于块状修正的Cholesky分解,但不同的是,此时假定Cholesky因子呈自适应带块状结构,新息矩阵仍呈一般的稀疏结构。之后作者逐行块的分解似然函数,且对每行块加以不同的分层凸惩罚以及Lasso惩罚,并类似的应用了结合ADMM的双凸函数的交替凸优化方法得到相应自适应带块状稀疏估计。自适应带块状结构相较于严格带块状结构有更强的数据自适应性且更加灵活。本文亦给出了其在Frobenius范数下逐行块估计的渐近性质及整体的收敛速度。模拟研究和实际数据分析均证明了该估计的优越性。