论文部分内容阅读
随着数据收集技术的进步,超高维数据频繁的出现于多种科研领域,如自然科学,工程学和人文科学。然而现存的变量选择方法,如:LASSO,LARS,SCAD等等,都不能很理想的应对当预测变量个数p远大于样本个数n的情况。面对实际情况中日益预增的超高维问题,两阶段变量选择法得到了广泛的关注,即先使用变量筛选法对超高维数据进行降维,然后再利用其他更进一步的变量选择法进行精细的选择和参数估计。自从FanandLv(2008)提出SureIndependenceScreening这一开创性工作以来,大量的文献致力于解决第一阶段中(超)高维变量的筛选问题。
在本文的第二章中,我们提出了一种新的衡量条件期望不相关的标准——鞅差相关系数。Szekely,RizzoandBahirov(2007)为了度量两个随机向量之间的独立性构造了距离相关系数,而鞅差相关系数正是距离相关系数的一种自然延伸。因为使用相似的权重函数,鞅差相关系数及其样本估计值继承了距离相关系数的很多优良性质,比如简洁的计算公式和良好的理论性质。进一步的,我们使用鞅差相关系数作为一种边际效用来进行高维变量筛选,即清除预测变量集中和条件期望E(Y|X)无关的预测变量。通过数据变换,这一标准可以很自然的被拓展至条件分位数筛选,即清除预测变量集中和某一分位水平α-th的条件分位数无关的预测变量,从而有利于更有效的分析高维异构性数据。基于鞅差系数的条件期望筛选法和条件分位数筛选法的真正筛选性质都在文中得到论证。对模拟数据和真实数据的分析说明了这一方法相比于基于距离相关系数的变量筛选法具有一定的优势。
JiangandLiu(2004)在参数估计服从渐进正态分布的条件下构造了一种模型选择方法。他们使用成本函数衡量每一个备选模型,并论证了最小化成本函数的模型是真实模型的相合估计。尽管真实的似然函数并不存在,所构造的成本函数有着类似于BIC的贝叶斯风格的解释,同时也和基于参数估计的渐进后验概率密切相关。受到这一思想的启发,在本文第三、四两章中,我们通过模型选择的方法解决了两个时间序列下的问题。当时间序列满足一些弱相关性条件时,由中心极限定理或泛函中心极限定理可知许多参数估计仍然满足渐进正态性质。正因如此,基于渐进分布的模型选择法在时间序列的架构下非常具有吸引力。
在对于经济数据的分析过程中,数据中所包含的未知形式的相关性和条件异方差性往往成为统计推断的难题。即使在这样的情况下,依照经典方法所得的参数估计仍然是有效的,且大多服从渐进正态分布,然而所对应的渐进方差却很难被估计。一般的做法是通过使用相合的方差估计和大数定律来得到渐进有效的统计推断。然而,当未知形式的相关性和条件异方差性存在时,带宽的选择和厌恶参数的估计使得一致估计渐进方差变得很复杂。为了规避渐进方差相合估计的难题,另一个可行的做法是通过自标准化技巧构造稳健统计量,从而使该稳健统计量的渐进分布不依赖于任何厌恶参数。但相关文献大都致力于经典的假设检验问题,并没有考虑可能涉及多个备选模型的模型选择问题。在本文的第三章,我们构造了一种基于子样本参数估计的贝叶斯模型选择法。子样本参数估计的使用可以帮助我们有效的避免一致估计渐进方差的难题。在子样本估计的基础上,多种不同的方式可以用来构造复合数据。而复合数据的渐进正态性质则可被用于构造渐进似然函数,从而可以进行贝叶斯模型选择。因为不需要任何完整的概率模型假设和明确的似然函数,该模型选择法具有很广泛的适用范围。第三章也给出了相应的贝叶斯因子和BIC的表达式,并论证了这一模型选择法具有一致性。数值模拟结果进一步的证实了该方法具有一致选出真实模型的效力。
鞅差检验一直是经济学中广为受到关注的问题。在过去的20至30年中,多种不同的方法被用来检验一个时间序列是否服从鞅差假设的问题,如谱密度函数,神经网络和方差比等等。在本文的第四章,我们在贝叶斯模型选择法的架构下构造了一种鞅差检验方法。这一方法基于一个大胆的猜想,即序列傅里叶变换的样本方差服从渐进正态分布。首先,我们在(「)N/2」个频率点处估计谱密度函数f(λ,u),随后使用贝叶斯模型选择的方法判定这(「)N/2」个估计值f(λl,u)是否在λ方向上为一条直线,其中N为样本总数。通过阶梯函数所构造的模型假设,使得鞅差模型成为非鞅差模型中的一个子模型。在此基础上,我们使用类似于JiangandLiu(2004)中的方法,用部分后验概率来衡量两个备选模型(原假设和备择假设)的可能性。在第四章中,我们也给出了两个模型间的贝叶斯因子表达式和一致性结论。基于BIC的数值分析显示我们所构造的鞅差检验对于鞅差和非鞅差序列都有一定的检验效力。但这部分的工作并不完整,使用更合适的先验概率和后验抽样技巧会使得这一方法更具有检验效率,这将是我们下一步工作。