论文部分内容阅读
随着科技水平的飞速发展和数据收集能力的大幅提高,超高维数据(即变量个数p远大于样本个数n)已经越来越频繁地出现在包括金融学,基因学等各个领域中.在这样的大数据时代背景下,如何从超高维数据中筛选出真正重要的变量成为许多相关行业研究者们广泛关注的一个问题.而在处理此类问题时,传统的罚函数方法普遍在计算复杂性,统计准确性与算法稳定性等方面存在不足(见Fan et al.[13]).与罚函数思想不同,特征筛选的核心思想在于通过排除那些明显与因变量不相关的变量来达到降低维度的目的.在本文第二章中,我们提出一个新的特征筛选方法SEVIS(Sure Explained Variability and Independence Screening).与大多数基于中心性出发的特征筛选方法不同,SEVIS考虑的是统计推断中另一个重要的性质:变异性.因此,SEVIS在处理非对称,非线性数据时要在一定程度上优于之前的特征筛选模型.在该章中,我们给出SEVIS的一个非参数核估计方法并证明在该估计方法下,SEVIS满足特征筛选领域最重要的两个性质:确保筛选性(sure screening property)和秩相合性(ranking consistency property).另外,SEVIS 还是一种无模型(model-free)方法,即不需要事先指定因变量和自变量之间的相依关系,无模型方法相比许多基于模型出发(model-based)的特征筛选方法,其优势在于不会出现错误假定模型结构的问题.同时,我们还将SEVIS方法同几个具有代表性的无模型特征筛选方法进行比较以检验其有限样本性质,从几组蒙特卡洛模拟的结果可以看出,SEVIS在当数据存在交互项,异方差,删失等许多情况下都能取得比对照方法更好的结果.一组关于卵巢癌基因的实证数据也能够说明,SEVIS方法所选择的基因不但对因变量更具解释能力,并且在与其它方法选择的基因互相解释时也具有更强的解释能力.考虑到用核函数对非参数部分进行估计的方式仍存在进一步改进的空间.因此,在第三章中,我们将SEVIS的核估计方法调整为局部线性估计,并考虑部分特殊情况下的特征筛选过程.结果显示,基于局部线性估计的SEVIS方法在准确性和运行效率上都要略微优于基于核估计的SEVIS方法.考虑到在可投资资产种类大幅增加的现代金融环境下,基于均值方差模型的传统估计方式的误差较大.因此,在第四章中,我们将SEVIS方法运用到金融领域的资产选择过程之中,给出一种新的组合构造方式.简单来说,我们先基于全市场所有可投资资产的日内高频数据构造一个新的日内高频夏普比率,然后结合SEVIS方法进行初步的资产选择,以挑选出历史走势高度相关于该指数的资产.值得一提的是,包括SEVIS在内的现有特征筛选方法均是在假定样本独立同分布这一前提下进行的,考虑到金融数据通常是一组时间序列而非独立样本.因此,在将SEVIS运用到实际资产选择之前,我们先将其推广到相依变量中,证明SEVIS在平稳α混合序列的条件下同样拥有确保筛选性和秩相合性,并通过几组蒙特卡洛模拟对其有限样本表现进行验证.在该章的最后,我们通过对中国股市2014-15年的数据进行实证检验,结果证实我们的方法确实可以获得一定程度的超额收益.