超高维特征筛选方法SEVIS及其应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:bitlycold
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技水平的飞速发展和数据收集能力的大幅提高,超高维数据(即变量个数p远大于样本个数n)已经越来越频繁地出现在包括金融学,基因学等各个领域中.在这样的大数据时代背景下,如何从超高维数据中筛选出真正重要的变量成为许多相关行业研究者们广泛关注的一个问题.而在处理此类问题时,传统的罚函数方法普遍在计算复杂性,统计准确性与算法稳定性等方面存在不足(见Fan et al.[13]).与罚函数思想不同,特征筛选的核心思想在于通过排除那些明显与因变量不相关的变量来达到降低维度的目的.在本文第二章中,我们提出一个新的特征筛选方法SEVIS(Sure Explained Variability and Independence Screening).与大多数基于中心性出发的特征筛选方法不同,SEVIS考虑的是统计推断中另一个重要的性质:变异性.因此,SEVIS在处理非对称,非线性数据时要在一定程度上优于之前的特征筛选模型.在该章中,我们给出SEVIS的一个非参数核估计方法并证明在该估计方法下,SEVIS满足特征筛选领域最重要的两个性质:确保筛选性(sure screening property)和秩相合性(ranking consistency property).另外,SEVIS 还是一种无模型(model-free)方法,即不需要事先指定因变量和自变量之间的相依关系,无模型方法相比许多基于模型出发(model-based)的特征筛选方法,其优势在于不会出现错误假定模型结构的问题.同时,我们还将SEVIS方法同几个具有代表性的无模型特征筛选方法进行比较以检验其有限样本性质,从几组蒙特卡洛模拟的结果可以看出,SEVIS在当数据存在交互项,异方差,删失等许多情况下都能取得比对照方法更好的结果.一组关于卵巢癌基因的实证数据也能够说明,SEVIS方法所选择的基因不但对因变量更具解释能力,并且在与其它方法选择的基因互相解释时也具有更强的解释能力.考虑到用核函数对非参数部分进行估计的方式仍存在进一步改进的空间.因此,在第三章中,我们将SEVIS的核估计方法调整为局部线性估计,并考虑部分特殊情况下的特征筛选过程.结果显示,基于局部线性估计的SEVIS方法在准确性和运行效率上都要略微优于基于核估计的SEVIS方法.考虑到在可投资资产种类大幅增加的现代金融环境下,基于均值方差模型的传统估计方式的误差较大.因此,在第四章中,我们将SEVIS方法运用到金融领域的资产选择过程之中,给出一种新的组合构造方式.简单来说,我们先基于全市场所有可投资资产的日内高频数据构造一个新的日内高频夏普比率,然后结合SEVIS方法进行初步的资产选择,以挑选出历史走势高度相关于该指数的资产.值得一提的是,包括SEVIS在内的现有特征筛选方法均是在假定样本独立同分布这一前提下进行的,考虑到金融数据通常是一组时间序列而非独立样本.因此,在将SEVIS运用到实际资产选择之前,我们先将其推广到相依变量中,证明SEVIS在平稳α混合序列的条件下同样拥有确保筛选性和秩相合性,并通过几组蒙特卡洛模拟对其有限样本表现进行验证.在该章的最后,我们通过对中国股市2014-15年的数据进行实证检验,结果证实我们的方法确实可以获得一定程度的超额收益.
其他文献
为了研究磨削参数对热等静压氮化硅陶瓷磨削温度与磨削力的影响以及磨削温度和磨削力与表面形成之间的关系。通过正交实验得出磨削参数与磨削温度、磨削力以及比磨削能的关系
通过溶胶凝胶法制备Lu_2SiO_5(LSO)干凝胶前驱体,对其进行综合热分析(TG-DSC),TG曲线在400℃后趋于平缓,DSC曲线在402.8℃和1049.9℃的放热峰分别对应着LSO粉体的结晶开始温度与
采用熔盐法成功地制备了Eu3+掺杂的Na YF4晶体发光材料。系统地研究了钇氟摩尔比、反应温度、反应时间以及冷却速度对Na YF4的晶相组成和微观形貌的影响规律,分析了相关的影
以四丙基氢氧化铵(TPAOH)为模板剂,正硅酸乙酯(TEOS)为硅源,低成本硫酸钛(Ti(SO4)2)为钛源,在传统碱处理的基础上通过溶解-再结晶的后处理方法,制备得到了形貌规整且大小均匀的球形TS-1
颗粒尺寸是影响TiO2光催化活性的重要因素,颗粒越小其光催化效率越高。在密闭的反应釜内引爆用含钛前驱体、硝酸铵、黑索金与一定量的聚苯乙烯小球制备的浆状混合炸药制备了
对平衡态及光照下非平衡态的n-Si/n-Fe2O3/electrolyte的能带结构进行了分析,同时结合转移矩阵法定量地计算Si中不同能量的电子/空穴穿过n-Si/n-Fe2O3势垒并满足水氧化还原电
在碳酸钾、碳酸锂和二氧化钛的混合原料中加入熔盐氯化钾,通过高温煅烧一步制备出钛酸锂钾片晶(K0.8Li0.27Ti1.73O4,KLTO)。通过控制熔盐的添加方式以及煅烧工艺(升温速率、煅烧
火工冲击环境是航天器经历的最恶劣的力学环境之一,尤其以航天器与运载火箭分离时最为恶劣。火工冲击环境会影响有冲击敏感元件的设备甚至航天器的正常工作,严重时可导致发射