几类高维模型的特征筛选和纠偏相合统计推断方法

来源 :山东大学 | 被引量 : 0次 | 上传用户:DreamerL
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近二十年来,随着科学与技术的迅速发展,高维数据频繁地出现在诸多领域,如医学成像、X射线断层扫描、基因组关联分析、金融学和地球科学等等.顾名思义,高维数据的特点是协变量维数大于样本数量,特别是在超高维情形下,数据维数常常伴随样本数量呈指数增长.高维数据会导致许多经典的统计方法失效,如在最小二乘估计中,协变量维数大于样本数量时,Gram矩阵没有定义.此外,高维数据中往往存在噪声变量,将所有变量都纳入模型反而会干扰统计推断的准确性.基于以上考虑,统计学家们开发出了变量选择与特征筛选技术,两者已经成为处理高维数据的标准方法,相关研究已成为统计学最为热门的领域.本文的研究考虑了两类问题:一是针对几类超高维模型提出了新的特征筛选方法;二是解决了一类高维有偏模型下的相合统计推断问题.具体研究工作概述如下:1.针对多元响应变量变系数线性模型(multi-response varying coefficient linear mod-el,MVCLM),我们提出了一种新的特征筛选方法.Fan and Song(2010)首次提出了特征筛选(sure independence screening,SIS)的概念,详细论述了 SIS在处理超高维数据时的重要作用.自Fan and Lv(2008)的开创性贡献以来,SIS方法已被推广至各类统计模型中.本文首次将SIS应用至MVCLM上.MVCLM兼具线性模型的简单结构与半参模型的灵活性,在实际中有很强的应用价值,能够有效地描述响应变量与协变量之间的动态关系.注意到,在给定系数变量下,MVCLM退化为一般的线性模型.根据此特点,我们通过定义的条件典型相关系数(conditional canonical correlation,CCC)来准确捕捉每个协变量与多元响应变量之间的动态关系,其中条件变量选定为系数变量.最后,将条件典型相关系数关于系数变量取期望并将其定义为筛选指标对协变量的重要性进行排序.在实际计算时,采用Nadaraya-Watson(NW)方法对筛选指标中的条件期望进行估计,相应的窗宽根据Hurvich et al.(1998)提出的AICC准则确定.我们证明了新方法在一定条件下具有sure screening性质,即筛选后的模型以概率1包含真实模型.此外,为了缓解变量间强相关性引起的筛选无效情形,我们提出了新方法相应的迭代形式.数值模拟与实际数据都表明新方法具有稳定出色的表现.2.在高维模型中,大多数特征筛选方法都基于边际效用的思想提出,当变量间存在强相关性时.基于边际思想建立的特征筛选方法很容易发生漏选重要变量的情况,严重影响筛选结果的准确性.虽然很多统计学者针对不同筛选方法提出了相应的迭代形式来缓解上述问题,但迭代方法有时仍会失效,而且理论上也无法证明迭代方法的sure screening性质.在实际应用中,研究人员根据前期研究常常能够事先得到一些与响应变量相关的变量,将这些变量作为先验信息.Barut et al.(2016)提出了条件特征筛选方法(conditional sure independence screening,CSIS),CSIS 的核心思想是通过条件变量来减弱变量间的强相关性,从而提高筛选的准确性.Hu and Lin(2017)和Lin and Sun(2016)进一步发展了条件特征筛选方法.但我们发现.上述条件方法都需要假定模型结构,当模型假定错误时,这些方法很容易失效.本文提出了一种新的模型完全自由的条件特征筛选方法.我们通过条件距离相关系数(conditional distance correlation,CDC)来刻画协变量与响应变量之间的非线性依赖关系.其中计算CDC时的条件变量设定为事先已知的先验信息.最后,将条件距离相关系数关于条件变量取期望并定义为筛选指标对协变量进行重要性排序.由于CDC的特点,我们不需要在响应变量与协变量之间假定任何模型结构.在实际计算时,采用NW估计方法来计算CDC,为了避免可能的“维数灾难”(条件变量维度较高时),我们借鉴Lavergne and Patilea(2008)中的思想.将多维空间上的积分转化为单位球面上的积分.并利用Lavergne and Patilea(2008)提供的方法进行计算.在一定条件下,我们证明了新方法的sure screening性质.数值模拟表明新方法不仅具有模型自由的特性,同时可以克服变量间的强相关性给筛选带来的负面影响.实际数据分析进一步验证了新方法的有效性.3.在生物统计中.离散型响应变量超高维数据是最常见的数据.如在肿瘤诊疗中,研究者需要根据基因表达数据建立肿瘤分类的判别分析模型.由于基因表达数据中存在大量噪声变量.因此在建立判别分析模型前,首先要对数据进行降维.根据响应变量是离散型的特点,本文从条件特征函数的角度出发.构建了一种新的特征筛选方法.注意到,如果某个协变量对预测响应变量的值没有作用,那么该协变量对应的特征函数必然与给的响应变量下该协变量的条件特征函数一致.利用此结论,本文通过定义协变量的特征函数与条件特征函数之间的加权欧式距离来作为筛选指标,对协变量的重要性进行排序.我们证明了在协变量二阶矩有限的情况下,选取特定的权重函数可以使得新提出的筛选指标表示为两个二阶矩的和,这给变量筛选的计算带来了极大的便利.值得一提的是,我们发现新提出的筛选指标实际上是距离相关系数的一种变形版本,但在处理离散响应变量时,较原来的距离相关系数更加有效.此外,我们证明了新方法在一定条件下具有sure screening形式,模拟与实际数据分析也进一步显示了新方法的有效性.4.在高维模型的研究中,我们观察到一些有趣的现象:无论是特征筛选还是变量选择,总有可能发生重要变量漏选的情况.特征筛选虽然可以实现快速降维,但常会漏选边际效用很小的活跃变量.变量选择同样有漏选关键变量的可能.如经典的逐步回归方法(Efroymson,1960)已经被证明是一种不相合的变量选择方法.当上述现象发生时,模型极可能是有偏的,进而导致无效的统计推断.此外,高维模型统计推断总是假定稀疏性条件成立,这样的假设在很多场合下是合理的,但也往往发生稀疏性假设并不成立或难以验证的情况(Donoho and Jin,2015).当模型非稀疏时,特征筛选与变量选择都会遗失大量信息,导致模型有偏,相应的参数估计及模型预测都会出现问题.本文针对有偏部分线性单指标模型(Partial linear single index model PLSIM)提出了一种新的高维模型纠偏估计方法,并证明了纠偏模型下参数估计的渐进相合性.首先,本文证明了当协变量满足线性条件且单指标链接函数光滑时,PLSIM等价于特定的线性模型,这给后续的统计推断带来了极大的便利.当确定工作模型之后,为了获取遗漏在模型外的偏信息,基于谱分解原理对这些偏信息进行提取并构建为新的人工变量加入有偏工作模型,从而使得模型无偏.最后通过简单的最小二乘即可得到模型参数的无偏估计,同时,我们也证明了参数估计的渐进有效性.此外,在对人工变量的维度估计时,我们也提出了一种新的相合性估计方法,提高了模型纠偏的有效性.模拟研究和实际数据分析都验证了纠偏相合估计方法的有效性。
其他文献
尽管席卷欧洲市场的主权债务危机仍然严峻,全球经济复苏还面临着诸多不确定性,但纽约股市却在不知不觉中走出了一波不紧不慢,但涨幅可观的三月行情。截至3月26日,道琼斯30种工业股
报纸
大动脉炎(Takayasus arteritis,TA)是非特异性炎症动脉疾病,炎症节段性侵犯主动脉及其分支和肺动脉.关于大动脉炎的病因、治疗、预后情况报道较少,现就1983年1月至2002年12月
多媒体辅助教学工具在高职体育教学中的应用可以激发学生参与体育教学的热情,引导学生积极参与体育活动,还能从多方面优化体育教学,使体育教学有更好的效果。因此,讨论多媒体
在建筑建设过程中混凝土和钢筋是主要的建筑材料,这些材料具有很多优点,比如抗水平作用力高、承载力高等等,有效的保障了建筑质量和建筑稳定性。所以,在建筑工程建设过程中必
随着国家经济的快速发展,旧税制已经不能满足经济发展需要,在此大背景下,营业税改征增值税应运而生。对建筑业来说既是机遇也是挑战,在新的税制下,如何规避"营改增"的负面影
化学实验教学所包含的内容十分丰富,在对学生实践能力和创新能力的培养方面,教育发达的国家给我们一些启示.关于如何培养学生的综合素质,在现行体制下,我们可以从教育主管部门
今天我和同学们到公园里捡树叶。地上的树叶可多了。风轻轻地吹着,我们在草坪上捡着树叶。大大小小的树叶像是一家人,依偎(wēi)在一起,有红树叶、黄树叶、绿树叶,美丽极了。
详细介绍了一种以单片机为核心控制电路的微波热水器,通过对该微波热水器进行控制电路设计和结构设计,可实现漏电、超温和干烧保护等功能。
目的观察噻托溴铵联合沙美特罗替卡松气雾剂对中重度慢性阻塞性肺疾病(COPD)的临床疗效。方法从医院收治的中重度COPD患者中选取72例,均分为两组,对照组36例用沙美特罗替卡松
PCK理论产生于美国教师研究的"缺失范式",教学智慧研究产生于我国新课改实践。前者源于科学知识的文化背景,后者根植于我国深厚的"教"的智慧土壤。两者既有的研究历程呈现出