论文部分内容阅读
本文主要考虑对异方差群体进行子群分析以及超高维分类数据的特征筛选问题.子群识别和特征筛选在金融,经济,医学和生物工程等领域的研究中非常重要,属于现代统计学研究的国际前沿和研究热点,对这些问题做深入的研究具有深刻的理论意义和实际价值.文章主要分为六章,第一章主要介绍研究背景和研究现状,本文所研究的问题,动机及主要内容.第二章简要介绍了本文所要用到的一些准备知识.第三章到第五章对所研究的问题作具体的介绍,并在第六章对所作工作进行总结与展望. 近年来,个性化医疗备受关注.在发展个性化医疗的过程中,正确识别异方差群体中的子群非常重要.子群识别使医务工作者能够对每个子群制定有针对性的治疗方案,提高治疗效果.但是在临床医学研究中,由于种种原因,数据可能出现删失.对有删失的数据,现有的研究缺乏既能够将数据进行子群识别,又能够估计协变量对响应变量影响的有效分析方法.因此本文第三章在加速寿命模型下,对有删失的生存数据,提出以经过逆概率加权调整的最小二乘回归作为损失函数,并对两两截矩项的差进行凹惩罚,利用ADMM算法来估计截矩项和回归系数,并根据截矩项的估计值对样本进行子群分析的方法.本章通过理论推导证明了在删失数据下ADMM算法的收敛性,建立了估计参数的相合性和渐近正态性,并通过数值模拟检验了该方法在有限样本下子群识别和参数估计的效果. 除了临床医学,子群分析在金融,经济等领域的研究中也有重要的应用,而这些领域的数据常常出现异常值或厚尾分布.另外,现有的子群识别方法都是平方损失的,对异常值和厚尾分布不具备稳健性.因次本文第四章首次提出以分位数回归作为损失函数的子群分析方法.具体地,在分位数回归的基础上,对两两截矩项的差进行凹惩罚,同时估计截矩项和回归系数,再根据截矩项的估计值对样本进行子群识别.在参数估计的过程中用二次函数对分位数回归的损失函数进行光滑化逼近,简化计算过程,并讨论了经过光滑化逼近的ADMM算法的收敛性.此外,本章推导了分位数回归损失下,子群识别中估计参数的相合性和渐近正态性,数据模拟的结果表明分位数回归损失下,该子群分析方法的参数估计和子群识别准确,对厚尾分布的数据也有较好的分析效果. 另外,对于分类数据,超高维的协变量可能引入大量的噪音变量,使得传统判别分析的结果与随机猜测无异,因此本文的第五章对响应变量为二叉型数据.协变量是超高维的数据提出非参数特征筛选的方法将协变量进行降维.该筛选方法不需要对潜在模型和协变量的分布进行假设,筛选效果在单调变换下保持不变,且对异常值和厚尾分布具有稳健性.本章证明该筛选方法具有一致排序性和确定筛选的性质.数值模拟和对急性白血病数据进行分析的结果表明,对二叉型响应变量的超高维数据,该方法的筛选效果总是优于其他无模型的筛选方法.