论文部分内容阅读
在生存分析中,比例风险模型在医学领域有广泛的运用,因其具有多种优良的性质,常用来对生存时间进行估计并评估各个影响因子的作用,是生存分析中的较常用的方法,然而该模型存在一定的局限性。与此同时,医学数据分析过程中经常会遇到数据缺失和删失的情况,然而由于医学数据收集困难、样本量少等因素,使得数据尤为珍贵,如何有效利用缺失和删失的数据对医学生存分析有重要意义,且医学数据相关协变量较多,具有一定的稀疏性,删去无效变量保留显著效应的变量对医学生存数据分析显得尤为重要,同时生存函数具有单调的特性,一般估计方法无法满足相应要求。针对上述问题,本文将常用生存函数模型进行了推广,放宽了相应的条件,得到了更为泛化的转移模型。该模型为多种生存模型的扩展,在临床数据分析中具有更高的灵活性。基于推广后的转移模型,本文首先采用了拥有良好稳健性的分位回归方法,从多个角度对数据进行分析,进一步采用自适应Lasso进行变量选择,最后对回归的生存函数进行单调化处理,并且在理论上证明了模型估计拥有优良的渐近性质。在数值模拟中,本文通过三个步骤进行模型估计:第一步,首先采用缺失值补全方法,对缺失的数据进行补全;第二步,针对补全的数据,采用删失分位数回归方法,在估计过程中,采用两步迭代法进行局部线性展开估计,同时使用自适应Lasso进行惩罚;第三步,对估计的转移模型进行单调化处理。通过仿真试验分析,可发现模型在缺失和删失数据占总样本量偏低的情况下,模型拥有优良的数值拟合和变量选择的能力,且随着样本量的增多其能力也随之提高。而在缺失和删失数据占总样本量偏高的情况下,模型也有较不错的性能。这表明本文所改进的估计模型具有良好的拟合能力以及鲁棒性。在实例分析部分,将推广后的转移模型运用到山西肿瘤医院鼻咽癌患者的生存分析中,通过对患者生存数据设定多个分位点进行分位数回归变量选择,可以发现模型能有效的去除不相关的影响因子,并且可分析得出同影响因子对不同程度患者生存时间的影响效应。综上所述,本文改进的基于缺失和删失响应变量的转移模型分位数回归估计及变量选择方法,能很好地满足现实中医学生存分析中响应变量缺失和删失以及数据稀疏等多种需求,有效进行统计分析。