论文部分内容阅读
加法风险模型作为生存分析中除Cox比例风险模型外的另一重要模型,它以基准危险率函数和协变量回归函数相加的形式来刻画事件在某一时刻的危险率.该模型从另一角度来反映出协变量和事件在某一时刻危险率之间的关系.变量选择是统计建模的重要基础,在生存分析中,变量选择通常可以通过最优子集选择和正则化这两大类方法来实现.本文在加法风险模型的假定下,结合以上两类方法,就存在右删失且包含多个协变量的生存数据给出了一种实现变量选择的方法.由于BIC准则对于变量是否入被选模型表现的更为谨慎,从而使其在模型选择的相合性方面表现的更为出色.基于此,本文将给出一种近似BIC准则的变量选择方法来同时实现变量选择和参数估计.在BIC准则下,通常的变量选择问题可以转化为求解一个惩罚似然问题.在加法风险模型假定下,我们将BIC准则中似然函数替换为本文研究背景下具有最小二乘形式的损失函数,定义出相应的BIC准则,并尝试利用该准则来实现变量选择及参数估计.然而,由于L0范数自身的离散性,并不能通过直接求解该准则中定义的目标函数来实现变量选择,而传统的最优子集方法先利用最小二乘或极大似然方法对所有候选模型进行拟合后,再通过求解BIC准则中的目标函数来实现变量选择,但这也导致求解该问题变成了一个NP-hard问题,当数据维数很大时,该方法不再适用.为了能够通过直接求解BIC准则中目标函数的方式同时实现变量选择和参数估计,正则化方法对BIC准则中的L0范数进行了一种凸松弛,使目标函数变成连续的凸函数,进而把问题转化为求解一个连续凸的优化问题.受此启发,我们利用一个光滑的单位函数来对L0范数进行近似,进而使BIC准则中的目标函数变为连续的光滑函数,这种近似虽然使目标函数求解的问题得以解决,但其并不能实现稀疏估计,为此我们对回归参数进行重新参数化,最终使得参数估计具有稀疏性来实现变量选择.这一近似BIC准则的变量选择方法结合了基于BIC准则的最优子集选择方法和正则化方法的优点,该方法不用像正则化方法那样去选择调整参数,同时又能克服最优子集选择方法在维数很大时的计算瓶颈问题.鉴于所提方法是一种近似BIC准则的方法,在本文研究背景下,我们将调整参数固定取为ln(n0),其中n0表示生存数据集中未发生删失的观测的个数.由于本文中的目标函数是连续非凸的,因此存在局部最优解.同时,本文所提方法得到的参数估计满足Oracle性质.文中给出了模拟实验和实际数据分析用以对本文所提方法进行一些阐述和评价.