论文部分内容阅读
在生物医学、经济金融、人口学、生态环保等多个领域,都存在着一种情况,即实验者无法观测到目标事件具体发生的时间,由此产生的数据被称为删失数据;根据观测时段和事件发生时间的时序关系,删失具体有左删失、右删失和区间删失三种分类。在很多既往研究中,为了方便建模,缺失的、不完整的样本会被剔除,但同时这也导致了部分信息被浪费。针对删失数据,生存分析理论是现今非常有效的手段;生存分析理论把观测时点的状态纳入模型,从而使得信息部分缺失的样本也能发挥作用。半参数模型作为生存分析理论最具影响力的模型,被广泛应用在各个领域。近年来,针对半参数模型的各种性质,学者多有研究。本文主要着眼于变量选择方法。在实践中,半参数模型的应用常常会碰到变量冗余的问题。多余的变量不仅会造成过拟合的问题,也会增加信息的收集成本和储存成本。在现有的研究中,右删失数据上的变量选择已有很多成熟的理论,相对来说,区间删失数据的变量选择方法研究还有很大不足,主要体现在三个方面:(1)很多基于应用的研究偏向于变量选择结果,而使用不连续的基准生存函数或参数模型,从而缺少一般性;(2)有些变量选择方法局限于在某个半参数模型上,还有推广的空间;(3)一些方法的估计效率很低,在实践中非常耗费运算量和时间,不利于推广。在此基础上,本文首先概述了生存分析理论的基本概念和变量选择的主流方法,同时阐述了生存分析上变量选择的既往研究,接着探究了一则基于右删失数据的创新实践,然后将研究拓展到区间删失数据上,从正则化角度和最优子集角度给出了两个方法创新,并分别给出了估计性质和模拟研究。为了验证新方法在实际数据上的效果,本文将提出的两种方法和其他常用的变量选择方法应用在区间删失数据实例上。最后,本文进行了总结和讨论,归纳了每一张的内容和贡献,并对未来的研究方向进行了一些展望。本文的贡献如下:1.给出了一则右删失数据上变量选择的创新应用。近年来,随着移动支付的风靡,一类线上自动展期的合约或会员制方兴未艾。客户通过在网页或APP平台与商家签订自动或一键展期的合约,到期由第三方支付平台自动扣费。此类的合约延伸出一个客户保留率的研究。如果把客户的取消合约视为“死亡”,把客户在整个试验期间续费的现象视为“删失”,则此类合约就是一个典型的生存分析问题。在实践中,一个客户的信息往往有很多,而商家往往只需要关键因子。本文对此类模型做了深入研究,通过应用正则化的比例危险模型筛选出真正有影响力的因子,并用筛选出的因子建立了客户的流失风险评分机制和基于评分的分类器。结果从多个维度显示分类器的预测结果非常准确。在本应用在中,本文综合比较了几种模型,在最优模型的基础上建立了留存概率的动态阈值机制。2.从正则化角度出发研究了区间删失数据下的变量选择问题,提出了把基于比例危险模型的适应性岭估计推广到加性危险模型上。该部分引入sieve方法构造了光滑、非降的基准生存函数,设计了迭代算法,从而在每一步里更新待估参数,直到收敛。本文给出了估计的渐近性质,证明了估计的稀疏性和渐近正态性。同时,本文进行了多种情况下数值模拟,比较了不同样本量、自变量维度、观测频率和真实基准生存函数下的估计表现,结果显示了估计的表现是很优秀的,估计值比较准确,变量选择的真阳性率很高,同时假阳性率很低,能很好地筛选出真实变量。3.从最优子集角度出发研究了区间删失数据下的变量选择问题,提出了基于近似信息准则、免于调参的估计方法。该方法的思想来自于最优子集结合信息准则的筛选方法,由于信息准则含有l0范数因此不光滑,从而不能用微分求最优值,本文用修改后的Sigmoid函数去近似l0范数,从而得到一个光滑的近似信息准则表达式,由于信息准则不需要调参,因此通过对信息准则求最大值就可以得到估计。过程中为了同时取得稀疏性和光滑形态,本文设计了重参数化过程,将待估参数转化为另一组变量。文章证明了估计的一致性,稀疏性和渐近正态性。在数值模拟中,实验设计了低观察频率和高观察频率、弱信号和强信号的情景,比较了不同样本量和真实累积危险函数前提下的估计结果;同时,本文比较了各种变量选择方法,发现该方法的优点是假阳性率非常低,同时估计准确。在本次实验中,本文记录了各种方法平均一次估计的估计时长,证实了本方法高效的特点。4.对区间删失数据上的变量选择方法进行了实证。本文申请了美国国际开发署创立的一项行之有年的尼日利亚人口普查数据库,计算2003年儿童死亡率数据,发现其高达20%以上,远高于世界平均水平,同时每个儿童都有多项数据,适合用变量选择方法发掘出背后有影响力的因素。同时,儿童的具体死亡时间很多只能精确到月或年,这就构成了区间删失型数据。本文把第三章和第四章的变量选择方法用在了这个实例上,同时还用一些常用的惩罚项和逐步回归对该实例进行了分析,从24个变量中筛选出真正影响死亡率的因子,最后给出了各种方法的估计结果比较,和基准生存函数以及基准累积危险函数的拟合情况。