论文部分内容阅读
生存分析(time-to-event analysis)在医疗健康和金融等领域有着广泛的应用。特别是在临床疾病预后研究中,生存分析发挥着重要作用。它旨在研究个体在不同观测期发生感兴趣事件的概率,寻找观测变量与感兴趣事件之间潜在的因果关系,探究事件发生的重要影响因子及模式。而生存分析方法,主要通过建立模型从数据中学习观测变量和发生事件时间分布之间的关系来达到这一目的。然而,现有的生存分析方法存在多个问题。首先,在模型假设方面,一些统计线性模型和集成树模型将个体发生事件时间的分布函数假定为某种带参数的特定表达式。但是,当数据分布未知或缺乏先验知识时,这些模型假设会极大地限制其预测性能。其次,在模型解释性方面,一些深度学习模型虽然拥有强大的表达能力,但却无法对观察变量的影响模式做出解释。这在一定程度上限制了它们的实用性。此外,当数据分布已知或具备先验知识时,基于比例风险假设的Cox流派算法会采用偏似然估计函数作为目标函数。然而,当数据中有大量事件发生时,由于目标函数的近似不够精确,模型参数估计会受到影响,从而导致模型预测性能下降。而且,Cox流派算法中存在一些由于缺少正则化参数而容易出现过拟合的树模型。针对这些问题,基于梯度提升树,本文系统地研究并提出了两种新的生存分析方法,并将其应用于乳腺癌预后研究。具体地,本文主要的研究内容及贡献概括如下:(1)本文提出了HitBoost方法。HitBoost使用多输出的梯度提升树,直接预测发生感兴趣事件时间的概率分布。此外,该方法在极大似然估计函数的基础上,引入凸函数近似的一致性指数作为它的目标函数。HitBoost方法不再遵循任何先验假设,并且仍然具有一定的可解释性。(2)本文提出了BecCox方法。BecCox主要优化Cox流派系列算法,使用单棵梯度提升树来预测发生感兴趣事件的风险比例。在目标优化函数上,它通过使用更加精确的偏似然估计函数以及凸函数近似的一致性指数,来达到缩小模型预测偏差的目的。BecCox方法可以广泛应用于比例风险预测。(3)本文使用来自四川大学华西医院乳腺癌临床研究中心的乳腺癌患者临床数据,利用提出的生存分析方法构建了早期乳腺癌患者复发预后模型。此外,本文还借助该预后模型探究影响乳腺癌复发的重要因子以及实施治疗推荐。为了实现提出的方法,本文首先推导了自定义目标函数关于模型预测值的梯度,然后在XGBoost框架下根据预测目标的类型实现了模型训练。四个公开生存数据集(WHAS、SUPPORT、METABRIC、ROTT2)上的实验结果显示:HitBoost方法的一致性指数分别为0.929190、0.631281、0.668679、0.705427,相比当前同类别最好方法最高提升了大约2.8%,超过了遵循先验假设的方法以及随机生存森林;BecCox方法的一致性指数分别为0.898320、0.631837、0.645986、0.702102,相比当前同类别最好方法最高提升了大约1.7%,超过了经典的Cox比例风险模型以及其它常用的Cox流派算法。因此,本文提出的基于梯度提升树的优化方法,可以作为有效的生存分析方法用于疾病或其它特定事件的研究。