论文部分内容阅读
癌症的发病率、死亡率长期位居各种疾病之首,全球每年有超过1000万人死于癌症,癌症患者的5年生存率仅有15%~30%。为提高癌症病人的存活率,大量的研究人员开始对影响癌症生存时间的因素展开研究分析,通过收集癌症病人生存时间并采用统计建模方法挖掘潜在的生存规律。本论文在考虑传统的临床数据、基因表达数据基础上,通过融入DNA甲基化数据,采用COX回归方法探讨了11种癌症病人中影响其生存时间的关键因素,并对多种癌症的共性特征进行了深入分析。本文的主要研究内容如下:(1)针对目前癌症生存分析主要基于临床数据以及基因表达数据进行分析的特点,本文提出了融入DNA甲基化特征进行生存数据分析的策略。本工作基于惩罚函数的Lasso变量选择方法进行特征选择并进行在COX模型下的回归分析,对比了单因素作用下,以及是否融合DNA甲基化特征下的生存率回归准确性。结果表明,对分析的11种癌症,融入DNA甲基化特征后具有更高的回归准确率。(2)由于Lasso算法在处理高维小样本类型回归分析存在着所选特征不稳定且较少的不足,本文引入了基于K-split的Lasso回归分析方法。通过对高维特征的多次分割采样进行独立的特征选择,再在组合特征的基础上完成最终的核心特征选择。结果表明,基于K-split的Lasso回归方法能够获得更稳定的特征以及更高的预测准确度。(3)通过对11种癌症的独立分析,分别得到了影响不同癌症生存时间的重要特征;通过对11种癌症的组合分析,得到了对多种癌症的生存时间都有重要影响的特征。本研究为医学人员进一步认识与理解癌症的预后提供了重要依据,也为进一步的实验验证提供了潜在目标。