论文部分内容阅读
乳腺癌已成为女性发病率最高的恶性肿瘤,并且乳腺癌发病率呈现逐年升高的趋势,如果能对乳腺癌患者进行精准的预后预测,从临床指导角度讲这具有重要意义。而生存期预测作为预后预测的一个重要组成部分,提高生存期预测能力,一方面能够保障患者的身心健康,另一方面能够对临床工作者的治疗决策提供帮助。近年来,随着生物信息领域的技术发展,以及癌症数据的完善,以往的主观经验法以及传统的统计分析方法无法充分提取这些数据的信息。一方面,癌症数据具有不完全性,包括部分样本记录缺失、测量仪器测试数据丢失等;另一方面,癌症数据具有异质性,将多个数据集简单地相加,往往会造成数据冗余,并且从生物角度难以做合理解释。为了有效整合乳腺癌数据,以便于对乳腺癌患者提供更加精准的生存期预测能力,本文提出一种基于xgboost模型的数据融合方法。本文主要基于以下几个方面对该模型在乳腺癌数据集的适用性进行考察:(1)在处理缺失值方面,xgboost模型能够在不对缺失值进行填充的情况下,对样本进行训练,不但能够保留样本原有的信息,并且在不断迭代过程中,能够对缺失值的划分进行修正,使得最后对缺失值的判断更加接近真实值。所以,本文在处理缺失值样本时,并不删除样本,而是将样本进行保留,这大大增加了训练集的样本量;(2)在预测性能方面,本文先从xgboost模型分别在单模态数据集以及多个模态数据集融合处理的结果进行对比分析,结果表明该模型融合处理多个模态数据集得到的结果要比单个模态数据集得到的结果更加有效;然后,本文将基于xgboost模型的融合算法与基于DNN模型的融合算法进行对比分析,结果表明,基于xgboost模型的融合算法不仅在多模数据集上的效果要优于其它模型,并且在单模数据集上,该模型依旧具有良好的鲁棒性;(3)在生物意义挖掘方面,传统的基于机器学习算法模型旨在训练得到生存期预测性能良好的模型,而忽视了挖掘数据中隐藏的生物意义。从基因数据集中,挖掘出生存期相关基因标志物,对于医疗工作者进行相关的药物研究以及治疗决策具有重要意义。本文利用xgboost模型的特征筛选性能,共标记出141条基因,并从GO富集分析、KEGG通路分析以及编码蛋白相互作用网络分析对标记基因进行功能分析,结果表明,这些基因与细胞分裂、细胞凋亡、细胞增殖、癌症通路等生物过程密切有关。综上所述,本文为证明基于xgboost模型的融合算法在乳腺癌生存期预测方面的适用性,从大量乳腺癌患者的临床数据和基因数据出发,利用传统统计分析方法筛选出乳腺癌相关基因和临床特征,建立了一个基于xgboost模型的融合算法进行乳腺癌生存期预测。为说明该模型的有效性,本文将该模型分用于单模数据集与多模数据集,并将DNN模型与该模型进行对比分析。最后,本文利用该模型筛选出141条基因标志物,进行生物功能分析,对进一步研究乳腺癌相关药物以及临床治疗决策具有指导意义。