论文部分内容阅读
肿瘤已经成为威胁人类生命健康和生活质量的重要疾病,如何为肿瘤患者选择最佳治疗药物是医疗卫生和生物信息学研究领域的前沿课题之一。目前,确定患者是否会对抗肿瘤药物产生反应通常需要花费数月的时间,中间要经历反复的试验,还伴随着随时出现误用的可能性。研发有效的抗癌药物反应预测方法已经成为肿瘤学研究的重要课题。药物敏感性建模的准确性高度依赖于数据类型、特征选择、模型选择和模型验证等相关因素。本文从这些角度出发,提出了一种基于机器学习的抗癌药物反应预测方法,它集成了机器学习和统计学习几种常用的计算工具,使用基于细胞系数据的模型预测肿瘤药物反应情况。本文的数据来源于英国惠康桑格研究院发布的癌症体细胞突变目录数据库和肿瘤药物敏感性基因组学数据库,共包含上千株细胞系在药物干预前的基因突变、拷贝数畸变、基因表达三大组学特征以及这些细胞系对196种抗肿瘤药物的响应数据。模型主要由特征提取模块和分类预测模块两部分构成。特征提取模块的作用是将输入的高维基因组特征降维,首先应用关联规则挖掘算法为每一种抗肿瘤药物的敏感状态和耐药状态挑选出相关性强的基因状态数据,保留细胞系中这些基因的状态构成初始特征向量,并对初始特征向量进行累积池化处理,在进一步降低特征维度的同时增加模型的鲁棒性。分类预测模块的结构为三层前向型神经网络,因为每种药物-状态对的特征向量长度不同,所以为每种药物和每种状态构建一个分类器,共计构建了392个预测分类器。考虑到临床实践的时间效率问题,本文还提出了另外一种分类预测模块设计方案,它将K-means聚类算法和径向基函数应用在极速学习机网络中,预测细胞系样本对药物的敏感性和耐药性。本文使用R语言实现了关联规则挖掘算法,使用Python语言以及Keras框架实现了整个预测模型。实验结果表明,在196种抗肿瘤药物中,模型在测试集中的平均AUC值为0.810,平均预测准确率为0.776,高于使用相似方法和数据集的其他论文以及目前资深医生的诊断水平。基于改进的极速学习机网络的药物反应预测性能优于几种常见的机器学习算法,训练和验证速度快。本文还设计和开发了抗癌药物反应预测系统。上述结果表明本文提出的模型可以有效捕捉患者的基因组特征,同时生成准确的药物反应预测结果,有望在个体化医疗中发挥作用。