论文部分内容阅读
研究癌细胞系对抗癌药物的反应是理解癌症生物学和研发新型抗癌疗法的关键,在癌症治疗中起着至关重要的作用。传统的研究癌细胞系-药物反应方法是基于临床实验的,这是一个时间和资金耗费巨大的过程。为了寻找一种投入低、周期短、临床前的方法,研究人员开始利用已知的生物数据对药物反应敏感性进行建模。研究表明,通过多种生物分子信息的有效整合能大幅提高细胞系-药物反应预测的准度率。本文主要研究通过有效整合多源数据,建立合适的模型,对细胞系-药物反应进行预测。所做的工作如下:(1)提出了一种基于异构网络的最大信息流模型用于预测细胞系-药物反应(Using Maximum Information Flow on Heterogeneous Network For Drug Response Prediction,MIF2DRP)。首先,下载得到多个数据库中的细胞系、药物和基因数据,通过对这些数据进行相似性度量和预处理,整合得到一个包含多源信息的三层异构网络。接着,将其转换为流网络,针对每种药物用最大流算法计算得到药物节点间和细胞系节点间的最大信息流,用该值来衡量细胞系-药物反应的作用关系。最后,通过阈值的设定将该细胞系对该药物的反应划分为敏感或耐药,得到最终预测结果。实验结果显示,与其他两种先进预测模型相比,MIF2DRP整体性能是最好的。(2)提出了一种基于最大流的随机森林模型预测细胞系-药物反应(A Random Forest Method Based on Maximum Information Flow For Drug Response Prediction,RFMMIF)。根据数据库、文献中已知的药物、细胞系特征数据信息和关系信息,经过预处理,得到一个药物关系网络和一个细胞系关系网络。接着通过最大流方法分别计算出两个网络中节点的重要性权重,根据该权重对已有的药物特征和细胞系特征进行加权,串联得到细胞系-药物对的特征向量。最后,经过特征选择,采用随机森林分类模型对细胞系-药物对进行分类完成预测。实验结果表明该方法具有良好的预测性能,在预测未知细胞系-药物反应上也有着不错的表现。