论文部分内容阅读
由于遗传因素,环境因素和疾病的多样性,癌症病人会对每种癌症的治疗方案做出不同的反应。利用基因信息预测药物敏感性是个体化医疗中极为重要的一项任务,已经受到包括机器学习,数据挖掘和计算生物学等多个领域的关注。通过预测药物敏感性,肿瘤学家可以对每个病人的有效的治疗方案有一个全方位的了解,这对精准化医疗是非常有帮助的。现阶段药物敏感性的预测主要是通过对被不同的药物处理过后的癌症细胞系进行分析,然后选择出一些基因或功能基因组特征,之后对药物敏感性进行回归或者分类。然而,由于人类的基因组和分子环境是非常复杂的,现阶段要对病人的治疗方案做出一个准确的预测仍然是一个挑战,在本文中,我们提出了一种迭代SIRS的方法,并且把它运用到CCLE的数据集中去选择和药物敏感性有关的变量。对CCLE中的每一种药物,我们考虑了不同的基因信息包括:基因的拷贝数信息,位点突变信息和基因表达数据。在所有的特征变量中,我们根据变量的边际度量值只选取了 50个变量去预测药物敏感性,这种变量选择的方法仅仅关注响应变量关于预测变量的条件分布。之后根据选择的特征变量,我们建立了一种线性回归模型,去预测药物敏感性。这其中有些变量的边际度量值排名较后,但是在之后的回归模型中它们的回归系数是显著地。结果表明,对于大多数药物来说,我们的预测效果好于ISIS的好。即通过迭代SIRS得到的24种药物的药物敏感性的预测值计算的均方误差都要比ISIS的低,Wilcoxon检验的p值为5.96e-08,其中有些药物下降的比例非常大,如Paclitaxel、Panobinostat、Irinotecan等等。而且对于大多数药物,ISIRS计算得到的药物敏感性的预测值和真实值之间的的相关性系数要比ISIS高,其中L.685458,Nilotinib和Paclitaxel的相关性系数的提高都高于0.05,还有TKI258的相关性系数也从0.42提高到了 0.46。