论文部分内容阅读
大量临床数据表明,患有同种癌症的不同患者,由于病人基因的特异性,对同一种治疗手段或药物往往有不同的反应。因此考虑基因特异性影响的靶向药物治疗已成为一种新兴的癌症治疗手段。然而病人体内是否存在抗癌药物的靶向基因对治疗效果影响较大,并且临床上抗癌药物的筛选研究存在多方面的挑战:实验环境要求高、等待反应时间长以及耗资巨大等。生物信息学的快速发展,将肿瘤细胞的基因组数据与药物相关数据整合成大型数据库,结合机器学习算法在细胞水平上对药物反应进行预测,为多种靶向抗癌药物的筛选提供有利依据。本文基于肿瘤细胞系的基因表达数据和抗癌药物反应值IC50,进行特征选择算法的研究,从而建立可靠准确的抗癌药物反应预测模型,主要包括以下三方面的工作:(1)对CCLE中的癌细胞系基因组数据与抗癌药物反应数据进行关联性分析,发现基因表达数据分布集中并且与IC50之间的相关性较为显著,更适用于预测药物反应。然后结合药物反应值计算相关系数的假设检验p值,按一定阈值选择的基因之间存在群组相关性,为后续工作中特征选择算法的研究以及回归模型的构建提供一定的依据。(2)针对基因特征数据的“维数灾难”问题,将处理高维特征的评价筛选与惩罚最小二乘系数收缩的方法结合使用。首先使用SIRS算法计算21种抗癌药物的IC50与各个基因表达的边际度量值进行初步筛选,并使用Pearson相关系数的假设检验进行对比;然后结合不同的惩罚最小二乘系数收缩的方法:LASSO、Elastic Net、SCAD,作精确特征选择,为建立可靠的回归预测模型提供有效的预测变量。(3)由于SIRS算法更适用一般模型,且Elastic Net兼顾LASSO与岭回归的变量选择与群组效应优势,研究中使用SIRS_Elastic Net方法进行特征选择,并与CCLE数据发布的论文中的Elastic Net算法模型进行对比,并且比较评价筛选与系数收缩的不同结合对模型结果的影响。然后对肺部癌细胞系单独进行预测分析,并且通过对预测基因变量的富集分析来了解基因的分子生物学功能信息以及在信号通路中的作用。本文基于CCLE数据对21种抗癌药物反应进行预测,侧重于回归模型中的特征选择算法研究,将评价筛选与系数收缩进行有效结合,采用SIRS_Elastic Net作特征选择,提高了模型预测的准确度,大多数药物得到的决定系数达到0.7以上,同时对肺癌进行单独研究的预测模型决定系数达到0.95左右。并且通过富集分析发现预测基因所对应的分子功能及通路信息与抗癌药物具有生物学相关性,这为后续研究药物的靶向基因提供了一定的基础,同时有助于新的抗癌药物的筛选研究。