论文部分内容阅读
癌症已经成为全球主要的公共卫生问题,同时也是主要的死亡原因之一。其中,癌症驱动基因的挖掘一直是一个重要的研究方向。同时,基于驱动基因的精准医学也是治疗癌症的重要手段。随着基因测序技术的进步,在过去数十年中已经报道了数以百万计的体细胞突变。但从这些数据中挖掘具有致癌突变的驱动基因仍然是一个极具挑战性的研究课题。为此,已经提出了许多高级算法来识别驱动基因,而在海量数据中将网络结构信息与生物信息相结合的尝试鲜有出现。本文基于复杂网络与机器学习方法研究癌症驱动基因的挖掘,创新性地结合了多种特征提取和对比分析的方法,分别从基因网络特征、基因属性特征、网络与属性的整合特征三方面综合挖掘基因特征,并通过不同角度的对比分析论证研究的可行性。最后,基于随机森林改进优化分类,揭示影响癌症发生发展的重要因素,进而识别出真正的潜在癌症驱动基因,为指导癌症的临床研究和驱动基因的挖掘提供指导依据。主要工作包括:(1)基于复杂网络理论的癌症基因网络分析。构建癌症基因网络,分析网络结构在癌症发生发展过程中的变化情况和挖掘基因的网络特征是本论文最先要研究的问题。对网络结构的分析,分别对比了Normal网络与Tumor网络中驱动基因的网络结构变化情况和驱动基因的连边机制,以及Tumor网络中驱动基因与非驱动基因的特征值分布情况。(2)基于复杂网络与机器学习方法的癌症驱动基因预测。癌症驱动基因挖掘算法的研究是本论文的另一个重要问题。该模块主要是对单个特征的重要性、结构特征与非结构特征的重要性、使用基因网络与未使用基因网络的差异,以及模型的预测结果进行研究分析。对7种不同类型癌症驱动基因的挖掘结果显示,论文提出的算法总是可以达到很高的预测准确性,模型的AUC得分分别是0.987、0.991、0.994、0.995、0.989、0.989和0.986,并且预测结果与癌症基因普查(Cancer Gene Census,CGC)数据库的重叠比例能够达到40%及以上,均优于现有的先进方法。进一步的分析也表明,整合网络特征有利于癌症驱动基因的挖掘。