论文部分内容阅读
癌症是现今最致命的疾病之一。到2030年,在世界范围内,每年将有一千三百万人死于癌症。微阵列和下一代测序等高通量技术的出现,推动了全基因组范围内癌症的研究。生物学标志物的识别是高通量测序技术的一个重要应用,作为疾病的分子特征,可以用来为临床辅助决策。尽管生物学标志物已广泛应用,但是仍存在很多问题。其一是在疾病的发展和治疗反应中识别出的很多基因标志物缺乏合理的生物学功能解释,其二是针对癌症这种异质性疾病,基因标志物的可重复性是一大挑战。鉴于可靠临床基因标志物识别的困难,研究人员需要利用生物学的先验知识以加强数据驱动的方法来识别具有鲁棒性的生物学标志物。因此,基于生物学通路的方法被开发出来。通过整合通路分析和基因组数据评估在患者亚群和个体肿瘤中哪些通路被调控来指导靶向治疗,基于生物学通路的方法能够帮助我们在功能机制上深入了解癌症致病机理。然而,现有的大多数通路分析方法没有考虑到通路复杂的相互作用,并且没有融合多组学数据。本文针对上述问题,对基于网络的通路分析和基于通路的癌症诊断进行了深入的研究。全文首先系统的介绍了通路分析的主要方法及其特点,总结了通路分析面临的主要困难和研究现状。然后针对性的提出若干基于网络的通路分析方法及基于通路的癌症分类方法,具体分为以下几个方面。(1)大规模生物网络的建立,使得基于网络的通路分析方法成为研究热点。在全基因组范围生物网络中,通路的交互不局限于通路内部基因的相互交互,通路内部的基因与通路邻近的基因也存在着广泛的交互。基于此,本文提出了一种基于加权基因交互网络的通路分析方法,首先通过整合蛋白质相互作用数据,基因表达谱数据,分别构建了全基因组水平表型特异性的基因关联网络,然后通过考虑关联网络边的权重和度,利用Limited K-walks算法,将每一个通路分别在表型特异性关联网络中寻找网络中与通路密切相关的基因,并扩增为两个小网络,最后通过评价扩展后的这两个小网络的差异性来识别与癌症相关的通路。在公开的数据集上,本文的方法与其他方法进行了比较,实验结果表明,本文的方法能够有效的识别出与癌症相关的通路。(2)各组学海量数据的快速积累,为揭示癌症致病机理提供了有力的数据支持。众多组学数据中,转录组学和表观基因组学关系最为密切。基于此,本文提出了一种基于网络融合多组学数据的通路分析方法。该方法通过主成分分析和稀疏典型相关分析整合DNA甲基化和基因表达数据计算表型特异性网络边的权重。构建每个表型下的加权网络,然后把通路依次嵌入网络中进行扩展,扩展后的通路基因集作为基因列表进行经典的富集分析,以此来评估通路与相关癌症的关系。该方法在三个公开数据集上进行了验证分析,实验结果表明,本文的方法通过融合DNA甲基化和基因表达数据在样本数量较少的情况下结合经典的通路分析能有效的识别出与癌症相关的通路。同时该方法可以基于大规模的生物网络研究原始通路间和扩展通路间的交互关系,为从系统学的角度研究通路在癌症中的作用提供了新的角度。(3)精准医疗概念的提出,使得通用性医疗开始向个性化、精准医疗转变。随着个性化通路分析方法相继被开发出来,基于个性化通路的癌症研究成为了最近研究的热点之一。本文首先对三种类型通路用于癌症分类的效果进行了比较分析,实验结果表明基于OR-pathway的方法分类效果最好。然后本文构建了基于个性化分析识别风险通路模型,将该模型应用到乳腺癌数据集中进行实验分析,实验结果表明该方法能够有效的识别出与乳腺癌相关的通路。(4)组学数据具有维数高、样本少、高噪声等特点,这些特点在数据挖掘中容易导致维数灾难和过拟合等问题,使得很多经典的机器学习方法失去了其效能。基于此,本文提出了一种基于通路集成学习的癌症分类方法。该方法首先通过差异基因集和通路基因列表求得差异通路基因列表,然后以每个差异通路基因列表构造基分类器。最后通过相关算法进行基分类器筛选,选取最优基分类器集合构建集成学习分类器进行癌症诊断。本文的方法在三个公开数据集上与其他方法进行了比较分析,实验结果表明,本文方法不但具有最优的分类性能,而且结果具有很好的鲁棒性。同时,集成学习器中的基分类器具有明确生物学意义,识别出了临床相关的核心生物学通路和癌症潜在的生物学过程,可以帮助研究人员理解癌症发病和预后机理。