论文部分内容阅读
精确预测疾病状态是临床癌症研究的一个重要课题。近年的研究通过识别基于微阵列表达谱的基因生物学标记来对癌症治疗结果进行预测,效果优于传统的临床诊断因子。然而,单基因生物学标记在不同群体的病人之间的再现性很差,使得基于单基因生物学标记的分类器的鲁棒性被广泛质疑。癌症治疗策略的进步需要更好的方法识别鲁棒的生物学标记。最近一些方法提出在功能层面整合通路信息来识别通路生物学标记并建立分类器,而不是单基因层面。基于通路生物学标记的分类器取得了更可靠的分类性能并能提供关于治疗策略选择的更好的生物学解释。然而,当前的方法把通路看成简单的基因集合,忽略了通络网络中的拓扑结构信息,而这些信息对推断更鲁棒的通路活性是必要的。在本文中,我们提出了一种基于有向随机游走(DRW)的方法挖掘通路拓扑结构信息,并推断通路活性。DRW方法在全局通路网络上运行,通过捕获基因的拓扑性质来评估基因的拓扑重要性,包括基因在通路中的位置,与给定基因互作的基因个数以及基因之间互作的类型等。我们利用挖掘的拓扑结构信息在推断通路活性的过程中调整基因的权重。通过调整基因权重,DRW方法能放大关键基因,即那些表达水平的变化能显著影响整个通路的基因的信号;而降低那些只是出现在通路下游或者对给定通路影响不大的基因的差异表达信号。这种利用基因的拓扑重要性来调整基因权重的策略有效地增强了通路活性的可再现性。我们将DRW方法应用到六种癌症的分类问题,实验结果证明,不论是单个数据集的分类实验,还是独立交叉数据集的分类实验,DRW方法都得到了比已有的几种基于单基因和基于通路的分类器更精确的分类正确率和更鲁棒的分类性能。在构建分类器的过程中,那些被频繁选出来作为分类特征的具有高判别性的活性通路揭示了各种癌症新的、鲁棒的风险活性通路。这些风险活性通路能更可靠的指导癌症治疗方案选择和开发新的通路特异的治疗策略。