论文部分内容阅读
癌症是一种复杂的疾病,对人类生命构成严重威胁。高通量测序技术的突破降低了癌症诊断、临床治疗和预后预测等方面的研究成本。整合多组学高通量数据,让癌症研究系统且全面的分析成为了可能,癌症生成过程也得到了更深层次和更完整的研究。从遗传学的角度分析,癌症的产生是基因突变不断选择、累积的结果。因此,通过整合多组学数据挖掘与癌症相关的基因和驱动癌症的基因,成为研究癌症致病机制的热点。本文提出了两种识别驱动基因的方法,主要工作包括以下两点:(1)提出一种基于重叠社区发现的驱动基因方法(GCommunity),用来挖掘具有重叠性质的基因社区并识别与癌症相关的驱动基因。该方法首先采用EMDomics对具有高异质性的癌症数据进行差异表达分析,筛选出显著差异表达的基因作为输入基因;然后对基因表达数据进行吉布斯采样聚类(Gibbs sampler)构建基因相互作用网络,并加入蛋白质相互作用(PPI)数据,使得基因相互作用网络的信息更加完善;通过重叠社区发现的算法挖掘最终的基因社区;通过对拷贝数变异数进行频率计算选出癌症的候选驱动基因,再利用回归树模型建立候选驱动基因和基因社区之间的调控机制,从而获得最终的癌症驱动基因。GCommunity方法从基因组和蛋白质组中获取基因的相互作用关系,从拷贝数变异数据中分析基因的突变行为,用概率统计模型建立突变基因与基因社区之间的调控关系。实验结果表明,GCommunity方法能够挖掘出的质量较高且具有生物意义的基因社区,所识别的驱动基因具有驱动意义。(2)提出一种基于体细胞突变的癌症驱动基因识别方法(MaxSIF),整合了基因表达数据、蛋白质相互作用数据以及体细胞突变数据。该方法首先利用校正因子去除沉默突变这种背景噪声的影响;然后计算在核苷酸序列上出现无义突变、错义突变、移码突变以及短插入/删除与总突变的比例作为该核苷酸的突变得分;接着将基因表达数据和蛋白质相互作用数据构成的基因相互作用网络与突变得分结合,计算该基因与邻居节点的突变影响得分并用最大值表示该基因的突变影响得分;最后选择突变影响得分较大的基因作为驱动基因。MaxSIF方法的动机来自两个基因如果它们都具有高突变分数并且在基因网络中彼此接近,则他们应该具有强烈的突变影响。该方法考虑基因在基因网络中的所有邻居突变影响来计算该基因的最大突变影响值。实验结果表明,MaxSIF方法所识别的驱动基因能在癌症通路中显著富集,能正确识别驱动基因并区分致癌基因和抑癌基因。