论文部分内容阅读
癌症主要由基因组变异导致,从癌症基因组变异中发现具有致癌作用的癌症驱动变异,对癌症诊断治疗的相关研究具有重要意义。随着高通量微阵列技术和下一代测序技术的发展,现有研究积累了大量癌症患者的基因组变异数据,为癌症驱动变异的计算发现提供了可能。 在现有研究中,驱动变异发现方法主要检测变异在癌症样本中的发生频率,并将其中的高频变异作为癌症驱动变异。然而,近期研究表明癌症存在肿瘤异质性,即癌症中不同样本具有不同的基因组变异。在异质性癌症中,一些驱动变异仅在部分癌症样本中发生,而在全部样本中则表现出相对低频。因此,现有方法难以对上述驱动变异进行有效识别。 为了有效发现异质性癌症中的驱动变异,本文根据癌症基因组变异的特点对矩阵分解进行针对性改进,提出面向异质性癌症的驱动变异发现算法。本文主要研究内容如下: 1.为从拷贝数变异中发现癌症驱动变异,现有研究主要致力于识别癌症中的频发拷贝数变异。本研究通过对稀疏奇异值分解进行算法改进,构建针对复杂模式的频发拷贝数变异发现算法。在此基础上,进一步提出面向异质性癌症的亚群特异性频发拷贝数变异发现算法。性能评估表明,本研究算法对异质性癌症的驱动变异发现具有明显优势。 2.对于异质性癌症的单核苷酸变异数据,本研究提出一种新颖的基于网络正则化矩阵分解算法,用于发现异质性癌症中的驱动变异相关基因。该算法可有效检测基因在部分样本的变异频率,同时还使用网络正则化有效融合基因相互作用网络信息。通过分析算法在多种类型癌症数据上的识别结果,表明算法对驱动变异相关基因的识别性能优于现有方法。 3.在联合多种类型癌症的泛癌症分析中,通过考虑泛癌症数据的异质性和不同类型癌症之间关系,本文在矩阵三分解的基础上构建面向泛癌症的驱动变异相关基因发现算法。同时,本文还通过成对相似性约束,对算法引入不同类型癌症之间的相似性信息。结果表明,本研究算法可有效识别泛癌症数据中的驱动变异相关基因。