论文部分内容阅读
癌症的准确诊断和分型是癌症治疗的保障,精确的癌症分型有助于有效的癌症分析和治疗方案的制定。目前癌症类型都是基于其原始的发病器官或组织类型进行划分的。最近研究表明,不同类型的癌症在基因组、转录组、蛋白组及表观等分子层面存在共性,并且相同类型的癌症在这些分子层面却存在不同的特征。因此为了完善目前癌症分型在生物分子层面上的欠缺,本文提出了一种基于深度自编码模型降维实现多癌症分子分型建模与分析的理论方法,该方法能够有效地对高维度、稀疏的癌症数据进行分子分型,从而可以进一步分析癌症类型内部及其之间的关系,深入探索癌症的致病机理。本文提出的这种基于深度自编码模型降维的癌症分子分型建模与分析的方法,首先对预处理后的479维生物分子数据通过深度自编码模型降至30维,然后利用优化K均值聚类算法建模,对TCGA项目中的12种癌症类型的3199个病人统一分型为11个生物分子层面的类别。其中有7个分子类别只与特定原始癌症类型相关,剩下的分子类别中出现了多种癌症类型的在不同形式的分型。结(直)肠腺癌与子宫内膜癌的因其癌症亚型存在差异性,而被分别分型到不同的分子类别中。卵巢浆液性囊腺癌、头和颈部鳞状细胞癌、肺鳞状细胞癌和肺腺癌的部分样本因CDKN2A基因变异和甲基化变异而被分型到同一种分子类别中。相反地,肾透明细胞癌主要因PBRM1基因是否变异而分别分型到两种分子类别中。最后本文根据分子分型结果中高频变异的特征对部分分子类别做了生物功能性分析及药物靶点的预测。本文结果表明,基于深度自编码模型降维的癌症分子分型的方法可以对高维度、稀疏的癌症数据进行有效的分型,为探索癌症类型内部亚型的差异性和类型间的共性提供了一种科学的分析方法,同时为进一步在生物分子层面理解癌症的致病机理提供有效的引导,也为不远将来的个体化医疗提供了一定的理论参考。