论文部分内容阅读
癌症的发病率和死亡率在逐年升高,对其发病机制的研究已经成为当今的一个热门领域。癌症的发生是一个复杂的多步骤过程,涉及经典遗传学和表观遗传学等多种因素的共同调控。表观遗传修饰的异常改变已经被发现可以导致肿瘤的发生,由于这些改变具有可逆性,因此可以作为肿瘤防治的新靶点。目前,DNA甲基化和组蛋白修饰是研究最广泛的两种修饰,针对这两种修饰所开发的表观靶向药物已成功的用于癌症的临床治疗。结直肠癌和乳腺癌是两种常见的癌症,其中结直肠癌患者的主要死亡原因是肿瘤细胞的转移。上皮细胞-间充质转化(epithelial-mesenchymal transition,EMT)及其逆过程间充质细胞-上皮转化(mesenchymal-epithelial transition,MET)是肿瘤细胞转移过程中的两个关键步骤。因此,深入理解结直肠癌EMT和MET过程的表观遗传调控机制对其治疗及预后具有重要意义。本文我们首先计算了结直肠癌转移期间EMT(上皮细胞DLD1→间充质细胞SA)和MET(间充质细胞SA→上皮细胞METS)过程中组蛋白修饰水平的变化,并分析了这些变化对转移相关基因表达的影响。此外,研究表明超级增强子和启动子是基因表达调控中两种重要的顺式调控元件,这些调控元件的表观遗传修饰对乳腺癌的发生起重要作用。然后,我们分析了人正常乳腺上皮细胞(HMEC)和乳腺癌细胞系(MCF-7)中超级增强子及其靶基因启动子区的表观遗传修饰对基因表达的调控作用。本文的主要研究内容概括如下:1.计算了结直肠癌转移期间EMT和MET过程中组蛋白修饰水平变化与基因表达水平变化之间的关系。结果表明,H3K4me3和H3K79me3与结直肠癌转移相关基因的表达呈正相关。基于启动子区的组蛋白修饰特征,使用随机森林算法对EMT和MET相关的上调基因和下调基因进行预测,结果发现H3K79me3具有最好的预测能力;此外,特征重要性排序也显示相比于其它组蛋白修饰特征,H3K79me3对基因表达的变化更重要。最后,筛选出与H3K79me3变化密切相关的差异表达基因,并对它们构建蛋白质-蛋白质相互作用网络,结果确定了10个与转移相关的枢纽(hub)基因。并且发现在结直肠癌转移过程中(DLD1→SA→METS)每个hub基因启动子特定区域的H3K79me3水平的变化与其表达水平的变化趋势一致。以上结果表明,H3K79me3可能是结直肠癌EMT和MET过程的关键调控因素。进一步的分析发现METS细胞中hub基因KRT8和KRT18的高表达与结直肠癌的不良预后相关,并且KRT8和KRT18的蛋白质水平在结直肠癌组织中比正常组织中的高,验证了KRT8和KRT18在结直肠癌转移中的重要性。2.基于HMEC和MCF-7中共有的11种组蛋白修饰、染色质可及性、DNA甲基化和转录因子CTCF数据,我们提取了HMEC和MCF-7中超级增强子和启动子区的表观遗传修饰特征。然后使用我们新提出的K最近邻离散增量(K nearest neighbor increment of diversity,KNNID)模型对上调基因和下调基因进行预测,结果发现一组对基因表达起重要作用的核心组蛋白修饰,包括H3K27ac、H3K9ac、H3K4me2、H3K36me3、H3K4me1、H3K4me3和H3K79me2。当使用超级增强子和启动子区的核心组蛋白修饰一起作为KNNID的输入特征时,能够得到一个较好的预测结果(AUC=0.955)。与我们小组以前提出的最小离散增量算法比较时(AUC=0.913),发现KNNID的预测性能有所提高。通过计算Spearman相关系数,我们发现超级增强子和启动子区的核心组蛋白修饰与基因表达存在强的相关性,且超级增强子和启动子区的核心组蛋白修饰之间也表现出强的相关性(rho>0.60,p<2.2×10-16)。结果表明,超级增强子和启动子区的核心组蛋白修饰协同调控乳腺癌相关基因的表达。此外,我们还发现超级增强子能够影响其靶基因启动子区的核心组蛋白修饰水平。3.在HMEC和MCF-7中筛选出与超级增强子相关的癌基因和抑癌基因,对这些基因进行功能富集分析和免疫细胞浸润分析。结果发现,这些基因显著富集到了与乳腺癌相关的生物学通路,并且参与的免疫细胞在乳腺癌样本和正常样本中的浸润水平显著不同。然后对这些基因进行单因素和多因素cox回归分析,确定了3个乳腺癌的独立预后基因(GADD45A、NRG1和TPD52),并进一步构建了乳腺癌的预后风险评分模型。通过计算表观遗传特征对基因表达变化的重要性以及表观遗传修饰与基因表达之间的相关性,我们发现超级增强子区的H3K27ac和H3K9ac以及启动子区的H3K36me3和H3K79me2可能是调控乳腺癌相关基因表达的关键组蛋白修饰。随后,我们比较了独立预后基因超级增强子和启动子区这四种组蛋白修饰在HMEC和MCF-7之间的分布模式,并确定了调控其表达的重要组蛋白修饰区域。