论文部分内容阅读
基因组印迹是一种十分重要的表观遗传学现象,也是DNA甲基化最为人熟知的功能之一,印迹基因的选择性表达是由父本或母本遗传而来,通过控制印迹基因的调控区域的甲基化来实现。在哺乳动物中,印迹基因从亲代的两个等位基因中选择性表达其中的一个,从而在功能上实现单倍体的特征。基因组印迹与胎盘哺乳动物的进化相当密切的联系,而基因组印迹缺陷与人类疾病也有着深刻的联系。二代测序技术的进步使得DNA甲基化的研究发生了很大的变化,全基因组重亚硫酸盐甲基化测序(WGBS),甲基化DNA免疫共沉淀测序(MeDIP-Seq),以及采用酶切方式的简化甲基化测序(RRBS)等多种甲基化分析手段使我们从单碱基水平分析细胞甲基化。对于基因组印迹研究来说,现有的生物信息学分析一般需要了解亲本的遗传标记用于在子代中进行区分,通常的研究方法是将两种不同品系的小鼠进行杂交,通过亲本的单核苷酸多态性(SNP)进行父母本区分。本课题中,我们用一种新的方法来寻找等位基因特异性甲基化(ASM)区域。我们先对全基因组甲基化测序的片段进行分析,针对每个片段的甲基化状态进行分析,将多个片段甲基化信息用卷积的方法关联起来描述该区域甲基化状态,我们的模型虽然无法区分父母本信息,但是仍能较准确的确定出等位基因特异性甲基化区域。利用我们的模型分析了一组小鼠胚胎发育过程中不同发育时期的全基因组甲基化数据,利用我们的方法对不同时期细胞的等位基因甲基化特异性区域进行筛选,与根据小鼠品系多核苷酸多态性区分得到的父母本甲基化信息进行对比,发现本课题使用的方法能够较好的找到等位基因甲基化特异性区域。通过分析小鼠的等位基因甲基化特异性区域,我们发现在小鼠发育阶段,这些区域都有较高的保守性,并且这些区域在基因组上呈现成簇出现的特征,富集出现在CpG高密度区域、启动子区域。本课题中给出的方法能够在使用在亲本品系未知的情况下较准确的寻找ASM区域,从而能够更好的利用现有的众多未包含亲本品系信息的甲基化测序信息中进行生物信息学研究。