论文部分内容阅读
变异位点的功能注释是探究突变与表型间关系的重要环节。伴随下一代测序技术的发展和测序成本的降低,大量变异位点数据被挖掘出来,这些数据是功能注释的基础。ENCODE计划产生大量调控元件的实验数据,这些数据能够提高模式生物如人与小鼠变异位点注释的准确性,但如何利用这些数据在其他非模式生物中预测突变影响仍是一个挑战。本研究利用Python语言开发了一个变异位点功能注释软件,并且利用该程序对猪全基因组范围内的变异位点做出功能注释,主要获得以下结果:(1)开发了一个突变位点功能注释软件VIP(Variant Integrated Predictor)。该软件对位于编码区突变如同义突变、错义突变、无义突变、移码与非移码突变等能够提供准确性100%的预测结果,并且能够对蛋白质结构域作出预测。对位于启动子区突变,VIP能基于Jaspar提供的转录因子结合序列的位置频率矩阵提供转录因子结合位点变化预测。对位于3’UTR区突变,VIP能基于mi RBase提供的miRNA序列,利用加权的Smith-Waterman方式计算miRNA与3’UTR靶位点的互补分数,并且能够利用miRDB的预测结果进一步降低注释假阳性率。对于内含子区突变,VIP能提供剪接位点预测。基于多进程的VIP注释程序能够最大化利用多核心CPU,大幅度提高注释速度,在简单注释模式下,注释速度达每秒79,000个变异位点。并且程序能够有效节约内存,可以在8 GB内存计算机上完成猪基因组约6,000万变异位点注释。(2)基于物种间基因组序列比对结果,我们开发了配套程序用于构建物种间基因组位置对应关系,在此基础上转移ENCODE提供的人相关实验数据用于VIP的数据整合注释。本研究利用人与猪基因组序列比对结果,将猪基因组中11.4亿个碱基(40%)与人基因组建立了联系,并转移人基因组位点保守性分值数据(PhyloP)及CADD值用于猪基因组变异位点功能注释,在编码区的注释结果中取得合理的结果。同时,利用这一基因组位置对应关系,我们将ENCODE下载的6组转录因子SP1的ChIP数据转移用于猪基因组启动子区域变异位点注释,结合Jaspar提供的SP1靶序列的位置频率矩阵,注释发现了4,248个高质量的SP1结合能力下降的结果。(3)利用VIP,我们对猪全基因组范围内约6,000万变异位点做出注释,编码区共524,081个注释结果与Ensembl相比,准确度达到100%。在位于3’UTR的突变中,我们发现了5,008个由于突变造成新miRNA结合以及5,969个原有miRNA结合消失的注释结果。本研究为非模式生物利用ENCODE数据进行变异位点功能注释提供了一个可靠的生物信息学平台和参考;猪全基因组变异位点的注释结果为相关基因的功能研究及重要突变位点的筛选奠定了基础。