猪全基因组变异位点功能注释程序开发

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:clisav
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
变异位点的功能注释是探究突变与表型间关系的重要环节。伴随下一代测序技术的发展和测序成本的降低,大量变异位点数据被挖掘出来,这些数据是功能注释的基础。ENCODE计划产生大量调控元件的实验数据,这些数据能够提高模式生物如人与小鼠变异位点注释的准确性,但如何利用这些数据在其他非模式生物中预测突变影响仍是一个挑战。本研究利用Python语言开发了一个变异位点功能注释软件,并且利用该程序对猪全基因组范围内的变异位点做出功能注释,主要获得以下结果:(1)开发了一个突变位点功能注释软件VIP(Variant Integrated Predictor)。该软件对位于编码区突变如同义突变、错义突变、无义突变、移码与非移码突变等能够提供准确性100%的预测结果,并且能够对蛋白质结构域作出预测。对位于启动子区突变,VIP能基于Jaspar提供的转录因子结合序列的位置频率矩阵提供转录因子结合位点变化预测。对位于3’UTR区突变,VIP能基于mi RBase提供的miRNA序列,利用加权的Smith-Waterman方式计算miRNA与3’UTR靶位点的互补分数,并且能够利用miRDB的预测结果进一步降低注释假阳性率。对于内含子区突变,VIP能提供剪接位点预测。基于多进程的VIP注释程序能够最大化利用多核心CPU,大幅度提高注释速度,在简单注释模式下,注释速度达每秒79,000个变异位点。并且程序能够有效节约内存,可以在8 GB内存计算机上完成猪基因组约6,000万变异位点注释。(2)基于物种间基因组序列比对结果,我们开发了配套程序用于构建物种间基因组位置对应关系,在此基础上转移ENCODE提供的人相关实验数据用于VIP的数据整合注释。本研究利用人与猪基因组序列比对结果,将猪基因组中11.4亿个碱基(40%)与人基因组建立了联系,并转移人基因组位点保守性分值数据(PhyloP)及CADD值用于猪基因组变异位点功能注释,在编码区的注释结果中取得合理的结果。同时,利用这一基因组位置对应关系,我们将ENCODE下载的6组转录因子SP1的ChIP数据转移用于猪基因组启动子区域变异位点注释,结合Jaspar提供的SP1靶序列的位置频率矩阵,注释发现了4,248个高质量的SP1结合能力下降的结果。(3)利用VIP,我们对猪全基因组范围内约6,000万变异位点做出注释,编码区共524,081个注释结果与Ensembl相比,准确度达到100%。在位于3’UTR的突变中,我们发现了5,008个由于突变造成新miRNA结合以及5,969个原有miRNA结合消失的注释结果。本研究为非模式生物利用ENCODE数据进行变异位点功能注释提供了一个可靠的生物信息学平台和参考;猪全基因组变异位点的注释结果为相关基因的功能研究及重要突变位点的筛选奠定了基础。
其他文献
学生在小学阶段的数学学习过程主要是通过模仿与实践操作来进行,老师在其中发挥的作用是难以替代的,因此关注小学数学教师的个性心理品质对学生学习效能的影响,增强教师在数
本文阐述了什么是“学案导学”,在新课程背景下,英语“学案导学”教学模式的一般过程以及学案设计的要求,最后强调学案导学要注意的几个问题.
改良课堂生态,改革课程教学,改变教师队伍,让学生学会做梦。
会议
特教的体育教学,是针对特殊群体的教学活动.在教学主体环节,智障学生的教学一度成为我校日常教学工作中的重难点.智障学生自闭、孤独、自卑和挫折感问题现象严重.本研究以体
不知不觉,一周的培训结束了,这次培训让我受益匪浅,既有先进的教育理念,又有丰富的教学实践,这是一次难得的学习机会,让我们从繁忙的工作中抽出身来专心学习,从而拓展自己的