论文部分内容阅读
人类已逐渐走进精准医疗时代,解析不同个体遗传差异可以在分子水平上对患者进行准确诊断,为临床治疗决策和正确用药提供更详细的参考依据。近年来,单核苷酸多态性(SNP)的研究已经为疾病预警、遗传咨询、早期诊断、预后评估以及药物选择提供了重要的理论依据,但是,目前发现的SNP只能解释疾病遗传力中的一小部分,提示其他变异类型也有可能在疾病中发挥重要作用,应该加大对其他变异研究的力度。多核苷酸变异(MNVs)是指个体中同一个单倍型上同时存在两个或两个以上的邻近核苷酸变异,其功能可能与组成它的单个变异完全不同。到目前为止,关于MNVs的研究非常有限,使用传统的遗传变异注释工具通常无法对MNVs进行准确的注释,因此,开发MNVs批量注释软件,对推动MNVs领域的发展有重要意义。本文通过广泛收集MNVs数据和基因组各种功能元件区域数据,设计算法,开发了一款针对不同基因组区域MNVs进行功能注释的生物信息学软件MNVAnno。此软件有三大功能注释模块:基于编码基因区域注释、基于非编码基因区域注释和基于调控区域注释。编码基因区域注释可以分析MNVs对氨基酸序列及可变剪切的影响;非编码基因区域注释可以鉴定位于非编码RNA(如:mi RNA、lnc RNA、sno RNA)上MNVs,并预测MNVs对nc RNA功能的影响;调控区域注释可以鉴定位于调控元件(如:转录因子结合位点,增强子)上的MNVs,并预测MNVs对一些调控元件的影响。用户提交MNVs文件,选择不同参数,即可完成MNVs功能注释。软件开发完成后,我们把MNVAnno应用于Wang等人利用gnom AD数据库全基因组和全外显子组数据鉴定的6,261,326个MNVs,将其注释到基因编码区、非基因编码区和调控区。研究发现41.88%的MNVs位于编码基因区域,其中位于同一个密码子且导致错义突变的MNVs为8,505个,位于同一个密码子且导致终止获得的MNVs为218个,位于同一个密码子且导致终止丢失的MNVs为14个,位于同一个密码子且导致起始丢失的MNVs为12个,通过GWAS数据库,我们将注释到同一密码子内并产生错义突变的MNVs进行检索,确认了248个单核苷酸变异(SNV)落在这些MNVs上;58.86%的MNVs位于非编码RNA区域,其中36.0603%的MNVs位于lnc RNA区域,17.7273%的MNVs位于circ RNA区域,5.0613%的MNVs位于pi RNA区域,0.0075%的MNVs位于t RNA区域,0.0042%的MNVs位于mi RNA区域,0.0029%的MNVs位于sno RNA区域,又对注释到lnc RNA和circ RNA区域的MNVs进行检索,分别确认了GWAS数据库中报道过的757和34个SNV落在这些MNVs上;37.63%的MNVs位于调控区域,其中32.4076%的MNVs位于染色质可及性区域,3.3334%的MNVs位于保守基因组元件区域,1.2631%的MNVs位于转录因子结合位点区域,0.6249%的MNVs位于增强子区域,0.0047%的MNVs位于mi RNA结合位点区域。MNVAnno的开发将为其他研究人员提供重要的研究工具,有助于推动MNVs领域的发展。