论文部分内容阅读
随着后基因组时代生命科学研究的不断深入,认为不同物种的基因组规模和蛋白编码基因数量决定了物种复杂度和多样性的传统认识不断被挑战,基因调控的重要性不断凸现,而近几年大量全新的行使调控功能的非编码RNA的突破性发现使得RNA层次调控在整体调控中的重要性也与日俱增。本论文选取一种重要的转录后调控事件—RNA编辑为研究对象,围绕新编辑位点识别和已知编辑位点的组织特异性分析进行生物信息学研究。RNA编辑是发生在前体mRNA上的单个或多个核苷酸的替换、插入或删除。RNA编辑通过对转录序列“重编码”来调控基因的表达。目前研究最多的是两种替换类型的RNA编辑:C-to-U RNA编辑和A-to-I RNA编辑。前者主要存在于植物的线粒体中,而近几年的研究表明在哺乳动物中A-to-I RNA编辑事件广泛存在。A-to-I RNA编辑由编辑酶ADARs介导,特异性识别双链底物上的腺嘌呤(A),经脱氨作用将其转变为次黄嘌呤(I),而次黄嘌呤在翻译过程中被识别为鸟嘌呤(G)。A-to-I RNA编辑可新建或破坏剪接位点、调控元件等;可改变蛋白质翻译密码子进而影响蛋白质活性功能;异常的A-to-I RNA编辑可导致疾病发生。目前研究表明超过50%的人类基因组均被转录,相对于数量巨大的转录序列,已被识别的A-to-I RNA编辑位点仅在几万这个数量集,暗示了仍有大量全新的A-to-I RNA编辑位点未被发现。传统识别A-to-I RNA编辑位点的计算方法主要依赖mRNA/EST等转录数据与相应基因组DNA序列比对发现A-to-G差异位点,此类算法受限于转录序列的丰度、测序质量,并且要求物种基因组已测序。利用机器学习算法开发不依赖比对数据,仅基于单一转录序列的A-to-I RNA编辑位点识别方法是本论文工作的目标之一。根据这种指导思想,我们构建了基于支持向量机的A-to-I RNA编辑位点分类器。将分子实验验证的非重复区域的编辑位点作为训练数据集;提取编辑位点上下游序列的碱基组成、序列保守性、RNA二级结构三方面的信息构建特征向量;使用Libsvm对支持向量机进行算法实现。通过留一法进行评估,分类器的总体正确率在80%左右;绘制ROC曲线计算其曲线下面积(AUC)为0.85。在独立测试集数据对分类器效果进行评估时,总体正确率是70%;ROC曲线评估得到的AUC约为0.75。调控事件的时空特异性是增加调控复杂度的更要机制之一,已有文献通过个案研究证实了RNA编辑存在组织特异性,且差异性的RNA编辑事件发挥着重要的生理功能。为了发现更多组织特异的RNA编辑位点,从而揭示RNA编辑组织特异性的内部机制和功能影响,我们基于统计学算法开发了系统识别组织特异的RNA编辑位点的方法,并成功应用于人类组织特异的A-to-I RNA编辑位点识别。根据文献报道,我们收集了32316个非冗余的A-to-I RNA编辑位点、mRNA/EST与基因组的比对数据以及cDNA库的组织来源等信息。构建了基于贝叶斯公式和Fisher精确检验的组织特异编辑位点识别的统计学模型。通过该模型我们识别了340个组织特异的A-to-I RNA编辑位点。为保证结果的严谨性,我们采用FDR方法对计算结果进行多重检验,最终23个编辑位点仍具有统计学意义,这23个位点分散在14个组织中。对这些位点进行初步的基因组位置分析发现,除了两个位点落在基因CDS区,绝大多数的编辑事件都发生在基因的3’UTR区域上。本课题通过机器学习的方法建立了第一个支持向量机的A-to-I编辑位点分类器,该分类器为预测低丰度转录区域编辑位点以及建立不依赖于转录组数据的编辑位点识别软件奠定了基础。该分类器通过留一法以及ROC曲线方法进行评估,取得了较好的分类效果,但在独立测试集上分类效果不佳。下步工作需要从挖掘新的分类特征方面入手,由此提高分类器识别正确率,此外,发现更多编辑位点充实训练集数据也有利于分类正确率的提高。另外,我们第一次使用统计学手段识别了批量的组织特异性的编辑位点。这为研究A-to-I RNA编辑事件的组织特异分布机理以及生物学影响提供了数据基础;也为研究其它组织特异的调控事件提供了方法学的借鉴。但对于该模型的识别效果仍需分子生物实验进行评价。