论文部分内容阅读
选择性剪接是指在基因表达过程中,同一段基因编码区域能够经转录并翻译成多个具有不同功能的蛋白质的一种细胞内在机制。识别选择性剪接事件对研究基因功能、蛋白质结构多样性、细胞分化、物种进化具有重要意义。随着高通量测序技术的问世及快速发展,从转录组高通量测序(RNA-Sequencing,RNA-Seq)数据中识别选择性剪接事件成为了当前生物信息学研究的一个前沿课题。然而,如何准确地从RNA-Seq数据中识别外显子跳跃事件和内含子保留事件仍是一个未被解决的问题。现有的方法在识别外显子跳跃和内含子保留这两种选择性剪接事件上依然存在着诸多问题,例如:利用了与外显子跳跃事件或内含子保留事件相关的部分信息去构建计算模型和方法;使用了低质量的测序短片段;对特征的正则化表述方式没有统一的标准;没有指出哪一种特征对准确地识别选择性剪接事件是最有效的等。针对现有的基于RNA-Seq数据识别外显子跳跃事件和内含子保留事件的方法中所存在的问题,本文进行了深入的讨论与研究。本文的主要工作和创新点包括:(1)提出了外显子跳跃事件相关特征分析方法该方法的创新点包括:使用了外显子跳跃事件相关的多种特征来表述每一个外显子,评估了每一种特征对准确识别外显子跳跃事件的影响,同时构建4种特征集合来评估不同的特征正则化方法对准确识别外显子跳跃事件的影响。在真实的人类骨骼肌、大脑、心脏和肝脏组织的RNA-Seq数据中,整合现有方法的识别结果构建了参考集,本文评估了外显子跳跃事件相关特征在准确识别外显子跳跃事件中的重要性,并分析了测序短片段特征的不同正则化表述方式对准确识别外显子跳跃事件的影响。实验结果表明映射到支持外显子跳跃区域的、连接选择性外显子的上游外显子和下游外显子的测序短片段特征,以及该选择性外显子保留水平psi得分这两种特征对准确识别外显子跳跃事件具有重要影响。并且得出使用原始测序短片段数或是使用经过正则化的测序短片段数来描述特征对准确识别外显子跳跃事件没有显著影响。(2)提出了基于多特征分析的外显子跳跃事件识别方法EScallEScall方法的创新点包括:过滤掉映射质量数低的和具有歧义的测序短片段的映射结果,同时整合多种与外显子跳跃事件相关的特征,包括:映射到外显子内部区域的测序短片段特征、支持连接两个外显子的测序短片段特征、和基因表达信息等特征,设计了新的外显子跳跃事件的得分计算方法,用于从两种不同条件下的RNA-Seq数据中识别外显子跳跃事件。在真实的人类骨骼肌和大脑组织的RNA-Seq数据中,使用EScall方法识别外显子跳跃事件。将识别结果与其他方法的识别结果相比较,实验结果表明EScall方法能够有效地减少假阳性和假阴性的识别结果,获得了较好的预测结果。(3)提出了基于联合得分的内含子保留事件识别方法IRcallIRcall方法的创新点包括:整合7种与内含子保留事件相关的特征,包括:映射到内含子内部区域的测序短片段特征、支持内含子剪接的连接该内含子上游外显子和该内含子下游外显子的测序短片段特征、映射到该内含子上游和下游外显子内部区域的测序短片段特征、与5’端剪接位点相交叠的测序短片段特征、与3’端剪接位点相交叠的测序短片段特征、内含子区域能被测序短片段覆盖的比例特征、和基因表达信息特征,设计了新的内含子保留事件联合得分IRScore的计算方法,用于从两种不同条件下的RNA-Seq数据中识别内含子保留事件。在真实的拟南芥skip突变体和野生型的RNA-Seq数据中,使用IRcall方法识别内含子保留事件。将识别结果与其他方法的识别结果相比较,实验结果表明IRcall方法能够有效地减少假阳性的识别结果,从而更加准确地识别内含子保留事件。(4)提出了基于随机森林的内含子保留事件识别方法IRclassifierIRclassifier方法的创新点包括:整合3种方法的识别结果构建了参考集,使用与内含子保留事件相关的21种特征来表述每一个内含子,构建了基于随机森林的分类器,用于从两种不同条件下的RNA-Seq数据中识别内含子保留事件,同时分析了每一种特征对准确识别内含子保留事件的影响。在真实的拟南芥skip突变体和野生型的RNA-Seq数据中,整合现有三个识别方法在1号、2号、4号染色体上的识别结果来构建训练集。使用IRclassifier识别内含子保留事件,实验结果表明该方法识别结果的准确率达到99.2%。此外,使用IRclassifier识别3号和5号染色体上的内含子保留事件,将识别结果与现有方法的识别结果相比较,实验结果表明IRclassifier方法能够准确地识别内含子保留事件,验证了方法的有效性。