论文部分内容阅读
基因选择性剪接是一个复杂多变的过程,它将移除内含子序列并重组外显子序列以产生成熟的mRNA(Messenger Ribonucleic Acid)。基因选择性剪接使得一个基因可以编译多个RNA(Ribonucleic Acid),而每个RNA又可以控制多个对应蛋白质的合成和功能的表达,因此出现了有限基因和近乎无限蛋白质的现象,基因的这种特性造就了地球上生物的多样性。然而基因选择性剪接的一些非正常的组合排列很可能诱发各种用常规手段难以治愈的致命遗传疾病,为人类生存带来巨大的灾难。因此对它的继续深入分析研究是必要的。基因选择性剪接通常可划分为5种不同类型,其中外显子跳跃(exonskippin&,ES)事件是最大的一类选择性剪接事件,约占所有类型的40%以上,这使得它的分析预测和研究成为选择性剪接的重点。经过多年的分析研究,至今为止已经提出了数量众多的分析预测外显子跳跃事件方法,通常可以将它们划分为传统生物实验方法和生物计算方法两大类,然而传统生物实验方法通常有耗时、耗力、昂贵且有限覆盖等局限,不太适合用于大规模分析,所以使用生物计算方法分析预测外显子跳跃事件越来越受到欢迎,并且其取得成绩也越来越受人信赖。通过对以往预测外显子跳跃事件方法的研究学习,我们发现了它们中存在的一些局限,即RNA-Seq(RNASequencing)数据和基因序列信息的不完整性,这可能会给外显子跳跃事件预测带来不可预期的风险。为了克服这些局限,本文则基于RNA-Seq数据、基因序列信息以及旋转森林提出一种预测外显子跳跃事件的新颖生物计算方法。在该方法中,本文重在发挥两种数据各自优势,抽取能够描述外显子跳跃事件的特征,进而对外显子跳跃事件进行分析预测。首先,我们构造一个新的名为 RS(the RNA-Seq features and sequence features)的特征集,它是由从RNA-Seq数据中抽取的RNA-Seq特征和由基因序列信息里抽取的序列特征组成。然后基于RS特征集,结合旋转森林算法(RotationForests,RotaF),我们提出一个新的名为 RotaF-RSES(a Rotation Forests classifier predicts ES event with RS features)的外显子跳跃事件预测方法。为了验证RotaF-RSES方法的有效性,实验中采用两种人类组织RNA-Seq数据(人脑和人类肌肉)和对应的基因序列信息,结果表明RotaF-RSES方法能在一定程度上克服两种数据的局限性,并提升最终的预测准确度,能够为预测外显子跳跃事件的研究提供有益的帮助。