论文部分内容阅读
内部核糖体进入位点(Internal Ribosome Entry Site,IRES)是一段大多位于mRNA非编码区的碱基序列,在病毒以及真核生物中都有发现,其可以介导一种不同于经典的5’端帽依赖蛋白质翻译机制,从而IRES元件在探索蛋白质翻译机制,基因治疗,癌症发病机制探索等方面有着重大的研究意义与临床作用。然而,目前诸如构建表达载体等IRES实验验证手段大都昂贵,操作困难且容易受各种因素影响。本研究基于IRES元件的序列以及结构信息利用生物信息学方法构建预测模型实现对潜在的IRES元件进行预测,为相关研究提供帮助。本文工作主要内容如下:首先,本研究从相关数据库与研究文献收集了已验证的IRES元件一级二级序列信息。从一级结构、二级结构、序列一般特性以及与蛋白质相互作用概率等方面对比分析了IRES序列与一般非编码区序列,筛选出诸如某些特定的一级二级基序、特殊的二级结构、最小自由能与16SRNA碱基互补配对长度等可以有效区分IRES元件与一般非编码区序列的特征,并进一步根据顺序搜索算法对选取特征进行了筛选,选取了包括最小自由能、起始密码子数目、GC含量等8个对预测结果贡献最大的特征构成特征计算矩阵。其次,本研究根据基于多样性的改进AdaBoostSVM算法分别针对病毒与真核生物来源的IRES序列信息训练集构建了预测模型,通过对比常用的k最近邻算法、支持向量机SVM、高斯过程分类、决策树算法、朴素贝叶斯算法、人工神经网络算法ANN等方法,验证了改进的AdaBoostSVM算法较其他算法有优越性。随后预测模型在真核细胞以及病毒测试集上准确性、敏感性、精确性和特异性等参数分别达到了79.4%、73.4%、91.8%、94.9%与88.4%、84.7%、93.6%、95.0%,并进一步现有的IRESPred方法进行比较,证明本研究构建的预测模型具有更优秀的预测能力。最后,本研究利用构建的预测模型对环形RNA编码潜能这一热点问题进行探究。根据环形RNA序列信息通过预测IRES元件的存在与否对环形RNA编码潜能进行了预测并与相关数据库对照,最终结果证明了本课题对IRES相关研究的意义。