论文部分内容阅读
随着人类基因组计划的完成,生物学已经步入后基因组时代。有越来越多的学者开始热衷于探究功能基因,其中真核生物翻译起始位点的确定就是较为困难的问题之一。鉴于人类基因组研究所面临的海量数据以及实验方法有自身的局限性,如何采用高效科学的智能化模型识别真核生物翻译起始位点(TIS)是目前生物信息学研究工作的重要任务。
本文通过机器学习的方法来识别翻译起始位点。选取mRNA序列样本,采用位置向量和碱基频率向量作为不同的输入特征向量,基于支持向量机的linear、RBF、polynomial和sigmoid四种算法,分析五种真核生物人、鼠、兔、猪、牛的TIS序列样本。考察不同特征向量和不同核函数算法模型对识别效果的影响。实验结果表明,在所选样本序列范围内,位置向量作为输入支持向量机的特征向量时识别效果要高于碱基频率向量;而四种算法中,RBF算法和polynomial算法的识别效果要高于linear算法和sigmoid算法。改变样本序列长度获得相同效果。提示,在人工智能对RNA翻译起始位点的识别过程中,基于样本TIS附近序列的统计特性,位置向量由于其多维性要优于碱基频率单一性的识别效果;RBF算法和polynomial算法与其他的两种算法相比,表现出参数少、精度高等优点,其识别效果更好。