论文部分内容阅读
随着生物学的不断发展,越来越多的先进技术被应用到生物学的研究中来。本文将人工神经网络、支持向量机等计算机模式识别方法巧妙地与生物学结合起来,从而更好地解决生物问题。
微RNA是非编码小RNA中的一种,长度约21~25个核苷酸,它广泛存在于真核生物中。微RNA的研究从最初只发现一两个小分子RNA到不同的物种中大量微RNA的发现,引起大家广泛的关注,其调节的功能也越来越受到重视。
目前鉴定微RNA的方法大致分为生物实验方法和计算机识别方法两种。生物实验方法准确率高,但相对成本较高、实验周期较长等缺陷制约其大规模应用。计算机识别方法以其成本低、效率高、处理信息量大、适合大规模预测等优点快速发展。依据其识别算法不同可分为两类:基于比较基因组学的方法和基于人工智能的方法。基于比较基因组学的方法需要已知与待测物种保守性高的同源序列中微RNA的信息。基于人工智能的方法又称从头预测算法,可相对独立地对待识别序列进行预测。
特征提取的优劣直接影响着识别算法的准确率,因此寻找合适的特征是设计智能识别算法的关键。本文基于微RNA前体序列的二级结构,在前人工作基础上提出双边同步滑窗法进行特征提取与统计。此方法有效去除冗余信息,压缩特征向量的维数,提高算法效率。
人工神经网络和支持向量机是模式识别领域研究中的热点算法,本文基于人工神经网络算法和双边同步滑窗法开发了微RNA识别程序。通过识别已知人类微RNA序列来验证所提特征和识别算法的有效性,得到了良好效果。进而使用支持向量机方法进行验证,进一步验证了使用双边同步滑窗法进行特征提取和统计具有良好效果。