论文部分内容阅读
随着人类基因组计划的成功实施,研究者获取了海量的生物分子数据,如何对获取的生物信息进行加工处理,检索分析并提取特征背后蕴含的生物学意义,成为科学家面临的又一个难题。作为生物学、计算机科学和应用数学交叉学科的生物信息学的出现为人类提供了破解难题的方法,并越来越受到人们的重视。生物信息学不仅为人类了解遗传信息提供了帮助,更使人们清楚地认识到基因网络调控的重要性。长期以来人们对生物中心法则的理解认为遗传信息是由DNA转录生成RNA,再经翻译形成蛋白质。但非编码RNA的发现改变了人们原有的认知模式,microRNA通过与靶标信使RNA互补配对可以抑制或裂解信使RNA,从而影响生物的基因调控。近年来, microRNA已经成为生物信息学研究的热点之一,其在动植物的生长发育、细胞增殖和凋亡、器官形成、病毒防御以及与人类息息相关的疾病和癌症等方面都发挥中重要的调控作用。目前研究发现的microRNA占整个microRNA家族的比例还是少之又少的,由于microRNA所含碱基个数仅为21-25个左右,所以目前通用的预测办法是通过检测含有microRNA序列的microRNA前体(pre-miRNA)来间接验证microRNA的存在。机器学习方法是一种高效、便捷、准确的预测microRNA的方法,在机器学习方法中有两个关键的问题直接影响到预测结果的优劣,一个是提取的特征是否能准确的代表要预测的pre-miRNA序列,另一个则是预测模型建立的好坏。经研究发现pre-miRNA的茎环结构具有高度的保守性,并且茎部结构中相邻碱基对之间具有重要的互补影响作用,所以本文的特征提取方法通过对相邻的三个碱基对配对情况进行编码来达到表征茎环结构的作用。同时搭配另外四维表征pre-miRNA序列信息的特征共同组成36维的特征向量来进行预测。由于人工神经网络具有自组织、自学习和自适应的特点,并且非常擅长处理非线性的生物信息学优化问题,所以本文首先选取了有导师训练的前馈人工神经网络模型配合粒子群优化算法来进行预测,实验结果表明预测精度得到了一定程度的提高。为了进一步提高实验的泛化能力和预测精度,本文又采用了集成的方法,集成已被证明是一种有效的机器学习方法,它可以显著地提高整个分类器的预测精度。通过神经网络集成,并利用基于遗传算法的选择性集成对microRNA进行预测,最终得到的预测结果确实优于单个人工神经网络。最后我们使用了柔性神经树模型再次对实验进行了预测,柔性神经树可以进行结构和参数的自我优化,它解决了需要提前设定网络结构并逐一试探隐层神经元个数的问题,并且具有特征选择的功能,可以实现对原始数据的降维作用。本文通过提取的pre-miRNA真伪测试集对上述建立的人工神经网络及其集成和柔性神经树模型进行测试,预测精度都有了一定程度的提升,证明我们的神经网络模型结构在预测microRNA方面确实是行之有效的,为microRNA预测开辟了一条新的途径。