论文部分内容阅读
随着人类基因组项目的完成,生命科学的主战场已经由“结构基因组学”转移到“功能基因组学”。人类基因组项目和其它大规模测序项目带来生物学数据的爆炸性增长,传统的实验确定方法已经远远不能满足需求。计算智能方法在处理这类数据量大、含有噪声模式并且缺乏统一理论的领域有其独特的优势。该文首先从历史、现状、意义、研究领域等方面介绍了生物信息学这门新兴学科。接着对计算智能方法做出了定义,并概述了人工神经网络、隐马尔可夫模型、支撑向量机、遗传算法这几种主要的计算智能方法。其中BP 神经网络应用最为广泛,且后面的章节主要应用该网络处理生物信息学中的几个问题,第二章先介绍了BP 神经网络的发展历程,然后对其进行了详细的算法推导。接着的几个部分是BP 神经网络在生物信息学几个重要领域的应用:第三章介绍了BP 神经网络预测蛋白质二级结构这个经典问题,对其最新研究进展和瓶颈问题也做了论述;第四章用加了一竞争层的BP 网络进行蛋白质域结构类预测,相对于许多研究给出的直线分类边界,我们采用BP 网络给出曲线分类边界,在采用同样数据集的情况下,所提方法取得了更高的预测精度——自支持精度和jack-knife 测试精度97.62%,第一个测试集87.50%,第二个测试集91.00%;基于基因表达数据的基因选择和癌症分类问题是生物信息学领域新的研究热点,第五章运用BP 神经网络进行该问题的研究,我们提出了一种改进的基因选择(特征选择)方法,在此基础上构建了BP 分类器,采用公开的急性白血病数据进行测试,计算机模拟结果证明所提方法有很好的分类性能——选择46 个“信息基因”时分类精度达到100%,“信息基因”减为6 个时,只有一个样本错分。最后一章对本论文做了总结,生物信息学与计算智能单独就是两门学科,它们的交融点也非常多,文中并没有对两门学科所有的交汇点都进行论述,但在基本方法上,对其它应用研究具有借鉴意义。第四章和第五章所提方法在相应领域取得较好的研究成果,体现出了计算智能方法在生物信息学中的重要地位和两门学科的完美结合。