论文部分内容阅读
人工神经网络(ANN)技术以其具有大规模并行处理、分布存储、紫适应性、容错性等显著优点,可以有效解决难以精确建模、具有高度非线性和不确定性问题,被广泛应用于诸多领域,如预报预测、模式识别、自动控制等智能模拟和信息处理领域。随着人类基因组计划的实施和生物信息学研究的兴起,神经网络在生物信息学领域的应用也越来越多,ANN模型已广泛地应用于核酸和蛋白质序列的预测和分析中。例如,在核酸序列研究中,ANN模型在原核生物的转录终端的预测,以及大肠杆菌核糖体结合靶址的识别中都有很好的表现。ANN也应用在确定DNA序列与其性质之间的映射关系的过程中,例如转录控制信号的分析和DNA曲率的分析等。 在生命活动的过程中,不同的蛋白质实现不同的生物功能。蛋白质生物功能,不仅决定于蛋白质分子的一级结构,而且,更决定于其三维结构。蛋白质的结构与生物功能是密切相关的。研究其关系,对于阐明生命现象的本质以及分子发病机理,具有重要意义。而蛋白质二级结构的研究对确定其三级结构进而研究蛋白质的功能有着重要的作用。因此,蛋白质二级结构预测问题是生物信息学的重要问题之一。虽然二级结构预测近些年已取得了一系列进展,但是,还没有达到较高的准确度,三级结构的理论计算问题也没有解决。 本文针对蛋白质二级结构预测问题,利用神经网络的非线性处理能力等优点,做了一下几方面的工作: (1)首先,比较分析了神经网络的各种建模方法,确定了适合进行二级结构预测的网络模型,然后,建立了CPN神经网络模型的结构框架,设计了此网络的学习算法和训练算法。 (2)从PDB蛋白质结构数据库中搜索了几十种蛋白质,分析氨基酸的各方面特性,对它们分别进行了编码。形成网络的输入变量和目标变量(矩阵)。 (3)编写了CPN网络的学习及训练算法程序,在MATLAB平台上进行了训练和仿真实验,得出了蛋白质二级结构的预测结果。 (4)在评估预测算法准确性的基础之上,提出了基于信息熵的预测评估方法,并对本文的实验结果通过计算预测结果的交叉熵和互信息进行了评估。 结果表明,CPN网络不仅适合对蛋白质二级结构进行预测,而且可提高预测精度;用交叉熵和互信息来评价预测的准确性更全面、更有效。