论文部分内容阅读
蛋白质之间的相互作用是各种生命活动的基础。而蛋白质相互作用位点在现代药物设计与构建蛋白质相互作用网络方面是至关重要的。因此,认识与研究蛋白质相互作用位点在理论和实践上都具有重要的意义。由于通过生物实验来确定蛋白质之间的相互作用位点费时又费力,而且实验过程中往往还会碰到一些难以预料的情况,因此,采用一些理论方法来分析与预测蛋白质之间的相互作用位点具有十分重要的价值。近些年来,随着生物信息学与计算机计算智能学的快速发展,许多应用计算智能方法来预测蛋白质相互作用位点的研究也实现了较快的发展。本文就是在这种背景下应用计算智能中的神经网络集成方法来预测蛋白质相互作用位点。文中选用了两个数据集:一个含有35个蛋白质分子的数据集;一个包含149个蛋白质分子的控制数据集(S149)。然后提取了能表示蛋白质相互作用位点的一系列特征,如:序列谱、熵值、可及表面积、相关可及表面积、深度系数、突出系数、疏水性等。接着通过选取其中一些特征进行组合来创建有效的样本集。随之应用单个误差反向传播神经网络或径向基函数神经网络以及它们的集成来对这些样本集进行训练与测试。文中采用了三种集成方法:具有先验知识的投票表决融合算法、基于遗传算法的选择集成方法和一种基于主成分分析构建集成分类器的新方法。实验中采用35次留一法(一倍交叉验证)和十倍交叉验证分别对两个数据集进行了预测。对于第一个数据集,通过对序列谱、熵值和可及表面积三种特征的组合,创建了4个样本集。然后运用误差反向传播神经网络以及其集成对这个数据集中的蛋白质相互作用位点进行了预测。集成方法采用的是具有先验知识的投票表决融合算法。对于第二个数据集,我们进行了两种不同的实验。第一种是提取了10种特征并且根据这些特征创建了4个分别含有9滑动窗口的样本集。这4个样本集由径向基函数神经网络计算,并且网络分别由粒子群优化算法优化。这样得到4组结果。最后4组结果由基于遗传算法的选择集成方法来集成。第二种是提取了24种不同特征,根据这些特征我们只创建了一个样本集。这个样本集也是通过径向基函数神经网络来计算,网络计算过程中也是由粒子群优化算法来优化。最后,我们采用一种基于主成分分析构建集成分类器的新方法来处理这个训练数据集,并且与传统的Bagging和Adaboost方法进行了比较。实验结果表明:三种集成方法都使预测精度有了不同程度的提高,并且比传统的Bagging和Adaboost方法也有一些提高,这说明集成预测分类器的预测能力更好、更有效。