论文部分内容阅读
生物信息学中的一个重要研究内容就是对基因转录调控的研究。转录因子结合位点的正确识别既是揭示转录因子功能的关键之一,又是理解基因转录调控机理的重要环节。转录因子是一种特异性DNA结合蛋白,它能够识别一段特定的DNA序列(转录因子结合位点)并与之结合,进而调节DNA的代谢和转录。随着对基因研究的不断深入,为了更好地了解基因表达调控机制特别是转录调控机制,人们已经开发了许多识别和预测转录因子结合位点的算法和软件,但还有很多方面需要进一步完善和加强。
作为模式识别的有力工具,神经网络具有良好的非线性逼近性和鲁棒性,已经被广泛并成功地应用于序列分析中。BP神经网络的学习规则多采用梯度下降法,梯度下降法虽然速度快,但是却容易陷入局部极小,导致其全局寻优性能不高。遗传算法具有可靠的全局搜索能力,它不依赖梯度信息,而是通过模拟自然进化过程来搜索最优解。所以,本文结合遗传算法与梯度下降法的优点,设计了一种训练神经网络权值的混合优化算法,可以利用它来解决网络学习初始权值的选取问题。并将基于遗传算法优化的BP网络模型用于转录因子结合位点识别问题上。实验所需的数据,本文利用Metlnspector打分方法结合一致性序列模型的方式来产生。根据一致性序列模型生成若干序列片段,然后利用Metlnspector打分函数打分,按分值比例选取试验样本。通过这种数据处理方式可以获得更多更接近真实数据的实验样本,弥补转录因子结合位点数据量少的不足。
本文使用MATLAB语言来实现算法功能,对应于5组实验数据,分别构建了5个遗传算法优化的BP网络。文章最后对遗传算法优化的BP网络和同规模的纯BP网络以及遗传算法预测的实验结果做了比较。结果表明,遗传算法优化的BP网络的性能优于纯BP网络和遗传算法。