论文部分内容阅读
随着人类基因组计划的完成及各种高通量生物学实验技术的发展,生物学数据急速增长。纯粹靠手工来对这些数据进行分析整理和使用是难以想象的,科学家们需要利用现代计算技术对这些数据进行收集整理、分析和使用。在当前生物信息学中,计算学方法越来越受到重视。 蛋白质翻译后修饰位点预测问题和DNA转录因子结合位点预测问题一直以来都是生物信息学中研究的热点。蛋白质翻译后修饰在生命体中具有十分重要的作用。目前一系列针对蛋白质翻译后修饰位点预测的计算智能领域的算法已经被提出,其中最为著名的当是GPS算法。基因表达调控方式中最主要的是在转录水平上的表达调控,转录因子对此起着决定性作用。因此对于转录因子结合位点的预测是理解和分析基因组的重要工作之一。目前已经提出了许多计算学方法来对转录因子结合位点进行预测。如Gibbssampler,MotifSampler,Motifcut等。 本文根据这些现有已被实验验证的数据的Weblogo信息熵图,提出一种权重打分策略WSS,并利用数据的Weblogo图得到初始权重。在此基础上,利用遗传算法对初始权重进行了优化,进而提出了Echo算法。我们分别选取了多种蛋白质翻译后修饰作用数据和多种转录因子结合位点数据进行实验,验证了这两种算法。实验结果表明WSS算法性能与GPS算法和PWM算法性能接近,而经过优化后的Echo算法的性能更是大大提高了预测准确性。在两类数据上的成功试验说明了本文的算法有很好的适用性。 最后,基于Echo算法及其实验结果,开发了一款图形界面可视化分析软件,集成了经Echo实验后得到的最优结果。此软件有良好的用户友好性和可扩充性,可以成为生物信息学科研人员的得手利器。