论文部分内容阅读
模体识别是生物信息学的重要研究领域。它通过寻找不同序列间的相似片段来归结出这些序列片段中所蕴涵的特征模体,从而揭示生物序列数据中所蕴涵的生物学意义。最近的生物实验表明,部分模体内部各位置之间存在明显的相关性约束关系,但目前的很多算法却没有考虑模体内部的相关性约束。本文首先介绍了课题背景,阐述了本课题的研究目的及意义,介绍了一些典型的模体识别算法。然后介绍了通过假设检验判断模体内部位置间相关性约束的方法;将模体相关性约束加入到Gibbs算法之中,实现了具有位置相关约束的Gibbs算法,该算法被命名为SimiMotif。该算法通过χ2检验和Fisher精确检验的运用,实现了模体内部位置相关性约束的判定,然后使用被命名为Simi_link的一维数组来表达模体内部的相关约束关系。算法利用PFW模型以及Simi_link来共同表达模体模型,通过新的Gibbs打分函数进行模体识别过程,并且能够识别多个模体以及多个模体实例,选择与背景最具显著性差异的几个模体输出。然后本文将二维相关性约束推广到多维,提出MultMotif算法。最后将SimiMotif以及MultMotif算法和对应SimiMotif算法过程相同但是去掉相关约束部分的模体识别算法,分别进行了对Tompa et al.于05年提出的基准库以及Sandve et al.于07年提出的基准库这两个基准测试库上的测试,然后将SimiMotif以及MultMotif同已有的多种模体识别方法进行了比较。实验结果表明SimiMotif以及MultMotif算法所用的相关约束模体模型能够较好地表达模体模型,并且算法在一定程度上提高了识别的准确度,两者在Tompa etal.基准库所对比的17种方法中主要参数分别排第六以及第五位,如何进一步改进准确度并且提高算法执行效率将是一轮新的工作。