论文部分内容阅读
模体发现是生物信息学领域中的重要问题,模体中蕴含着重要的遗传信息,在研究基因转录和调控机制方面有着重要的意义。通过计算类方法来寻找联合调控基因片段中包含的模体已经成为了一种普遍的模体发现方式,计算类的模体发现算法和工具目前已经超过了100种。为了描述模体发现中模体数量不确定,实例间存在不确定性变异的特征,本文采用统计学模型来更好的表示模体,并分为两步来求解模体发现问题。第一步,通过给定的模体碱基构成矩阵得到模体起始位点集的后验概率,并通过质心估计选取最具代表性的起始位点;第二步通过给定模体起始位点集来更新模体碱基构成矩阵。随后,算法将以上两步整合到吉布斯采样的框架中,通过多次迭代,使最终的结果趋于收敛。ChIP-seq上的序列数据数据量庞大,序列非常短,这样的数据很难直接用于传统的模体发现算法。为了解决这个问题,本文设计了基于k-均值聚类的聚类方法对ChIP-seq数据进行预处理,在精简序列数量的同时最大程度保留了模体相关信息,随后将处理后的数据作为基于质心估计的模体发现算法的输入,得到了预期的效果。本文同时在Tompa标准测试集和ChIP-seq数据上对算法的有效性进行了验证。在Tompa测试集上采用性能系数对算法的结果进行了评价,并对比了算法在不同物种基因序列上的效果,发现在酵母上可以获得比其他物种更好的效果;使用转录因子Oct4在老鼠胚胎干细胞上的ChIP-seq数据作为输入,成功的找到了Oct4的模体。