论文部分内容阅读
生物序列分析中的基于k-mer的非比对统计算法作为对传统比对方法的补充和发展已逐渐成为生物信息学研究中的一个热点领域。非比对统计算法是将DNA或蛋白质的分子序列作为字(word)经过不同的组合形成集合,然后对字在不同序列中出现的频率进行统计,通过统计不同序列中k-mer的频率分布进而揭示生物序列之间的关联性。但是使用基于k-mer的统计量研究生物序列的准确性及计算速度成为当前研究的一个热点。我们首先研究了基于k-mer统计量的统计功效。k-mer统计主要特点是计算的时间复杂度和空间复杂度较低,特别适合于比较基因组学的研究,序列非比对统计法中基于k-mer统计的的算法有很多,D2S和D2*统计量在寻找顺式调控模块中的效果比较好,但其在寻找水平基因转移位点的效果则比较差,通过前人改进后的基于D2S和D2*的统计量TsumS与Tsum*被发现在寻找水平基因转移时有非常好的效果。我们通过对Tsum模型的进一步改进,加入覆盖率和碎片长度两个可调参数调整统计模型,探究各个参数和TsumS与Tsum*的统计功效之间的关系,并发现了TsumS与Tsum*的参数的有效调整范围,扩展了 TsumS与Tsum*的应用条件,更深入的揭示了TsumS与Tsum*的统计效果。这样的利用字模式计算的统计量对序列完整度要求不高,能为基因组比较提供新的角度,对于NGS数据的处理来说具有指导意义。其次我们研究了D2S和D2*统计量的度量值也称为相异度值d2S和d2star在系统进化分析中的应用,我们从Silva数据库下载了 100条16S rRNA基因序列,通过相异度算法d2S和d2star算出相异度矩阵再用UPGMA法画成系统进化树,获得了不同k值下的系统进化树。用Phylip软件包的treedist计算出它们与标准树之间的对称差之后,我们发现d2S与d2star均于k=8时获得最好的系统发育分析效果,能画出与标准树相似性最高的系统进化树,其对称差在合理范围内而且聚类效果非常好,能在不同层级(界、门、纲、科、属)上把基因序列分开。在基于k-mer统计的序列非比对法中,比较经典的有欧式距离(Eu)、曼哈顿距离(Ma)、切比雪夫距离(Ch),及Hao、d2、d2S和d2star相异度等,取值都在0~1之间,为了更好的推广这些非比对统计在进化关系中的应用,我们开发了一种非比对软件SeqDistK包含了以上七个相异度量。软件SeqDistK可以在Windows、Linux 和 Mac 系统下操作。同时利用 ClustalW2、Muscle 以及 MAFFT三个常用而经典的序列比对软件与SeqDistK进行了计算速度上的比较后,我们证实了 SeqDistK有着非常卓越的速度性能,其时间复杂度相对低,能大大减少序列比对分析所需要耗费的时间成本。软件SeqDistK包能扩增序列非比对统计量的使用渠道,为生物信息学提供新的可用工具。