基于k-mer的统计量在生物序列分析中的应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:bchen2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物序列分析中的基于k-mer的非比对统计算法作为对传统比对方法的补充和发展已逐渐成为生物信息学研究中的一个热点领域。非比对统计算法是将DNA或蛋白质的分子序列作为字(word)经过不同的组合形成集合,然后对字在不同序列中出现的频率进行统计,通过统计不同序列中k-mer的频率分布进而揭示生物序列之间的关联性。但是使用基于k-mer的统计量研究生物序列的准确性及计算速度成为当前研究的一个热点。我们首先研究了基于k-mer统计量的统计功效。k-mer统计主要特点是计算的时间复杂度和空间复杂度较低,特别适合于比较基因组学的研究,序列非比对统计法中基于k-mer统计的的算法有很多,D2S和D2*统计量在寻找顺式调控模块中的效果比较好,但其在寻找水平基因转移位点的效果则比较差,通过前人改进后的基于D2S和D2*的统计量TsumS与Tsum*被发现在寻找水平基因转移时有非常好的效果。我们通过对Tsum模型的进一步改进,加入覆盖率和碎片长度两个可调参数调整统计模型,探究各个参数和TsumS与Tsum*的统计功效之间的关系,并发现了TsumS与Tsum*的参数的有效调整范围,扩展了 TsumS与Tsum*的应用条件,更深入的揭示了TsumS与Tsum*的统计效果。这样的利用字模式计算的统计量对序列完整度要求不高,能为基因组比较提供新的角度,对于NGS数据的处理来说具有指导意义。其次我们研究了D2S和D2*统计量的度量值也称为相异度值d2S和d2star在系统进化分析中的应用,我们从Silva数据库下载了 100条16S rRNA基因序列,通过相异度算法d2S和d2star算出相异度矩阵再用UPGMA法画成系统进化树,获得了不同k值下的系统进化树。用Phylip软件包的treedist计算出它们与标准树之间的对称差之后,我们发现d2S与d2star均于k=8时获得最好的系统发育分析效果,能画出与标准树相似性最高的系统进化树,其对称差在合理范围内而且聚类效果非常好,能在不同层级(界、门、纲、科、属)上把基因序列分开。在基于k-mer统计的序列非比对法中,比较经典的有欧式距离(Eu)、曼哈顿距离(Ma)、切比雪夫距离(Ch),及Hao、d2、d2S和d2star相异度等,取值都在0~1之间,为了更好的推广这些非比对统计在进化关系中的应用,我们开发了一种非比对软件SeqDistK包含了以上七个相异度量。软件SeqDistK可以在Windows、Linux 和 Mac 系统下操作。同时利用 ClustalW2、Muscle 以及 MAFFT三个常用而经典的序列比对软件与SeqDistK进行了计算速度上的比较后,我们证实了 SeqDistK有着非常卓越的速度性能,其时间复杂度相对低,能大大减少序列比对分析所需要耗费的时间成本。软件SeqDistK包能扩增序列非比对统计量的使用渠道,为生物信息学提供新的可用工具。
其他文献
本文针对沁水盆地煤储层的地质概况以及储层性质,研究了可以用于煤层气开发过程中压裂施工用的清洁压裂液体系。在测定和分析煤储层岩石物性的基础上,筛选出适合于该地区使用
以丰富的资料对豫西地区石炭-二叠系煤层的沉积特征、含气性和储集层的渗透性进行了系统的研究,认为该区具有煤层气生成的物质基础和赋存的地质条件。以影响煤层气资源勘探开发
目的:鼻渊是耳鼻咽喉科一种多发病和常见病,临床分为五个证型,包括肺经风热证、胆腑郁热证、脾胃湿热证、肺气虚寒证、脾虚湿困证。本研究搜集72例脾虚湿困型鼻渊患者进行对
<正>我们把沂蒙精神概括为"爱党爱军,开拓奋进,艰苦创业,无私奉献",这无疑是比较客观地总结出了她的核心内容,也得到了包括沂蒙人民在内的广大人民群众的广泛认可。作为一种
探索新型超导材料是推动凝聚态理论发展和超导体应用的重要源泉之一。铜基和铁基高温超导体的发现更是在世界范围内掀起了高温超导的研究热潮。目前,虽然对于铜基和铁基超导
传染病模型一直是研究传染病扩散过程的核心,最早的基于现代数学模型的传染病数学模型,也即经典的仓室模型,在1927年由Kermack和Mc Kendrick提出。在信息科学日益发展的今天,得益于爆发式增长的数据量,传染病建模的研究得到了进一步的发展。传统的仓室模型由于采用均匀混合理论,完全忽视了群体中个体之间的交互模式,不能结合人类移动性描述真实的传染病扩散过程。目前,基于复杂网络的传染病模型由于充
教育公平是现代的一个热点问题。未来社会的竞争是人才竞争。现今,由于中国处在社会主义初级阶段,在经济快速发展的同时,也出现了一系列发展不平衡问题,教育不公平,不但影响
<正>习近平总书记指出,这次新冠肺炎疫情是一次危机,也是一次大考。能不能打好、打赢这场疫情防控的人民战争、总体战、阻击战,是对我国治理体系和治理能力的一次深度检验,是
目的:探讨腹部肿瘤腹腔转移中采取CT与增强CT的诊断效果差异。方法:抽取2017年9月至2019年9月新乡市第一人民医院腹部肿瘤腹腔转移患者150例纳入研究,均行常规CT、增强CT检查
为贯彻落实中国“校园足球”十年发展规划(2015-2025)和国务院关于全国青少年校园足球工作电视电话会议精神,加快河南省校园足球特色学校的发展质量和发展速度,行政管理部门在诊断校园足球特色学校绩效时,还处于探索和摸索阶段。有关河南省校园足球特色学校评估指标体系和标准尚不明确,未形成一套科学的完善体系,推动和指引河南省校园足球特色学校科学发展需要一个科学的评价体系。河南省非常重视校园足球特色学校的