生物多序列比对方法及其关键技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:cr15mo3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物序列数据分析是生物信息学的核心任务,是了解生物大分子结构和功能、生物进化历程中联系和差异的主要途径。由于测序技术迅猛发展,产生了大量的核苷酸等生物序列数据,同时随着千人基因组和地球生物基因组计划的开展,越来越需要提升序列分析算法的处理能力。生物序列分析中多序列比对(Multiple Sequences Alignment,MSA)是其中重要的研究问题,其分析结果可为后续的序列保守区域和功能模体的识别和量化、估计序列之间的进化差异、祖先序列的分析提供更多的生物信息。对于大规模核苷酸序列,已有的基于动态规划方法的MSA算法计算复杂度高,基于划分的MSA算法限于短种子划分存在位置过多和不准确问题。因此,本文以面向核苷酸序列的多序列比对为研究背景,先对于同源序列集,提出了基于长种子的多序列比对基础算法,以及改进和优化了基础算法中索引关键技术;然后对于非同源序列集,提出了一种高效的多序列分组算法,使得多序列比对基础算法可应用于更一般序列集。论文主要工作及创新如下:1.基于长种子划分的多序列比对方法多序列比对需同时对多条序列进行处理,其计算复杂性随序列条数和序列长度的增大而增加。因此,大多数经典的MSA算法难以处理大规模的多序列数据集,尤其是长序列情形。最近的一些高效多序列比对算法采用了分治策略,将序列集合进行垂直划分或水平划分,其中垂直划分更能有效地解决长序列带来的复杂性问题。在基于垂直划分的多序列比对方法中,选择用于序列划分的公共子串(种子)是其中的关键技术,它直接影响序列比对的准确性和时间成本。因此,本文提出一种新的基于长种子而选择较优划分链的算法,以提高垂直划分的多序列比对方法性能。该方法采用FM-index索引技术快速找到序列上长公共种子,再采用复杂性低于动态规划的启发式方法从侯选锚点中找出一个较优的划分链,这样将原序列集按划分种子链垂直划分为若干组的短序列集,然后完成各组短序列的比对后再拼接为完整的比对计算。计算实验结果表明,在处理长的病毒和细菌基因组和人类线粒体基因组时,我们提出的算法FMAlign性能好于MAFFT、HAlign和FAME等现有的基线MSA算法。2.多序列长公共种子提取方法长公共种子出现的位置少,且更可能是实际的匹配,因此长公共种子提取对于多序列比对方法是至关重要的。目前,长公共种子的提取都采用朴素算法,即先采用FM-index或者Hash索引技术提取固定长度的短公共种子再进行拼接,这些算法成本较高。为此,本文提出了一种新的多序列长公共种子提取算法,利用字典序排序的多条后缀共前缀的性质高效提取长公共种子。该算法基于基础数据后缀数组(Suffix Array,SA)、BWT(Burrows-WheelerTransform)和最长公共前缀数组(Longest Common Prefix,LCP),进行修改和优化而得到的。提出的算法根据SA数组和LCP数组快速确定多序列的某个公共串,通过BWT值计算该公共串是否能继续增长,以便找到更长的公共串(长公共种子)。为减少索引内存,进一步设计了 LCP采样方法。计算实验结果表明,在多序列集上,提出的方法bvMEM具有较好的性能,计算速度至少是已有工具的2倍。设计的索引应用到FMAlign多序列比对算法上,时间性能得到明显提升。3.基于公共种子度量的多序列分组方法对于来非同源序列,不仅比对时间较长,而且未必能得到生物学上可信的比对,因此需要对序列集进行同源分组,然后再进行各组序列的多序列比对。现有多序列分组包括指定参考序列(Reference-based)和未指定参考序列(Reference-free)两类,前者采用朴素的序列比对算法可以完成分组;后者使用贪心策略选择每个组的中心序列,然后通过序列比对进行分组,因而中心序列选择好坏直接影响分组结果。为此,本文提出了一个新的序列分组算法,不再依赖于选择的中心序列,而是采用DBSCAN算法将紧密关联的序列分为一组。该方法依据定长公共种子数量计算序列相似度,对前面长公共种子提取算法bvMEM进行修改,使之能够快速计数多个序列之间的公共种子数量。计算实验结果表明,在测序序列集上和基因组序列集上,提出的算法分组准确率高于现有的经典算法cd-hit和vserach,计算时间明显好于这些算法。
其他文献
轴子是为了解决量子色动力学中强CP问题而提出的假想粒子,它也是宇宙中冷暗物质的可能来源。近年来,利用原子物理的手段寻找由轴子传播的新相互作用成为寻找新物理领域中一个新兴的发展方向。轴子可以作为传播子产生单极-偶极相互作用,这种相互作用涉及一个粒子的自旋与另一个粒子的质量之间的耦合,违反宇称和时间反演对称性。在本论文中,为了寻找单极-偶极相互作用,我们搭建了一套~129Xe-~131Xe-Rb原子共
学位
磁场重联是空间、天体以及实验室等离子体中普遍存在的重要物理过程。它可以将磁能快速转化为等离子体能量,并且改变磁场的宏观拓扑结构。磁场重联是等离子体环境中各种爆发现象的主要原因。在重联点附近存在各种复杂的等离子体动力学过程,如各种波动的激发、波粒相互作用以及高能量粒子加速等等,这些等离子体动力学过程又可能会反过来影响磁场重联。因此,研究无碰撞磁场重联中的动力学过程对于理解磁场重联是至关重要的。分界线
学位
红色基因是一种蕴含着独特中国力量和中国风格的革命精神,对全面乡村振兴具有重要的经济、政治与文化引领价值。以青岛西海岸新区杨家山里为例,针对目前红色基因传承中存在的意识、方法与路向等传承问题,提出全面乡村振兴要重视挖掘与"活化"红色资源,更好保护与传承红色基因;善用多载体、多渠道传播红色基因;打造"红色+绿色"的产业发展模式激活红色基因,助力全面乡村振兴。
期刊
目的 探究宣白承气汤佐治脓毒症相关急性呼吸窘迫综合征(acute respiratory distress syndrome, ARDS)的临床疗效。方法 选取浏阳市中医医院68例脓毒症相关ARDS患者作为研究对象,按随机数字表法分为对照组和观察组各34例。对照组予以基础治疗,治疗组在对照组基础上联用加味宣白承气汤治疗。比较两组症状缓解情况、急性生理学及慢性健康状况评分(APACHE II)、肺损
期刊
视频图像承载着视觉成像感知的所有信息,其清晰图和保真度对后续表征、识别、检测等任务具有重要影响。然而,受环境光照、量化误差、设备约束等因素限制,数字图像和视频在采集、传输、存储等过程中不可避免地引入不同程度的噪声信号,严重影响后续处理任务的精度。为减少视频图像中的噪声,现有研究工作基于图像先验或深度学习建立了多种去噪模型。然而,这些模型主要聚焦于如何取得更高质量的视频图像,忽视了去噪模型在任务场景
学位
淹没冲击射流具有便捷、高效、环境友好等优点,被广泛应用于水库清淤和航道治理等领域。淹没冲击射流的自由射流剪切层、壁面冲击区及径向壁面射流区存在大量的能量交换,同时流场内还有漩涡结构的形成、发展和破碎等发生,这些复杂的流动结构的演化特性不明确,无法为实际应用提供理论支持。该文以淹没冲击射流为研究对象,构建合理的计算域,在第三章采用不同数值模拟方法预测了多个冲击角度下自由射流区和壁面射流区的速度、压力
学位
以多个元素为主元的高熵化合金,包括中熵合金和高熵合金,表现出局部化学组成的异质性、热力学上的高熵效应、结构上的晶格畸变效应和动力学上的迟滞扩散效应等独特的化学和物理性质。其中难熔中高熵合金具有高强度、抗辐照性能和抗高温软化性能等,使其在高温结构材料领域具有巨大的潜在应用价值。然而,难熔中高熵合金在发展中面临高韧脆转变温度和高密度等问题,同时其微观结构设计、力学性能及变形机制的关联性研究匮乏,无法有
学位
高分子材料多数在受力情况下使用,其微观结构的形成与使用过程中的微观结构演变对其宏观性能具有决定性的作用。因此,理解材料力学性能与微观结构间的依赖性对制备服役安全的产品至关重要,也一直是学术界及产业界极为关注的基础科学问题。抗冲聚丙烯具有优异的冲击韧性和良好的综合性能,在建筑、汽车等领域有着广泛应用,是工业界重点研发的产品之一。然而由于抗冲聚丙烯体系的多组分和复杂相结构特征,对其温度变化过程中的结晶
学位
随着物联网、人工智能和大数据的发展,柔性可穿戴电子设备因轻薄、柔软、可大面积制造等众多优势广泛应用于健康监测、人机交互等方面,呈现出巨大的市场前景。而数据的爆炸式增长则对柔性信息存储器件提出了更富挑战性的要求。忆阻器是一种具有记忆功能的非线性电阻,可实现非易失多态存储并广泛应用于神经形态计算中。但是,传统的柔性忆阻器存在存储稳定性差的问题,在信息处理及人工突触的应用上面临巨大的挑战。因此,研究人员
学位
K416B合金是一种典型的低Cr高W镍基高温合金,主要应用于高压涡轮叶片的制造,具有强度高、成本低、抗氧化腐蚀性能优异等优势。前期研究表明,该合金虽然性能优异,但铸件内部易出现大尺寸初生相,关键性能合格率较低,这直接限制了该合金的应用和发展。因此对合金组织演变的进一步研究以及成分的合理调整十分必要。为了深入理解K416B凝固过程组织演变,提升合金关键性能稳定性,本文研究了 K416B合金的凝固行为
学位