论文部分内容阅读
基因序列比对是生物信息学分析的重要手段。随着人类基因组计划的完成,测序技术不断发展,测序成本大幅降低,使得个人基因组测序成为可能,基因序列比对计算的需求也随之转变为全基因比对。为了适应高通量测序的发展,需要快速准确的序列比对方法。目前包括美国国立生物技术信息中心(NCBI) BLAST平台在内的基因序列比对服务平台难以满足大计算量和高计算精度的新要求。并行化计算作为一种高效调度计算资源的有效手段,已逐渐应用于大规模的基因序列比对分析。NCBI BLAST的并行化版本mpiBLAST,面向参考基因组实现了并行化计算,使计算大幅加速,但其对计算资源的要求过高,在被测基因的处理上依然有提升的空间。因此,为了更有效满足基因序列比对的新要求,本论文的目标是设计了一种面向被测基因组实现并行化计算的快速高效基因序列比对方法。具体工作如下:1)基于BLAST算法思想,论文首先剖析了并行化处理对序列比对算法的要求,选择了一种能实现短读序列快速准确比对的算法,并对其进行了改进,使之更适合并行化计算;2)分别设计了针对被测基因组的静态/动态并行化分配策略;3)分析了并行化计算加速和数据传输优化效果,并通过静态分配效果的剖析和数据多次传输模拟实验,比较和评估静态和动态分配策略的优势和劣势,建立了一种通过被测基因组序列长度和最大序列读长进行最佳计算策略选择的方法;4)开发了并行化基因序列比对在线分析工具。论文利用大肠杆菌、酵母、果蝇等多个全基因组序列数据对所提出的并行化设计方案的加速效率、数据传输优化和并行任务分配效果进行了比较与评估。结果表明,本论文提出的方法,可以高效调度更多的计算资源;降低被测基因组的数据传输压力;降低承担任务的计算机的缓存要求;更有效满足序列比对的新要求;为并行化基因序列比对分析应用的推广提供了一种可行的手段。