论文部分内容阅读
MapReduee是一个分布式并行编程模型,用于处理和生成大规模数据集的相关的实现.Hadoop框架基于分布式文件系统HDFS,实现了MapReduce模型的开源分布式并行编程框架,通过Hadoop可以非常方便地开发出在由普通计算机组成的集群上进行大规模并行计算的程序.序列此对是生物信息学的基础,用来表明两个或多个生物学序列的相似性.本文研究了对序列比对算法BLAST(Basic Local Alignment Search Tool)进行MapReduce并行化的算法,并在集群上进行了实现和测试,试验结果表明BLAST的计算能力和运行速度得到了极大的提高.