论文部分内容阅读
大数据集全比较是一种特殊的计算问题,对数据集中的任意两个数据进行比较计算,广泛存在于生物信息学,生物计量学,数据挖掘等领域。基于分布式存储架构的分布式计算由于具有高效益,高可靠性和高可扩展性等优点,而被广泛地用于解决大规模的计算问题,包括全比较计算。它把一个大问题分解为多个小问题,然后把每个小问题交给分布式系统中的各个节点来处理。然而,它的性能依赖于数据分配,任务分解和任务调度策略。对于比较任务来说,不合理的数据分配和低的数据本地性会极大地降低整体的计算性能,此外,分布式系统中不均衡的计算负载也会影响计算性能。 本文首先介绍了问题产生的背景,以及对该问题传统的解决方法的不足。其次,对全比较问题进行了深入的理论研究,模型构建,并提出了相应的算法,获得了好的计算性能。本文的贡献主要为以下几点: (1)对全比较问题进行深入的理论剖析,对全比较计算的数据分配问题进行了模型构建。 (2)提出了基于贪心思想的启发式的数据分配算法。根据数据分配问题的理论模型,提出了启发式规则,并根据这些规则提出了数据分配算法。保证了所有比较任务的数据本地性为100%,与在每个节点上存储所有的数据文件的策略相比,提高了存储效率,与Hadoop默认的数据分配策略相比,提高了整体的计算性能和良好的可扩展性。 (3)提出了基于图覆盖的数据分配算法。该方法为本文首次提出,用于解决全比较问题。首先,介绍了用图覆盖来解决全比较计算的数据分配问题的理论基础。其次,证明了在某种条件下可以构造出图覆盖的最优解,并且成功构造了几组最优解。与启发式相比,除了保证比较任务具有100%的数据本地性,负载均衡以外,在特解的情况下,基于图覆盖的数据分配算法具有更好的计算性能。