论文部分内容阅读
在研究与工程领域中,有许多问题通常需要经过几个星期甚至几个月的计算才能得出结论,为进行这样的工作需要一个能在长时期内提供大量计算能力的环境,这就是所谓的HTC (High Throughput Computing)计算环境。HTC环境更关心的是在一个相当长的时间段内可以完成多少任务,而不是一个单独的任务能被多快的完成。构建HTC计算环境的一种解决方案是将大量的个人PC组织在一起以利用它们的空闲计算资源,Condor便是这样的一个实例。但是由于Condor在节点的组织上采用集中式管理,具有中心节点,因此在可靠性与扩展性等多方面受到了限制。
为了设计出一种高可靠的,具有高可扩展性并且高效的HTC计算环境系统,本文结合当前在P2P领域中广为使用的分布式哈希表(DHT)的概念,提出了一种新的无中心节点的 HTC计算环境系统结构CrossTree,并详细描述了在该结构下的资源管理与定位方式。CrossTree采用树+环的形式来组织节点,不同的资源被分类映射到不同的树型结构中;同时每个节点只需保存并跟踪其他一小部分节点的信息,不需要记录所有节点的状态。CrossTree 结构的错误恢复机制使其具有高度的可靠性,并且路由跳数基本为常数,不随系统规模的迅速增大而剧烈变化,具有很高的效率与可扩展性。
本文首先对已有的HTC环境系统Cotldor以及分布式哈希表的相关概念进行了详细的介绍,然后在此基础上给出了CrossTree结构的详细设计与其在HTC领域的基本应用方式,接下来更进一步的讨论了一些改进与优化的方案,最后从理论分析与仿真实验两方面证明了CrossTree的高效性、高可扩展性与良好的可靠性。