论文部分内容阅读
在生物信息学领域,对生物数据进行分析是极其重要的一个过程。随着数据量的增大,对生物数据分析的耗时越来越长,严重制约了相关理论设想的验证。CPU-GPU协同计算,能够以较小的代价,组建一个高性能计算平台,加快数据分析与处理的速度。 本文针对大量生物数据分析中硬件资源利用率低,计算耗时长的问题,在经过技术、性能以及资金消耗多方面的权衡下,提出了利用多核CPU与GPU搭建一个CPU-GPU协同计算平台的方案。平台采用OpenMP实现对多核CPU的编程,采用CUDA实现GPU并行程序的编写。并针对平台硬件的特征,提出了几种数据预处理与任务分配的策略,能够最大限度的缩减生物数据分析的处理时间,为研究提供支撑与促进作用。 本文旨在解决标签SNP选择仿真实验以及DTI计算与预测两个具体的生物数据分析问题。本文通过对现有标签SNP选择算法进行分析,提出了HTag算法,并对该算法进行了并行化的具体实现,不仅使标签SNP的数量减少,而且使运行时间大幅缩短。本文针对NetCBP算法执行效率低的问题,对该算法过程进行了详细的分析与拆解,使之适合并行化。通过并行化使单药物DTI计算的时间缩短,并考虑到多药物同时计算的情况,通过并行任务调度缩短了多药物同时计算的时间。 实际应用计算表明,利用CPU-GPU协同计算可明显缩短生物数据分析的计算时长。在对其他领域的数据分析处理中,也具备一定的参考价值。