论文部分内容阅读
本研究通过在高性能计算机群上重构和更新细菌基因组序列比对工具mGenomeSubtractor,对48株已全测序的肺炎克雷伯菌基因组进行了亲缘菌之间及和人类微生物基因组计划序列的比较分析,识别了肺炎克雷伯菌中菌株特有区域及其携带的耐药和致病基因。首先,本论文在实验室曙光机群上重构和更新了细菌基因组差减杂交模拟工具mGS,并提供对外在线服务,以满足单个细菌基因组序列(2-10Mb级别)和人类微生物基因组计划宏基因组序列(1-10Gb级别)的快速比对需求。亲缘菌的基因组差减杂交模拟工具mGS可以对细菌基因组岛等菌株特有区域进行快速识别。为了提高该工具的计算能力使其可以完成人类微生物组的宏基因组序列比对工作,我们对程序代码进行了升级,主要包括两方面的技术更新:(a)在后台比对数据库方面,本文主要用到了人类微生物组计划(HMP)数据,包括健康人群的参照基因组(Reference Genome Data,HMP-RGD)数据和宏基因组鸟枪法测序(Metagenomic Shotgun Sequence,HMP-MSS)数据。本论文将HMP-RGD和HMP-MSS整合到mGS的后台比对数据库中以实现单个细菌基因组序列和HMP-RGD/HMP-MSS的比较分析。(b)在计算速度方面,针对计算节点(胖节点)CPU运算核数多、内存大的特点制定并行策略。通过对需要比对的细菌基因组序列进行均匀分割,使得每一段较小的序列启动单独的比对进程。这个过程中每一个比对进程都彼此不相关,所以可以将其并行执行,从理论上讲其加速效果是所用到的进程数的倍数。这种加速策略的意义在于,将mGS中最耗费时间的比对过程完全转化为对于胖节点服务器硬件的依赖。因此具有良好的可扩展性,即使在遇到计算速度瓶颈时,机群维护者只需要增加新的计算节点就可以增加相应的并行过程。此外,mGS在管理节点上通过任务管理引入了作业调度系统,避免了多个用户同时提交任务时造成的系统崩溃问题;作业调度系统指定计算节点运行占用CPU和内存较大的计算部分;再由监控脚本程序将监控是否每一个进程都成功执行,并最后汇总成结果文件,可视化输出到用户端浏览器界面上。在大数据的时代,面对海量微生物序列的大数据分析需求,类似本论文提出的mGS可扩展性并行计算策略将提供有效的解决方案之一。其次,本论文以工业生产菌肺炎克雷伯菌KCTC 2242全基因组序列为例,利用mGS对该菌株特有区域株进行了详细分析。从以下两个不同数据规模的比对库上进行了mGS分析。(i)种内亲缘菌分析:本文中利用GenBank中目前收录的已完全测序的48个肺炎克雷伯菌株,去除了肺炎克雷伯菌KCTC 2242的两个复制子(一条染色体和一个质粒),余下的182个复制子DNA序列建立比对库,肺炎克雷伯菌KCTC2242通过与其比对,得到肺炎克雷伯菌KCTC 2242在肺炎克雷伯菌种间的维度上所特有的基因序列。(ii)选用HMP-RGD为比对库,其中包含了11.9GB的1391个菌株基因组数据。将肺炎克雷伯菌KCTC2242基因组序列与两个比对库进行比对,得到肺炎克雷伯菌KCTC2242在健康人类微生物组的维度上所特有的基因序列。最后,本论文利用mGS进一步对另外47株完全测序的肺炎克雷伯菌进行基因组特有区域分析。对特有区域基因分析发现,大部分属于prophage,整合性接合元件,IS元件和噬菌体蛋白等外源DNA序列。识别了这些肺炎克雷伯菌菌株共同拥有的、每个菌株单独的耐药和致病基因,以及这些基因附近的IS元件。这些数据将有助于从基因组序列水平来评估菌株的抗生素抗性和致病性的潜在风险。