论文部分内容阅读
噬菌体是以细菌等原核生物为宿主的病毒,它可以分成裂解性与溶原性两种。裂解性噬菌体可以在细菌内部繁殖并直接将细菌裂解杀死;而溶原性噬菌体虽然在一些理化条件的作用下也能够使细菌裂解,但它将自身的基因组整合进细菌的染色体中,其主要的存在方式体现为伴随细菌基因组一起进行复制及遗传,该状态下的溶原性噬菌体与细菌间构建了比较稳固的寄生关系。溶原性噬菌体整合进宿主菌基因组中称之为前噬菌体。由于溶原性噬菌体具有介导基因水平转移的特性,通常可以对细菌的致病性造成重大影响。比如,肠出血型大肠埃希菌产生的志贺毒素Ⅰ和Ⅱ均由溶原性噬菌体所介导。因此,为了更好地理解细菌毒力的形成,准确预测溶原性噬菌体在细菌上的存在情况是十分必要的。然而目前对于溶原性噬菌体的发现主要采用实验诱导和生物信息推断等人工方式,效率十分低下。另一方面,目前的自动化预测工具也只能预测到细菌基因组上的前噬菌体,而不能判断其是否具有功能性,更无法提取出功能性前噬菌体对应溶原性噬菌体完整序列。针对以上问题,本文提出了自动精确的功能性前噬菌体预测算法:LysoPhD。该算法多次利用原始测序数据,可从细菌基因组上预测功能性前噬菌体并提取对应的溶原性噬菌体全序。同时,本文对LysoPhD进行了多线程并行优化,明显提高了运行效率。本文还提出了从NCBI-SRA数据库上批量下载细菌miseq测序数据的方法,并采用多进程的方式对下载的细菌测序数据进行大规模分析,预测到的溶原性噬菌体汇总构建了溶原性噬菌体数据库。本文主要包括以下三个方面的工作:基于高通量测序数据的功能性前噬菌体预测算法:LysoPhD。现有对溶原性噬菌体(功能性前噬菌体)的预测和鉴定主要分为生物实验诱导和生物信息手段预测。实验诱导是可靠的鉴定方式。然而,实验诱导方式需要消耗大量人力物力,且仅能局限于本地自产细菌菌株。使用生物信息手段主要通过图形化展示拼接后contig的连接关系来寻找环化contig以鉴定功能性前噬菌体,但此方法预测的灵敏性低,同时需要人工操作、主观判断,无法自动化的执行,严重限制了分析的效率。目前已有一些优秀的自动化前噬菌体预测算法实现的工具,然而这些工具只能预测出前噬菌体的存在,而无法进一步确定该前噬菌体是否具有功能性,更无法提取出对应的溶原性噬菌体精确全序。针对这一问题,本文第三章设计实现了一种基于高通量测序数据的功能性前噬菌体预测算法LysoPhD。LysoPhD将原始测序数据和拼接后的细菌基因组数据相结合,先设计了质控过滤流水线对原始测序数据进行质控和过滤,再在拼接后的细菌基因组contig上根据类噬菌体基因聚类簇预测出粗略前噬菌体范围,接着在粗略范围上根据整合位点搜索出精确前噬菌体候选对象,最后从原始测序数据中挖掘环化信息,验证前噬菌体功能性并基于一致性延伸算法提取出对应的溶原性噬菌体全序。经生物诱导实验验证,LysoPhD的预测结果与实验结果一致性很高,能够有效地预测细菌基因组中的溶原性噬菌体。LysoPhD的并行化实现。串行化的LysoPhD算法执行效率较低,对于800M规模(常见规模)的细菌测序数据,执行时间需要三个小时。对于海量细菌测序数据的大规模分析并构建溶原性噬菌体数据库的效率具有很大限制。因此,本文在第四章的前半部分,分析了LysoPhD的热点部分并发现可并行部分,在前噬菌体预测部分采用多线程使每个contig上的操作并行化,在功能性验证部分采用多线程使每个精确前噬菌体候选对象上的操作并行化。测试结果表明,两部分的加速比分别达到8.3和7。整体加速比达到7.25。溶原性噬菌体数据库构建。由于溶原性噬菌体预测难度大,得到的研究相对较少,因此目前还未有比较齐全的溶原性噬菌体数据库,限制了对溶原性噬菌体基因组的研究分析。因此,本文在第四部分提出了基于并行化LysoPhD算法的溶原性噬菌体数据库构建方法。首先,自设计脚本从NCBI的SRA数据库中自动下载海量细菌测序数据,并采用两级的并行方式大规模分析这些细菌测序数据中的功能性前噬菌体。第一级采用多进程运行多个细菌测序数据的分析,第二级在每个细菌测序数据的分析上使用了多线程的LysoPhD算法。此方案自动高效,目前已从约40000组细菌数据中预测到了2000个溶原性噬菌体全序。