基于NGS数据的功能性前噬菌体预测算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:jishume
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
噬菌体是以细菌等原核生物为宿主的病毒,它可以分成裂解性与溶原性两种。裂解性噬菌体可以在细菌内部繁殖并直接将细菌裂解杀死;而溶原性噬菌体虽然在一些理化条件的作用下也能够使细菌裂解,但它将自身的基因组整合进细菌的染色体中,其主要的存在方式体现为伴随细菌基因组一起进行复制及遗传,该状态下的溶原性噬菌体与细菌间构建了比较稳固的寄生关系。溶原性噬菌体整合进宿主菌基因组中称之为前噬菌体。由于溶原性噬菌体具有介导基因水平转移的特性,通常可以对细菌的致病性造成重大影响。比如,肠出血型大肠埃希菌产生的志贺毒素Ⅰ和Ⅱ均由溶原性噬菌体所介导。因此,为了更好地理解细菌毒力的形成,准确预测溶原性噬菌体在细菌上的存在情况是十分必要的。然而目前对于溶原性噬菌体的发现主要采用实验诱导和生物信息推断等人工方式,效率十分低下。另一方面,目前的自动化预测工具也只能预测到细菌基因组上的前噬菌体,而不能判断其是否具有功能性,更无法提取出功能性前噬菌体对应溶原性噬菌体完整序列。针对以上问题,本文提出了自动精确的功能性前噬菌体预测算法:LysoPhD。该算法多次利用原始测序数据,可从细菌基因组上预测功能性前噬菌体并提取对应的溶原性噬菌体全序。同时,本文对LysoPhD进行了多线程并行优化,明显提高了运行效率。本文还提出了从NCBI-SRA数据库上批量下载细菌miseq测序数据的方法,并采用多进程的方式对下载的细菌测序数据进行大规模分析,预测到的溶原性噬菌体汇总构建了溶原性噬菌体数据库。本文主要包括以下三个方面的工作:基于高通量测序数据的功能性前噬菌体预测算法:LysoPhD。现有对溶原性噬菌体(功能性前噬菌体)的预测和鉴定主要分为生物实验诱导和生物信息手段预测。实验诱导是可靠的鉴定方式。然而,实验诱导方式需要消耗大量人力物力,且仅能局限于本地自产细菌菌株。使用生物信息手段主要通过图形化展示拼接后contig的连接关系来寻找环化contig以鉴定功能性前噬菌体,但此方法预测的灵敏性低,同时需要人工操作、主观判断,无法自动化的执行,严重限制了分析的效率。目前已有一些优秀的自动化前噬菌体预测算法实现的工具,然而这些工具只能预测出前噬菌体的存在,而无法进一步确定该前噬菌体是否具有功能性,更无法提取出对应的溶原性噬菌体精确全序。针对这一问题,本文第三章设计实现了一种基于高通量测序数据的功能性前噬菌体预测算法LysoPhD。LysoPhD将原始测序数据和拼接后的细菌基因组数据相结合,先设计了质控过滤流水线对原始测序数据进行质控和过滤,再在拼接后的细菌基因组contig上根据类噬菌体基因聚类簇预测出粗略前噬菌体范围,接着在粗略范围上根据整合位点搜索出精确前噬菌体候选对象,最后从原始测序数据中挖掘环化信息,验证前噬菌体功能性并基于一致性延伸算法提取出对应的溶原性噬菌体全序。经生物诱导实验验证,LysoPhD的预测结果与实验结果一致性很高,能够有效地预测细菌基因组中的溶原性噬菌体。LysoPhD的并行化实现。串行化的LysoPhD算法执行效率较低,对于800M规模(常见规模)的细菌测序数据,执行时间需要三个小时。对于海量细菌测序数据的大规模分析并构建溶原性噬菌体数据库的效率具有很大限制。因此,本文在第四章的前半部分,分析了LysoPhD的热点部分并发现可并行部分,在前噬菌体预测部分采用多线程使每个contig上的操作并行化,在功能性验证部分采用多线程使每个精确前噬菌体候选对象上的操作并行化。测试结果表明,两部分的加速比分别达到8.3和7。整体加速比达到7.25。溶原性噬菌体数据库构建。由于溶原性噬菌体预测难度大,得到的研究相对较少,因此目前还未有比较齐全的溶原性噬菌体数据库,限制了对溶原性噬菌体基因组的研究分析。因此,本文在第四部分提出了基于并行化LysoPhD算法的溶原性噬菌体数据库构建方法。首先,自设计脚本从NCBI的SRA数据库中自动下载海量细菌测序数据,并采用两级的并行方式大规模分析这些细菌测序数据中的功能性前噬菌体。第一级采用多进程运行多个细菌测序数据的分析,第二级在每个细菌测序数据的分析上使用了多线程的LysoPhD算法。此方案自动高效,目前已从约40000组细菌数据中预测到了2000个溶原性噬菌体全序。
其他文献
我国目前已成为世界上滑坡等地质灾害最严重、受威胁人口最多的国家之一,开展滑坡的预防与治理成为一项非常迫切和极为重要的工作。滑带土残余强度参数的取值是滑坡稳定性评
随着基于位置的移动社交网络技术的不断发展,人们可以更加容易地通过智能手机访问和分享各个城市的兴趣点(Points of Interest,POI),比如学校、餐厅、电影院等,因此,产生了大
禽致病性大肠杆菌(avian pathogenic Escherichia coli,APEC)是引发家禽肠外感染的重要病原菌,而APEC的致病力主要由其毒力基因的表达所决定。phoP/Q是禽致病性大肠杆菌中最重要的调控元件之一,能调控影响细菌的众多元件。鞭毛是大肠杆菌重要的运动和致病组件,Ⅲ型分泌系统(Type Three Secretion System,T3SS)是细菌鞭毛的核心与基础。mo
为探究游戏教学法在韩国汉语课堂上的可行性和教学影响,本研究在韩国大邱中央中学汉语课堂上实施教学实验,以初二和初三共四个班的92名学生为被试,将被试分为实验班和对照班,
1999年,中国的两位空军大校乔良、王湘穗共同撰写了《超限战》一书,该书从新战争与新战法两个角度,揭示了未来战争的形态与发展规律。出版后的同年,经美国对外广播新闻处翻译后,该著作在西方国家流传开来并引起了强烈的反响。通过对比中英两个版本可发现,翻译后的版本中有很多不贴和原文的地方,除此之外,译者还添加了一些具有误导性的副文本如副标题、导语及译者注等,而这些地方极易造成西方读者对中国的误解,使中国被
伴随着国家支持创新创业政策效果的不断显现,以及国家近年来对小微企业扶持力度的加大,国内小微企业数量大幅增长,而作为对众多企业的刚性需求提供服务的企业服务产业业也呈
羊口疮是由属于痘病毒科(Poxviridae)副痘病毒属(Parapoxvirus)的羊口疮病毒(Orf virus,ORFV)引起的接触性的人畜共患传染病。该病传染性强,流行迅速呈群发性。目前,该病在世界范围内的不同养殖地区均有感染的报道。但是,ORFV分子遗传进化特征信息依然较少。此外,宿主对感染ORFV后的天然免疫反应研究很大程度上仍然尚不清楚。因此,本研究为了丰富安徽地区ORFV的分子遗传
空管技术保障部门需要保障雷达塔上安装的雷达天线单元的正常运行,在遇到特殊气候时,雷达天线室外单元将容易出现故障,比如雷达头松动,底座偏移等,需要通过人力不断巡检设备,
由于奇异项的存在,山路引理等常用的临界点理论不能直接应用,本文利用能量泛函的全局极值及能量泛函在Nehari流形上的约束极值研究了两类奇异椭圆方程正解的存在性和唯一性。
本文主要对两类非线性抛物方程(组)的解展开研究。讨论了两类在不同源项的非线性抛物方程(组)在不同边界条件下,解的整体存在性和爆破的充分条件,同时给出了爆破时间的上下界