论文部分内容阅读
随着高通量测序技术的快速发展,基因组测序的通量更高、测序时间和成本不断下降,使得其被广泛应用于微生物的基因组学研究。目前已经完成基因组测序的微生物主要是模式微生物、特殊微生物和医用微生物。后基因组学研究为从本质上认识微生物及改造微生物带来质的飞跃。然而,高通量测序数据的爆发式增长给数据的分析,尤其是全序的组装带来了困难。如何从海量的数据中分析出需要的信息是当前最大的挑战。基因组研究包括两个方面的内容:以全基因组测序为目标的结构基因组学和以基因功能鉴定为目标的功能基因组学,也即后基因组研究。高通量测序能够完成包括全基因组、转录组、宏基因组在内的多种测序,并为后基因组学的分析带来新的方法。目前主流的高通量测序平台有:Roche454、Illumina的Hiseq及Miseq、Life的Ion Torrent。Illumina的高通量测序系统是市场上占有率最高的,其优点是准确度高,通量大,而缺点是运行时间长、读长短。Roche454以其读长最长而著称,但是准确度不够高,测序成本高。IonTorrent测序速度最快。全基因组测序对全面了解一个物种的分子进化、基因组成和基因调控等有着非常重要的意义。但是目前成熟的高通量测序都是以随机打断基因组然后测短片段为主。要获得全基因组就必须对高通量测序的数据进行组装,即将测序数据用计算机程序按照重叠部分进行重构,还原出基因组的全序。目前已有大量的组装软件被开发出来。这些软件根据不同测序平台的数据特点使用不同的算法。由于重复序列的干扰,现在的组装软件往往只能得到部分大的片段而不是基因组全长。即便是测序时采用了双端测序,往往也不能通过组装软件一步获得全序。如何将这些片段组装得到全基因组是高通量测全序领域的一大难点。虽然现在也有报道一些专门用于填补序列gap的软件,但是往往不具有普遍适用性。各种功能的软件鱼龙混杂,且没有权威的评价报告。有些文献对填补gap提出了许多方法,主要分为四类:(1)综合不同组装软件对同一数据的组装结果;(2)结合从头组装和依赖参考序列组装方法的结果,两者互补填补gap;(3)利用多个测序平台的数据进行组装并填补gap;(4)在gap两端设计特异引物,使用PCR扩增法获得中间的序列。此外还有预先确定重复序列法、局部拼接法等。现在还没有一个万能的程序能够处理任何复杂程度的数据。往往不同的数据需要进行个性化组装。这给非没有拼接经验的科研人员无疑增加了额外的难度。因此,高通量测序后如何获得全序以及基因组学的新的分析方法是目前研究的瓶颈。本文以现有的高通量测序数据分析为背景,着重讲述了全基因组的组装,提出了几种填补gap的方法,并都使用了Perl语言编程实现。此外还对基因组分析中遇到的序列注释及提交问题、MLVA分型问题提出了新的方法并辅助以编写的程序。在组装方法方面,首先介绍了3种常用软件的使用方法(Velvet、SOAPdenovo、Newbler)。这三种软件在处理不同数据方面具有代表性。本文以实际数据为例,分析了每个软件中不同参数的意义及其对结果的影响。结合实际经验,给出了这些软件的参数经验值,为科研工作者提供参考。然后,针对现有组装软件只能初步拼接并得到一系列片段而无法获得全序的问题,我们提出了3种组装方法。这3种方法都是用于将大的片段串联成全序,因此属于现有组装软件的补充。它们分别为:片段定位(包括基于参考序列的定位和使用双端测序数据定位)、末端延伸法填补gap、基于参考序列填补gap。这几种方法理论简单易懂,容易实现。为实现这些方法,我们使用Perl语言进行了编程。其中有:1、使用配对数据寻找contig关联的程序,用于确认contigs间的上下游关系;2、末端延伸程序,用于填补片段内部的gap。3、用大片段补gap程序,主要用于综合从头组装和基于参考序列组装两者的结果,互相填补gap。在基因组分析方面,由于基因组学的内容很广,我们只针对实际工作中遇到的问题提出了解决的方法,包括基因组的注释和提交方法,以及MLVA分型方法。在基因组的注释和提交方面给出了基因组注释的常用方法和流程,并根据在序列提交中遇到的5列表问题编写了Perl程序,简化了工作。另外针对现有MLVA分型中的缺点(基于PCR扩增子的长度),提出了基于序列的MLVA分型法,从而避免传统方法中的缺点。同时编写了专门用于从全序中提取各个MLVA位点序列的程序。本文介绍的方法都具有实际应用价值,成果主要以程序的形式展示。这些程序使用简单,理论通俗易懂,对非高通量数据专业分析人员具有易用性,适合用于做个性化的微生物分析。为了验证这些方法的可靠性,文中每个方法都介绍了一个实际案例(如立克次体、摩根式摩根菌、类鼻疽、炭疽杆菌、噬菌体等微生物的组装)。实践证明这些组装方法能够使用已有数据有效的填补上大量的gap(不用再次测序),为测全序节省时间和实验成本。第二部分介绍的基于序列的分型法相比传统MLVA分型具有更高的准确度,在高通量测序不断深入的将来具有广阔的应用前景。生物信息学是一门偏应用的学科,大量的方法蕴藏在不同的分析任务中。在以测全序和后基因组分析为主的基因组学领域,往往需要研究者针对特定的对象进行个性化分析。本文介绍的方法也是基于实际提出,有实用价值但不一定对每个物种有效。希望本文能够给其他研究者提供有用的参考和工具。