基于高通量测序的微生物基因组学研究

来源 :中国人民解放军军事医学科学院 | 被引量 : 63次 | 上传用户:zhaihuixinjie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的快速发展,基因组测序的通量更高、测序时间和成本不断下降,使得其被广泛应用于微生物的基因组学研究。目前已经完成基因组测序的微生物主要是模式微生物、特殊微生物和医用微生物。后基因组学研究为从本质上认识微生物及改造微生物带来质的飞跃。然而,高通量测序数据的爆发式增长给数据的分析,尤其是全序的组装带来了困难。如何从海量的数据中分析出需要的信息是当前最大的挑战。基因组研究包括两个方面的内容:以全基因组测序为目标的结构基因组学和以基因功能鉴定为目标的功能基因组学,也即后基因组研究。高通量测序能够完成包括全基因组、转录组、宏基因组在内的多种测序,并为后基因组学的分析带来新的方法。目前主流的高通量测序平台有:Roche454、Illumina的Hiseq及Miseq、Life的Ion Torrent。Illumina的高通量测序系统是市场上占有率最高的,其优点是准确度高,通量大,而缺点是运行时间长、读长短。Roche454以其读长最长而著称,但是准确度不够高,测序成本高。IonTorrent测序速度最快。全基因组测序对全面了解一个物种的分子进化、基因组成和基因调控等有着非常重要的意义。但是目前成熟的高通量测序都是以随机打断基因组然后测短片段为主。要获得全基因组就必须对高通量测序的数据进行组装,即将测序数据用计算机程序按照重叠部分进行重构,还原出基因组的全序。目前已有大量的组装软件被开发出来。这些软件根据不同测序平台的数据特点使用不同的算法。由于重复序列的干扰,现在的组装软件往往只能得到部分大的片段而不是基因组全长。即便是测序时采用了双端测序,往往也不能通过组装软件一步获得全序。如何将这些片段组装得到全基因组是高通量测全序领域的一大难点。虽然现在也有报道一些专门用于填补序列gap的软件,但是往往不具有普遍适用性。各种功能的软件鱼龙混杂,且没有权威的评价报告。有些文献对填补gap提出了许多方法,主要分为四类:(1)综合不同组装软件对同一数据的组装结果;(2)结合从头组装和依赖参考序列组装方法的结果,两者互补填补gap;(3)利用多个测序平台的数据进行组装并填补gap;(4)在gap两端设计特异引物,使用PCR扩增法获得中间的序列。此外还有预先确定重复序列法、局部拼接法等。现在还没有一个万能的程序能够处理任何复杂程度的数据。往往不同的数据需要进行个性化组装。这给非没有拼接经验的科研人员无疑增加了额外的难度。因此,高通量测序后如何获得全序以及基因组学的新的分析方法是目前研究的瓶颈。本文以现有的高通量测序数据分析为背景,着重讲述了全基因组的组装,提出了几种填补gap的方法,并都使用了Perl语言编程实现。此外还对基因组分析中遇到的序列注释及提交问题、MLVA分型问题提出了新的方法并辅助以编写的程序。在组装方法方面,首先介绍了3种常用软件的使用方法(Velvet、SOAPdenovo、Newbler)。这三种软件在处理不同数据方面具有代表性。本文以实际数据为例,分析了每个软件中不同参数的意义及其对结果的影响。结合实际经验,给出了这些软件的参数经验值,为科研工作者提供参考。然后,针对现有组装软件只能初步拼接并得到一系列片段而无法获得全序的问题,我们提出了3种组装方法。这3种方法都是用于将大的片段串联成全序,因此属于现有组装软件的补充。它们分别为:片段定位(包括基于参考序列的定位和使用双端测序数据定位)、末端延伸法填补gap、基于参考序列填补gap。这几种方法理论简单易懂,容易实现。为实现这些方法,我们使用Perl语言进行了编程。其中有:1、使用配对数据寻找contig关联的程序,用于确认contigs间的上下游关系;2、末端延伸程序,用于填补片段内部的gap。3、用大片段补gap程序,主要用于综合从头组装和基于参考序列组装两者的结果,互相填补gap。在基因组分析方面,由于基因组学的内容很广,我们只针对实际工作中遇到的问题提出了解决的方法,包括基因组的注释和提交方法,以及MLVA分型方法。在基因组的注释和提交方面给出了基因组注释的常用方法和流程,并根据在序列提交中遇到的5列表问题编写了Perl程序,简化了工作。另外针对现有MLVA分型中的缺点(基于PCR扩增子的长度),提出了基于序列的MLVA分型法,从而避免传统方法中的缺点。同时编写了专门用于从全序中提取各个MLVA位点序列的程序。本文介绍的方法都具有实际应用价值,成果主要以程序的形式展示。这些程序使用简单,理论通俗易懂,对非高通量数据专业分析人员具有易用性,适合用于做个性化的微生物分析。为了验证这些方法的可靠性,文中每个方法都介绍了一个实际案例(如立克次体、摩根式摩根菌、类鼻疽、炭疽杆菌、噬菌体等微生物的组装)。实践证明这些组装方法能够使用已有数据有效的填补上大量的gap(不用再次测序),为测全序节省时间和实验成本。第二部分介绍的基于序列的分型法相比传统MLVA分型具有更高的准确度,在高通量测序不断深入的将来具有广阔的应用前景。生物信息学是一门偏应用的学科,大量的方法蕴藏在不同的分析任务中。在以测全序和后基因组分析为主的基因组学领域,往往需要研究者针对特定的对象进行个性化分析。本文介绍的方法也是基于实际提出,有实用价值但不一定对每个物种有效。希望本文能够给其他研究者提供有用的参考和工具。
其他文献
在制作表格的时候,有时候会碰到一些比较规范的格式,比如名字、年月日等,它们每个项目之间有规则地用符号分隔开(横排的时候一般用制表符、空格或逗号隔开,竖排的时候用段落标记隔
世界银行贷款国家造林项目是迄今为止世界最大的林业项目,也是国内一个巨大的造林项目。其规模、总投入和建设速度,是建国以来所没有的。全国16个省区,300多个县实施了这一项
兰州石化炼油厂3万吨硫磺回收装置经过环保升级达标改造开工以来,装置运行状况良好。目前,硫磺二氧化硫排放浓度达到200mg/m^3以下,远远低于新的国家大气污染物排放标准。
QQ邮箱的明信片功能非常富有创意,但是只能发给单一好友,未免太浪费了,不如发到QQ群里,让大家一起来欣赏自己的QQ明信片,这样就有意思多了!操作方法很简单,具体步骤如下:
电脑里每一种类型的文件都会和一个程序关联,双击文件后系统就会调用关联程序来打开文件,比如双击DOC文件就会用Word程序打开,这就是文件关联。如果文件关联出错就会出现各种问题。本文就给大家介绍一些常见的文件关联方法,以帮助大家解决问题。
跨度超过8m的梁板支模系统需待混凝土强度达到设计要求等级100%才能拆除,支模系统周转变慢,需大量投入的模板、木方、支模架,造成本增大。本文通过对大跨度工业厂房利用承插
传承社会文化是大众传播媒介的基本功能之一,地方都市报做好地域文化报道,是其履行社会责任的具体表现。在传媒生态剧变的大背景下,纸媒面临同质化、过度娱乐化等诸多挑战,深
长螺旋钻孔压灌混凝土桩是近年来在桩基施工中应用广泛的一种新桩型,它是用高压泵输送混凝土,通过对桩周土的挤密渗透作用而形成的一种变截面桩。在工程中如何确定该桩的质量
激励理论在企业多方面中都有所应用,以合适的激励形式激励员工提高生产效率及生产安全是电力企业提高核心竞争力的必然措施。概述激励理论的涵义和方式,分析激励理论用于电力
为探究重力辅助对盘室同步气吸式精量排种器充种性能的影响,以盘室同步气吸式精量排种器为载体,对其充种过程进行了受力分析,建立了重力辅助充种受力数学模型,结果表明:型孔