论文部分内容阅读
2005年以来,随着以454、Solexa和SoliD等高通量测序技术为代表的新一代测序技术的迅猛发展,测序成本直线下降,作为甘蓝型油菜品种亲本的白菜、甘蓝先后采用新一代测序技术完成了基因组的测序和组装,继而,甘蓝型油菜全基因组测序也在世界各地纷纷开展。本实验室在2010年与中国科学院北京基因组所合作进行了甘蓝型油菜中国半冬性栽培种Ningyou7以及欧洲冬性品种Tapidor的全基因组测序,得到了测序深度较高的64X Ningyou7基因组solexa测序序列,78X Tapidor基因组solexa测序序列,这些原始数据经预处理过滤后得到,Ningyou7还剩56.32X,Tapidor还剩64.03X,再将这些高质量的基因组solexa测序数据进行拼接。此外,还有测序深度相对较底的0.35X Tapidor和Ningyou7全基因组454测序数据。 全基因组测序数据分析方法,总的来说可以分为两类:一类是从头拼接,完全依赖于测序序列间的重叠关系,将序列连成一条条连续性片段;另一类是基于参考序列的拼接,要借组参考基因组为骨架。本研究分别采用这两种方法进行测序数据拼接,最后再将两类拼接结果整合在一起,主要结果如下: 1.从头拼接(de novo assembly)用SOAPdenovo+GapCloser将高质量的基因组solexa测序数据进行拼接,在kmer=33、43、53、63、73,5个不同参数条件下得到5组不同的contigs还有scaffolds结果。其中kmer=63的结果得到了最长的基因组全长。 2.基于参考序列的拼接(Reference-guided assembly)用BWA将高质量的基因组solexa测序数据比对到用甘蓝型油菜的叶绿体、线粒体、白菜、甘蓝基因组组成的虚拟基因组上,将每个连续覆盖区域的短序列视为一个数据集,每个数据集用velvet在kmer=63、73、83、93的条件下进行拼接后,用cap3聚类得到共性的contigs,所有数据集contigs合在一起,作为SOAPdenovo拼接的contigs,用SOAPdenovo的scaffolding程序连接contigs,GapCloser填补gap,过程类似从头拼接,也得到了kmer=33、43、53、63、73,5个不同参数条件下得到5组不同scaffolds结果。 3.上述拼接结果质量评估用测序深度较低Tapidor和Ningyou7全基因组454测序Newbler拼接结果来评估de novo assembly和Reference-guided assembly拼接结果质量表明,de novo assembly(kmer=63)scaffolds结果是一个信息量最大且准确性相对也较高的组合,而Reference-guided assembly由于借助了参考序列,在序列长度以及准确性上有所提高,但它所得到的全基因组信息量是偏少的。 4.整合拼接结果以de novo assembly(kmer=63)scaffolds这个信息量以及准确度相对较高的组合为参考,将其它组合的拼接结果通过Minimus_blat来拓展参考,再用gicl去除冗余信息,最后得到的整合拼接结果,无论是总的信息量还是准确性含量都高于整合前的拼接结果,但其中存在冗余序列信息。 5.网络平台展示分析结果为了方便实验室查询和应用,本研究所有结果相关信息实现了blast、blat、megablast序列比对功能,序列提取功能。将整合拼接结果定位到虚拟基因组上,Tapidor BAC末端序列定位到Tapidor整合结果上,以及整合拼接结果最原始的scaffolds和contigs,这些信息都配置到gbrowse上,实验室研究人员可以通过gbrowse查询感兴趣区域所有的序列及其相关信息。