论文部分内容阅读
随着基因组学的不断发展,绝大多数高等生物个体的全基因组序列信息已经被获知,然而在这些全基因组序列信息中,往往缺乏关于在同源染色体上以连锁形式遗传的单碱基到多碱基变异的顺序的信息,这些信息通常被称之为单倍体型;此外,大多数已经被测序的物种在其参考基因组序列中都存在诸如太的结构变异、重复序列等现有技术难以分析的区域的序列信息缺失。因此亟需建立一种简单,快捷,经济的单倍体分型技术。该技术要不依赖于庞大的自动化分液设备,繁杂的实验操作和大量的时间投入。所以基于单管的,虚拟物理分隔的,联合标签标记的长片段测序技术是最好的选择。本论文研发了一种低成本的基于标签共标记的单管长片段测序技术(stLFR),这一技术与二代测序平台结合,弥补了二代测序技术读长短的缺点,能间接获得平均50kb的读长,同时又拥有二代测序技术准确率高和成本低的优点。本研究技术构建的stlLFR文库可以获得超过8百万条长度为20-300kb基因组DNA分子,这些长DNA分子中的每一条分子能被测序到的区域占总长度的20%。利用stLFR对人类基因组标准品DNA NA12878的序列进行分析,得到了高质量的变异检测结果。stLFR技术还能获得长达15Mb的定相Ccontig N50。本研究还发现了 stLFR技术能检测复杂的结构变异。同时利用stLFR文库进行De novo组装的可以获得100kb的Conttig N50和30M的Scaffold N50。此外要获得30X的人类基因组数据,stLFR技术的成本约为10000元人民币,传统的WGS的成本约8000元,三代测序技术中最成熟的Pacbio的成本是WGS的20倍。本研究结果显示,stLFR是一种成本低,准确性高,可以进行单倍体型定相(Phasing)检测、SV检测、基因组组装的长片段DNA测序的测序技术。