论文部分内容阅读
近年来,基于多重置换扩增(MDA)的全基因组扩增技术(WGA)因为phi29DNA聚合酶的高扩增效率、高保真、等温扩增等特性而被广泛应用,但是多重置换扩增过程中会生成一定数量的嵌合序列。本研究结合前人对嵌合序列的研究,设计并建立了一套简便高效的基于BWA比对软件的嵌合序列识别流程,并实现了对所识别的嵌合序列进行分类、数值比例分析的功能;同时,本研究设计流程对人类参考基因组序列进行扫描,寻找易于产生嵌合序列的嵌合热点区域,并探究嵌合序列对嵌合热点的选择偏好。又因为嵌合序列的两部分来自同一个模板,且两部分之间的嵌合间距可达5000nt以上,这使得探究嵌合序列用于单倍型的组装成为可能。本研究获得的研究结果主要包括:(1)基于BWA开发了一套全新的嵌合序列识别分析流程,可以直接从测序数据的比对结果中识别嵌合序列,实现嵌合序列的分类和数量统计。在同一批MDA测序数据中,新流程相较于已有的基于SOAP2开发的嵌合序列分析流程,具有识别的嵌合序列类别更清晰,更高效和耗时更短等特点。(2)基于嵌合序列特有的片段间具有重合片段这一特征和片段间的序列距离分布特征,对基因组中嵌合序列的潜在产生区域的特征进行描述,设计并建立嵌合热点区域的扫描流程,在人类参考基因组序列上寻找易形成嵌合序列的嵌合热点区域,并对扫描得到的嵌合热点进行信息挖掘,结果表明具有不同长度重合片段的嵌合热点在人类参考基因组中均呈现随机分布,嵌合热点的数量与染色体的长度呈线性关系。(3)通过对MDA中实际产生的嵌合序列和人类参考基因组的嵌合热点的联合分析发现,嵌合序列对染色体没有选择偏好,嵌合序列中两片段间距在80-280nt呈现峰值,通过综合嵌合序列在重合片段长度和重合片段GC含量上的选择偏好发现,嵌合序列更易在重合片段的退火温度与MDA的反应温度相近的嵌合热点产生。这一结果有助于优化MDA反应体系,减少嵌合序列的产生。