论文部分内容阅读
摘要:随着高通量测序数据技术的发展,人类全基因组的测序成本在不断降低,测序速度也有了较为显著地提升。运用生物信息学的手段处理这些海量基因组数据的需求也越来越迫切,而对于基因组结构变异的检测更是这个领域的核心内容。由高通量测序数据特征入手,介绍了当前主流的生物信息学结构变异检测方法,并阐述了有关基因组结构变异检测结果的评测指标和手段,最后,结合个人基因组的发展,对于该领域未来的发展提出了改进建议。
全文查看链接
其中,可利用的双末端测序数据都是经过BWA等[6]软件比对之后的SAM格式文件。文中将可利用的数据主要分为两类:非一致短序列对(discordant pair)和单映射双末端测序数据(hanging pair)。如果这两个序列片段的映射距离被认为是在插入距离的可接受范围内,而且两个片段的朝向都没有发生改变,即可认为这种序列对为一致的序列对(concordant pair),该种序列在绝大多数情况下均不会被认为覆盖了一个结构变异。除此之外,其他的双末端测序数据,无论是序列朝向问题、插入距离问题或者CIGAR值异常等问题发生时,均可认为产生的是非一致的序列对(discordant pair)。除此之外,一种特殊情况,就是双末端测序数据中仅有一个序列片段比对到参考序列上,而另一个却未能比对到参考序列上,由此将没有CIGAR值,这类特殊的序列可称为单映射双末端测序数据对[7]。
全文查看链接