论文部分内容阅读
DNA高通量测序技术的诞生是分子生物学研究的一次技术性的变革,它的低成本,速度快,通量高等特点使它迅速的替代了传统的测序技术。随着测序技术的不断发展,高通量测序技术不断的走向成熟,并且广泛的应用于生物学、医学等众多领域。高通量测序技术的应用越来越广泛,其测序的精确度也就越来越受到人们的关注,因为无论哪一个应用到测序技术的领域,对测序数据的精确性的要求都很高。如果测序环节出现了较多的测序误差,将会影响到对后续工作的分析与处理,甚至使后续工作无法进行。由此看来对高通量测序数据误差的分析显得非常重要。 高通量DNA测序技术的特点是直接对靶核苷酸序列进行测序,相比与传统测序技术,它使得获取基因信息的准确度在很大程度得到了提高。要想获得某些基因的信息,首先要把这些测序序列利用与参考基因组序列比对的方式找到它们的位置,为后续分析做准备。由于被测对象的DNA序列存在个体差异以及测序过程中存在测序误差,在将短读数序列测序结果映射(比对)到参考基因组的过程中,存在测序数据无法映射的问题,并导致测序数据无法使用。 本文针对短读数高通量测序数据进行分析,由于来自不同测序平台的不同,产生测序误差的规律有所不同。本文设计的方法有别于传统的分析方法,改进了无法有针对性的对具体数据进行分析的不足,本文针对具体数据,分析其特有的测序误差产生规律,通过利用贝叶斯理论估计其特有的测序误差模式,将其作为匹配映射的参考,进而提高其测序数据的匹配映射成功率。实验表明:每个测序读数中,越往后的位置,发生测序错误的概率越高;不同测序位置上发生不同种类测序错误的概率有所不同,而上述规律是随着测序平台的不同,实验环境的不同而变化的。经过实验的验证,本文设计的方法成功的挽救了部分没有成功映射到基因组测序数据,并且通过利用挽救的数据和可靠数据映射区域的重叠性验证,证明了本设计的有效性,从而达到了提高测序数据的映射率,进而提高了测序数据的利用率的效果。