论文部分内容阅读
单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异引起的DNA序列多态性,在人类可遗传的变异中扮演了重要的角色。传统的高通量测序技术是同时对多个细胞进行测序,该测序技术忽略了细胞与细胞之间的异质性,最终的测序结果反映的是多个细胞的平均值。随着单细胞测序技术的引入,检测单个细胞内部的单核苷酸变异成为可能,然而由于单细胞测序数据中的噪音以及低覆盖率等因素,使得精确地识别基因型和单核苷酸多态性仍具有挑战性。基于此,本文主要以单细胞测序数据为研究对象,建立了基因型和单核苷酸多态性的检测模型。首先,本文详细地介绍了单核苷酸多态性的分析流程。该分析流程由数据预处理、基因型和单核苷酸多态性识别两个大模块组成。单核苷酸多态性检测的精确度与测序误差有着密切的联系,此误差是由于测序过程中需要对单细胞测序数据进行扩增而引入的。为了提高单核苷酸多态性检测的精确度,还需要对测序数据进行质控。然后,本文对单细胞测序数据的测序误差进行了分析,并基于单细胞测序数据的特性,提出了基因型和单核苷酸多态性的检测模型。该模型使用了高斯分布对测序误差进行建模,同时在该模型中引入碱基被测错的概率和短序列比对错误的概率,并使用动态规划方法对模型求解。综上所述,本文的主要创新点在:1)整个分析流程中误差来源于两点,即碱基被测错的概率和短序列比对错误的概率,常见的方法中只考虑了碱基被测错的概率,本文将这两种错误率同时融入模型之中;2)对单细胞测序数据的测序误差进行了分析,并基于此提出识别基因型和单核苷酸多态性的模型。为了验证本文方法检测效果,本文首先基于组织测序数据构建了验证数据集,然后以该验证数据集作为标准检测结果,将本文方法和其他方法对检测到的真实单核苷酸变异数、准确度、转换变异偏向性进行比较。结果表明,在不同质量分数的情况下,本文方法检测到的真实单核苷酸变异数和准确度相对于其他方法有一定的提升,且转换变异偏向性略微地变好。实验研究表明,本文方法能够检测出更多发生变异的核苷酸位点,有着一定的研究成效。