单细胞DNA测序数据的基因型和SNP检测

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:huangsheng200888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异引起的DNA序列多态性,在人类可遗传的变异中扮演了重要的角色。传统的高通量测序技术是同时对多个细胞进行测序,该测序技术忽略了细胞与细胞之间的异质性,最终的测序结果反映的是多个细胞的平均值。随着单细胞测序技术的引入,检测单个细胞内部的单核苷酸变异成为可能,然而由于单细胞测序数据中的噪音以及低覆盖率等因素,使得精确地识别基因型和单核苷酸多态性仍具有挑战性。基于此,本文主要以单细胞测序数据为研究对象,建立了基因型和单核苷酸多态性的检测模型。首先,本文详细地介绍了单核苷酸多态性的分析流程。该分析流程由数据预处理、基因型和单核苷酸多态性识别两个大模块组成。单核苷酸多态性检测的精确度与测序误差有着密切的联系,此误差是由于测序过程中需要对单细胞测序数据进行扩增而引入的。为了提高单核苷酸多态性检测的精确度,还需要对测序数据进行质控。然后,本文对单细胞测序数据的测序误差进行了分析,并基于单细胞测序数据的特性,提出了基因型和单核苷酸多态性的检测模型。该模型使用了高斯分布对测序误差进行建模,同时在该模型中引入碱基被测错的概率和短序列比对错误的概率,并使用动态规划方法对模型求解。综上所述,本文的主要创新点在:1)整个分析流程中误差来源于两点,即碱基被测错的概率和短序列比对错误的概率,常见的方法中只考虑了碱基被测错的概率,本文将这两种错误率同时融入模型之中;2)对单细胞测序数据的测序误差进行了分析,并基于此提出识别基因型和单核苷酸多态性的模型。为了验证本文方法检测效果,本文首先基于组织测序数据构建了验证数据集,然后以该验证数据集作为标准检测结果,将本文方法和其他方法对检测到的真实单核苷酸变异数、准确度、转换变异偏向性进行比较。结果表明,在不同质量分数的情况下,本文方法检测到的真实单核苷酸变异数和准确度相对于其他方法有一定的提升,且转换变异偏向性略微地变好。实验研究表明,本文方法能够检测出更多发生变异的核苷酸位点,有着一定的研究成效。
其他文献
提出了一种求解非线性规划问题的低阶滤子算法。使用该算法时,如适当选取罚参数可以避免马洛托斯效应。在适当的条件下证明了该算法具有全局收敛性。
提出基于粒子群优化(PSO)与独立分量分析(ICA)的表情特征提取方法。首先利用ICA算法对表情图像数据建立基本的独立基向量求解框架;为了减少计算复杂度,然后利用PSO算法对处理后的表情图像数据搜索最优的解集合;最后利用支持向量机(SVM)作为算法验证的分类器。实验结果表明该算法在保证较高表情识别率的基础上加快了表情图像特征提取的速度。
复数小波变换在某些方面比实数小波变换具有更多的优点,如:平移不变性、更好的方向 性和精确的相空间信息等,可提高图像的去噪能力。采用二树复数小波变换,在基于H Curve准则 确定阈值的基础上进行图像去噪。此准则不需要提前知道噪声标准偏差,在实际应用中适用于不同 类型的噪声,并且和目前多数方法去噪后的图像过于平滑相比,它还能产生较好的视觉效果。典型去 噪试验表明,该方法在去噪能力、取
利用岩溶地下河系形成演变的链式规律原理,分析了该区域伏流形成的条件以及分布特征,并针对修建地下水库厂址的特点以及相关工程地质影响因素,提出了选择地下水库厂址的原则;根据
图像的运动估计中,基于块匹配的免疫算法由于算法的随机性,使得抗体群中不匹配块增多,导致了免疫算法运算量增大。改进算法搜索过程中,通过快速识别出搜索窗内不可能成为匹配块的候选块,并把这些块消除掉,不对其进行匹配误差运算,从而可以大幅度减少免疫算法运算量。同时,由于改进算法使得候选块的匹配可能性提高,使得相对于传统块匹配免疫算法,重建图像的均峰信噪比进一步提高,进而重建图像质量得以提高。仿真实验结果验