论文部分内容阅读
随着新一代测序技术的快速发展,利用测序数据对癌症的发展与进化研究正在突飞猛进。造成癌症的因素往往多且复杂,但基因突变是造成癌细胞发生与发展的根本原因,其中生殖细胞突变与癌症疾病的遗传息息相关,而体细胞突变被认为癌症后天发展的主要因素之一。因此本文对体细胞的单位点突变检测进行了相关研究。检测体细胞单位点突变的方法大致分为两类:一是通过检测SNP,并将检测的结果和现有数据库进行比对,找到有意义的突变位点,这种方法的好处是检测出了目前已经验证的并且在临床上有意义的位点,但是如果研究肿瘤的其他位点的信息或是疾病之间的联系时,这种方法并不适合,所以这种方法适合应用的临床上;还有一类方法是针对正常-肿瘤配对样本检测体细胞突变的方法,这种方法需要考虑两个样本之间的关系以及样本的数据特性,所以这种方法大多用的是贝叶斯。但是针对肿瘤纯度较低时,目前存在的方法检测结果有很大的差异性。通过分析样本特性和实际应用需求,本文提出了一种基于单肿瘤样本的改进SNP的算法,考虑了样本中的比对质量,并重新计算阈值来候选SNV。并通过仿真实验与其他方法进行了性能比较,验证了该算法的有效性。同时将该方法应用于真实的乳腺癌数据中,并对其检测结果进行了注释,所提的算法对EGA1数据样本进行了分析,检测结果中包含64个有意义的突变位点,通过和COSMIC数据库和Clinvar数据库比对,注意到其中的ANF280D和AKAP9两个基因与导管乳腺癌相关;在EGA2数据上的分析,检测出和导管乳腺癌相关的基因有TCE3和PRKC。针对正常-肿瘤配对样本,本文构造了52个特征向量,用仿真数据对四种分类算法(贝叶斯、SVM、逻辑回归、随机森林)进行训练,并通过仿真数据分析了四种分类模型的性能,发现随机森林模型的效果最好。于此同时将四种分类模型与其他基于肿瘤-正常配对样本的SNV检测方法进行了比较,并对构造的52个特征进行了重要性分析,发现肿瘤样本的碱基颠倒和正常样本中的质量对SNV的检测有很大影响。最后,将训练好的四种模型应用在3组真实乳腺癌序列样本中,进行SNV检测,并对四种模型共同检测出的结果进行注释,在EGA1数据上显示出有和宫内发育迟缓的两个基因PRKCQ和CRYZ,EGA2数据上显示出和导管乳腺癌相关的两个基因TCE3和PRKCZ。