论文部分内容阅读
近年来,随着新一代基因测序技术飞速的发展,好几款使用大规模平行循环芯片测序技术的测序仪在市面上出现并得到了广泛的应用。现在,在小型实验室里也能够独立完成以前只有大型测序中心才能够开展的项目。新一代基因测序技术已广泛应用于生物学研究,并取得了显着的科技成果。相比于传统的基因测序技术,新一代基因测序技术极大地降低了测序成本,并且在效率上得到了显著地提高。但是,新一代基因测序技术在测序长度以及测序准确率上仍有一定的劣势。我们将比以往更容易地获得大量的基因组测序数据,但如何基于这些巨量的基因组测序数据进行高效快速的统计分析,并得到准确的统计推断及有效的统计检验,对统计方法研究来说仍是一个极大的挑战。本文基于肺癌样本的外显子测序数据研究基因体细胞突变和癌症的关系,进行了如下工作:基于基因测序数据推断研究对象或个体的基因型;估计基因组各个位点的变异率或杂合丢失率;对基因组各个位点是否为体细胞突变进行相关检验;寻找突变后可能直接影响癌症病发的驱动基因以及探寻驱动基因间的交互作用。基于基因测序数据的基因型推断主要有两个难点:测序错误与样本混合。但是现有生物软件的的推断方法一般是基于二项分布的贝叶斯判别分析,往往并没有考虑样本混合这一因素,其可能的后果是低估了变异率以及漏判了真正的变异位点。我们的方法引入了包括每个位点的变异率、测序错误率以及每个肿瘤样本的混合率在内的若干参数,并分别基于染色体位点维度和肿瘤样本维度建立基于二项分布的似然模型,最后用EM方法得到各个参数的极大似然估计,并且用后验概率作为基因型的判断依据。模拟结果显示,我们的方法比传统贝叶斯方法有着更高的准确率,且EM算法相比于其他方法有着更短的运行时间。模拟结果同时也证实了引入样本混合率参数的必要性与合理性。真实数据的结果显示,在考虑样本混合率的条件下,我们的方法不仅找到了已有软件发现的大多数突变位点,还找到了更多可能突变的新位点。在基因型推断的同时,我们的模型也可以得到每个位点变异率的估计。我们通过变异率参数的似然比检验来判别某位点是否为体细胞测序变异(Somatic SNVs)。模拟结果展示了影响检验功效的各个因素,并且证实了该检验的合理性以及我们基于极大似然估计的循环迭代算法的有效性。真实数据的结果显示,我们找到了一些可能为体细胞突变的新SNV。类似地,当我们在似然中引入了杂合丢失率(LOH)后,我们也可以得到某位点杂合丢失率的估计并做相应的统计检验。但是引入LOH在真实数据中的有效性仍值得进一步地探讨与研究。为了寻找可能直接导致癌症的驱动基因,我们分别按照影响蛋白质功能及碱基对体细胞突变进行了分类,并统计了每个肿瘤样本在各个基因上的各个不同类型的突变个数并得到了相应的计数数据。我们同时考虑到了变异类型、基因长度以及不同样本的背景变异率,建立了基于泊松分布的似然模型,并引入了原假设下χ2混合分布的偏移系数,构造了一个边界条件下的多元似然比检验的方法。模拟结果显示,相比于现有的基于伯努利分布的方法,我们的方法有着更高的功效。真实数据的结果显示,我们能找到更多的驱动基因,并且在生物学上可解释。类似地,我们的驱动基因检验方法也可以灵活地应用于生物通路(pathway)或基因集合的检验。基因间的交互作用研究是近年来有挑战性的热点问题。我们用基于驱动基因检验所估计的参数进行蒙特卡洛模拟,进而得到了基因两两之间交互作用的检验。但是,3阶以上的基因交互效应检验是相对困难的,我们可以尝试应用多元降维法。模拟结果显示,我们的方法较简单置换检验方法更加有效地排除了基因长度的的混淆因素,并且真实数据分析的结果表明交互作用检验可以帮助我们有效地确定某些癌症pathway中的关键基因。本文所研究的数据包括249名肺癌患者的外显子测序数据(数据来源:TCGA),以及基于该数据所得到的基因变异位点个数的计数数据。