论文部分内容阅读
利用单核苷酸多态性(Single nucleotide polymorphism,SNP)标记对人类复杂疾病进行全基因组范围的关联研究(Genome-wide association study,GWAS)已成为目前分子遗传学的研究热点之一。传统的GWAS关注于单个SNP位点与复杂疾病之间的关联分析;然而,大量研究表明复杂疾病往往受到多个基因,以及基因与环境之间的共同影响。因此,在全基因组范围内,对复杂疾病开展SNP交互作用(上位性)研究将推动对复杂疾病机制的进一步认识,弥补传统GWAS带来的“遗传性缺失”。目前,多种上位性识别方法已经被提出,然而大多方法主要是针对两阶上位性的识别。由全基因组数据的高维性而带来的沉重计算负担是高阶上位性识别面临的最大挑战。筛选SNP使得在全基因组上识别高阶上位性成为可能,其关键是定义合适的筛选原则。为此,本文面向全基因组高阶上位性识别方法问题展开较为深入的研究,主要包括以下四个方面:(1)基于显著统计模式和快速置换检验筛选策略的高阶上位性识别方法(High-order SNP-SNP interactions detection based on efficient significant pattern and differential evolution,HiSSI)。常用的Bonferroni纠正在GWAS的多重假设检验中存在过度保守性,导致结果假阳性增多。基于此,本文提出了一个显著统计模式结合快速置换检验的筛选策略,通过引入家族模样差别错误(family-wise error rate,FWER)指标来严格控制假阳性的产生,筛选得到两位点组合候选集。基于候选集中组合的数量,Hi SSI采用了两种可替换的上位性搜索策略:穷举搜索和启发式搜索,保证HiSSI在有效时间内识别出更多的上位性。模拟实验表明了HiSSI对高阶上位性的高识别性能;真实数据上的实验表明了HiSSI在GWAS数据上识别高阶上位性的可行性。(2)基于聚类和互信息筛选策略的高阶上位性识别方法(Detecting high-order epistasis based on clustering and mutual information,ClusterMI)。尽管HiSSI引入快速置换检验提高了计算效率,但由于HiSSI是基于整个搜索空间穷举分析所有的两位点组合,其计算量较大。这也是目前大部分基于两位点组合筛选策略的识别方法面临的问题。为了有效的缓解该问题,本文提出了一个聚类结合互信息的筛选策略。ClusterMI利用聚类将SNPs划分为多个簇,互信息用于度量SNPs间的关联性;基于每个簇,ClusterMI利用条件互信息筛选与疾病显著相关的两位点组合,形成候选集。聚类的引入减小了两位点组合的分析空间,提高了计算效率。基于显著候选集,ClusterMI采用卡方检验或蚁群优化算法识别高阶上位性。大量的模拟实验表明,ClusterMI具有更高的上位性识别能力和较高的计算效率;真实的数据上的实验表明,ClusterMI能够识别出对比方法难以识别的上位性。(3)基于双重筛选策略的高阶上位性识别方法(Detecting epistasis based on dual screening and multifactor dimensionality reduction,DualWMDR)。HiSSI和ClusterMI都是基于SNPs间的交互效应来筛选显著候选集,目前的大部分筛选类方法也都是基于同样的思想。而实际上,疾病是由单位点SNPs和SNP-SNP交互作用共同导致的。综合考虑SNP的单位点效应和交互效应,本文提出了一个双重筛选策略。DualWMDR利用聚类结合偏互信息(part mutual information,PMI)剔除噪声位点进行第一重SNP筛选,并将剩余SNPs划分为多个簇;基于每个簇中,DualWMDR综合考虑SNP的单位点效应和交互效应进行第二重筛选,获得最优SNPs的候选集。基于候选集,DualWMDR采用加权多因子降维算法(Weighted Multifactor Dimensionality Reduction,WMDR)识别上位性。不同场景下的模拟实验结果表明了DualWMDR的识别性能优于对比方法;真实数据上的实验结果表明了DualWMDR在GWAS数据上识别上位性的有效性。(4)基于多分类器集成的高阶上位性识别方法(Detecting SNP-SNP interactions by ensemble multi-type detectors,EnSSI)。HiSSI、ClusterMI、DualWMDR以及现有的识别算法都是采用单个/同类算法来筛选显著候选集和识别上位性。然而,由于算法的偏好性和疾病的复杂性,基于单个/同类算法的SNPs筛选/上位性识别可能会降低算法的识别性能。ClusterMI和Dual WMDR采用聚类划分搜索空间来减小计算量,但可能会造成显著组合的丢失,带来一定的假阳性。为了有效缓解这些问题,本文提出了一个集成多个不同算法的并行筛选策略。在集成筛选框架中,为了减小单个算法的计算负担和提高计算效率,以及减小丢失显著组合的风险,EnSSI设计了一个三阶段(打分-交换-筛选)迭代策略不断输出显著的位点组合,形成候选集。基于该候选集,EnSSI整合不同算法的评估分数共同确定上位性。两位点和三位点上位性模型上的模拟实验表明EnSSI的性能优于基于单个算法的筛选方法;真实数据上的实验表明EnSSI在GWAS数据上识别高阶上位性的有效性和高效性。