论文部分内容阅读
全基因组关联研究(GWAS)已广泛应用于人类疾病的遗传机制研究中,然而目前GWAS识别出的单个的与疾病相关的单核苷酸多态性(Single nucleotide polymorphism,SNP)位点仅能解释复杂疾病的部分遗传特性。大量研究表明SNP交互作用可能是“丢失的遗传性”的主要成因。为了进一步加深对复杂疾病遗传机理的了解,研究者在SNP交互作用识别问题上展开了较为深入的研究,面向无关人群和家系人群两类不同数据,提出了大量SNP交互作用识别方法。然而现有方法仍旧面临计算复杂度较高、难以识别高阶SNP交互作用、容易受强边际效应影响等问题。因此,本文针对现有方法存在的不足,面向全基因组SNP交互作用识别问题展开较为深入的理论分析和方法研究,主要研究内容包括以下两个方面:(1)基于病例对照组(case-control)的高阶SNP交互作用识别方法研究。现有基于无关人群的交互作用研究主要集中在基于病例对照组的SNP交互作用识别方面,但现有大部分识别方法主要关注于二阶交互作用识别,忽略了对疾病发展有着重要影响的高阶SNP交互作用识别。尽管有少量方法能够检测高阶交互作用,但却面临识别能力较低、时间复杂度较高等问题。因此,本文提出了基于两阶段识别策略的高阶SNP交互作用识别方法HiSeeker。在筛选阶段,HiSeeker结合卡方检验及逻辑回归方法对两位点组合进行快速分析以筛选出与疾病具有较强或适中的相关性的两位点组合,在有效降低搜索空间的同时,保留了更多有效遗传信息。在搜索阶段,在筛选出的两位点组合上,根据考察位点集合大小,设计利用穷举搜索策略或基于蚁群算法的启发式搜索策略进行高阶SNP交互作用组合识别,这一机制使得HiSeeker在确保计算效率的同时能尽可能的识别出更多的交互作用。模拟实验结果表明,相比于现有典型识别方法,HiSeeker对高阶交互作用具有更高的识别能力,也具有较高的计算效率。在两个真实GWAS数据集上的实验表明,HiSeeker能够识别出对比方法难以识别的高阶交互作用,证明了HiSeeker在大规模真实遗传数据中进行交互作用识别的可行性和有效性。(2)基于三元家庭(trio families)的SNP交互作用识别方法研究。相比于基于无关人群的交互作用识别方法,基于家系的方法面对人群分层问题鲁棒性更高。但由于家系数据收集难度较大及结构更为复杂,现有基于家系的交互作用识别研究还比较少,现有识别方法也存在识别能力较低、计算效率较低及易受到强边际效应影响等不足。针对已有方法的不足,本文整合多因子降维法(Multifactor Dimensionality Reduction,MDR)和回归分析策略提出了面向三元家庭数据的SNP交互作用识别方法TrioMDR。TrioMDR一方面将MDR与逻辑回归方法相结合,在回归分析过程加入对边际效应的估计,降低了SNP交互作用识别过程中边际效应的不利影响,提高了识别精度;另一方面,相比于传统基于MDR的方法利用计算复杂度极高的置换检验策略去控制I型错误率,TrioMDR引入了半参数P-value校正机值,该校正机制仅需进行少量的置换即可对互作效应的显著性进行评估,这一校正机制在保证交互作用识别能力的同时,使得TrioMDR的计算效率得到显著提升。在大量不同场景下的模拟实验结果表明TrioMDR相比于一些典型方法能够更好的控制I型错误率、能够更好的识别SNP交互作用以及具有较高的计算效率。