论文部分内容阅读
随着基因芯片技术的迅速发展,在全基因组范围内对大量SNP位点进行基因分型已成为可能,由此全基因组关联研究GWAS(Genome-wide association study)应运而生,并且成为当前分子生物学研究领域的热点之一。GWAS就是在全基因组范围内以SNP为标记通过大量样本找出显著序列变异,然后从中筛选出与疾病相关的位点。通过使用基于家系的连锁分析方法,单基因遗传疾病的研究取得了显著的成就,而常见的复杂疾病比如糖尿病、高血压、冠状动脉疾病等,由于这类疾病通常是由多对基因及环境因素共同交互影响的,它们的遗传模式并不符合经典的孟德尔遗传定律,传统单基因检测研究方法对这类疾病的研究很难取得突破性进展,因此人们迫切需要有一种能够适宜这类疾病研究的策略方法。此前大量的GWAS研究找到了与复杂疾病相关联的SNP位点,由于采用的是单位点关联分析方法导致发现的位点仅仅解释了疾病的部分遗传变异,对此一个合理的解释是这些研究忽略了位点之间对疾病的交互影响,大量的实验证据表明复杂疾病通常会受多个位点的共同影响。这种位点之间交互影响的概念最早由Bateson提出,随着研究的深入发展这一概念的内涵又延伸出了组合上位效应和统计上位效应。本文研究的重点是统计上位效应,即从统计学的角度出发,两个位点联合作用的遗传效应并不等于位点各自遗传效应的线性加和。当前研究上位效应的方法有很多种,其中有一类无模型的检测方法不需要对基因型和表现型之间的关联模型进行假设,从而可以找到任何类型的交互效应,Ritchie等人提出的多因子降维方法MDR方法便是这一类方法,通过将位点对基因型分成高危或者低危,有效地将数据维度从n维降为一维,但MDR的分类方法面仍临着诸多问题,比如仅给出了基因型的定量描述,无法在同类的基因型间进行危险度的比较,或者给出的分类结果容易出现假阳性或者假阴性的结果,为了解决这类问题本文引入了比值比OR及95%CI来对基因型危险度进行判别,解决了原始MDR方法的弊端,加入比值比OR后的OR_MDR方法仍使用穷举搜索的策略,为了略去不必要SNP位点对的搜索使检测过程更有效直接,本文在改进后的MDR算法的基础上使用了启发式搜索策略蚁群优化算法,通过卡方检测来比较SNP位点对之间的交互大小,进而在迭代过程中更新SNP位点的信息素浓度,经过蚁群搜索的迭代使得显著SNP位点的信息素浓度积累越来越高,最终算法选择出显著的交互位点对。考虑到全基因组范围内SNP数量非常多,为了充分缩短检测的计算时间,本文将改进后的ACO_OR_MDR算法在MapReduce模型框架下编写运行,充分利用了其并行计算的优势。本文的主要贡献包括:①使用了比值比OR及95%CI来取代原始MDR方法的基因型分类方法,对基因型危险度的大小进行了定量描述,并用95%CI来判断结果是否显著。②在SNP位点搜索时使用了蚁群优化算法ACO,通过卡方值来描述SNP位点对关联的大小,用分类精度来更新SNP位点的信息素浓度,通过蚁群的不断迭代指导SNP位点对的搜索有效地缩小了搜索范围。未来的工作:①蚁群算法迭代过程中信息素浓度的更新仅仅依靠位点的分类精度是不够的,可以考虑加入SNP位点的某种先验知识②在实际的上位检测中往往会存在多对显著的交互位点对,因此可以把全基因组范围内上位效应检测的问题看成多极值问题,可以考虑将多目标粒子群算法应用到上位效应检测中。