上位效应检测算法及其在MapReduce框架下实现的研究

被引量 : 0次 | 上传用户:shenzhixian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因芯片技术的迅速发展,在全基因组范围内对大量SNP位点进行基因分型已成为可能,由此全基因组关联研究GWAS(Genome-wide association study)应运而生,并且成为当前分子生物学研究领域的热点之一。GWAS就是在全基因组范围内以SNP为标记通过大量样本找出显著序列变异,然后从中筛选出与疾病相关的位点。通过使用基于家系的连锁分析方法,单基因遗传疾病的研究取得了显著的成就,而常见的复杂疾病比如糖尿病、高血压、冠状动脉疾病等,由于这类疾病通常是由多对基因及环境因素共同交互影响的,它们的遗传模式并不符合经典的孟德尔遗传定律,传统单基因检测研究方法对这类疾病的研究很难取得突破性进展,因此人们迫切需要有一种能够适宜这类疾病研究的策略方法。此前大量的GWAS研究找到了与复杂疾病相关联的SNP位点,由于采用的是单位点关联分析方法导致发现的位点仅仅解释了疾病的部分遗传变异,对此一个合理的解释是这些研究忽略了位点之间对疾病的交互影响,大量的实验证据表明复杂疾病通常会受多个位点的共同影响。这种位点之间交互影响的概念最早由Bateson提出,随着研究的深入发展这一概念的内涵又延伸出了组合上位效应和统计上位效应。本文研究的重点是统计上位效应,即从统计学的角度出发,两个位点联合作用的遗传效应并不等于位点各自遗传效应的线性加和。当前研究上位效应的方法有很多种,其中有一类无模型的检测方法不需要对基因型和表现型之间的关联模型进行假设,从而可以找到任何类型的交互效应,Ritchie等人提出的多因子降维方法MDR方法便是这一类方法,通过将位点对基因型分成高危或者低危,有效地将数据维度从n维降为一维,但MDR的分类方法面仍临着诸多问题,比如仅给出了基因型的定量描述,无法在同类的基因型间进行危险度的比较,或者给出的分类结果容易出现假阳性或者假阴性的结果,为了解决这类问题本文引入了比值比OR及95%CI来对基因型危险度进行判别,解决了原始MDR方法的弊端,加入比值比OR后的OR_MDR方法仍使用穷举搜索的策略,为了略去不必要SNP位点对的搜索使检测过程更有效直接,本文在改进后的MDR算法的基础上使用了启发式搜索策略蚁群优化算法,通过卡方检测来比较SNP位点对之间的交互大小,进而在迭代过程中更新SNP位点的信息素浓度,经过蚁群搜索的迭代使得显著SNP位点的信息素浓度积累越来越高,最终算法选择出显著的交互位点对。考虑到全基因组范围内SNP数量非常多,为了充分缩短检测的计算时间,本文将改进后的ACO_OR_MDR算法在MapReduce模型框架下编写运行,充分利用了其并行计算的优势。本文的主要贡献包括:①使用了比值比OR及95%CI来取代原始MDR方法的基因型分类方法,对基因型危险度的大小进行了定量描述,并用95%CI来判断结果是否显著。②在SNP位点搜索时使用了蚁群优化算法ACO,通过卡方值来描述SNP位点对关联的大小,用分类精度来更新SNP位点的信息素浓度,通过蚁群的不断迭代指导SNP位点对的搜索有效地缩小了搜索范围。未来的工作:①蚁群算法迭代过程中信息素浓度的更新仅仅依靠位点的分类精度是不够的,可以考虑加入SNP位点的某种先验知识②在实际的上位检测中往往会存在多对显著的交互位点对,因此可以把全基因组范围内上位效应检测的问题看成多极值问题,可以考虑将多目标粒子群算法应用到上位效应检测中。
其他文献
为了克服现有英语教材评估中的主观随意性,本文作者将可读性理论和模糊层次分析法引入到英语教材评估中,提出了一种新的英语教材评估模型。该模型利用可读性理论对教材的文本
承载了几十年选拔人才的高考制度,经国家教育部批准,2014年起将要进行改革,这意味着中国社会对人才的培养方向又将进行一次革命性的调整,它不仅仅为基础教育、职业教育指明了
费欣——19世纪末,20世纪初俄罗斯非常重要的一位油画大师,搜集各式资料,对这位油画大师都仅有零星的记载。费欣的作品总能给带给人们震撼与感动,狂放的用笔,时而厚重时而轻薄的处
文学作品的思想内涵与风格根源于内容而表现于形式,而日记体小说尤为如此。日记体小说不同于传统小说,采用日记的结构形式,并以第一人称和内在自我的表现为重,强调话语本身,
随着现代社会文明的发展,农业也逐渐由传统农业向现代农业转变,与传统农业相比,现代农业优势非常明显,它不仅让越来越多的双手从手工作业中解放出来而且农作物的产量也远超过去。
介绍了电力电缆的常见故障,并从故障检测的角度出发分析了电力电缆的故障性质。
组态软件,又称为组态监控软件系统。译自英文SCADA,即SupervisoryControl and Data Acquisition(数据采集与监视控制)。它是指对一些过程进行控制和进行数据采集的专用软件。它们
柱塞泵是最常见类型泵中的一种,直线电机柱塞泵可以实现电力到液压力的直接输出,不仅可以合理地减少动力系统的负荷,并且可以很大程度上减少了柱塞泵的体积和繁杂的机械传动
随着人类文明的发展,气候问题日益突出,对人们生活的影响越来越大。温室气体认为排放是全球变暖的重要原因。大量的温室气体排放到大气中,这些气体一定程度上控制了自然能量的流
制度化和人性化是伴随企业管理活动全过程的一对矛盾统一体。人性化管理是实施制度化管理的前提和条件,制度化管理是人性化管理的载体和依据。正确处理两者之间的辨证关系,是