全基因组高阶上位性识别方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:tlihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用单核苷酸多态性(Single nucleotide polymorphism,SNP)标记对人类复杂疾病进行全基因组范围的关联研究(Genome-wide association study,GWAS)已成为目前分子遗传学的研究热点之一。传统的GWAS关注于单个SNP位点与复杂疾病之间的关联分析;然而,大量研究表明复杂疾病往往受到多个基因,以及基因与环境之间的共同影响。因此,在全基因组范围内,对复杂疾病开展SNP交互作用(上位性)研究将推动对复杂疾病机制的进一步认识,弥补传统GWAS带来的“遗传性缺失”。目前,多种上位性识别方法已经被提出,然而大多方法主要是针对两阶上位性的识别。由全基因组数据的高维性而带来的沉重计算负担是高阶上位性识别面临的最大挑战。筛选SNP使得在全基因组上识别高阶上位性成为可能,其关键是定义合适的筛选原则。为此,本文面向全基因组高阶上位性识别方法问题展开较为深入的研究,主要包括以下四个方面:(1)基于显著统计模式和快速置换检验筛选策略的高阶上位性识别方法(High-order SNP-SNP interactions detection based on efficient significant pattern and differential evolution,HiSSI)。常用的Bonferroni纠正在GWAS的多重假设检验中存在过度保守性,导致结果假阳性增多。基于此,本文提出了一个显著统计模式结合快速置换检验的筛选策略,通过引入家族模样差别错误(family-wise error rate,FWER)指标来严格控制假阳性的产生,筛选得到两位点组合候选集。基于候选集中组合的数量,Hi SSI采用了两种可替换的上位性搜索策略:穷举搜索和启发式搜索,保证HiSSI在有效时间内识别出更多的上位性。模拟实验表明了HiSSI对高阶上位性的高识别性能;真实数据上的实验表明了HiSSI在GWAS数据上识别高阶上位性的可行性。(2)基于聚类和互信息筛选策略的高阶上位性识别方法(Detecting high-order epistasis based on clustering and mutual information,ClusterMI)。尽管HiSSI引入快速置换检验提高了计算效率,但由于HiSSI是基于整个搜索空间穷举分析所有的两位点组合,其计算量较大。这也是目前大部分基于两位点组合筛选策略的识别方法面临的问题。为了有效的缓解该问题,本文提出了一个聚类结合互信息的筛选策略。ClusterMI利用聚类将SNPs划分为多个簇,互信息用于度量SNPs间的关联性;基于每个簇,ClusterMI利用条件互信息筛选与疾病显著相关的两位点组合,形成候选集。聚类的引入减小了两位点组合的分析空间,提高了计算效率。基于显著候选集,ClusterMI采用卡方检验或蚁群优化算法识别高阶上位性。大量的模拟实验表明,ClusterMI具有更高的上位性识别能力和较高的计算效率;真实的数据上的实验表明,ClusterMI能够识别出对比方法难以识别的上位性。(3)基于双重筛选策略的高阶上位性识别方法(Detecting epistasis based on dual screening and multifactor dimensionality reduction,DualWMDR)。HiSSI和ClusterMI都是基于SNPs间的交互效应来筛选显著候选集,目前的大部分筛选类方法也都是基于同样的思想。而实际上,疾病是由单位点SNPs和SNP-SNP交互作用共同导致的。综合考虑SNP的单位点效应和交互效应,本文提出了一个双重筛选策略。DualWMDR利用聚类结合偏互信息(part mutual information,PMI)剔除噪声位点进行第一重SNP筛选,并将剩余SNPs划分为多个簇;基于每个簇中,DualWMDR综合考虑SNP的单位点效应和交互效应进行第二重筛选,获得最优SNPs的候选集。基于候选集,DualWMDR采用加权多因子降维算法(Weighted Multifactor Dimensionality Reduction,WMDR)识别上位性。不同场景下的模拟实验结果表明了DualWMDR的识别性能优于对比方法;真实数据上的实验结果表明了DualWMDR在GWAS数据上识别上位性的有效性。(4)基于多分类器集成的高阶上位性识别方法(Detecting SNP-SNP interactions by ensemble multi-type detectors,EnSSI)。HiSSI、ClusterMI、DualWMDR以及现有的识别算法都是采用单个/同类算法来筛选显著候选集和识别上位性。然而,由于算法的偏好性和疾病的复杂性,基于单个/同类算法的SNPs筛选/上位性识别可能会降低算法的识别性能。ClusterMI和Dual WMDR采用聚类划分搜索空间来减小计算量,但可能会造成显著组合的丢失,带来一定的假阳性。为了有效缓解这些问题,本文提出了一个集成多个不同算法的并行筛选策略。在集成筛选框架中,为了减小单个算法的计算负担和提高计算效率,以及减小丢失显著组合的风险,EnSSI设计了一个三阶段(打分-交换-筛选)迭代策略不断输出显著的位点组合,形成候选集。基于该候选集,EnSSI整合不同算法的评估分数共同确定上位性。两位点和三位点上位性模型上的模拟实验表明EnSSI的性能优于基于单个算法的筛选方法;真实数据上的实验表明EnSSI在GWAS数据上识别高阶上位性的有效性和高效性。
其他文献
随着工业的水平提高,世界资源及能源逐步枯竭和短缺,能源与环境问题成为人类生存发展的严峻挑战。太阳能是地球上非常重要的能源,生物质资源作为固定化太阳能,是地球上最丰富
随着量子信息理论的发展,人们对量子测量精度的要求也日益提高。因此,参数估计理论也变得尤为重要。而量子费舍信息在参数估计领域扮演着重要的角色,所以研究量子费舍信息无
党的十八大明确提出“科技创新是提高社会生产力和综合国力的战略支撑,必须摆在国家发展全局的核心位置。”党的十九大进一步将创新提升为国家战略,提出“加快建设创新型国家
近些年来,随着人口基数的不断增大,以及人们对抗生素的大量使用,导致越来越多的抗生素残留物被排放到了我们赖以生存的水环境中,从而对生态环境造成了很严重的破坏。而四环素
随着西部大开发、国家十三五规划和“一带一路”等重大战略计划的相继实施,大量矿山、水利、铁路、公路、工民建筑等重大工程相继涌现,但由于西部高寒山区特有的地质环境导致
油气是经典挥发性有机物(Volatile organic compounds,VOCs)组分,大气的主要污染源之一。油气主要成分包括烷烃类,芳烃类和醇类有机物,一般将正己烷视为烷烃类代表。正己烷污染
非离子表面活性剂随废水进入水体,产生大量持久性泡沫,这些大量不易消失的泡沫在水面形成隔离层,减弱了水体与大气之间的气体交换,致使水体发臭;同时具有生物毒性直接威胁到
喀斯特地貌在全球范围内广泛分布,世界上约15%-20%的陆地区域是高度敏感和脆弱的喀斯特生态系统,其中我国西南部喀斯特地貌分布面积最广、发育最完全。喀斯特地区母岩成土速
知识异质性作为团队多样性的重要组成部分,对团队发挥创造力起着至关重要的作用,但是以往对于知识异质性与团队创造力关系的研究结果不一致,知识异质性对团队创造力的促进作
水生生态学家已经从长期的研究中认识到竞争和水体中的离子浓度是影响藻类生长的重要生物和非生物因子,而且许多研究都聚焦于同类型不同种藻类之间的竞争沿营养离子浓度梯度